Thiết kế được xác thực của Dell cho lĩnh vực chăm sóc sức khỏe và khoa học đời sống với Dell PowerEdge C6520 và XE8545 (3)

Mạng hệ thống

Hầu hết các hệ thống HPC được cấu hình với hai mạng—mạng quản trị và kết cấu chuyển mạch tốc độ cao, độ trễ thấp. Mạng quản trị thường là Gigabit Ethernet kết nối với LOM hoặc NDC trên bo mạch của mọi máy chủ trong cụm. Mạng này được sử dụng để cung cấp, quản lý và quản trị. Trên các máy chủ điện toán, mạng này cũng sẽ được sử dụng để quản lý BMC. Đối với cơ sở hạ tầng và máy chủ lưu trữ, các cổng iDRAC Enterprise có thể được kết nối với mạng này để quản lý máy chủ OOB. Mạng quản lý thường sử dụng bộ chuyển mạch Dell Networking S3248TE-ON Ethernet. Nếu có nhiều hơn một công tắc trong hệ thống, nhiều công tắc có thể được xếp chồng lên nhau bằng cáp Ethernet 10 Gigabit.

Cấu trúc tốc độ cao, độ trễ thấp được khuyến nghị cho các cụm có nhiều hơn bốn máy chủ. Đề xuất hiện tại là vải HDR InfiniBand. Cấu trúc thường sẽ được lắp ráp bằng cách sử dụng bộ chuyển mạch HDR InfiniBand 40 cổng NVIDIA QM8790. Số lượng công tắc cần thiết phụ thuộc vào kích thước của cụm và tỷ lệ chặn của vải.

Các ứng dụng mã nguồn mở

Burrows-Wheeler Aligner (BWA) là một trong những bộ căn chỉnh trình tự ngắn phổ biến nhất để phân tích căn chỉnh không có khoảng cách. BWA mở rộng tốt cho đến 32 lõi và mức sử dụng CPU giảm đáng kể sau 32 lõi. Cải thiện thời gian chạy trở nên cận biên với số lõi cao hơn lớn hơn 32.

Sambamba là một công cụ song song cao để làm việc với các tệp căn chỉnh trình tự SAM, BAM và CRAM. Sambamba là một giải pháp thay thế nhanh hơn cho Samtools và Picard . Sambamba được sử dụng để sắp xếp các kết quả căn chỉnh từ BWA.

Samtools là một bộ chương trình để tương tác với dữ liệu giải trình tự thông lượng cao.

Bộ công cụ phân tích bộ gen (GATK) là bộ công cụ để xác định SNP, indel, biến thể số sao chép (CNV) và biến thể cấu trúc (SV) trong dữ liệu DNAseq và RNAseq dòng mầm và soma. Nó cũng bao gồm nhiều tiện ích để thực hiện các nhiệm vụ liên quan.

Bộ ứng dụng NVIDIA Clara Parabricks

Clara Parabricks là bộ phần mềm tăng tốc để thực hiện phân tích thứ cấp dữ liệu NGS. Bộ phần mềm này cung cấp quyền truy cập vào hơn 50 công cụ tăng tốc GPU, bao gồm ánh xạ, căn chỉnh và xử lý hậu kỳ, cùng với nhiều phương thức gọi biến thể hỗ trợ các ứng dụng dòng mầm, soma và RNA. Người dùng có thể xây dựng các đường ống phân tích thứ cấp được thiết kế theo nhu cầu của họ để mang lại kết quả ở tốc độ nhanh và chi phí thấp. Clara Parabricks phân tích toàn bộ bộ gen người gấp 50 lần trong khoảng 60 phút trên máy chủ bốn GPU, so với khoảng 24 giờ khi sử dụng phần cứng CPU truyền thống.

Bộ phần mềm Clara Parabricks chạy trên nhiều loại GPU máy chủ có sẵn tại chỗ hoặc trên đám mây. Nó chia tỷ lệ tuyến tính với số lượng tài nguyên GPU. Clara Parabricks tạo ra kết quả nhất quán trên các GPU khác nhau và tạo ra kết quả giống nhau với mỗi lần thực thi. Các kết quả tương đương với quy trình Các phương pháp hay nhất của GATK. Phiên bản hiện tại của Clara Parabricks hỗ trợ tất cả các phiên bản GATK cho đến v4.2 cùng với DeepVariant v1.1. Ngoài ra, có năm người gọi soma, hai người gọi biến thể cấu trúc và hai người gọi hợp nhất gen. Với các công cụ do NVIDIA tạo ra, người dùng có thể dễ dàng hợp nhất nhiều VCF, chú thích và lọc dựa trên mức độ phù hợp của BAM. Hơn nữa, các quy trình phân tích của Clara Parabricks có thể dễ dàng tùy chỉnh và các bước mới có thể được thêm vào một cách dễ dàng. Clara Parabricks v4.0.0-1 đã được sử dụng cho kiến ​​trúc này.

 

Phần mềm quản lý cụm

Phần mềm quản lý cụm được sử dụng để cài đặt và giám sát hệ thống HPC. Bright Cluster Manager (BCM) là phần mềm quản lý cụm được khuyên dùng.

Cấu hình hệ thông

  • Điểm chuẩn hiệu năng được thực hiện trong Dell HPC và AI Innovation Lab bằng cách sử dụng các cấu hình hệ thống được liệt kê trong ban 2.

    Bảng 2.       Cấu hình hệ thống chuẩn

    Khối xây dựng

    Số lượng

    Máy chủ tính toán

    PowerEdge C6520

    Dual Intel Xeon Gold 8358 (32 lõi trên mỗi ổ cắm)

    RAM 512 GB 16x32GB DIMM 3200 MTps

    Bộ điều hợp NVIDIA ConnectX-6 HDR200

    Làm mát bằng chất lỏng

    32

    Máy chủ tính toán
    PowerEdge XE8545
    Dual AMD EPYC 7543 Bộ xử lý 32 nhân
    RAM 512 GB 16x32GB DIMM 3200 MTps

    4x bộ điều hợp NVIDIA A100-SXM4-40GB
    NVIDIA ConnectX-6 HDR200

    1

    Máy chủ tính toán

    PowerEdge R7525

    Bộ xử lý 32 nhân AMD EPYC 7543 kép

    RAM 512 GB 16x32GB DIMM 3200 MTps

    3x NVIDIA A100-80 GB

    Bộ điều hợp NVIDIA ConnectX-6 HDR200

    1

    Công tắc NVIDIA QM8790 InfiniBand

    1

    Các tùy chọn cấu hình BIOS được sử dụng cho hệ thống tham chiếu được liệt kê trongbàn số 3.

    Bảng 3.       Cấu hình BIOS

    Tùy chọn BIOS

    Cài đặt

    Bộ xử lý logic

    Tàn tật

    Công nghệ ảo hóa

    Tàn tật

    Hồ sơ hệ thống

    Hồ sơ hiệu suất

    Ổ cắm NumaPer

    4

    Các phiên bản phần mềm được sử dụng cho hệ thống tham chiếu được liệt kê trongBảng 4.

    Bảng 4.       Phiên bản phần mềm

    Thành phần

    Phiên bản

    Hệ điều hành

    Bản phát hành Red Hat Enterprise Linux 8.3 (Ootpa)

    hạt nhân

    4.18.0-240.22.1.el8_3.x86_64

    OFED

    NVIDIA Mellanox 5.2-2.2.0.0

    Trình quản lý cụm sáng

    9,0

    CUDA

    11.4.2

    Trình điều khiển NVIDIA

    470.57.02

    NVIDIA Clara Parabricks

    4.0.0-1