Dell Technologies đã xác thực thiết kế cho bộ gen với NVIDIA Clara Parabricks trên Dell PowerEdge do AMD cung cấp (3)

Bộ ứng dụng NVIDIA Clara Parabricks

  • Clara Parabricks là bộ phần mềm tăng tốc để thực hiện phân tích thứ cấp dữ liệu NGS. Bộ phần mềm này cung cấp quyền truy cập vào hơn 50 công cụ tăng tốc GPU, bao gồm ánh xạ, căn chỉnh và xử lý hậu kỳ. Nhiều phương pháp gọi biến thể hỗ trợ các ứng dụng dòng mầm, soma và RNA cũng có sẵn. Người dùng có thể xây dựng các đường ống phân tích thứ cấp được thiết kế dành riêng cho nhu cầu của họ để mang lại kết quả ở tốc độ nhanh với chi phí thấp. Clara Parabricks phân tích toàn bộ bộ gen người gấp 50 lần trong ~60 phút trên máy chủ bốn GPU, so với ~24 giờ khi sử dụng phần cứng CPU truyền thống.

    Bộ phần mềm Clara Parabricks chạy trên nhiều loại GPU máy chủ có sẵn tại chỗ hoặc trên đám mây. Nó chia tỷ lệ tuyến tính với số lượng tài nguyên GPU. Clara Parabricks tạo ra kết quả nhất quán trên các GPU khác nhau và tạo ra kết quả giống nhau với mỗi lần thực thi. Các kết quả tương đương với quy trình thực hành tốt nhất của Broad GATK. Phiên bản hiện tại của Clara Parabricks hỗ trợ tất cả các phiên bản GATK cho đến v4.2 cùng với DeepVariant v1.1. Ngoài ra, có năm người gọi soma, hai người gọi biến thể cấu trúc và hai người gọi hợp nhất gen. Với các công cụ do NVIDIA tạo ra, người dùng có thể dễ dàng hợp nhất nhiều Định dạng cuộc gọi biến thể (VCF), chú thích và trình quay phim dựa trên mức độ phù hợp của BAM. Hơn nữa, các quy trình phân tích của Clara Parabricks có thể dễ dàng tùy chỉnh và các bước mới có thể được thêm vào một cách dễ dàng. Clara Parabricks v3.7.

     

Phần mềm quản lý cụm

  • Phần mềm quản lý cụm được sử dụng để cài đặt và giám sát hệ thống HPC. Dell Technologies khuyến nghị Bright Cluster Manager (BCM).

     

Cấu hình Hệ thống

Cấu hình hệ thống

Điểm chuẩn hiệu suất được thực hiện trong Phòng thí nghiệm Đổi mới AI và HPC của Dell Technologies bằng cách sử dụng các cấu hình hệ thống được liệt kê trong bảng bên dưới.

Bảng 3. Cấu hình hệ thống chuẩn      

Khối xây dựng

Các thành phần

Định lượng

Máy chủ tính toán PowerEdge XE8545

Bộ xử lý 32 nhân AMD EPYC 7543 kép

RAM 512 GB (mười sáu DIMM 32 GB 3200 MT/giây)

Bốn NVIDIA A100-SXM4-40 GB

Bộ điều hợp NVIDIA ConnectX-6 HDR100

1

Máy chủ tính toán PowerEdge R7525

Bộ xử lý 32 nhân AMD EPYC 7543 kép

RAM 512 GB (mười sáu DIMM 32 GB 3200 MT/giây)

Ba NVIDIA A100-80 GB

Bộ điều hợp NVIDIA ConnectX-6 HDR100

1

chuyển đổi mạng

Công tắc NVIDIA QM8790 InfiniBand

1

Các tùy chọn cấu hình BIOS được sử dụng cho hệ thống tham chiếu được liệt kê trong bảng bên dưới.

Bảng 4. Cấu hình BIOS

tùy chọn BIOS

Cài đặt

Bộ xử lý logic

Vô hiệu hóa

Công nghệ ảo hóa

Vô hiệu hóa

Hồ sơ hệ thống

Hồ sơ hiệu suất

Ổ cắm NumaPer

4

Các phiên bản phần mềm được sử dụng cho hệ thống tham chiếu được liệt kê trong bảng bên dưới.

Bảng 5.

Thành phần

Phiên bản

Hệ điều hành

Bản phát hành Red Hat Enterprise Linux 8.3 (Ootpa)

hạt nhân

4.18.0-240.22.1.el8_3.x86_64

OFED

NVIDIA Mellanox 5.2-2.2.0.0

Trình quản lý cụm sáng

9,0

CUDA

11.4.2

Trình điều khiển NVIDIA

470.57.02

NVIDIA Clara Parabricks

3.7.0-1

Phương pháp luận

  • Ba trường hợp thử nghiệm đã được đánh giá để xác định cấu hình phần cứng và phần mềm được đề xuất có khả năng bắt kịp với sản lượng hàng ngày của thiết bị NGS mới nhất. Đối với mỗi trường hợp, thời gian đồng hồ treo tường quan sát được ghi lại cho các đường ống phân tích Clara Parabricks bằng cách sử dụng các cấu hình tài nguyên, bố cục dữ liệu và dữ liệu mẫu khác nhau.

    Dữ liệu cho thời gian chạy phân tích thứ cấp đo điểm chuẩn bao gồm ba bộ dữ liệu trình tự bộ gen toàn bộ con người (WGS):

    • ERR091571 – độ bao phủ mẫu gấp 10 lần
    • SRR3124837 – độ phủ mẫu 30 lần
    • ERR194161 – độ bao phủ mẫu 50 lần

    Các bộ dữ liệu này có sẵn tại Kho lưu trữ Nucleotide Châu Âu (ENA).

     

Đường ống phân tích thứ cấp Clara Parabricks

  • Phân tích được thực hiện trên dữ liệu NGS thường được mô tả dưới dạng một đường dẫn. Một quy trình là một quy trình công việc được xác định bao gồm một bộ sưu tập phương pháp hoặc hoạt động trong đó đầu ra của một hoạt động trở thành đầu vào cho hoạt động tiếp theo. Bốn thao tác quan trọng—ánh xạ, căn chỉnh, tiền xử lý và gọi biến thể—tạo nên hầu hết các quy trình WGS phân tích thứ cấp.

    Clara Parabricks là bộ phần mềm dành cho các phương pháp phân tích bộ gen được thiết kế để tận dụng khả năng tăng tốc GPU. Nhiều phương pháp của Clara Parabricks có chức năng tương đương với các phương pháp nguồn mở hiện có, thường tạo ra sự phù hợp lớn hơn 99,9%. Các hoạt động của Clara Parabricks được kết hợp với nhau để tạo ra một quy trình phân tích thứ cấp. Đường ống này phù hợp nhất với các yêu cầu đối với ứng dụng giải trình tự quan tâm, chẳng hạn như phân tích dòng mầm hoặc soma.

    Clara Parabricks có sẵn dưới dạng bộ chứa Docker hoặc Singularity và sử dụng nhiều tài nguyên GPU máy chủ khác nhau. Hình dưới đây nêu bật bộ  ứng dụng Clara Parabricks v3.7.0-1  .

    Hình 2. Bộ ứng dụng Parabricks

    Việc gọi các biến thể di truyền có trong một bộ gen riêng lẻ dựa trên hàng triệu đến hàng tỷ lần đọc trình tự ngắn, dễ bị lỗi. Các mô hình thống kê được tham số hóa, thủ công được sử dụng để gọi biến thể vẫn tạo ra hàng nghìn lỗi và các biến thể bị bỏ sót trong mỗi bộ gen. Những lỗi này bất chấp nỗ lực hơn một thập kỷ của hàng nghìn nhà nghiên cứu tận tâm (Poplin, 2016). Nhiều nhóm chạy các quy trình gọi biến thể đồng thuận sử dụng nhiều phương thức gọi biến thể để giảm thiểu khả năng bỏ sót một biến thể. Clara Parabricks chứa nhiều trình gọi biến thể để kích hoạt phương pháp này. Đối với nghiên cứu này, quy trình dòng mầm đã được sử dụng và các bước được liệt kê trong hình bên dưới.

    Hình 3. Đường dẫn mầm bệnh

    DeepVariant, một phương thức gọi biến thể do Google phát triển, áp dụng mạng thần kinh tích chập sâu và đã được chứng minh là vượt trội so với các phương pháp thống kê do chuyên gia điều khiển. Tuy nhiên, việc gọi các biến thể cho bộ gen người 30x và viết các biến thể ra tệp gVCF mất khoảng bốn giờ. Nó cũng yêu cầu ít nhất 1.024 lõi tính toán. Phiên bản tăng tốc GPU Clara Parabricks của DeepVariant chạy trong vòng chưa đầy 20 phút cho bộ gen 30x. Thời gian phân tích nhanh cho phép sử dụng DeepVariant một mình hoặc với các trình gọi dòng mầm khác như GATK HaplotypeCaller, đồng thời giảm thiểu khả năng tạo tồn đọng phân tích thứ cấp.

     

Đường ống phân tích thứ cấp Clara Parabricks

  • Phân tích được thực hiện trên dữ liệu NGS thường được mô tả dưới dạng một đường dẫn. Một quy trình là một quy trình công việc được xác định bao gồm một bộ sưu tập phương pháp hoặc hoạt động trong đó đầu ra của một hoạt động trở thành đầu vào cho hoạt động tiếp theo. Bốn thao tác quan trọng—ánh xạ, căn chỉnh, tiền xử lý và gọi biến thể—tạo nên hầu hết các quy trình WGS phân tích thứ cấp.

    Clara Parabricks là bộ phần mềm dành cho các phương pháp phân tích bộ gen được thiết kế để tận dụng khả năng tăng tốc GPU. Nhiều phương pháp của Clara Parabricks có chức năng tương đương với các phương pháp nguồn mở hiện có, thường tạo ra sự phù hợp lớn hơn 99,9%. Các hoạt động của Clara Parabricks được kết hợp với nhau để tạo ra một quy trình phân tích thứ cấp. Đường ống này phù hợp nhất với các yêu cầu đối với ứng dụng giải trình tự quan tâm, chẳng hạn như phân tích dòng mầm hoặc soma.

    Clara Parabricks có sẵn dưới dạng bộ chứa Docker hoặc Singularity và sử dụng nhiều tài nguyên GPU máy chủ khác nhau. Hình dưới đây nêu bật bộ  ứng dụng Clara Parabricks v3.7.0-1  .

    Hình 2. Bộ ứng dụng Parabricks

    Việc gọi các biến thể di truyền có trong một bộ gen riêng lẻ dựa trên hàng triệu đến hàng tỷ lần đọc trình tự ngắn, dễ bị lỗi. Các mô hình thống kê được tham số hóa, thủ công được sử dụng để gọi biến thể vẫn tạo ra hàng nghìn lỗi và các biến thể bị bỏ sót trong mỗi bộ gen. Những lỗi này bất chấp nỗ lực hơn một thập kỷ của hàng nghìn nhà nghiên cứu tận tâm (Poplin, 2016). Nhiều nhóm chạy các quy trình gọi biến thể đồng thuận sử dụng nhiều phương thức gọi biến thể để giảm thiểu khả năng bỏ sót một biến thể. Clara Parabricks chứa nhiều trình gọi biến thể để kích hoạt phương pháp này. Đối với nghiên cứu này, quy trình dòng mầm đã được sử dụng và các bước được liệt kê trong hình bên dưới.

    Hình 3. Đường dẫn mầm bệnh

    DeepVariant, một phương thức gọi biến thể do Google phát triển, áp dụng mạng thần kinh tích chập sâu và đã được chứng minh là vượt trội so với các phương pháp thống kê do chuyên gia điều khiển. Tuy nhiên, việc gọi các biến thể cho bộ gen người 30x và viết các biến thể ra tệp gVCF mất khoảng bốn giờ. Nó cũng yêu cầu ít nhất 1.024 lõi tính toán. Phiên bản tăng tốc GPU Clara Parabricks của DeepVariant chạy trong vòng chưa đầy 20 phút cho bộ gen 30x. Thời gian phân tích nhanh cho phép sử dụng DeepVariant một mình hoặc với các trình gọi dòng mầm khác như GATK HaplotypeCaller, đồng thời giảm thiểu khả năng tạo tồn đọng phân tích thứ cấp.