Tăng tốc phân tích dữ liệu bộ gen với NVIDIA Clara Parabricks với Máy chủ Dell EMC DSS 8440 & GPU NVIDIA T4

Hướng dẫn

Tổng quan

Bước đầu tiên để xử lý dữ liệu Giải trình tự thế hệ tiếp theo (NGS) được gọi là Phân tích sơ cấp. Bước này dành riêng cho công cụ giải trình tự và tạo nhiều tệp FASTQ chứa các lần đọc trình tự. Trong bước tiếp theo, được gọi là Phân tích thứ cấp, các lần đọc trình tự FASTQ được ánh xạ tới bộ gen tham chiếu hoặc bản phiên mã tham chiếu. Quá trình xử lý bổ sung xác định các biến thể hoặc sự khác biệt giữa mẫu quan tâm và tham chiếu. Các biến thể được chú thích và giải thích trong các bước xuôi dòng tiếp theo. Thời gian phân tích thứ cấp cho một mẫu duy nhất dao động từ vài giờ đến vài ngày, tùy thuộc vào kích thước dữ liệu, tài nguyên máy tính có sẵn, phần mềm và quy trình phân tích. 

Phân tích thứ cấp là một quy trình sử dụng nhiều điện toán và lưu trữ, đặc biệt là khi xử lý hàng trăm đến hàng nghìn bộ gen. Nhiều chiến lược tồn tại để tránh tắc nghẽn phân tích thứ cấp. Cho đến gần đây, việc áp dụng tăng tốc phần cứng bằng cách sử dụng GPU hoặc FPGA vẫn còn thấp do phần mềm tùy chỉnh được yêu cầu bởi các bộ tăng tốc phần cứng. Phần mềm bộ gen của Parabricks được NVIDIA mua lại vào năm 2019, đã đi tiên phong trong ngăn xếp phần mềm thực hiện các quy trình phân tích bộ gen khác nhau với GPU. Chúng tôi đã thử nghiệm Parabricks với GPU Dell EMC PowerEdge C4140/4x NVIDIA® Tesla® V100 khoảng hai năm trước. Dell đã giới thiệu nhiều tiến bộ công nghệ trong máy chủ và giải pháp lưu trữ của mình và NVIDIA Clara Parabricksđã phát hành các phiên bản mạnh mẽ với khả năng tăng tốc nâng cao và bổ sung các trình gọi biến thể. Ví dụ: thiết kế máy chủ đa GPU dựa trên máy chủ Dell EMC DSS 8440 với GPU NVIDIA® Tesla® T4 có vẻ đầy hứa hẹn để tăng tốc phân tích thứ cấp đồng thời mang lại sự cân bằng hấp dẫn giữa giá cả và hiệu suất. Blog này báo cáo kiến ​​trúc tham chiếu mới và kết quả điểm chuẩn cho phân tích thứ cấp NVIDIA Clara Parabricks trên GPU multi-Tesla® T4, máy chủ DSS 8440 với   bộ lưu trữ Dell EMC Isilon F800 . 

Kiến trúc tham khảo

Hình 1 minh họa kiến ​​trúc tham chiếu đã thử nghiệm. Kiến trúc là mô-đun và dễ dàng mở rộng quy mô. Phần mềm ứng dụng NVIDIA Clara Parabricks sử dụng một hoặc nhiều GPU giúp việc mở rộng quy mô trở nên đơn giản nhất có thể. Các khối xây dựng phần cứng bao gồm Dell EMC PowerEdge R640 làm nút quản lý, máy chủ DSS 8440 cho điện toán GPU và bộ lưu trữ Dell EMC Isilon F800.  


Hình 1 Kiến trúc tham chiếu đã thử nghiệm

Máy chủ DSS 8440, 2 khe cắm, 4U có thể tiếp nhận tối đa 10 GPU NVIDIA® Tesla® V100S Tensor Core hàng đầu trong ngành, tối đa 10 GPU NVIDIA® Quadro RTX™ hoặc tối đa 16 GPU NVIDIA Tesla T4 cung cấp mã lực cực lớn. Cấu hình chi tiết của DSS 8440 được liệt kê trong Bảng 1.

DELL EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 lõi 3.0 GHz
ĐẬP 24x 64GB ở tốc độ 2933 MTps
Hệ điều hành Bản phát hành Red Hat Enterprise Linux Server 7.4 (Maipo)
Hồ sơ hệ thống BIOS Hiệu suất được tối ưu hóa
Bộ xử lý logic Vô hiệu hóa
Công nghệ ảo hóa Vô hiệu hóa
máy gia tốc 16x GPU NVIDIA® Tesla® T4
Parabricks v3.0.0.05

Hai công tắc Z9100-ON cung cấp kết nối giữa nút điện toán và cụm lưu trữ Isilon F800. Một công tắc bổ sung, N2248X-ON, được sử dụng để quản lý.

Dữ liệu NGS

Dữ liệu cho thời gian chạy phân tích thứ cấp đo điểm chuẩn bao gồm ba bộ dữ liệu Con người, giải trình tự toàn bộ bộ gen (WGS), ERR091571 , SRR3124837 và   ERR194161 , đại diện cho phạm vi bao phủ mẫu lần lượt là 10x, 30x và 50x. Các bộ dữ liệu này có sẵn tại Kho lưu trữ Nucleotide Châu Âu (ENA) .

Đánh giá hiệu suất

Cải tiến phần mềm Giảm thời gian chạy
NVIDIA tiếp tục giới thiệu các cải tiến phần mềm cho NVIDIA Clara Parabricks. Hình 2 cho thấy thời gian chạy giảm giữa hai phiên bản Parabricks đang thực thi đường dẫn mầm bằng cách sử dụng máy chủ Dell PowerEdge C4140 với môi trường thử nghiệm GPU 4x V100. Chuyển từ v2.1.0 sang v3.0.0 đã giảm 42% thời gian chạy.


Hình 2 Phiên bản mới nhất của biến thể dòng mầm Parabricks gọi thời gian chạy đường ống.Màn trình diễn của DSS 8440 với 16x T4s

Thời gian chạy phân tích thứ cấp NVIDIA Clara Parabricks sử dụng một GPU T4 chậm hơn khoảng 30% so với sử dụng một GPU V100. Tuy nhiên, hai (2) GPU T4 cung cấp TFLOPS nhiều hơn khoảng 10% so với một (1) GPU V100 với chi phí chỉ bằng một nửa. DSS 8440 cung cấp tới 16 khe cắm PCIe, mở ra khả năng thiết kế máy chủ dựa trên GPU T4 mang lại hiệu suất thời gian chạy tương tự như hệ thống C4140 với bốn GPU V100 nhưng với chi phí thấp hơn.
Phân tích dòng mầm Parabricks được thực hiện bằng cách sử dụng PowerEdge DSS 8440 với 16 GPU T4. Đối với mỗi tập dữ liệu mẫu WGS được mô tả trước đó, thời gian chạy được ghi lại bằng cách sử dụng 1, 2, 4, 8 và 16 GPU T4 cho mỗi phân tích thứ cấp. Các kết quả được vẽ trong Hình 3 đến Hình 5. Nhìn chung, thời gian chạy không thay đổi quy mô tuyến tính khi số lượng GPU trên mỗi phân tích tăng lên. Mẫu chia tỷ lệ tương tự như lượng dữ liệu trên mỗi mẫu tăng từ mức độ bao phủ gấp 10 lần lên 50 lần. 
Mặc dù không được trình bày ở đây, một cuộc điều tra trước đó của Dell EMC về kết quả thời gian chạy Parabricks sử dụng tám GPU V100 trở lên cho mỗi phân tích không mở rộng quy mô hiệu quả như GPU T4. Thử nghiệm bổ sung đã chứng minh rằng 6 GPU T4 tạo ra kết quả thời gian chạy gần giống với 4 GPU V100.


Hình 3 So sánh hiệu suất với 10x WGS

Hình 4 So sánh hiệu suất với 30x WGS


Hình 5 So sánh hiệu suất với 50x WGS

Phần kết luận

DSS 8440 với 16 GPU T4 có khả năng xử lý 30 bộ gen người gấp 50 lần mỗi ngày. Thông lượng phân tích hàng ngày tương tự bằng cách sử dụng kiến ​​trúc CPU x86 truyền thống yêu cầu mười nút điện toán PowerEdge C6420. Kiến trúc hoàn chỉnh được thảo luận trong ấn phẩm trước đây của Dell .  
Tuy nhiên, việc dành tất cả 16 GPU T4 để xử lý một mẫu mang lại ít lợi ích vì sử dụng 16 GPU cho mỗi phân tích nhanh nhất là 10% so với sử dụng 8 GPU. Thiết kế của DSS 8440 cho phép thực hiện song song nhiều phân tích thứ cấp. Bằng cách chỉ định tám GPU T4 cho mỗi mẫu, thông lượng phân tích hàng ngày tăng lên ~50 bộ gen mỗi ngày. Sử dụng bốn GPU cho mỗi mẫu sẽ tăng thông lượng phân tích lên ~70 bộ gen mỗi ngày. Quan trọng hơn, sản lượng hàng ngày này sử dụng GPU T4 thấp hơn một nửa so với chi phí sử dụng thiết kế GPU V100.
Ngoài tốc độ, khả năng tương thích với các công cụ phân tích khác là điều cần thiết để so sánh kết quả. Các kết quả phân tích dòng mầm Parabricks gần giống với phân tích trình gọi Haplotype BWA-GATK nổi tiếng từ thử nghiệm trước đó. Chúng tôi cũng muốn so sánh kết quả gọi biến thể Parabricks với các bộ công cụ khác như samtools/mpileup. Hai công cụ hoàn toàn khác nhau này đạt được ~90% thỏa thuận chung cho các biến thể đã xác định và các biến thể ở nhiều vùng gen nổi tiếng có chứa các gen quan trọng đồng ý hơn 99%.