Đường ống phân tích thứ cấp Clara Parabricks
-
Phân tích được thực hiện trên dữ liệu NGS thường được mô tả dưới dạng một đường dẫn. Đường ống là một quy trình công việc được xác định bao gồm một tập hợp các phương thức hoặc hoạt động trong đó đầu ra của một hoạt động trở thành đầu vào cho hoạt động tiếp theo. Bốn thao tác quan trọng—ánh xạ, căn chỉnh, tiền xử lý và gọi biến thể—tạo nên hầu hết các quy trình WGS phân tích thứ cấp. Clara Parabricks là bộ phần mềm dành cho các phương pháp phân tích bộ gen được thiết kế để tận dụng khả năng tăng tốc của GPU. Nhiều phương pháp của Clara Parabricks có chức năng tương đương với các phương pháp nguồn mở hiện có, thường tạo ra sự phù hợp >99,9%. Các hoạt động của Clara Parabricks được kết hợp với nhau để tạo ra một quy trình phân tích thứ cấp phù hợp nhất với các yêu cầu đối với ứng dụng giải trình tự quan tâm, chẳng hạn như phân tích dòng mầm hoặc soma. Hình 9 làm nổi bật bộ ứng dụng Clara Parabricks v4.0.0-1.
Việc gọi các biến thể di truyền có trong một bộ gen riêng lẻ dựa trên hàng triệu đến hàng tỷ lần đọc trình tự ngắn, dễ bị lỗi. Bất chấp hơn một thập kỷ nỗ lực của hàng nghìn nhà nghiên cứu chuyên dụng, các mô hình thống kê thủ công và được tham số hóa được sử dụng để gọi biến thể tạo ra hàng nghìn lỗi và các biến thể bị bỏ sót trong mỗi bộ gen (Poplin, 2016). Nhiều nhóm chạy quy trình gọi biến thể đồng thuận bằng cách sử dụng phương thức gọi nhiều biến thể để giảm thiểu khả năng bỏ sót biến thể. Clara Parabricks chứa nhiều trình gọi biến thể để kích hoạt phương pháp này. Đối với nghiên cứu này, đường ống dòng mầm đã được sử dụng và các bước được liệt kê trong Hình 10.
DeepVariant, một phương thức gọi biến thể do Google® phát triển, áp dụng mạng thần kinh tích chập sâu và đã được chứng minh là vượt trội so với các phương pháp thống kê do chuyên gia điều khiển. Tuy nhiên, việc gọi các biến thể cho bộ gen người 30x và viết các biến thể ra tệp gVCF mất khoảng bốn giờ và yêu cầu ít nhất 1.024 lõi tính toán. Phiên bản tăng tốc GPU NVIDIA Clara Parabricks của DeepVariant chạy trong vòng chưa đầy 20 phút cho bộ gen 30X. Thời gian phân tích nhanh cho phép sử dụng DeepVariant một mình hoặc kết hợp với các trình gọi dòng mầm khác như GATK HaplotypeCaller, đồng thời giảm thiểu khả năng tạo tồn đọng phân tích thứ cấp. DeepVariant v1.4 hiện đã có trong bộ sưu tập Clara Parabricks trên NGC. Nó mang lại những cải tiến đáng kể về cách thức các nhà nghiên cứu bộ gen và nhà tin sinh học triển khai và mở rộng quy mô các quy trình phân tích trình tự bộ gen. Bản phát hành đầu tiên trong số này dành cho DeepVariant v1.4. Phiên bản DeepVariant mới nhất này tăng độ chính xác trên nhiều trình sắp xếp bộ gen.
Một tính năng kích thước chèn đọc bổ sung cho toàn bộ bộ gen và toàn bộ mô hình exome của Illumina giúp giảm lỗi từ 4-10%. Nó sử dụng phân kỳ trực tiếp để gọi biến thể chính xác hơn trong các lần chạy giải trình tự PacBio. Giờ đây, bạn có thể thực hiện quy trình có độ chính xác cao của biến thể theo giai đoạn gọi dữ liệu PacBio trực tiếp trong DeepVariant, với các quy trình như DeepVariant-WhatsHap-DeepVariant hoặc PEPPER-Margin-DeepVariant.
Đánh giá hiệu năng NVIDIA Clara Parabricks
-
Trường hợp thử nghiệm 1: tác động của NVLink
Đường dẫn dòng mầm Clara Parabricks 4.0.0-1 được thử nghiệm bằng cách sử dụng PowerEdge XE8545 với bốn GPU A100 (phiên bản SMX4, NVLink). Kết quả với hai chiếc A100 được so sánh từ phiên bản 3.6.1-1 với PowerEdge R7525 để so sánh công bằng. chínhsự khác biệt giữa hai cấu hình máy chủ là số lượng GPU và NVLink như trong ban 2. Hình 11hiển thị sự khác biệt về thời gian chạy với hai A100 giữa hai máy chủ khác nhau có và không có hỗ trợ NVLink. Mức giảm thời gian chạy giữa hai máy chủ với phiên bản Clara Parabricks 3.6.1-1 lần lượt là 16%, 32% và 13% đối với dữ liệu WGS 10x, 30x và 50x. Không có sự gia tăng hiệu suất đáng chú ý nào từ phiên bản 3.6.1-1 lên phiên bản 3.7.0-1 và từ phiên bản 3.7.0-1 lên phiên bản 4.0.0-1 trên cùng một hệ thống. Những quan sát này được xác nhận với nhóm Clara Parabricks, rằng phiên bản 4.0.0-1 tập trung vào việc đưa vào chức năng mới và không tập trung vào các khả năng tăng tốc bổ sung.
Trường hợp thử nghiệm 2: cải tiến hiệu suất liên tục thông qua phát triển phần mềm
NVIDIA tiếp tục giới thiệu những cải tiến phần mềm cho Clara Parabricks. Phiên bản mới nhất, 4.0.0-1, tập trung vào việc bổ sung nhiều công cụ hơn là cải thiện hiệu suất như trongHình 12. Dell Technologies đã quan sát thấy sự cải thiện hiệu suất liên tục từ phiên bản cũ hơn sang phiên bản mới hơn.
Trường hợp thử nghiệm 3: khả năng mở rộng trên dữ liệu và GPU
Số lượng GPU tối thiểu cần thiết cho Clara Parabricks là hai. Như thể hiện trong Hình 13, thời gian chạy mở rộng tốt cho GPU 2x và 4x với nhiều kích cỡ dữ liệu WGS khác nhau. Các kết quả thử nghiệm trước đây với GPU NVIDIA T4 cho thấy khả năng mở rộng tuyến tính lên tới 12 GPU với dữ liệu WGS 50x.
Phần kết luận
-
Dell PowerEdge C6520 có thể xử lý hơn 6 50x WGS mỗi ngày (v3.6) hoặc 4,3 50x WGS mỗi ngày (v4.2) với kiến trúc đã được xác thực được đề xuất. Cấu hình này chỉ tập trung tốt hơn vào phân tích dữ liệu NGS. Tuy nhiên, một cấu hình thậm chí còn tốt hơn để phân tích dữ liệu NGS là Dell PowerEdge XE8545 với bốn GPU NVIDIA A100 và Clara Parabricks của NVIDIA. Cấu hình này là tốt nhất vì nó có thể xử lý 24 WGS người 50x hoặc 40 WGS người 30x. Xét về thông lượng, một chiếc XE8545 có thể so sánh với bốn đến sáu chiếc C6520.
Bài viết mới cập nhật
LatentAI: Nâng cao trí thông minh biên với Dell và NVIDIA AI
Giàn khoan dầu, hoạt động quân sự và xe tự hành ...
Tăng tốc lưu trữ máy chủ lớn với các mô hình Dell Disk Library (DLm) mới
Dell công bố các mẫu lưu trữ băng ảo máy chủ ...
Giới thiệu Dell NativeEdge với Nokia Private Wireless
Dễ dàng quản lý và kết nối cơ sở hạ tầng ...
Dịch vụ bảo vệ APEX dành cho Microsoft Azure: Nâng cao bảo mật dữ liệu
Dịch vụ bảo vệ APEX dành cho Microsoft Azure giúp đơn ...