Dell Technologies đã xác thực thiết kế cho bộ gen với NVIDIA Clara Parabricks trên Dell PowerEdge do AMD cung cấp (1)

Dell Technologies Validated Design (DTVD) cho Genomics là một giải pháp đã được thử nghiệm tận dụng Dell PowerEdge XE8545 với GPU NVIDIA A100. Nó cũng tận dụng khung ứng dụng NVIDIA Clara Parabricks. Thiết kế sử dụng kết nối mạng Dell PowerSwitch và bộ lưu trữ Dell BeeGFS. Nó kết hợp các tài nguyên CNTT cần thiết cho các hình thức phân tích dữ liệu bộ gen khác nhau trong một giải pháp nhỏ gọn, có thể mở rộng.

DTVD cho Genomics với NVIDIA Clara Parabricks sử dụng phương pháp tiếp cận linh hoạt và theo mô-đun đối với thiết kế hệ thống Điện toán hiệu năng cao (HPC) tận dụng các khối xây dựng riêng lẻ. Các giải pháp tích hợp này, đã được thử nghiệm và điều chỉnh, bao gồm các tài nguyên cần thiết cho phân tích thứ cấp giải trình tự thế hệ tiếp theo (NGS). Các giải pháp này cũng cung cấp sự cân bằng tối ưu về mật độ điện toán, hiệu suất năng lượng và hiệu suất. Các giải pháp này có thể xử lý tới 40 bộ gen người 30x mỗi ngày bằng cách sử dụng cả bốn GPU.

Thiết kế này là một giải pháp mở rộng theo mô-đun để tăng tốc phân tích dữ liệu bộ gen với NVIDIA Clara Parabricks. Nó cung cấp một khung ứng dụng bộ gen tính toán được GPU tăng tốc hàng đầu trong ngành. Tài liệu này cung cấp thông tin chi tiết về kiến ​​trúc giải pháp và kết quả thử nghiệm hiệu năng cho giải trình tự thế hệ tiếp theo (NGS).

Mục đích của tài liệu này là hướng dẫn thiết kế các hệ thống HPC để sử dụng với khung ứng dụng NVIDIA Clara Parabricks.

Tài liệu này dành cho hai loại độc giả chính:

  • Các nhà nghiên cứu và nhà khoa học chịu trách nhiệm phân tích dữ liệu NGS
  • Các chuyên gia CNTT chịu trách nhiệm cung cấp môi trường máy tính kỹ thuật được thiết kế để hỗ trợ các ứng dụng NGS

Điều kiện thị trường

  • Nhu cầu về các công cụ phân tích dữ liệu giải trình tự thế hệ tiếp theo (NGS) nhanh hơn ngày càng tăng trong cộng đồng nghiên cứu, ngành dược phẩm và cộng đồng y tế. Cùng với nhu cầu này, các yêu cầu khác nhau trong lĩnh vực liên ngành này đã làm tăng thêm sự phức tạp của quy trình phát triển sản phẩm. Phân tích dữ liệu NGS chủ yếu dựa vào tài nguyên máy tính để cải thiện tốc độ và chất lượng của kết quả.

    Máy tính hiệu năng cao (HPC) tích hợp các công nghệ mới để đáp ứng nhu cầu này về tài nguyên CNTT. Dell Technologies đã tập trung vào việc tạo ra các giải pháp tăng tốc HPC toàn diện, tích hợp để hỗ trợ khách hàng. Dell Technologies Validated Designs (DTVD) đảm bảo rằng khách hàng có thể bắt kịp tốc độ phát triển dữ liệu nhanh chóng. DTVD cho phép khách hàng tập trung ít hơn vào CNTT và tập trung nhiều hơn vào tính chính xác của phân tích dữ liệu.

     

TỔNG QUAN VỀ GIẢI PHÁP

Phân tích bộ gen

  • DNA là mật mã của sự sống. Phân tử này mang các hướng dẫn di truyền cho sự tăng trưởng, phát triển và sinh sản của tất cả các sinh vật sống. Khối xây dựng của DNA là một mã gồm bốn chữ cái: adenine (A), thymine (T), guanine (G) hoặc cytosine (C). Bốn chữ cái này là nucleotide và được gọi là base. Bộ gen của con người bao gồm 3 tỷ cơ sở. Thứ tự cụ thể mà các bazơ A, T, G và C xuất hiện chịu trách nhiệm cho tất cả các kiểu hình (các đặc điểm như màu mắt hoặc độ nhạy cảm với thuốc). Trình tự DNA là quá trình viết ra thứ tự của các cơ sở cho một sinh vật quan tâm. Toàn bộ bổ sung DNA cho một sinh vật là một bộ gen. Nhiều nhóm ở các trường đại học và phòng thí nghiệm của chính phủ đã mất khoảng mười năm và hơn 2,7 tỷ đô la Mỹ (USD) để sắp xếp trình tự bộ gen người đầu tiên (NHGRI, 2019).

    Các nền tảng giải trình tự thế hệ tiếp theo (NGS) tiếp tục giảm chi phí cho toàn bộ bộ gen của con người. Genomics hiện đóng một vai trò ngày càng quan trọng trong thực hành lâm sàng để chăm sóc bệnh nhân. Nó cũng là một công cụ quan trọng cho các sáng kiến ​​y tế công cộng. Thông tin được mã hóa trong bộ gen của một cá nhân là nền tảng của y học chính xác. Nó thúc đẩy chẩn đoán và hỗ trợ các quyết định điều trị để điều trị bệnh. Đôi khi, thông tin hỗ trợ các chiến lược phòng ngừa do sự khác biệt giữa người với người (Suwinski, 2019). Xác định các biến thể di truyền hoặc sự khác biệt trong bộ gen được thực hiện bằng cách so sánh bộ gen của một cá nhân với một tham chiếu bộ gen. Còn được gọi là “Phân tích thứ cấp”, quá trình tạo danh sách các biến thể di truyền này có thể mất vài phút đến vài ngày.

    Việc mở rộng phương pháp này để đánh giá sự biến đổi di truyền của quần thể bệnh nhân đòi hỏi phải vận hành các tài nguyên máy tính và thiết bị NGS mới nhất trên quy mô lớn. Ví dụ: hệ thống Illumina NovaSeq 6000 mới nhất có thể tạo ra cơ sở DNA nhiều hơn khoảng năm lần so với thế hệ thiết bị trước đó (Illumina Inc., 2021). Một hệ thống Illumina NovaSeq có thể tạo ra từ ~1,5 TB đến 2,5 TB dữ liệu thô mỗi ngày. Lượng dữ liệu đó đại diện cho khoảng 20 đến 48 toàn bộ trình tự bộ gen (WGS) mỗi ngày. Ngày nay, các tổ chức khoa học đời sống thường vận hành nhiều hơn một thiết bị NGS. Họ thường xuyên xử lý từ hàng trăm đến hàng chục nghìn mẫu WGS mỗi tuần. Một tổ chức phải có đủ tài nguyên máy tính và lưu trữ phù hợp với công suất đầu ra cho một nhóm công cụ giải trình tự.

     

Làm việc với dữ liệu NDG

  • Sản phẩm mong muốn của giải trình tự toàn bộ bộ gen (WGS) là một danh mục tất cả các biến thể di truyền trong một mẫu nhất định. Mặc dù các động lực có thể khác nhau, nhưng hầu hết các tổ chức khoa học đời sống và chăm sóc sức khỏe đều có chung một mục tiêu: giảm thiểu thời gian và chi phí để tạo danh mục các biến thể này. Các tổ chức nghiên cứu cạnh tranh để giành giải thưởng tài trợ phải cạnh tranh về thời gian và chi phí để tạo danh mục biến thể toàn diện nhất có thể. Để ghi nhận doanh thu, nhà cung cấp dịch vụ giải trình tự phải trả lại danh sách các biến thể cho khách hàng của mình theo các mốc thời gian đã thỏa thuận. Trong khi đó, họ phải chứa chi phí để tối đa hóa lợi nhuận của họ. Trong khi ở môi trường lâm sàng, cần có một báo cáo biến thể chẩn đoán ở mức độ chính xác và tốc độ ảnh hưởng đến việc chăm sóc bệnh nhân.

     

Giảm thời gian phân tích thứ cấp để theo kịp quá trình tạo dữ liệu NGS

  • Do kích thước của dữ liệu mẫu riêng lẻ và khối lượng mẫu, phân tích thứ cấp WGS là một quy trình sử dụng nhiều điện toán và lưu trữ. Các phương pháp được trích dẫn và sử dụng phổ biến nhất để phân tích thứ cấp bao gồm Căn chỉnh bánh xe Burrows (BWA-Mem) (Li, 2009) và Bộ công cụ phân tích bộ gen (GATK) (McKenna, 2010). Việc sử dụng quy trình làm việc Các phương pháp hay nhất của GATK Mở rộng (quy trình) yêu cầu hơn 30 giờ để xử lý 40x WGS. Hệ thống được sử dụng có bộ vi xử lý 48 nhân Intel Xeon E5-2697v2 12C, 2,7 GHz với RAM 128 GB và SSD 3,2 TB, chạy CentOS 6 (Goyal, 2017). Kết quả thử nghiệm gần đây nhất trong Dell Technologies, như một phần của DTVD, hiển thị khoảng 24 giờ để xử lý 50x WGS với một bộ xử lý Intel Xeon Platinum 8358. Hệ thống được sử dụng là Dell PowerEdge C6520 với hai bộ xử lý Intel Xeon Platinum 8358, 32 lõi, 2,60 GHz và RAM 512 GB. Xem DTVD để biết Bộ lưu trữ dung lượng cao HPC cho BeeGFS và RHEL 8.3 (4.18.0-240.22.1 . Phân tích một vài bộ gen mỗi ngày không phải là lý tưởng. Một công cụ NGS hiện đại, thông lượng cao có thể tạo dữ liệu NGS thô, chưa được phân tích cho 20 WGS trở lên mỗi ngày.

    Xem xét tất cả các biến quan trọng có thể ảnh hưởng đến tổng thời gian phân tích thứ cấp (đồng hồ treo tường) khi chọn công nghệ cho phép phân tích thứ cấp dữ liệu NGS. Các biến này có phạm vi rộng và đòi hỏi loại ứng dụng giải trình tự NGS bao gồm phạm vi giải trình tự trên mỗi mẫu. Chúng hỗ trợ phần mềm phân tích và các chiến lược dành riêng cho ứng dụng, loại tệp đầu ra, mẫu truy cập tệp ứng dụng, số lượng và loại tài nguyên máy tính có sẵn.

     

Phạm vi độ sâu trình tự

  • Khi lập kế hoạch về thời gian và nguồn lực để hoàn thành phân tích thứ cấp, bạn phải lưu ý về mức độ bao trùm của trình tự đối với dữ liệu mẫu. Nó ảnh hưởng đến thời gian phân tích trên mỗi mẫu. Mức độ phù hợp mô tả số lần đọc trung bình trong trình tự sắp xếp theo hoặc bao phủ một trình tự tham chiếu đã biết. Phạm vi bao phủ thường xác định xem một biến thể có tồn tại với một mức độ tin cậy nhất định tại một vị trí bộ gen cụ thể hay không. Các yêu cầu về phạm vi bảo hiểm khác nhau tùy theo ứng dụng giải trình tự. Ví dụ: phạm vi phủ sóng 30x đến 60x là phổ biến đối với các ứng dụng WGS của con người (Illumina Inc, 2019 ngày 22 tháng 7). Tuy nhiên, việc phân tích bộ gen ung thư có thể yêu cầu giải trình tự ở độ sâu bao phủ cao hơn 100 lần. Độ sâu bao phủ này là cần thiết để đạt được độ nhạy và độ đặc hiệu cần thiết nhằm phát hiện các biến thể tần số thấp, hiếm gặp ( Griffith, 2015 ).

    Độ che phủ cũng là thước đo lượng dữ liệu trên mỗi mẫu. Khi mức độ phù hợp tăng lên, lượng dữ liệu trên mỗi mẫu cũng tăng theo. Ví dụ: mẫu WGS 50x (mức độ phù hợp) chứa dữ liệu nhiều hơn khoảng năm lần so với mẫu WGS 10x. Kích thước mẫu này có nghĩa là thời gian phân tích thứ cấp tăng tỷ lệ thuận với lượng dữ liệu.

Đơn giản hóa các lựa chọn

  • Dell Technologies và Clara Parabricks đã tạo ra một thiết kế đã được xác thực theo mô-đun, dễ mở rộng quy mô. Thiết kế này đơn giản hóa và sắp xếp hợp lý các lựa chọn công nghệ dẫn đến giảm đáng kể thời gian phân tích thứ cấp trong khi vẫn bắt kịp với việc tạo dữ liệu NGS.