Dell Validated Design (DVD) cho Healthcare and Life Science (HCLS) là một giải pháp đã được thử nghiệm và xác thực. Nó tận dụng Dell PowerEdge C6520 và Dell PowerEdge XE8545 với GPU NVIDIA ® A100, NVIDIA ® Clara™ Parabricks ®khung ứng dụng, mạng Dell PowerSwitch và bộ lưu trữ Dell BeeGFS. Nó kết hợp các tài nguyên CNTT cần thiết cho các hình thức phân tích dữ liệu HCLS khác nhau trong một giải pháp nhỏ gọn, có thể mở rộng. DVD cho HCLS sử dụng cách tiếp cận linh hoạt và theo mô-đun đối với thiết kế hệ thống Điện toán hiệu năng cao (HPC) tận dụng các khối xây dựng riêng lẻ. Các giải pháp được tích hợp, thử nghiệm và điều chỉnh này bao gồm các tài nguyên cần thiết cho phân tích thứ cấp giải trình tự thế hệ tiếp theo (NGS) đồng thời cung cấp sự cân bằng tối ưu về mật độ điện toán, hiệu suất năng lượng và hiệu suất. Giải pháp này có thể xử lý 197 WGS 50x của con người mỗi ngày với 32 C6520 và 24 WGS 50x của con người. Nó cũng có thể xử lý 40 30x WGS mỗi ngày với 4 GPU sử dụng một XE8545 với cả 4 GPU. Bạn có thể tìm thấy tóm tắt hiệu suất GPU cho XE8545 tại đây
Điều kiện thị trường
Nhu cầu về các công cụ phân tích dữ liệu giải trình tự thế hệ tiếp theo (NGS) nhanh hơn ngày càng tăng trong cộng đồng nghiên cứu, ngành dược phẩm và cộng đồng y tế. Cùng với nhu cầu này, các yêu cầu khác nhau trong lĩnh vực liên ngành này đã làm tăng thêm sự phức tạp của quy trình phát triển sản phẩm. Phân tích dữ liệu NGS chủ yếu dựa vào tài nguyên máy tính để cải thiện tốc độ và chất lượng của kết quả. Khi Điện toán hiệu năng cao (HPC) tích hợp các công nghệ mới để đáp ứng nhu cầu về tài nguyên CNTT này, Dell Technologies đã tập trung vào việc tạo ra các giải pháp tăng tốc HPC toàn diện, tích hợp để hỗ trợ những khách hàng này. Dell Validated Designs đảm bảo rằng khách hàng có thể bắt kịp tốc độ phát triển nhanh chóng của dữ liệu, tập trung ít hơn vào CNTT và tập trung nhiều hơn vào tính chính xác của phân tích dữ liệu.
Giới thiệu
-
DNA là mật mã của sự sống. Phân tử này mang các hướng dẫn di truyền cho sự tăng trưởng, phát triển và sinh sản của tất cả các sinh vật sống.
phân tích bộ gen
Khối xây dựng của DNA là một mã bốn chữ cái: “A, T. G, hoặc C.” Bốn chữ cái này là nucleotide và được gọi là các bazơ. Bộ gen của con người bao gồm ba tỷ bazơ trong đó thứ tự cụ thể của các bazơ chịu trách nhiệm cho mọi kiểu hình, các đặc điểm như màu mắt hoặc độ nhạy cảm với thuốc. Giải trình tự DNA là quá trình viết ra thứ tự trong số các cơ sở cho một sinh vật quan tâm. Toàn bộ phần bổ sung DNA cho một sinh vật là một bộ gen. Bộ gen đầu tiên của con người mất khoảng mười năm, nhiều nhóm ở các trường đại học và phòng thí nghiệm của chính phủ và hơn 2,7 tỷ đô la Mỹ để giải trình tự (NHGRI, 2019) .Ngày nay, một kỹ thuật viên duy nhất có thể sắp xếp toàn bộ bộ gen của con người trong một đến hai ngày với giá dưới 1000 USD.
Khi các nền tảng giải trình tự NGS tiếp tục giảm chi phí cho toàn bộ bộ gen người, bộ gen giờ đây đóng vai trò ngày càng quan trọng trong thực hành lâm sàng để chăm sóc bệnh nhân. Genomics cũng là một công cụ quan trọng cho các sáng kiến y tế công cộng. Thông tin được mã hóa trong bộ gen của một cá nhân là nền tảng của y học chính xác. Nó thúc đẩy chẩn đoán và hỗ trợ các quyết định điều trị để điều trị bệnh và đôi khi là các chiến lược phòng ngừa do sự khác biệt giữa người với người (Suwinski, 2019). Việc xác định các biến thể di truyền hoặc sự khác biệt trong bộ gen được thực hiện bằng cách so sánh bộ gen của một cá nhân với tham chiếu bộ gen, còn được gọi là “phân tích thứ cấp”. Quá trình tạo danh sách các biến thể di truyền này có thể mất vài phút đến vài ngày tùy thuộc vào kích thước của dữ liệu và phần mềm, điện toán và tài nguyên lưu trữ có sẵn.
Việc mở rộng phương pháp này để đánh giá sự biến đổi di truyền của quần thể bệnh nhân đòi hỏi phải vận hành các tài nguyên máy tính và thiết bị NGS mới nhất trên quy mô lớn. Ví dụ: hệ thống Illumina NovaSeq 6000 mới nhất có thể tạo ra lượng DNA cơ bản nhiều hơn khoảng năm lần so với thế hệ thiết bị trước đó (Illumina Inc., 2019). Một hệ thống Illumina NovaSeq có thể tạo ra từ khoảng 1,5 TB đến 2,5 TB dữ liệu thô mỗi ngày, đại diện cho khoảng 20 đến 48 toàn bộ trình tự bộ gen (WGS) mỗi ngày. Ngày nay, các tổ chức khoa học đời sống thường vận hành nhiều hơn một thiết bị NGS và xử lý thường xuyên từ hàng trăm đến hàng chục nghìn mẫu WGS mỗi tuần. Để tránh bất kỳ tắc nghẽn phân tích nào, một tổ chức có đủ tài nguyên lưu trữ và điện toán phù hợp với công suất đầu ra cho một nhóm công cụ giải trình tự.
Làm việc với dữ liệu NGS
Sản phẩm mong muốn của giải trình tự toàn bộ bộ gen (WGS) là một danh mục tất cả các biến thể di truyền trong một mẫu nhất định. Mặc dù các động lực có thể khác nhau, nhưng giảm thiểu thời gian và chi phí để tạo danh mục các biến thể này là mục tiêu chung được chia sẻ giữa hầu hết các tổ chức khoa học đời sống và chăm sóc sức khỏe. Các tổ chức nghiên cứu cạnh tranh để giành giải thưởng tài trợ phải cạnh tranh về thời gian và chi phí để tạo danh mục biến thể toàn diện nhất có thể. Để ghi nhận doanh thu, nhà cung cấp dịch vụ giải trình tự phải trả lại danh sách các biến thể cho khách hàng của mình theo các mốc thời gian đã thỏa thuận, đồng thời chứa các chi phí để tối đa hóa lợi nhuận của họ. Trong khi ở môi trường lâm sàng, cần có một báo cáo biến thể chẩn đoán ở mức độ chính xác và tốc độ ảnh hưởng đến việc chăm sóc bệnh nhân.
Giảm thời gian phân tích thứ cấp để theo kịp quá trình tạo dữ liệu NGS
Do kích thước của dữ liệu mẫu riêng lẻ và khối lượng mẫu, phân tích thứ cấp WGS là một quy trình sử dụng nhiều điện toán và lưu trữ. Các phương pháp được trích dẫn và sử dụng phổ biến nhất để phân tích thứ cấp bao gồm Căn chỉnh bánh xe Burrows (BWA-Mem) (Li, 2009) và Bộ công cụ phân tích bộ gen (GATK) (McKenna, 2010). Sử dụng quy trình làm việc Các phương pháp hay nhất của GATK mở rộng (quy trình) yêu cầu hơn 30 giờ để xử lý 40x WGS (Goyal, 2017).
Lưu ý : Cấu hình được sử dụng bao gồm bộ xử lý Intel Xeon E5-2697v2 12C 48 nhân, tốc độ 2,7 GHz với RAM 128 GB, SSD 3,2 TB và CentOS 6.6.
Kết quả thử nghiệm gần đây nhất của Dell Technologies là một phần trong nỗ lực xây dựng một chương trình DVD mất khoảng 24 giờ để xử lý 50x WGS với một bộ xử lý Intel® Xeon® Platinum 8358.
Lưu ý : Cấu hình được sử dụng bao gồm Dell PowerEdge C6520 với hai bộ xử lý Intel® Xeon® Platinum 8358, 32 lõi, 2,60 GHz và RAM 512 GB. Nó cũng bao gồm DVD cho Bộ lưu trữ dung lượng cao HPC BeeGFS và Red Hat Enterprise Linux 8.3 (4.18.0-240.22.1).
Phân tích một vài bộ gen mỗi ngày không phải là lý tưởng khi một công cụ NGS hiện đại, thông lượng cao có thể tạo dữ liệu NGS thô, chưa được phân tích cho 20 WGS trở lên mỗi ngày.
Các tổ chức phải xem xét tất cả các biến quan trọng có thể ảnh hưởng đến tổng thời gian phân tích thứ cấp (đồng hồ treo tường) khi chọn công nghệ cho phép phân tích thứ cấp dữ liệu NGS. Các biến này có phạm vi rộng và kéo theo loại ứng dụng giải trình tự NGS. Chúng bao gồm phạm vi giải trình tự trên mỗi mẫu, phần mềm phân tích hỗ trợ, chiến lược dành riêng cho ứng dụng, loại tệp đầu ra, mẫu truy cập tệp ứng dụng, số lượng và loại tài nguyên máy tính có sẵn.
Phạm vi độ sâu trình tự
Khi lập kế hoạch về thời gian và nguồn lực để hoàn thành phân tích thứ cấp, bạn phải lưu ý về độ bao phủ của trình tự đối với dữ liệu mẫu vì nó sẽ ảnh hưởng đến thời gian phân tích trên mỗi mẫu. Mức độ phù hợp mô tả số lần đọc trung bình trong trình tự sắp xếp theo hoặc bao phủ một trình tự tham chiếu đã biết. Phạm vi bao phủ thường xác định xem một biến thể có tồn tại với một mức độ tin cậy nhất định tại một vị trí bộ gen cụ thể hay không. Các yêu cầu về phạm vi bảo hiểm khác nhau tùy theo ứng dụng giải trình tự. Ví dụ: phạm vi phủ sóng từ 30x đến 60x là phổ biến đối với các ứng dụng WGS của con người (Illumina, 2019). Tuy nhiên, việc phân tích bộ gen ung thư có thể yêu cầu giải trình tự ở độ sâu bao phủ cao hơn 100 lần. Làm như vậy sẽ đạt được độ nhạy và độ đặc hiệu cần thiết để phát hiện các biến thể tần số thấp, hiếm gặp (Griffith, 2015).
Độ che phủ cũng là thước đo lượng dữ liệu trên mỗi mẫu. Khi mức độ phù hợp tăng lên, lượng dữ liệu trên mỗi mẫu cũng tăng theo. Ví dụ: mẫu WGS 50x (mức độ phù hợp) chứa dữ liệu nhiều hơn khoảng năm lần so với mẫu WGS 10x. Thời gian phân tích thứ cấp cũng sẽ tăng tỷ lệ thuận với lượng dữ liệu.
Đơn giản hóa các lựa chọn
Dell Technologies và Clara Parabricks đã tạo ra một kiến trúc tham chiếu dạng mô-đun, dễ mở rộng quy mô để đáp ứng những nhu cầu này. Kiến trúc này đơn giản hóa và hợp lý hóa các lựa chọn công nghệ dẫn đến giảm thời gian phân tích thứ cấp trong khi vẫn bắt kịp với việc tạo dữ liệu NGS.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...