Tăng cường giải trình tự bộ gen với Đường ống bộ gen tăng tốc Falcon (FAGP) trên Intel FPGA PAC

Tổng quan, Thách thức thị trường (cần), giải pháp Falcon đáp ứng nhu cầu

Y học chính xác, bộ gen và biểu sinh đang sử dụng giải trình tự bộ gen để tiến hành nghiên cứu, cải thiện chẩn đoán, phát triển dược phẩm, nâng cao chất lượng chăm sóc cho các nhà cung cấp dịch vụ chăm sóc sức khỏe và tối ưu hóa sản xuất cây trồng. Đối với khoa học đời sống, phân tích bộ gen hiện là một ứng dụng quan trọng, một phần là do giảm chi phí lớn cho việc thu thập dữ liệu từ những tiến bộ trong giải trình tự thế hệ tiếp theo (NGS). Ngoài việc tăng cường thu thập dữ liệu, cũng có sự tăng trưởng đáng kể trong phạm vi ứng dụng bộ gen được sử dụng trong các trường đại học, trung tâm nghiên cứu bộ gen, công ty dược phẩm và tổ chức chăm sóc sức khỏe. 
Cứ sau bảy tháng, lượng dữ liệu bộ gen lại tăng gấp đôi (1). Do đó, việc xử lý dữ liệu một cách hiệu quả và tiết kiệm chi phí đã trở nên quan trọng. Sức mạnh tính toán của các giải pháp chỉ dành cho bộ xử lý không mở rộng đủ nhanh để theo kịp tốc độ tăng trưởng dữ liệu bộ gen. Điều này đã dẫn đến nhu cầu tăng tốc phần cứng. Các máy gia tốc như FPGA đang trở thành mấu chốt trong việc đáp ứng nhu cầu tính toán của vụ bùng nổ dữ liệu gen này. So với các giải pháp tăng tốc phần cứng khác, Đường ống gen tăng tốc Falcon (FAGP) mang lại tính linh hoạt, thông lượng cao và chi phí cho mỗi mẫu thấp hơn.

FPGA, ưu đãi & lợi thế của Intel PAC là gì

FPGA là các thiết bị silicon có thể được lập trình lại động với đường dẫn dữ liệu khớp chính xác với khối lượng công việc của bạn, chẳng hạn như Giải trình tự bộ gen, Phân tích dữ liệu hoặc Nén như được minh họa trong Hình 1. Tính linh hoạt này cho phép cung cấp khả năng xử lý nhanh hơn, tính toán tiết kiệm năng lượng hơn, và dịch vụ có độ trễ thấp hơn – giảm tổng chi phí sở hữu và tối đa hóa khả năng tính toán trong phạm vi hạn chế về năng lượng, không gian và làm mát của trung tâm dữ liệu của bạn. 
Theo truyền thống, FPGA yêu cầu chuyên môn sâu về miền để lập trình. Để đơn giản hóa quy trình phát triển và cho phép triển khai nhanh chóng trên toàn trung tâm dữ liệu, Intel cung cấp Nền tảng tăng tốc bao gồm PCI Express* (PCIe*) dựa trên Thẻ tăng tốc có thể lập trình Intel FPGA (Intel FPGA PAC) và Ngăn xếp tăng tốc Intel® cho Intel Xeon® CPU với FPGA. Các nền tảng Intel này đủ tiêu chuẩn, được xác thực và được triển khai thông qua Dell EMC. Cùng với các đối tác trong hệ sinh thái như Điện toán Falcon, Nền tảng tăng tốc của Intel cung cấp giải pháp đáng tin cậy và sẵn sàng hoạt động với phần cứng trong suốt bên trong.

SLN319291_en_US__1hình ảnh(12669)
Hình 1 Cải thiện độ chính xác và tốc độ trên đường dẫn GATK tiêu chuẩn

Chi tiết giải pháp Falcon:

Bộ công cụ phân tích bộ gen (GATK) là tiêu chuẩn vàng để xử lý dữ liệu bộ gen được cộng đồng bộ gen chấp nhận (2). Quy trình thực hành tốt nhất (BPW) của nó nổi tiếng vì sự chậm chạp trong tính toán để tạo ra kết quả cho các mẫu lớn như Whole-Genome (WGS). Để giải quyết vấn đề này, Falcon Computing Solutions đã phát triển một gói công cụ phần mềm linh hoạt tuân theo BPW và có thể dễ dàng triển khai trong nhiều nền tảng và kiến ​​trúc. Nó nhanh hơn gấp nhiều lần so với các đường dẫn GATK dựa trên CPU.
FAGP cung cấp giải pháp đầu cuối để phân tích dữ liệu bộ gen một cách hiệu quả về mặt chi phí bằng cách sử dụng đường dẫn GATK với hiệu suất, độ chính xác và khả năng tái tạo cao. Giải pháp mang lại khả năng tăng tốc lên tới 15 lần với độ chính xác tương tự như GATK (3). Điều này có nghĩa là một phân tích thường mất từ ​​50 đến 60 giờ có thể được tiến hành trong vòng chưa đầy 4 giờ (3). FAGP cung cấp các mức tăng tốc và độ chính xác vượt trội cùng với FPGA Intel Arria 10 hiệu suất cao, đáng tin cậy và bộ xử lý Intel® Xeon®. 
FAGP tuân theo GATK BPW. Nó thực hiện tăng tốc trong nhiều thành phần của đường ống từ căn chỉnh (BWA) đến gọi biến thể (HaplotypeCaller) (4). Ngoài BWA được tăng tốc, nó cũng bao gồm một phiên bản được tăng tốc của Minimap2 căn chỉnh, là một phần của Đường ống gen thay thế từ Falcon (5). Đường ống thay thế cung cấp một giải pháp thậm chí còn nhanh hơn. Nó có thể hoàn thành Trình tự toàn bộ bộ gen gấp 50 lần trong vòng 3 giờ. Cả hai bộ định tuyến đều có tính năng tạo các bản sao được đánh dấu và các lần đọc được sắp xếp mà không cần sử dụng các công cụ bổ sung. 
FAGP đạt được hiệu suất/thông lượng cao bằng cách tăng tốc tính toán chuyên sâu trong đường ống GATK bằng cách sử dụng nền tảng Intel FPGA PAC. Điều này khác với các giải pháp mở rộng quy mô đạt được thông lượng cao bằng cách thêm nhiều tài nguyên CPU hơn. Các giải pháp mở rộng quy mô như vậy có khả năng hạn chế để giảm chi phí hoặc độ trễ trên mỗi mẫu.
Một ưu điểm khác của giải pháp Falcon là nó là một đường ống mở dưới dạng GATK. Người dùng có thể kiểm soát các bước riêng lẻ trong đường ống. Dữ liệu trung gian được lưu và có thể được truy cập.

Bảng 1 Ưu điểm của Đường ống gen tăng tốc Falcon

Ưu điểm của Đường ống gen tăng tốc Falcon (FAGP)
GATK thật Hỗ trợ nhiều phiên bản GATK, bao gồm cả 4.0
quy mô ngành Chạy toàn bộ năm bộ gen hoặc toàn bộ 24 bộ gen trong một ngày
biến thể thay thế < Thời gian quay vòng 3 giờ tại chỗ cho WGS (50X)
Tốc độ Thực hiện quy trình thực hành GATK tốt nhất nhanh hơn tới >15 lần
Đòn bẩy hiện có Không cần phải viết lại các thuật toán làm việc

Cấu hình phần cứng Dell

Bảng 2 Dell EMC PowerEdge R740xd dưới dạng thử nghiệm

Dell EMC PowerEdge R740xd
bộ vi xử lý 2x CPU Intel(R) Xeon(R) Gold 6148 @ 2.40GHz
Trí nhớ 384GB @ 32x 16GB RDIMM, 2666MT/s, Xếp hạng kép
Kho 4x Ổ cứng cắm nóng 1,2TB 10K RPM SAS 12Gbps 512n 2,5in trong RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T trong RAID 0 phần mềm
FPGA Thẻ tăng tốc có thể lập trình của Intel với FPGA Intel Arria® 10 GX (Ngăn xếp tăng tốc của Intel 1.1)
Hồ sơ hệ thống Hiệu suất
phiên bản sinh học 2.1.3
siêu phân luồng Đã bật
hệ điều hành Bản phát hành Red Hat Enterprise Linux Server 7.4 (Maipo) (3.10.0-693.el7.x86_64)

Đánh giá hiệu suất

Trong thử nghiệm điểm chuẩn của mình, chúng tôi đã sử dụng toàn bộ dữ liệu trình tự bộ gen của con người ở độ sâu bao phủ 10x, 30x và 50x.

Bảng kích thước đầy đủ

chạy gia nhập Độ sâu của vùng phủ sóng Liên kết dữ liệu
ERR091571 gấp 10 lần https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161

 

Kết quả :

Bảng 4 tóm tắt thời gian cần thiết để hoàn thành Quy trình thực hành tốt nhất GATK 4.0 qua ba chu kỳ thử nghiệm bằng cách sử dụng FAGP và Intel FPGA PAC được đặt trong máy chủ DELL EMC PowerEdge R740xd.

Bảng 4 Tổng thời gian chạy từ Best Practice Pipeline phiên bản 2.1.1

Vật mẫu Độ sâu của vùng phủ sóng kiểm tra 1 Thời gian chạy (phút)
Kiểm tra 2
kiểm tra 3
ERR091571 gấp 10 lần 75,63 76,67 76,38
SRR3124837 30x 160.00 162,77 161.38
ERR194161 50x 242,97 250,65 247.18

Bảng 5 tóm tắt thời gian (tính bằng phút) được thực hiện để hoàn thành quy trình thay thế: Falcon Germline qua ba chu kỳ thử nghiệm bằng cách sử dụng FAGP và Intel FPGA PAC được đặt trong máy chủ DELL EMC PowerEdge R740xd.

Bảng 5 Tổng thời gian chạy từ Đường ống gọi biến thể thay thế

Vật mẫu Độ sâu của vùng phủ sóng kiểm tra 1 Thời gian chạy (phút)
Kiểm tra 2
kiểm tra 3
ERR091571 gấp 10 lần 62,70 58.21 59,80
SRR3124837 30x 130,38 129,90 129,95
ERR194161 50x 171.52 171.87 171.37

 

Tóm tắt giải pháp bộ gen Falcon

Đường ống gen tăng tốc Falcon mang lại thông lượng cao, lợi ích chi phí/mẫu/ngày thấp. Cùng với Thẻ tăng tốc có thể lập trình được Intel FPGA và máy chủ DELL được chứng nhận, FAGP cung cấp một giải pháp hoàn chỉnh có thể dễ dàng áp dụng cho các ứng dụng giải trình tự bộ gen của bạn.
“Tại TCGB, chúng tôi cung cấp dịch vụ giải trình tự bộ gen cho các khách hàng trên toàn quốc. Đường ống gen tăng tốc Falcon* đã cho phép chúng tôi rút ngắn thời gian quay vòng từ vài ngày xuống còn vài giờ trong khi vẫn duy trì độ chính xác của các quy trình GATK tiêu chuẩn ngành.”
— Tiến sĩ Xinmin Li, Giám đốc Trung tâm Công nghệ Genomics & Bioinformatics (TCGB) UCLA