Xử lý sáu WGS 50x của con người mỗi ngày bằng Bộ xử lý có khả năng mở rộng Intel Xeon thế hệ thứ 3

Tổng quan

Bộ xử lý có khả năng mở rộng Intel ® Xeon ® đã được chứng minh là có hiệu năng ổn định và ổn định cho nhiều loại khối lượng công việc. Bộ xử lý có khả năng mở rộng Intel ® Xeon ® thế hệ thứ 3 mới , còn được biết đến với tên mã là Ice Lake, hoạt động cực kỳ hiệu quả đối với quy trình BWA-GATK. Trong nghiên cứu này, chúng tôi đã thử nghiệm hai bộ xử lý Ice Lake là 8352Y và 8358, đồng thời cấu hình máy chủ thử nghiệm cũng được tóm tắt trong Bảng 1.

Bảng 1. Cấu hình nút điện toán đã được thử nghiệm

Dell EMC PowerEdge C6520
CPU Bộ xử lý có khả năng mở rộng Intel® Xeon® thế hệ thứ 3 đã được thử nghiệm :

Bộ xử lý 2x Intel® Xeon® Platinum 8352Y, 32 lõi, 2,20 GHz – 3,40 GHz Base-Boost, TDP 205 W, Bộ nhớ đệm L3 48 MB

Bộ xử lý 2x Intel® Xeon® Platinum 8358, 32 lõi, 2,60 GHz – 3,40 GHz Base-Boost, TDP 250 W, Bộ nhớ đệm L3 48 MB

ĐẬP DDR4 512G (32 GB x 12) 3200 MT/s
Hệ điều hành RHEL 8.3 (4.18.0-240.22.1)
Mạng hệ thống tập tin NVIDIA Mellanox InfiniBand HDR100
Hệ thống tập tin Giải pháp sẵn sàng của Dell EMC cho bộ lưu trữ dung lượng cao HPC BeeGFS
Hồ sơ hệ thống BIOS Tối ưu hóa hiệu suất
Bộ xử lý logic Tàn tật
Công nghệ ảo hóa Tàn tật
BWA 0.7.15-r1140
Sambamba 0.7.0
Samtools 1.6
GATK 3,60-g89b7209

Dữ liệu thử nghiệm được chọn từ một trong các Bộ gen bạch kim của Illumina. ERR194161 đã được xử lý bằng Illumina HiSeq 2000 do Illumina gửi và có thể lấy được từ EMBL-EBI . Mã định danh DNA của cá nhân này là NA12878. Mô tả dữ liệu từ trang web được liên kết cho thấy mẫu này có độ bao phủ >30x và đạt ~53x.

Đánh giá hiệu suất

Hiệu suất mẫu đơn

Bảng 2 tóm tắt thời gian chạy tổng thể và so sánh giữa từng bước trong quy trình BWA-GATK 9 bước của chúng tôi với một mẫu duy nhất.

Bước ánh xạ và sắp xếp là bước duy nhất mà chúng tôi có thể đạt được mức chênh lệch hiệu suất thực sự giữa các CPU khác nhau trong Bảng 2. Ước tính sơ bộ về các cải thiện hiệu suất tổng thể từ 6248R (6248) đến 8352Y và 8358 là 3,8 (9,0) % và 4,8 (10,0) ) %, tương ứng. Lô thử nghiệm cho 6248R là máy chủ Dell EMC PowerEdge R640 với RAM 394 GB và bộ nhớ cục bộ, đồng thời có thể tìm thấy chi tiết cấu hình cho 6248 từ liên kết nhúng. 

Bước ánh xạ và sắp xếp cho thấy thời gian chạy giảm xuống ~36 % do tính chất của khả năng mở rộng tốt của BWA. Bước hiệu chỉnh lại cơ sở cũng tận dụng số lượng lõi cao hơn từ CPU Ice Lake.

Bảng 2. So sánh hiệu suất BWA-GATK giữa Ice Lake và Cascade Lake

bước 8352Y 32c

2,2 GHz

8358 32c

2,6 GHz

6248R 24c

3,0 GHz

6248 20c

2,5 GHz

Lập bản đồ và sắp xếp 3.23 (32) 3.23 (32)  5.04 (24) 5.22 (20)
Đánh dấu trùng lặp 1.16 (13) 1.16 (13) 1.14 (13) 1.29 (13)
Tạo các mục tiêu sắp xếp lại 0,47 (32) 0,46 (32) 0,16 (24) 0,42 (20)
Sắp xếp lại chèn và xóa 8.16 (1) 7,97 (1) 7.20 (1) 7,87 (1)
Hiệu chuẩn lại cơ sở 2.06 (32) 2.07 (32)  2.41 (24) 2.30 (20)
haplotypercaller 8.01 (16) 7,96 (16) 8.06 (16) 8,25 (16)
Kiểu gen GVCF 0,01 (32) 0,01 (32) 0,01 (24) 0,01 (20)
Hiệu chỉnh lại biến thể 0,20 (1) 0,20 (1) 0,19 (1) 0,23 (1)
Áp dụng hiệu chỉnh lại biến thể 0,01 (1) 0,01 (1) 0,01 (1) 0,01 (1)
Tổng thời gian chạy (giờ) 23.32 23.07 24.23 25,61

Lưu ý : Số lượng lõi được sử dụng cho bài kiểm tra được đặt trong ngoặc đơn.

Nhiều màn trình diễn mẫu – thông lượng

Cách điển hình để chạy quy trình NGS là xử lý nhiều mẫu trên một nút điện toán và sử dụng nhiều nút điện toán để tối đa hóa thông lượng. Tuy nhiên, lần này các thử nghiệm được thực hiện trên một nút điện toán duy nhất do số lượng máy chủ hiện có có hạn. 

Đường dẫn hiện tại gọi nhiều thao tác đường ống trong bước đầu tiên để giảm thiểu số lượng ghi tệp trung gian. Mặc dù điều này giúp tiết kiệm một ngày thời gian chạy và giảm đáng kể mức sử dụng bộ nhớ nhưng chi phí cho việc gọi các pipe khá lớn. Do đó, điều này hạn chế số lượng xử lý mẫu đồng thời. Thông thường, một quy trình âm thầm thất bại khi không còn đủ tài nguyên để bắt đầu một quy trình bổ sung.

Như được hiển thị trong Bảng 3 cho thử nghiệm 8352Y, số lượng mẫu tối đa có thể được xử lý đồng thời là khoảng 14 mẫu. Mặc dù thử nghiệm 14 mẫu không được thực hiện nhưng 14 mẫu có thể là số lượng mẫu tối đa có thể được xử lý cùng nhau vì hai đường ống đã không thành công trong thử nghiệm 16 mẫu. Nói cách khác, có thể đạt được thông lượng ~ 6 bộ gen mỗi ngày với 8352Y. Ngoài ra, 8358 cho thấy 2 quy trình không thành công khi 16 mẫu được xử lý đồng thời trong khi thông lượng đạt ~7 bộ gen mỗi ngày (Bảng 4).

Bảng 3. Kiểm tra thông lượng của Intel ® Xeon ® Platinum 8352Y

bước Thời gian chạy với số lượng mẫu khác nhau
Số lượng mẫu 1 2 4 số 8 12 16
Số lượng mẫu không thành công  0 0 0 0 0 2
Lập bản đồ và sắp xếp 2,84 4,20 7.11 13:44 20,77 26,62
Đánh dấu trùng lặp 1.17 1.18 1,29 1,77 2,49 3.05
Tạo các mục tiêu sắp xếp lại 0,46 0,51 0,52 0,77 1,09 1,25
Sắp xếp lại chèn và xóa 7,94 8.04 8.02 8 giờ 00 8,26 8.11
Hiệu chuẩn lại cơ sở 2,00 2.16 2,83 4,41 6.04 7 giờ 20
haplotypercaller 8 giờ 00 7,93 9.10 9,24 9:31 9,26
Kiểu gen GVCF 0,02 0,02 0,03 0,02 0,03 0,04
Hiệu chỉnh lại biến thể 0,17 0,20 0,21 0,20 0,19 0,23
Áp dụng hiệu chỉnh lại biến thể 0,01 0,02 0,02 0,02 0,02 0,03
Tổng thời gian chạy (giờ) 22:60 24,26 29.12 37,89 48,20 55,78
Bộ gen mỗi ngày 1,06 1,98 3h30 5.07 5,98 6.02
Bảng 4. Kiểm tra thông lượng của Intel ® Xeon ® Platinum 8358

bước Thời gian chạy với số lượng mẫu khác nhau
Số lượng mẫu 1 số 8 12 14 16 1
Số lượng mẫu không thành công  0 0 0 0 2 0
Lập bản đồ và sắp xếp 2,67 11:79 18,26 22,84 24.34 2,67
Đánh dấu trùng lặp 1.16 1,51 2.18 2,59 2,65 1.16
Tạo các mục tiêu sắp xếp lại 0,43 0,70 0,96 1.17 1,15 0,43
Sắp xếp lại chèn và xóa 7,97 8 giờ 00 7,99 8h20 8.19 7,97
Hiệu chuẩn lại cơ sở 1,94 4.05 5,65 6,47 6,56 1,94
haplotypercaller 8 giờ 00 8,21 8,22 8,24 8,25 8 giờ 00
Kiểu gen GVCF 0,02 0,03 0,03 0,03 0,02 0,02
Hiệu chỉnh lại biến thể 0,18 0,25 0,14 0,30 0,30 0,18
Áp dụng hiệu chỉnh lại biến thể 0,01 0,01 0,02 0,02 0,02 0,01
Tổng thời gian chạy (giờ) 22,37 34,55 43,44 49,86 51,49 22,37
Bộ gen mỗi ngày 1,07 5,56 6,63 6,74 6,53 1,07

Phần kết luận

Lĩnh vực phân tích dữ liệu NGS đang phát triển nhanh chóng về tốc độ tăng trưởng dữ liệu và các biến thể dữ liệu. Phần lớn các ứng dụng nguồn mở trong phân tích dữ liệu NGS không thể tận dụng công nghệ máy gia tốc và không mở rộng quy mô tốt theo số lượng lõi. Đã đến lúc người dùng cần suy nghĩ về cách giải quyết vấn đề này. Một cách đơn giản để tránh vấn đề này là thực hiện song song hóa mức dữ liệu. Mặc dù việc đưa ra quyết định về thời điểm phân chia dữ liệu khá khó khăn nhưng vẫn có thể thực hiện được bằng các biện pháp can thiệp cẩn thận trong quy trình BWA-GATK hiện có mà không làm giảm sức mạnh thống kê với số lượng dữ liệu khổng lồ. Nếu mỗi đoạn dữ liệu nhỏ hơn đi qua một đường ống riêng lẻ trên mỗi lõi và được hợp nhất ở cuối, thì có thể đạt được hiệu suất tốt hơn trên một mẫu duy nhất. Việc tăng hiệu suất này có thể dẫn đến thông lượng cao hơn nếu thời gian chạy tổng thể giảm đáng kể.

Tuy nhiên, Bộ xử lý có khả năng mở rộng Intel ® Xeon ® thế hệ thứ 3 , đặc biệt là 8352Y và 8358 là những lựa chọn tuyệt vời cho thông lượng phân tích lệnh gọi biến thể cao nhất và phân tích mẫu đơn.