Tổng quan

Bộ xử lý có khả năng thay đổi Intel ^® Xeon ^® đã được chứng minh là có hiệu suất nhất quán và ổn định đối với nhiều loại khối lượng công việc. ^{Bộ xử lý có khả năng mở rộng Intel ®} Xeon ^® thế hệ thứ 3 mới , còn được biết đến với tên mã là Ice Lake hoạt động cực kỳ hiệu quả đối với đường dẫn BWA-GATK. Trong nghiên cứu này, chúng tôi đã thử nghiệm hai bộ xử lý Ice Lake, 8352Y và 8358, và cấu hình máy chủ thử nghiệm cũng được tóm tắt trong Bảng 1.

Bảng 1. Cấu hình nút điện toán đã thử nghiệm

Dell EMC PowerEdge C6520
CPU	Bộ xử lý có khả năng mở rộng Intel® Xeon® thế hệ ^thứ 3 đã được thử nghiệm : 2x Bộ xử lý Intel® Xeon® Platinum 8352Y, 32 lõi, 2,20 GHz – 3,40 GHz Base-Boost, TDP 205 W, 48 MB bộ nhớ đệm L3 2x Bộ xử lý Intel® Xeon® Platinum 8358, 32 lõi, 2,60 GHz – 3,40 GHz Base-Boost, TDP 250 W, 48 MB bộ nhớ đệm L3
ĐẬP	DDR4 512G (32 GB x 12) 3200 tấn/giây
Hệ điều hành	RHEL 8.3 (4.18.0-240.22.1)
mạng hệ thống tập tin	NVIDIA Mellanox InfiniBand HDR100
Hệ thống tập tin	Giải pháp sẵn sàng của Dell EMC cho Bộ lưu trữ dung lượng cao HPC BeeGFS
Hồ sơ hệ thống BIOS	Hiệu suất được tối ưu hóa
bộ xử lý logic	Vô hiệu hóa
công nghệ ảo hóa	Vô hiệu hóa
BWA	0.7.15-r1140
sambamba	0.7.0
Samtools	1.6
GATK	3.60-g89b7209

Dữ liệu thử nghiệm được chọn từ một trong các Gen bạch kim của Illumina. ERR194161 đã được xử lý với Illumina HiSeq 2000 do Illumina gửi và có thể được lấy từ EMBL-EBI . Định danh DNA của cá nhân này là NA12878. Mô tả dữ liệu từ trang web được liên kết cho thấy rằng mẫu này có độ bao phủ >30x và đạt ~53x.

Đánh giá hiệu suất

Hiệu suất mẫu đơn

Bảng 2 tóm tắt thời gian chạy tổng thể và so sánh giữa từng bước đối với đường dẫn BWA-GATK 9 bước của chúng tôi với một mẫu duy nhất.

Bước lập bản đồ và sắp xếp là bước duy nhất mà chúng tôi có thể đạt được mức cao nhất của các biến thể hiệu suất thực trên các CPU khác nhau trong Bảng 2. Ước tính sơ bộ về các cải tiến hiệu suất tổng thể từ 6248R (6248) lên 8352Y và 8358 là 3,8 (9,0) % và 4,8 (10,0 ) %, tương ứng. Lô thử nghiệm cho 6248R là máy chủ Dell EMC PowerEdge R640 với RAM 394 GB và bộ nhớ cục bộ, đồng thời có thể tìm thấy chi tiết cấu hình cho 6248 từ liên kết được nhúng.

Bước lập bản đồ và sắp xếp cho thấy thời gian chạy giảm ~36% do bản chất của khả năng mở rộng tốt của BWA. Bước hiệu chỉnh lại cơ sở cũng tận dụng số lượng lõi cao hơn từ CPU Ice Lake.

Bảng 2. So sánh hiệu suất BWA-GATK giữa Ice Lake và Cascade Lake

bước	8352Y 32c 2,2 GHz	8358 32c 2,6 GHz	6248R 24c 3.0 GHz	6248 20c 2,5 GHz
Lập bản đồ và sắp xếp	3.23 (32)	3.23 (32)	5.04 (24)	5.22 (20)
Đánh dấu trùng lặp	1.16 (13)	1.16 (13)	1.14 (13)	1.29 (13)
Tạo mục tiêu sắp xếp lại	0,47 (32)	0,46 (32)	0,16 (24)	0,42 (20)
Sắp xếp lại thao tác chèn và xóa	8.16 (1)	7.97 (1)	7.20 (1)	7.87 (1)
hiệu chuẩn lại cơ sở	2.06 (32)	2.07 (32)	2.41 (24)	2.30 (20)
haplotypercaller	8.01 (16)	7.96 (16)	8.06 (16)	8.25 (16)
GVCF kiểu gen	0,01 (32)	0,01 (32)	0,01 (24)	0,01 (20)
hiệu chuẩn lại biến thể	0.20 (1)	0.20 (1)	0.19 (1)	0.23 (1)
Áp dụng hiệu chỉnh lại biến thể	0.01 (1)	0.01 (1)	0.01 (1)	0.01 (1)
Tổng thời gian chạy (giờ)	23.32	23.07	24.23	25,61

Lưu ý : Số lượng lõi được sử dụng cho thử nghiệm được đặt trong ngoặc đơn.

Nhiều màn trình diễn mẫu – thông lượng

Một cách thông thường để chạy đường dẫn NGS là xử lý nhiều mẫu trên một nút điện toán và sử dụng nhiều nút điện toán để tối đa hóa thông lượng. Tuy nhiên, lần này các thử nghiệm được thực hiện trên một nút điện toán duy nhất do số lượng máy chủ khả dụng tại thời điểm này là có hạn.

Đường ống hiện tại gọi nhiều thao tác đường ống trong bước đầu tiên để giảm thiểu số lượng ghi tệp trung gian. Mặc dù điều này giúp tiết kiệm một ngày thời gian chạy và giảm đáng kể mức sử dụng bộ nhớ, nhưng chi phí gọi đường ống khá nặng. Do đó, điều này giới hạn số lượng xử lý mẫu đồng thời. Thông thường, một quá trình âm thầm thất bại khi không còn đủ tài nguyên để bắt đầu một quá trình bổ sung.

Như thể hiện trong Bảng 3 đối với thử nghiệm 8352Y, số lượng mẫu tối đa có thể được xử lý đồng thời là khoảng 14 mẫu. Mặc dù thử nghiệm 14 mẫu không được thực hiện, nhưng 14 mẫu có thể là số lượng mẫu tối đa có thể được xử lý cùng nhau vì hai đường ống dẫn không đạt trong thử nghiệm 16 mẫu. Nói cách khác, có thể đạt được thông lượng ~ 6 bộ gen mỗi ngày với 8352Y. Ngoài ra, 8358 hiển thị 2 quy trình không thành công khi 16 mẫu được xử lý đồng thời trong khi thông lượng đạt ~7 bộ gen mỗi ngày (Bảng 4).

Bảng 3. Kiểm tra thông lượng cho Intel ^® Xeon ^® Platinum 8352Y

bước	Thời gian chạy với số lượng mẫu khác nhau
Số lượng mẫu	1	2	4	số 8	12	16
Số lượng mẫu Không thành công	0	0	0	0	0	2
Lập bản đồ và sắp xếp	2,84	4,20	7.11	13,44	20,77	26,62
Đánh dấu trùng lặp	1.17	1.18	1,29	1,77	2,49	3,05
Tạo mục tiêu sắp xếp lại	0,46	0,51	0,52	0,77	1.09	1,25
Sắp xếp lại thao tác chèn và xóa	7,94	8.04	8.02	8,00	8,26	8.11
hiệu chuẩn lại cơ sở	2,00	2.16	2,83	4,41	6.04	7.20
haplotypercaller	8,00	7,93	9.10	9,24	9.31	9,26
GVCF kiểu gen	0,02	0,02	0,03	0,02	0,03	0,04
hiệu chuẩn lại biến thể	0,17	0,20	0,21	0,20	0,19	0,23
Áp dụng hiệu chỉnh lại biến thể	0,01	0,02	0,02	0,02	0,02	0,03
Tổng thời gian chạy (giờ)	22.60	24,26	29.12	37,89	48.20	55,78
Bộ gen mỗi ngày	1,06	1,98	3h30	5.07	5,98	6.02

Bảng 4. Kiểm tra thông lượng cho Intel ^® Xeon ^® Platinum 8358

bước	Thời gian chạy với số lượng mẫu khác nhau
Số lượng mẫu	1	số 8	12	14	16	1
Số lượng mẫu Không thành công	0	0	0	0	2	0
Lập bản đồ và sắp xếp	2,67	11,79	18,26	22,84	24,34	2,67
Đánh dấu trùng lặp	1.16	1,51	2.18	2,59	2,65	1.16
Tạo mục tiêu sắp xếp lại	0,43	0,70	0,96	1.17	1,15	0,43
Sắp xếp lại thao tác chèn và xóa	7,97	8,00	7,99	8h20	8.19	7,97
hiệu chuẩn lại cơ sở	1,94	4,05	5,65	6,47	6,56	1,94
haplotypercaller	8,00	8.21	8,22	8,24	8,25	8,00
GVCF kiểu gen	0,02	0,03	0,03	0,03	0,02	0,02
hiệu chuẩn lại biến thể	0,18	0,25	0,14	0,30	0,30	0,18
Áp dụng hiệu chỉnh lại biến thể	0,01	0,01	0,02	0,02	0,02	0,01
Tổng thời gian chạy (giờ)	22,37	34,55	43,44	49,86	51,49	22,37
Bộ gen mỗi ngày	1,07	5,56	6,63	6,74	6,53	1,07

Phần kết luận

Lĩnh vực phân tích dữ liệu NGS đã và đang phát triển nhanh chóng về tốc độ tăng trưởng dữ liệu và các biến thể dữ liệu. Phần lớn các ứng dụng nguồn mở trong phân tích dữ liệu NGS không thể tận dụng công nghệ máy gia tốc và không mở rộng tốt theo số lượng lõi. Đã đến lúc người dùng cần suy nghĩ về cách giải quyết vấn đề này. Một cách đơn giản để tránh vấn đề này là thực hiện song song hóa mức dữ liệu. Mặc dù quyết định đưa ra thời điểm phân chia dữ liệu là khá khó khăn, nhưng có thể thực hiện được bằng các can thiệp cẩn thận trong quy trình BWA-GATK hiện có mà không làm giảm sức mạnh thống kê với số lượng dữ liệu tuyệt đối. Nếu mỗi đoạn dữ liệu nhỏ hơn đi qua một đường ống riêng lẻ trên mỗi lõi và được hợp nhất ở cuối, thì có thể đạt được hiệu suất tốt hơn trên một mẫu đơn lẻ.

Tuy nhiên, Bộ xử lý có khả năng mở rộng Intel ^® Xeon ^® thế hệ thứ 3 , đặc biệt là 8352Y và 8358 là những lựa chọn tuyệt vời cho thông lượng phân tích gọi biến thể cao nhất và phân tích mẫu đơn.