Các giải pháp Dell EMC Sẵn sàng cho Khoa học Đời sống HPC: Thử nghiệm hiệu suất đường ống BWA-GATK với BeeGFS

Tổng quan

Mục đích của blog này là cung cấp thông tin hiệu suất có giá trị cho điểm chuẩn đường ống BWA-GATK với Giải pháp sẵn sàng của Dell EMC cho Bộ lưu trữ HPC BeeGFS . Thật không may, chúng tôi không thể thiết lập đủ các nút điện toán và bộ lưu trữ BeeGFS đủ lớn để so sánh với các kết quả hiệu suất trước đây được xuất bản cho bộ lưu trữ Lustre . Tuy nhiên, kết quả sẽ hữu ích để ước tính lượng tài nguyên tính toán cho một khối lượng công việc gọi biến thể nhất định.

Các cấu hình cụm thử nghiệm được tóm tắt trong Bảng 1.
 

Bảng 1 Cấu hình nút điện toán đã thử nghiệm

Dell EMC PowerEdge C6420
CPU 2x Xeon® Gold 6248 20 lõi 2,5 GHz (Cascade Lake)
ĐẬP 12x 16GB ở tốc độ 2933 MTps
hệ điều hành Bản phát hành Red Hat Enterprise Linux Server 7.4 (Maipo)
kết nối Mellanox EDR InfiniBand
Hồ sơ hệ thống BIOS Hiệu suất được tối ưu hóa
Bộ xử lý logic Tàn tật
Công nghệ ảo hóa Tàn tật
BWA 0.7.15-r1140
sambamba 0.7.0
Samtools 1.6
GATK 3.6-0-g89b7209

Các nút điện toán đã thử nghiệm được kết nối với bộ lưu trữ BeeGFS thông qua các công tắc Mellanox EDR InfiniBand. Bộ lưu trữ BeeGFS được kết nối với một công tắc EDR cầu nối và cầu nối này được kết nối với một công tắc EDR bổ sung, nơi tất cả các nút điện toán đang giao tiếp. Cấu hình tóm tắt của bộ lưu trữ được liệt kê trong Bảng 2.

Bảng 2 Thông số kỹ thuật phần cứng và phần mềm của giải pháp BeeGFS

Thành phần Sự chỉ rõ
Máy chủ quản lý 1 x Dell EMC PowerEdge R640
MDS 2 x Dell EMC PowerEdge R740
máy chủ lưu trữ 2 x Dell EMC PowerEdge R740
bộ vi xử lý Máy chủ quản lý: Dual Intel Xeon Gold 5218

Máy chủ MDS và SS: Intel Xeon Gold 6230 kép

Trí nhớ Máy chủ quản lý: 12 x 8 GB 2666 MT/s DDR4 RDIMM

Máy chủ MDS và SS: 12 x 32 GB 2933 MT/s DDR4 RDIMM

Đĩa cục bộ và bộ điều khiển RAID Máy chủ quản lý: PERC H740P RAID tích hợp, bộ đệm NV 8GB, ổ cứng (HDD) 6x 300GB 15K SAS được định cấu hình trong RAID10

Máy chủ MDS và SS: RAID tích hợp PERC H330+, 2 ổ cứng SAS 300GB 15K được định cấu hình trong RAID1 cho HĐH

InfiniBand HCA Bộ điều hợp Mellanox ConnectX-6 HDR100 InfiniBand
Bộ điều khiển lưu trữ bên ngoài Trên mỗi MDS: 2 x HBA Dell 12 Gb/s SAS

Trên mỗi SS: 4 x HBA Dell 12 Gb/s SAS

Thùng lưu trữ đối tượng 4 x Dell EMC PowerVault ME4084 được điền đầy đủ với tổng số 336 ổ đĩa
Bao vây lưu trữ siêu dữ liệu 1 x Dell EMC PowerVault ME4024 với 24 ổ SSD
bộ điều khiển RAID Bộ điều khiển RAID song công trong vỏ ME4084 và ME4024
ổ cứng Trên mỗi Vỏ ME4084: 84 x 8 TB 3,5 inch 7,2 K RPM NL SAS3

Bao vây ME4024: SSD 24 x 960 GB SAS3

Hệ điều hành Bản phát hành CentOS Linux 8.1.1911 (Lõi)
Phiên bản hạt nhân 4.18.0-147.5.1.el8_1.x86_64
Phiên bản Mellanox OFED 4.7-3.2.9.0
Phiên bản hệ thống tệp BeeGFS 7.2 (thử nghiệm 2)

Dữ liệu thử nghiệm được chọn từ một trong các Gen bạch kim của Illumina. ERR194161 đã được xử lý với Illumina HiSeq 2000 do Illumina gửi và có thể được lấy từ EMBL-EBI . Định danh DNA của cá nhân này là NA12878. Mô tả dữ liệu từ trang web được liên kết cho thấy rằng mẫu này có phạm vi phủ sóng >30x và thực tế nó đạt tới ~53x.

Đánh giá hiệu suất

Hiệu suất nhiều mẫu/nhiều nút

Một cách điển hình để chạy đường dẫn NGS là xử lý nhiều mẫu trên một nút điện toán và sử dụng nhiều nút điện toán để tối đa hóa thông lượng. Số lượng nút điện toán được sử dụng cho các thử nghiệm là tám nút điện toán C6420 và số lượng mẫu trên mỗi nút là bảy mẫu. Do đó, tối đa 56 mẫu được xử lý đồng thời để ước tính số lượng bộ gen tối đa mỗi ngày mà không bị lỗi công việc.

Như được hiển thị trong Hình 1, nút điện toán C6420 đơn lẻ có thể xử lý 3,69 trong số 50 lần toàn bộ bộ gen của con người mỗi ngày khi 7 mẫu được xử lý cùng nhau. Đối với mỗi mẫu, 5 lõi và bộ nhớ 20 GB được phân bổ.

Hình 1 Các thử nghiệm thông lượng với tối đa 8x C6420 với BeeGFS

56 trên 50x toàn bộ bộ gen người có thể được xử lý với 8 trong số các nút điện toán C6420 trong ~54 giờ. Nói cách khác, hiệu suất của cấu hình thử nghiệm tóm tắt là 25,11 bộ gen mỗi ngày cho toàn bộ bộ gen người với độ bao phủ 50 lần.

Phần kết luận

Khi kích thước dữ liệu của WGS không ngừng tăng lên. Kích thước trung bình hiện tại của WGS là khoảng 55x. Con số này lớn hơn gấp 5 lần so với một WGS thông thường cách đây 4 năm khi chúng tôi bắt đầu định chuẩn đường dẫn BWA-GATK. Kích thước dữ liệu ngày càng tăng không làm quá tải dung lượng lưu trữ vì hầu hết các ứng dụng trong đường ống cũng bị giới hạn bởi tốc độ xung nhịp của CPU. Do đó, đường ống chạy lâu hơn với kích thước dữ liệu lớn hơn thay vì tạo ra các IO nặng hơn.

Tuy nhiên, nhiều tệp tạm thời được tạo ra trong quá trình này do dữ liệu lớn hơn cần được xử lý song song và số lượng tệp tạm thời được mở đồng thời tăng lên này sẽ làm cạn kiệt giới hạn tệp mở trong hệ điều hành Linux. Một trong những ứng dụng không thể hoàn thành âm thầm bằng cách đạt đến giới hạn số lượng tệp đang mở. Một giải pháp đơn giản là tăng giới hạn lên >150K.

Kết quả ở Hình 1 cho thấy các bài kiểm tra thông lượng chưa đạt đến công suất tối đa của hệ thống. Vì không có bất kỳ dấu hiệu chậm lại đáng kể nào khi thêm nhiều mẫu hơn, nên có thể xử lý nhiều hơn 7 mẫu nếu các nút tính toán được thiết lập với bộ nhớ lớn hơn. Nhìn chung, bộ lưu trữ BeeGFS là một bộ lưu trữ đầu phù hợp để xử lý dữ liệu NGS.