Tổng quan
Mục đích của blog này là cung cấp thông tin hiệu suất có giá trị cho điểm chuẩn đường ống BWA-GATK với Giải pháp sẵn sàng của Dell EMC cho Bộ lưu trữ HPC BeeGFS . Thật không may, chúng tôi không thể thiết lập đủ các nút điện toán và bộ lưu trữ BeeGFS đủ lớn để so sánh với các kết quả hiệu suất trước đây được xuất bản cho bộ lưu trữ Lustre . Tuy nhiên, kết quả sẽ hữu ích để ước tính lượng tài nguyên tính toán cho một khối lượng công việc gọi biến thể nhất định.
Các cấu hình cụm thử nghiệm được tóm tắt trong Bảng 1.
Bảng 1 Cấu hình nút điện toán đã thử nghiệm
Dell EMC PowerEdge C6420 | |
CPU | 2x Xeon® Gold 6248 20 lõi 2,5 GHz (Cascade Lake) |
ĐẬP | 12x 16GB ở tốc độ 2933 MTps |
hệ điều hành | Bản phát hành Red Hat Enterprise Linux Server 7.4 (Maipo) |
kết nối | Mellanox EDR InfiniBand |
Hồ sơ hệ thống BIOS | Hiệu suất được tối ưu hóa |
Bộ xử lý logic | Tàn tật |
Công nghệ ảo hóa | Tàn tật |
BWA | 0.7.15-r1140 |
sambamba | 0.7.0 |
Samtools | 1.6 |
GATK | 3.6-0-g89b7209 |
Các nút điện toán đã thử nghiệm được kết nối với bộ lưu trữ BeeGFS thông qua các công tắc Mellanox EDR InfiniBand. Bộ lưu trữ BeeGFS được kết nối với một công tắc EDR cầu nối và cầu nối này được kết nối với một công tắc EDR bổ sung, nơi tất cả các nút điện toán đang giao tiếp. Cấu hình tóm tắt của bộ lưu trữ được liệt kê trong Bảng 2.
Bảng 2 Thông số kỹ thuật phần cứng và phần mềm của giải pháp BeeGFS
Thành phần | Sự chỉ rõ |
Máy chủ quản lý | 1 x Dell EMC PowerEdge R640 |
MDS | 2 x Dell EMC PowerEdge R740 |
máy chủ lưu trữ | 2 x Dell EMC PowerEdge R740 |
bộ vi xử lý | Máy chủ quản lý: Dual Intel Xeon Gold 5218
Máy chủ MDS và SS: Intel Xeon Gold 6230 kép |
Trí nhớ | Máy chủ quản lý: 12 x 8 GB 2666 MT/s DDR4 RDIMM
Máy chủ MDS và SS: 12 x 32 GB 2933 MT/s DDR4 RDIMM |
Đĩa cục bộ và bộ điều khiển RAID | Máy chủ quản lý: PERC H740P RAID tích hợp, bộ đệm NV 8GB, ổ cứng (HDD) 6x 300GB 15K SAS được định cấu hình trong RAID10
Máy chủ MDS và SS: RAID tích hợp PERC H330+, 2 ổ cứng SAS 300GB 15K được định cấu hình trong RAID1 cho HĐH |
InfiniBand HCA | Bộ điều hợp Mellanox ConnectX-6 HDR100 InfiniBand |
Bộ điều khiển lưu trữ bên ngoài | Trên mỗi MDS: 2 x HBA Dell 12 Gb/s SAS
Trên mỗi SS: 4 x HBA Dell 12 Gb/s SAS |
Thùng lưu trữ đối tượng | 4 x Dell EMC PowerVault ME4084 được điền đầy đủ với tổng số 336 ổ đĩa |
Bao vây lưu trữ siêu dữ liệu | 1 x Dell EMC PowerVault ME4024 với 24 ổ SSD |
bộ điều khiển RAID | Bộ điều khiển RAID song công trong vỏ ME4084 và ME4024 |
ổ cứng | Trên mỗi Vỏ ME4084: 84 x 8 TB 3,5 inch 7,2 K RPM NL SAS3
Bao vây ME4024: SSD 24 x 960 GB SAS3 |
Hệ điều hành | Bản phát hành CentOS Linux 8.1.1911 (Lõi) |
Phiên bản hạt nhân | 4.18.0-147.5.1.el8_1.x86_64 |
Phiên bản Mellanox OFED | 4.7-3.2.9.0 |
Phiên bản hệ thống tệp BeeGFS | 7.2 (thử nghiệm 2) |
Dữ liệu thử nghiệm được chọn từ một trong các Gen bạch kim của Illumina. ERR194161 đã được xử lý với Illumina HiSeq 2000 do Illumina gửi và có thể được lấy từ EMBL-EBI . Định danh DNA của cá nhân này là NA12878. Mô tả dữ liệu từ trang web được liên kết cho thấy rằng mẫu này có phạm vi phủ sóng >30x và thực tế nó đạt tới ~53x.
Đánh giá hiệu suất
Hiệu suất nhiều mẫu/nhiều nút
Một cách điển hình để chạy đường dẫn NGS là xử lý nhiều mẫu trên một nút điện toán và sử dụng nhiều nút điện toán để tối đa hóa thông lượng. Số lượng nút điện toán được sử dụng cho các thử nghiệm là tám nút điện toán C6420 và số lượng mẫu trên mỗi nút là bảy mẫu. Do đó, tối đa 56 mẫu được xử lý đồng thời để ước tính số lượng bộ gen tối đa mỗi ngày mà không bị lỗi công việc.
Như được hiển thị trong Hình 1, nút điện toán C6420 đơn lẻ có thể xử lý 3,69 trong số 50 lần toàn bộ bộ gen của con người mỗi ngày khi 7 mẫu được xử lý cùng nhau. Đối với mỗi mẫu, 5 lõi và bộ nhớ 20 GB được phân bổ.
Hình 1 Các thử nghiệm thông lượng với tối đa 8x C6420 với BeeGFS
56 trên 50x toàn bộ bộ gen người có thể được xử lý với 8 trong số các nút điện toán C6420 trong ~54 giờ. Nói cách khác, hiệu suất của cấu hình thử nghiệm tóm tắt là 25,11 bộ gen mỗi ngày cho toàn bộ bộ gen người với độ bao phủ 50 lần.
Phần kết luận
Khi kích thước dữ liệu của WGS không ngừng tăng lên. Kích thước trung bình hiện tại của WGS là khoảng 55x. Con số này lớn hơn gấp 5 lần so với một WGS thông thường cách đây 4 năm khi chúng tôi bắt đầu định chuẩn đường dẫn BWA-GATK. Kích thước dữ liệu ngày càng tăng không làm quá tải dung lượng lưu trữ vì hầu hết các ứng dụng trong đường ống cũng bị giới hạn bởi tốc độ xung nhịp của CPU. Do đó, đường ống chạy lâu hơn với kích thước dữ liệu lớn hơn thay vì tạo ra các IO nặng hơn.
Tuy nhiên, nhiều tệp tạm thời được tạo ra trong quá trình này do dữ liệu lớn hơn cần được xử lý song song và số lượng tệp tạm thời được mở đồng thời tăng lên này sẽ làm cạn kiệt giới hạn tệp mở trong hệ điều hành Linux. Một trong những ứng dụng không thể hoàn thành âm thầm bằng cách đạt đến giới hạn số lượng tệp đang mở. Một giải pháp đơn giản là tăng giới hạn lên >150K.
Kết quả ở Hình 1 cho thấy các bài kiểm tra thông lượng chưa đạt đến công suất tối đa của hệ thống. Vì không có bất kỳ dấu hiệu chậm lại đáng kể nào khi thêm nhiều mẫu hơn, nên có thể xử lý nhiều hơn 7 mẫu nếu các nút tính toán được thiết lập với bộ nhớ lớn hơn. Nhìn chung, bộ lưu trữ BeeGFS là một bộ lưu trữ đầu phù hợp để xử lý dữ liệu NGS.
Bài viết mới cập nhật
Máy chủ Dell PowerEdge: Hiệu suất và hiệu quả năng lượng vô song
Máy chủ Dell PowerEdge R470, R670 và R770 mang lại hiệu ...
Tăng cường hiệu suất đường ống AI với cơ sở hạ tầng PowerScale tiên tiến, tốc độ cao
Bản cập nhật mới nhất của PowerScale cho phép tối ưu ...
Tăng tốc suy luận AI với NVIDIA NIM trên nền tảng đám mây APEX
Tăng tốc suy luận AI với Dell APEX Cloud Platform và ...
Tổng quan về danh sách kiểm soát truy cập OneFS
Như chúng ta đã biết, khi người dùng truy cập dữ ...