Nghiên cứu hiệu suất với Cascade Lake cho các ứng dụng Genomics

Tổng quan

Bộ xử lý Intel ® Xeon ® Scalable thế hệ thứ hai là sự kế thừa của Skylake và cung cấp tới 56 lõi với một bộ xử lý duy nhất (Cascade Lake AP 9282). Ngoài việc Intel cung cấp nhiều lõi hơn, còn có hỗ trợ Optane, DRAM nhanh hơn (cấu hình DDR4-2933 trong 1 DPC) và nhiều cấu hình DRAM hơn (1TB, 2TB và 4TB). Rõ ràng là người tiêu dùng thường mong đợi hiệu suất cao hơn, hiệu quả tốt hơn và tiêu thụ điện năng thấp hơn từ bộ xử lý mới hơn. Tuy nhiên, một số khách hàng tìm kiếm những cải tiến không rõ ràng như hỗ trợ hướng dẫn mới , tối ưu hóa hệ sinh thái theo lớp, hỗ trợ cho công nghệ mới hoặc hướng sản phẩm mới. Cascade Lake xây dựng trên nền tảng của Skylake, tập trung vào các đặc điểm phụ và các cải tiến không quá rõ ràng.
Thông thường, các ứng dụng trong phân tích dữ liệu Giải trình tự thế hệ tiếp theo (NGS) là nguồn mở và sẽ không được cập nhật nhanh khi công nghệ mới xuất hiện. Điều này có nghĩa là những cải tiến đi kèm với Cascade Lake ít có khả năng ảnh hưởng đến hiệu suất của các ứng dụng NGS.
Blog này minh họa cách các CPU Cascade Lake hoạt động trên hai khối lượng công việc bộ gen khác nhau, Gọi biến thể và lắp ráp De Novo .
Các cấu hình thử nghiệm chi tiết cho cách gọi biến thể và lắp ráp De Novo được liệt kê trong Bảng 1 .

 

Bảng 1 Cấu hình thử nghiệm để gọi biến thể và lắp ráp De Novo

  Gọi biến thể Dell PowerEdge R640 Dell PowerEdge R940
De Novo lắp ráp
hồ nước hồ thác hồ nước hồ thác
CPU 2×6154 2×6148 2×6152 2×6138 2×6248 2×6252 2×6230 4×8168 4x8280M
Tần số cơ sở (GHz) 3.0 2.4 2.1 2.0 2,5 2.1 2.1 2.7 2.7
Số lõi 18 20 22 20 20 24 20 24 28
TDP (W) 200 150 140 140 150 125 125 205 205
Trí nhớ 24x 16GB DDR4-2666MHz, 2 DPC 12x32GB DDR4-2933MHz, 1 DPC 48x 32GB DDR4-2666MHz, 2 DPC 24x 64GB DDR4-2933MHz, 1 DPC
Kho 10x 1,2TB SAS 12 Gbps, 10K trong RAID 0 18x 1,2TB SAS 12 Gbps, 10K ở RAID 0
sinh học hệ thống 2.1.3
hạt nhân 3.10.0-957.el7.x86_64
hệ điều hành Bản phát hành Red Hat Enterprise Linux Server 7.6 (Maipo)
Trình tự đọc ERR194161 , 50x Toàn bộ bộ gen người cho cách gọi biến thể và ERR318658 , 3,2 tỷ lượt đọc toàn bộ bộ gen người cho tổ hợp De Novo

 

Gọi biến thể

 Đường ống BWA-GATK
Như được hiển thị trong Hình 1 , mỗi bước hoạt động khá khác nhau trên mỗi CPU đã được thử nghiệm và sự khác biệt về hiệu suất giữa các bước khác nhau với các CPU được thử nghiệm nằm trong khoảng từ 0,61% đến 46,34%. Tuy nhiên, sự khác biệt về thời gian chạy tổng thể không đáng chú ý lắm ( Bảng 2 ).

Hình 1 Thời gian chạy của từng bước trong quy trình Gọi biến thể

Cascade Lake 6248 hoạt động tốt hơn ở hầu hết các bước và trong thời gian chạy tổng thể tốt nhất, nhưng nó hoạt động kém ở bước “Đánh dấu trùng lặp”, chạy chậm hơn 27% so với Cascade Lake 6252. Không rõ lý do tại sao 6248 hoạt động kém ở bước này mặc dù các thử nghiệm lặp đi lặp lại cho thấy kết quả nhất quán. Với hành vi không nhất quán này qua các bước khác nhau, việc xem xét hiệu suất tổng thể sẽ hợp lý hơn khi chọn CPU phù hợp cho quy trình làm việc.

Bảng 2 So sánh tổng thời gian chạy giữa các CPU Skylake và Cascade Lake

CPU Giá bán Thông số kỹ thuật Tổng thời gian chạy BWA-GATK (giờ)
hồ nước 6148 $3.072,00 – $3078,00 2,4 GHz, 20 lõi, 150W 24,26
6154 $3,543.00 3.0 GHz, 18 lõi, 200W 23,47
6152 $3.655,00 – $3661,00 2,1 GHz, 22 lõi, 140W 24,58
6138 $2.612,00 – $2618,00 2.0 GHz, 20 lõi, 125W 24,83
hồ thác 6248 $3.072,00 – $3.078,00 2,5 GHz, 20 lõi, 150W 23,36
6252 $3.655,00 – $3.662,00 2.1 GHz, 24 nhân, 150W 23,82
6230 $1.894,00 – $1.900,00 2,1 GHz, 20 lõi, 125W 23,68

Mặc dù hiệu suất tổng thể tốt nhất có thể đạt được với Cascade Lake 6248, nhưng Cascade Lake 6230 không phải là lựa chọn tồi cho những khách hàng có nguồn điện hạn chế. Do các kết quả hiển thị ở đây dựa trên một thử nghiệm mẫu duy nhất nên khó có thể kết luận liệu Cascade Lake 6230 và 6248 có tốt hơn Cascade Lake 6252 hay không nếu không có kết quả của các thử nghiệm thông lượng. Tuy nhiên, khi xem xét về thông lượng, Cascade Lake 6252 có thể vượt trội hơn trong các bài kiểm tra thông lượng do số lượng lõi cao hơn. Nó có thể chứa nhiều mẫu hơn để xử lý đồng thời. Tuy nhiên, Cascade Lake 6230 có thể là lựa chọn tiết kiệm chi phí nhất trong số các CPU được thử nghiệm.

hội De Novo

Đối với De Novo Assembly, Skylake 8168 và Cascade Lake 8280M được so sánh với cùng dung lượng bộ nhớ hệ thống, 1,5 TB trong R940. Lý do chính mà Cascade Lake 8280M được chọn là vì số lượng lõi của nó cao hơn và vì nó hỗ trợ nhiều bộ nhớ hơn, điều này có lợi là kích thước dữ liệu cho tổ hợp De Novo tiếp tục lớn hơn theo thời gian.

SOAPdenovo2

Mức tăng hiệu suất tối đa bằng cách nâng cấp từ Skylake 8168 lên Cascade Lake 8280M là khoảng 1% như thể hiện trong 92 lõi của Skylake 8168 so với 108 lõi của Cascade Lake 8280M so sánh từ Hình 2 . Đối với thử nghiệm, một lõi trên mỗi CPU được để lại cho HĐH và các mục đích sử dụng vệ sinh khác. Mặc dù kết quả cho thấy Cascade Lake 8280M chậm hơn trung bình 2% với số lượng lõi khác nhau được sử dụng, so sánh giữa 92 lõi của 8168 và 108 lõi của 8280M đã xác nhận rằng Cascade Lake 8280M hoạt động tốt hơn một chút so với Skylake 8168.

Hình 2 Biểu đồ thời gian chạy và mức tiêu thụ bộ nhớ cao nhất cho SOAPdenovo2 với số lượng lõi khác nhau

SOAPdenovo2 dường như bị giới hạn băng thông bộ nhớ. Mức tiêu thụ bộ nhớ cao nhất không ngừng tăng lên khi nhiều lõi hơn được sử dụng cho một quy trình với cấu hình 1 DPC trên CPU Cascade Lake trong khi mức tiêu thụ bộ nhớ cao nhất đang giảm với cấu hình 2 DPC trên CPU Skylake. Như được hiển thị trong Hình 3 trong blog đã xuất bản trước đây của chúng tôi , băng thông bộ nhớ có thể khác nhau 11% giữa cấu hình 1 DPC và 2 DPC với cùng loại DIMM xếp hạng kép. Để có kết luận chính xác hơn, cần có các thử nghiệm tiếp theo với cấu hình 2 DPC (DDR4-2666) trên CPU Cascade Lake 8280M.

quân bích

Cascade 8280M hoạt động tốt hơn trong các thử nghiệm với số lượng lõi khác nhau và hiệu suất tốt hơn 5% có thể đạt được khi so sánh giữa CPU và CPU (so sánh giữa 8168 92 lõi và 8280M 108 lõi) như trong Hình 3 . Các kiểu tiêu thụ bộ nhớ cao nhất gần như giống nhau giữa hai CPU; tuy nhiên, Cascade Lake 8280M với cấu hình 1 DPC cho thấy mức tiêu thụ bộ nhớ cao hơn so với Skylake 8168 với cấu hình 2 DPC. Mặc dù băng thông bộ nhớ dường như không quá quan trọng như chúng ta có thể thấy từ các thử nghiệm SOAPdenovo2, nhưng cấu hình 2 DPC với DDR4-2666MHz có thể là cấu hình tốt hơn cho De Novo Assembly.

Hình 3 Biểu đồ thời gian chạy và mức tiêu thụ bộ nhớ cao nhất cho SPAdes với số lượng lõi khác nhau

Phần kết luận

Nhìn chung, CPU Cascade Lake được thử nghiệm ở đây không có hiệu suất vượt trội so với CPU Skylake đối với khối lượng công việc Genomics như Gọi biến thể và Lắp ráp De Novo . Hiệu suất tương tự đã được mong đợi phần nào vì CPU Cascade Lake dựa trên CPU Skylake và nhằm mục đích cải thiện chức năng hỗ trợ hơn là cải thiện hiệu suất thuần túy. Tuy nhiên, Cascade Lake cung cấp nhiều lựa chọn hơn so với Skylake về TDP thấp hơn và số lượng lõi cao hơn cho các loại khối lượng công việc Gọi biến thể. Đáng chú ý là cấu hình 1 DPC với DDR4 2933 MHz DIMMS không cải thiện hiệu suất cho SOAPdenovo2. Đối với De NovoCác ứng dụng lắp ráp, băng thông bộ nhớ lớn hơn có vẻ tốt hơn. Không có lợi ích gì khi nâng cấp bộ nhớ lên DDR4 2933MHz trong cấu hình 1 DPC cho CPU Cascade Lake. Nên thiết lập cấu hình 2 DPC với DDR4 2666MHz, đặc biệt cho các ứng dụng lắp ráp De Novo .