Thử nghiệm trình biên dịch chương trình SPAdes với Intel® Optane™ DC P4800X và Công nghệ Ổ đĩa Bộ nhớ Intel®

Tổng quan


Chúng tôi đã tìm kiếm một công nghệ mới giúp De Novo Assembly có giá phải chăng hơn. Mặc dù chúng tôi đã mô tả hai ứng dụng De Novo Assembly; SOAPdenovo2 và SPAdes[1] với Dell EMC PowerEdge R940, hệ thống R940 này để phân tích dữ liệu trình tự siêu sâu có thể khá tốn kém do yêu cầu bộ nhớ lớn và cho đến nay vẫn chưa có giải pháp thay thế nào có hiệu suất chấp nhận được. Công nghệ Ổ đĩa Bộ nhớ Intel® (IMDT) là một trong những công nghệ mới cho phép chúng tôi xây dựng một giải pháp tiết kiệm chi phí hơn cho các vấn đề đòi hỏi bộ nhớ lớn. IMDT tích hợp Ổ cứng thể rắn (SSD) Intel® Optane™ vào hệ thống con bộ nhớ một cách minh bạch và tận dụng lợi ích kinh tế của SSD như trong Hình 1. Nó cho phép bộ nhớ hệ thống được lắp ráp từ DRAM và SSD Intel® dựa trên PCIe có độ trễ thấp và SSD Intel® dựa trên PCIe có độ trễ thấp.
SLN316587_en_US__1Hình1_IMDT

IMDT được thiết kế cho khối lượng công việc phân tích trong bộ nhớ và đồng thời cao, đồng thời được tối ưu hóa để mở rộng bộ nhớ hệ thống lên tới 8 lần so với dung lượng DRAM đã cài đặt. Nói cách khác, một hệ thống chỉ cần cài đặt RAM 382GB để ánh xạ bộ nhớ Optane 3TB. Hơn nữa, IMDT có độ trễ cực thấp và hiệu suất gần bằng DRAM, đồng thời nó luôn cung cấp chất lượng dịch vụ SDM đáng tin cậy.
Bảng 1 cho thấy tổng quan về cấu hình cho hai hệ thống mà chúng tôi đã sử dụng trong nghiên cứu điểm chuẩn hiệu suất. R940 4 bộ xử lý được thiết lập với DRAM 1,5 TB trong khi R740xd 2 bộ xử lý có DRAM 382 GB và bộ nhớ Optane 3 TB với IMDT. Các thành phần còn lại được cấu hình tương tự.

Bảng 1 Cấu hình Dell EMC PowerEdge R940/DRAM và R740xd/Optane
Dell EMC PowerEdge R940 Dell EMC PowerEdge R740xd
CPU 4x CPU Intel® Xeon® Platinum 8168 , 24c @ 2.70GHz 2x CPU Intel® Xeon® Platinum 8168 , 24c @ 2.70GHz
ĐẬP 48x 32GB @2666 MHz 24x 16GB @ 2666 MHz với 3TB SDM
hệ điều hành RHEEL 7.4 RHEL 7.4 RHEL 7.4
hạt nhân 3.10.0-693.el7.x86_64 3.10.0-693.21.1.el7_lustre.x86_64
Hồ sơ hệ thống BIOS Tối ưu hóa hiệu suất Tối ưu hóa hiệu suất Tối ưu hóa hiệu suất SDM/Mặc định
Bộ xử lý logic Đã bật Đã bật
Công nghệ ảo hóa Đã bật Đã bật
Phiên bản SPAdes 3.10.1 3.10.1
Phiên bản Python 2.7.13 2.7.13

Dữ liệu được sử dụng cho các thử nghiệm là dữ liệu đọc theo cặp, ERR318658, có thể tải xuống từ Kho lưu trữ Nucleotide Châu Âu (ENA). Việc đọc được tạo ra từ mẫu máu như một biện pháp kiểm soát để xác định các thay đổi soma trong khối u đại trực tràng nguyên phát và di căn. Dữ liệu này chứa 3,2 tỷ lượt đọc (BR) với độ dài đọc là 101 nucleotide.

Đánh giá hiệu suất


Trong so sánh điểm chuẩn được trình bày ở đây, SPAdes chạy ba bộ đồ thị de Bruijn với 21-mer, 33-mer và 55-mer liên tiếp. Siêu phân luồng được bật cả R940 và R740xd vì IMDT được tối ưu hóa để sử dụng khi bật siêu phân luồng. Số lượng lõi được thử nghiệm ở đây là 28, 46 và 92 lõi. Mặc dù cả hai hệ thống đều được bật siêu phân luồng, nhưng 92 lõi thấp hơn số lõi vật lý trong R940, nhưng nó gần gấp đôi số lõi vật lý trên R740xd. Điều này làm tăng khoảng cách thời gian chạy giữa R940/DRAM và R740xd/Optane đối với thử nghiệm 92 lõi như thể hiện trong Hình 2 mặc dù chỉ có thời gian chạy bổ sung thấp đáng ngạc nhiên.

SLN316587_en_US__2Hình2_IMDT

Nhìn chung, hệ thống R740xd/Optane có tỷ lệ tốt ngay cả khi sử dụng siêu phân luồng. Sự khác biệt về thời gian chạy là không đáng kể khi số lượng lõi vật lý được sử dụng tương tự nhau và mức độ song song cao được sử dụng như thể hiện trong các thử nghiệm 28 lõi và 46 lõi.

Phần kết luận


R940 với 1,5 TB DRAM có giá cao hơn gấp đôi so với R740xd/Optane với 382 GB DRAM và 3 TB bộ nhớ khả dụng thông qua Optane và IMDT. Như vậy, với R740xd với Optane/IMDT thì chi phí giảm đáng kể, trong khi hiệu suất vẫn ở mức hợp lý. Thật vậy, thời gian chạy chưa đầy 10 ngày cho 3,2 tỷ lượt đọc là khá ấn tượng. Đây là một hệ thống lắp ráp De Novo thay thế tốt cho những khách hàng có ngân sách hạn chế.