GROMACS — với Ice Lake trên Máy chủ Dell EMC PowerEdge

Bộ xử lý Intel Xeon® có khả năng mở rộng thế hệ thứ 3 (mã kiến ​​trúc có tên Ice Lake ) là sản phẩm kế thừa của Intel cho Cascade Lake. Các tính năng mới bao gồm tối đa 40 lõi cho mỗi bộ xử lý, tám kênh bộ nhớ hỗ trợ tốc độ bộ nhớ 3200 MT/s và PCIe Gen4.

Phòng thí nghiệm đổi mới HPC và AI tại Dell EMC đã có quyền truy cập vào một số hệ thống và blog này trình bày kết quả nghiên cứu điểm chuẩn ban đầu của chúng tôi về một ứng dụng động lực phân tử nguồn mở phổ biến – GROningen MAchine for Chemical Simulators ( GROMACS ).

Mô phỏng động lực phân tử (MD) là một kỹ thuật phổ biến để nghiên cứu hành vi nguyên tử của bất kỳ hệ thống phân tử nào. Nó thực hiện phân tích quỹ đạo của các nguyên tử và phân tử trong đó động lực học của hệ thống tiến triển theo thời gian. 

Tại HPC và Phòng thí nghiệm đổi mới AI, chúng tôi đã tiến hành nghiên cứu về SARS-COV-2 trong đó các ứng dụng như GROMACS đã giúp các nhà nghiên cứu xác định các phân tử liên kết với protein tăng đột biến của vi rút và ngăn chặn nó lây nhiễm vào tế bào người. Các trường hợp sử dụng khác của mô phỏng MD trong sinh học y học là thiết kế thuốc lặp đi lặp lại thông qua dự đoán việc kết nối phối tử protein (trong trường hợp này thường là mô hình hóa một loại thuốc để nhắm mục tiêu tương tác protein).

Tổng quan về GROMACS

GROMACS là gói linh hoạt để thực hiện mô phỏng MD, chẳng hạn như mô phỏng phương trình chuyển động Newton cho các hệ thống có hàng trăm đến hàng triệu hạt. GROMACS có thể chạy trên CPU và GPU ở cấu hình một nút và nhiều nút (cụm). Đây là một phần mềm mã nguồn mở miễn phí được phát hành theo Giấy phép Công cộng GNU (GPL). Hãy xem trang này để biết thêm chi tiết về GROMACS.

Cấu hình phần cứng và phần mềm

Bảng 1: Chi tiết về thử nghiệm phần cứng và phần mềm

 

 

Thành phần

Máy chủ Dell EMC PowerEdge R750 Máy chủ Dell EMC PowerEdge R750 Máy chủ Dell EMC PowerEdge C6520 Máy chủ Dell EMC PowerEdge C6520 Máy chủ Dell EMC PowerEdge C6420 Máy chủ Dell EMC PowerEdge C6420
Mã hàng Xeon 8380 Xeon 8358 Xeon 8352Y Xeon 6330 Xeon 8280 Xeon 6252
Lõi/ổ cắm 40 32 32 28 28 24
Tần số cơ sở  2,30 GHz 2,60GHz 2,20 GHz 2,00 GHz 2,70 GHz 2,10 – GHz
TDP 270 W 250W 205 W 205 W 205 W 150 W
Bộ nhớ đệm L3 60 triệu 48M 48M 42M 38,5M 37,75M
Hệ điều hành Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64
Ký ức 16 GB x 16 (2Rx8) 3200 MT/s 16 GB x 12 (2Rx8)

2933 tấn/giây

BIOS/CPLD 1.1.2/1.0.1
Kết nối NVIDIA Mellanox HDR NVIDIA Mellanox HDR100
Trình biên dịch Studio song song Intel 2020 (cập nhật 4)
GROMACS 2021.1

Bộ dữ liệu được sử dụng để phân tích hiệu suất

Bảng 2: Mô tả các bộ dữ liệu được sử dụng để phân tích hiệu suất

Bộ dữ liệu/Liên kết tải xuống Sự miêu tả Tĩnh điện nguyên tử Kích thước hệ thống
Nước  Chuyển động của nước

Ví dụ này nhằm mô phỏng quá trình chuyển động của nhiều phân tử nước trong từng không gian và nhiệt độ.

 

Hạt lưới Ewald (PME)

 

1536K bé nhỏ
3072K Lớn
HecBioSim Ví dụ này là để mô phỏng-

Hệ thống nguyên tử 1,4M – Một cặp bộ điều chỉnh hEGFR 1IVO và 1IVO

Hệ thống nguyên tử 3M –

Một cặp tetramer hEGFR 1IVO và 1IVO

 

 

Hạt lưới Ewald (PME)

 

1,5 triệu Bé nhỏ
3M Lớn
Prace  – Lignocellulose Ví dụ này là để mô phỏng lignocellulose – tpr được lấy từ trang web PRACE

 

Trường phản ứng (rf)

 

3M Lớn

Chi tiết biên soạn

Chúng tôi đã biên soạn GROMACS từ nguồn (phiên bản 2021.1) bằng Trình biên dịch Intel 2020 Update 5 để tận dụng tối ưu hóa AVX2 và AVX512 cũng như thư viện Intel MKL FFT. Phiên bản mới của GROMACS có hiệu suất tăng đáng kể nhờ những cải tiến trong thuật toán song song hóa của nó. Hệ thống xây dựng GROMACS và công cụ gmx mdrun có trí thông minh tích hợp và có thể định cấu hình để phát hiện phần cứng của bạn và sử dụng nó một cách hiệu quả.

Mục tiêu của việc so sánh điểm chuẩn

Mục tiêu của chúng tôi là định lượng hiệu suất của GROMACS bằng các trường hợp thử nghiệm khác nhau, như đánh giá hiệu suất trên các bộ xử lý Ice Lake khác nhau như được liệt kê trong Bảng 1, sau đó chúng tôi so sánh Xeon có thể mở rộng thế hệ thứ 2  thứ 3 ( Cascade Lake vs Ice Lake) và cuối cùng chúng tôi so sánh khả năng mở rộng đa nút với tính năng siêu phân luồng được bật và tắt.

Để đánh giá kết quả của tập dữ liệu bằng số liệu thích hợp, chúng tôi đã thêm các cờ trình biên dịch cấp cao liên quan, cân bằng tải trường tĩnh điện (như PME, v.v.), được thử nghiệm với nhiều cấp bậc, xếp hạng PME riêng biệt, thay đổi các giá trị danh sách nstlist khác nhau và tạo mô hình cho chúng tôi. ứng dụng (GROMACS).

Thang thời gian điển hình của hệ thống mô phỏng theo thứ tự micro giây (µs) hoặc nano giây (ns). Chúng tôi đo hiệu suất mô phỏng của tập dữ liệu theo nano giây mỗi ngày (ns/ngày).

Phân tích hiệu suất trên một nút

Hình 1(a): Hiệu suất nút đơn của Water 1536K và Water 3072K trên mẫu bộ xử lý Ice Lake

Hình 1(b): Hiệu suất nút đơn của Lignocellulose 3M trên mẫu bộ xử lý Ice Lake

Hình 1(c): Hiệu suất nút đơn của HecBioSim 1.4M và HecBioSim 3M trên mẫu bộ xử lý Ice Lake

Hình 1 (a), (b) và (c) hiển thị các phân tích hiệu suất nút đơn cho ba bộ dữ liệu được đề cập trong Bảng 2 với bốn mô hình bộ xử lý có sẵn để đánh giá GROMACS.

Hình 2: Hiệu suất tương đối của GROMACS trên các bộ dữ liệu với Mô hình bộ xử lý Intel Ice Lake

Để dễ so sánh giữa các bộ dữ liệu khác nhau, hiệu suất tương đối của mô hình bộ xử lý đã được đưa vào một biểu đồ. Tuy nhiên, điều đáng lưu ý là mỗi tập dữ liệu hoạt động riêng lẻ khi xem xét hiệu suất, vì mỗi tập dữ liệu sử dụng các tệp đầu vào cấu trúc liên kết phân tử (tpr) và các tệp cấu hình khác nhau.

Hiệu suất của tập dữ liệu riêng lẻ được đề cập lần lượt trong Hình 1(a), 1(b) và 1(c).

Hình 2 cho thấy việc tăng số lượng lõi trong mô hình bộ xử lý sẽ làm tăng hiệu suất dựa trên tập dữ liệu được sử dụng. Ở đây, chúng tôi nhận thấy rằng bộ dữ liệu nhỏ hơn (nước 1536K và HecBioSim 1400K) có nhiều lợi thế hơn, tăng hiệu suất từ ​​5 đến 6% so với các bộ dữ liệu lớn hơn (nước 3072, HecBioSim 3M và Ligno 3M).

Tiếp theo, bằng cách so sánh các con số tương đối với bộ xử lý cơ bản Xeon 6330(28C) với Xeon 8380(40C), chúng tôi nhận thấy hiệu suất tăng từ 30 đến 50 phần trăm theo các bộ dữ liệu có số lõi tăng lên, từ 28 lên 40. Một phần mức tăng là theo tần số của mô hình bộ xử lý.

 

 Phân tích hiệu suất trên Cascade Lake vs Ice Lake

Hình 3(a): Hiệu suất của GROMACS trên Hồ Cascade (Xeon 6252) so với Hồ Ice (Xeon 6330)

Hình 3(b): Hiệu suất của GROMACS trên Hồ Cascade (Xeon 8280) so với Hồ Ice (Xeon 8380)

Chúng tôi tính đến thực tế là bộ nhớ phù hợp theo bộ dữ liệu. Để bắt đầu, chúng tôi so sánh từng bộ xử lý với các bộ xử lý thế hệ trước. Để so sánh điểm chuẩn hiệu suất, chúng tôi đã chọn Cascade Lake gần nhất với các đối tác Ice Lake của họ về các tính năng phần cứng như kích thước bộ nhớ đệm, giá trị TDP và Tần số cơ sở/Turbo của bộ xử lý, đồng thời đánh dấu giá trị tối đa đạt được cho Ns/ngày theo từng bộ dữ liệu được đề cập trong Bảng 2.

Hình 3a cho thấy Ice Lake 6330 nhanh hơn tới 50 đến 75% so với 6252. Xeon 6330 có nhiều lõi hơn 16% và băng thông bộ nhớ nhanh hơn 9%. Hình 3b cho thấy Ice Lake 8380 nhanh hơn tới 50-65% so với Xeon 8280 trong các thử nghiệm nút đơn, điều này phù hợp với số lõi nhiều hơn 42% và băng thông bộ nhớ nhanh hơn 9%.

Kết quả này là do tốc độ xử lý cao hơn, trong đó mỗi lõi có thể truy cập nhiều dữ liệu hơn. Ngoài ra, các tập dữ liệu cần nhiều bộ nhớ hơn và một số phần trăm được thêm vào để cải thiện tần số do nhìn chung, kết quả của bộ xử lý Ice Lake đã chứng minh sự cải thiện hiệu suất đáng kể cho GROMACS so với bộ xử lý Cascade Lake.

Phân tích hiệu suất trên nhiều nút Hình  (a): Khả năng mở rộng của nước 1536K khi vô hiệu hóa siêu phân luồng (80C) so với kích hoạt siêu phân luồng (160C) w/ Xeon 8380; đường chấm chấm biểu thị sự chênh lệch giữa kích hoạt siêu phân luồng và vô hiệu hóa siêu phân luồng  Hình  (b): Khả năng mở rộng của nước 3072K khi vô hiệu hóa siêu phân luồng (80C) so với kích hoạt siêu phân luồng (160C) w/INTEL 8380; đường chấm chấm biểu thị khoảng cách giữa kích hoạt siêu phân luồng và vô hiệu hóa siêu phân luồng

Hình  (c): Khả năng mở rộng của HecBioSim 1.4M khi tắt siêu phân luồng (80C) so với bật siêu phân luồng (160C) w/ Xeon 8380; đường chấm chấm biểu thị khoảng cách giữa kích hoạt siêu phân luồng và vô hiệu hóa siêu phân luồng 

Hình  (d): Khả năng mở rộng của HecBioSim 3M khi vô hiệu hóa siêu phân luồng (80C) so với kích hoạt siêu phân luồng (160C) w/ Xeon 8380; đường chấm chấm biểu thị khoảng cách giữa kích hoạt siêu phân luồng và vô hiệu hóa siêu phân luồng 

Hình  (e): Khả năng mở rộng của Lignocellulose 3M khi vô hiệu hóa siêu phân luồng (80C) so với kích hoạt siêu phân luồng (160C) w/INTEL 8380 ; đường chấm chấm biểu thị khoảng cách giữa kích hoạt siêu phân luồng và vô hiệu hóa siêu phân luồng 

Đối với các thử nghiệm đa nút, nền thử nghiệm được định cấu hình với kết nối NVIDIA Mellanox HDR chạy ở tốc độ 200 Gbps và mỗi máy chủ có bộ xử lý Ice Lake. Chúng tôi có thể đạt được khả năng mở rộng hiệu suất tuyến tính dự kiến ​​cho GROMACS lên đến tám nút khi siêu phân luồng bị vô hiệu hóa và khoảng 7,25X khi bật siêu phân luồng cho tám nút, trên các bộ dữ liệu. Tất cả các lõi trong mỗi máy chủ đều được sử dụng khi chạy các điểm chuẩn này. Hiệu suất tăng gần như tuyến tính trên tất cả các loại tập dữ liệu khi số lượng lõi tăng lên.

Phần kết luận

Các máy chủ Dell EMC Power Edge dựa trên bộ xử lý Ice Lake, với các nâng cấp tính năng phần cứng đáng chú ý so với Cascade Lake, cho thấy mức tăng hiệu suất lên tới 50 đến 60 phần trăm cho tất cả các bộ dữ liệu được sử dụng để đo điểm chuẩn GROMACS. Nên tắt siêu phân luồng đối với các điểm chuẩn được đề cập trong blog này để có khả năng mở rộng tốt hơn trên tám nút. Đối với các tập dữ liệu nhỏ được đề cập trong blog này mang lại lợi ích từ 5 đến 6 phần trăm so với các tập dữ liệu lớn hơn khi số lượng lõi tăng lên.