Mô phỏng động lực học phân tử với GROMACS trên AMD EPYC – ROME

Triệu chứng

Savitha Pareek, HPC và AI Innovation Lab, tháng 11 năm 2019

AMD gần đây đã công bố bộ xử lý EPYC thế hệ thứ 2 (tên mã là “ROME”) hỗ trợ tới 64 lõi và DellEMC vừa phát hành máy chủ Điện toán hiệu năng cao (HPC) được thiết kế từ đầu để tận dụng tối đa các bộ xử lý mới này. Chúng tôi đã  đánh giá các ứng dụng trên các máy chủ này trong HPC và Phòng thí nghiệm đổi mới AI của chúng tôi , bao gồm Ứng dụng Động lực học phân tử – GRO ningen MA chine cho ứng dụng mô phỏng C hemical S (GROMACS) và báo cáo những phát hiện của chúng tôi cho GROMACS trong blog này.

Nghị quyết

GROMACS là gói động lực học phân tử song song mã nguồn mở và miễn phí được thiết kế để mô phỏng các phân tử sinh hóa như protein, lipid và axit nucleic. Nó được nhiều nhà nghiên cứu sử dụng, đặc biệt là cho các mô phỏng sinh học phân tử và hóa học. Nó hỗ trợ tất cả các thuật toán thông thường được mong đợi từ việc triển khai động lực học phân tử hiện đại. Đây là phần mềm nguồn mở với các phiên bản mới nhất có sẵn theo Giấy phép Công cộng Ít hơn GNU (LGPL). Mã này chủ yếu được viết bằng C và sử dụng song song cả MPI và OpenMP.

Blog này mô tả hiệu suất của GROMACS trên các máy chủ PowerEdge hai ổ cắm bằng phần bổ sung mới nhất cho bộ xử lý AMD® EPYC Rome được liệt kê trong Bảng 1(a). Đối với nghiên cứu này, chúng tôi đã thực hiện tất cả các điểm chuẩn trên một máy chủ duy nhất được trang bị hai bộ xử lý, chỉ chạy một công việc tại một thời điểm trên máy chủ. Chúng tôi đã so sánh các cải tiến về hiệu suất trên các máy chủ PowerEdge dựa trên AMD EPYC Rome (sê-ri 7xx2) thế hệ thứ 2 với các máy chủ DellEMC PowerEdge thế hệ trước được trang bị bộ xử lý AMD EPYC Naples (sê-ri 7xx1) thế hệ thứ nhất được liệt kê trong bảng 1(b) .

Bảng 1(a)-ROME Các mô hình CPU được đánh giá cho nghiên cứu một nút

CPU Lõi/ổ cắm cấu hình tần số cơ sở TDP
7742 64c 4c mỗi CCX 2,25 GHz 225W
7702 64c 4c mỗi CCX 2.0GHz 200W
7502 32c 4c mỗi CCX 2,5 GHz 180W
7452 32c 4c mỗi CCX 2,35 GHz 155W
7402 24c 3c mỗi CCX 2,8 GHz 180W

Bảng 1(b)- Mô hình CPU Napoli được đánh giá để so sánh

CPU Lõi/ổ cắm cấu hình Đồng hồ cơ sở TDP
7601 32c 4c mỗi CCX 2,2 GHz 180W

Cấu hình máy chủ được bao gồm trong Bảng 2(a), với danh sách các bộ dữ liệu chuẩn được đưa ra trong Bảng 2(b).

Bảng 2(a)-Thử nghiệm

Thành phần Nền tảng ROME Nền Tảng NAPLES
bộ vi xử lý Như thể hiện trong Bảng.1a Như thể hiện trong Bảng.1b
Kỉ niệm 256 GB, 16x16GB 3200 tấn/giây DDR4 256 GB, 16x16GB 2400 tấn/giây DDR4
Hệ điều hành Doanh nghiệp mũ đỏ Linux 7.6 Doanh nghiệp mũ đỏ Linux 7.5
hạt nhân 3.10.0.957.27.2.e17.x86_64 3.10.0-862.el7.x86_64
Đăng kí GROMACS – 2019.2

Bảng 2(b)- Bộ dữ liệu điểm chuẩn được sử dụng để đánh giá hiệu suất GROMACS trên ROME

tập dữ liệu Thông tin chi tiết
Phân tử nước 1536K và 3072K
HecBioSim 1400K và 3000K
Prace – Lignocellulose 3M

Đối với nghiên cứu nút đơn này, chúng tôi đã biên soạn GROMACS phiên bản 2019.3, với OPENMPI và FFTW mới nhất, thử nghiệm một số trình biên dịch khác nhau, các tùy chọn trình biên dịch cấp cao được liên kết và cân bằng tải trường tĩnh điện (tức là PME, v.v.). Chúng tôi đã thực hiện hai nghiên cứu cho blog của mình: nghiên cứu đầu tiên của chúng tôi tập trung vào hiệu suất của các hệ thống dựa trên Rome có kích hoạt siêu phân luồng so với siêu phân luồng bị vô hiệu hóa; và nghiên cứu thứ hai của chúng tôi đã điều tra lợi thế hiệu suất thu được với Rome so với hệ thống Napoli. Đối với nghiên cứu Siêu phân luồng của chúng tôi, kết quả Siêu phân luồng của chúng tôi thu được bằng cách bật Siêu phân luồng thông qua BIOS và điều chỉnh các tham số đo điểm chuẩn để chạy từng điểm chuẩn với số luồng gấp đôi so với đối tác không Siêu phân luồng. Ví dụ: đối với điểm chuẩn 7402 dựa trên 24 lõi, nút đơn không siêu phân luồng sử dụng 48 luồng (máy chủ bộ xử lý kép) và kết quả Siêu phân luồng sử dụng 96 luồng. Kết quả của chúng tôi được trình bày trong Hình 1.


Hình 1. Đánh giá hiệu suất GROMACS với siêu phân luồng bị vô hiệu hóa so với siêu phân luồng được bật trên ROME

Đối với các điểm chuẩn này, trường tĩnh điện được sử dụng là Particle Mesh Ewald (PME) cho bộ dữ liệu Water-1536K, Water-3072K và HECBIOSIM (1,4M và 3M). Chúng tôi đã sử dụng lực tĩnh điện trường phản ứng (RF) cho vỏ Lignocellulose_3M.

Mặc dù mức tăng hiệu suất quan sát được (càng cao càng tốt) khi bật Siêu phân luồng khác nhau tùy theo các bộ xử lý và tập dữ liệu khác nhau, nhưng chúng luôn tốt hơn so với các đường cơ sở không có Siêu phân luồng (1.0). GROMACS cho thấy hiệu suất tăng rõ rệt với tính năng siêu phân luồng được bật trên các SKU ROME.

Trong nghiên cứu thứ hai, chúng tôi đã so sánh các máy chủ đặt tại Rome với máy chủ đặt tại Napoli, sử dụng Siêu phân luồng được bật cho tất cả các thử nghiệm dựa trên kết quả từ nghiên cứu đầu tiên. Chúng tôi đã đo hiệu suất tương đối của Napoli 7601 làm đường cơ sở (1.0) với các SKU ROME khác. Những kết quả này được thể hiện trong Hình 2.

Hình 2. Đánh giá hiệu suất trên các Bộ xử lý thế hệ AMD EPYC khác nhau

So sánh các máy chủ dựa trên 32 lõi (7551,7601,7452,7502), chúng tôi đã quan sát thấy sự cải thiện hiệu suất thế hệ khoảng 50%. Hệ thống 7402 dựa trên Rome 24 lõi, mặc dù thiếu nhiều lõi như hệ thống Napoli, nhưng vẫn vượt trội so với hệ thống dựa trên Napoli khoảng 20-40%, tùy thuộc vào điểm chuẩn tương ứng. Các hệ thống dựa trên 64 lõi (7702,7742) hiển thị hiệu suất tổng thể tăng gần 250% so với máy chủ dựa trên 32 lõi ở Napoli. Nhìn chung, kết quả ở Rome, đặc biệt là khi bật Siêu phân luồng, đã chứng minh sự cải thiện hiệu suất đáng kể cho GROMACS so với Napoli.

Sự kết luận

Các máy chủ Dell EMC PowerEdge được trang bị bộ xử lý AMD ROME mang lại hiệu suất nút đơn tăng đáng kể so với các đối tác Napoli thế hệ trước cho các ứng dụng như GROMACS. Chúng tôi đã tìm thấy mối tương quan tích cực mạnh mẽ với hiệu suất hệ thống tổng thể và số lượng lõi của bộ xử lý và mối tương quan yếu với tần số của bộ xử lý. Bộ xử lý Rome 64 lõi mang lại lợi thế hiệu suất đáng kể so với bộ xử lý 24 lõi và 32 lõi. Chúng tôi đang trong quá trình khám phá cách các mức tăng hiệu suất nút đơn này (có và không có Siêu phân luồng) sẽ chuyển thành mức tăng hiệu suất đa nút cho các ứng dụng Phân tử động trên Cụm Minerva mới của chúng tôi tại HPC và Phòng thí nghiệm đổi mới AI . Xem trang blog này để cập nhật.