Mở rộng quy mô đa nút của GROMACS trên “AMD EPYC – ROME”

thí nghiệm đổi mới HPC và AI tại Dell đang tìm hiểu sâu hơn về các hệ thống dựa trên AMD với chương trình đánh giá ngày càng tăng dành cho các bộ vi xử lý EPYC (Rome) mới nhất của AMD. Trong blog trước của chúng tôi ( Mô phỏng động phân tử với Gromacs trên AMD EPYC Rome ), chúng tôi đã đăng dữ liệu điểm chuẩn ban đầu cho nghiên cứu ứng dụng GROMACS trên một nút duy nhất và giới thiệu Minerva: máy chủ 64 nút, cụm PowerEdge C6525 có trụ sở tại Rome cho đa điểm của chúng tôi. nghiên cứu nút.

Nghị quyết

Blog hiệu suất ban đầu trên máy chủ có trụ sở tại Rome để mô phỏng động phân tử của GROMACS trên một nút duy nhất được mô tả số hiệu suất nút đơn. Chuyển sự chú ý sang các thuộc tính khác nhau, chẳng hạn như Napoli thế hệ thứ nhất sang Rome thế hệ thứ 2 , bật và tắt Bộ xử lý logic, phân tích trên các SKU AMD EPYC khác nhau và điều chỉnh các tùy chọn BIOS, chúng tôi đã có được cơ sở cho nghiên cứu đa nút của mình để thực hiện trên “Minerva Cluster” mới của chúng tôi. Blog này dự định sẽ hướng dẫn bạn quy mô đa nút của AMD EPYC Rome trên “GROMACS”.

Việc mở rộng quy mô của GROMACS trên nhiều nút được đánh giá bằng máy chủ DellEMC PowerEdge hai ổ cắm. Đối với nghiên cứu này, chúng tôi đã thực hiện tất cả các điểm chuẩn trên cụm 58 nút. Cấu hình Cụm được bao gồm trong Bảng 1(a), với danh sách các bộ dữ liệu điểm chuẩn được đưa ra trong Bảng 1(b).

Bảng 1(a)-Cấu hình cụm nhiều nút

Thành phần Sự mô tả
bộ vi xử lý CPU lõi cấu hình tần số cơ sở TDP
7452 32C 4C trên mỗi CCX 2,35GHz 155W
Nút tính toán 58 nút
Kỉ niệm 256 GB, 16x16GB 3200 MT/s DDR4 mỗi nút
Hệ điều hành Doanh nghiệp mũ đỏ Linux 7.6
hạt nhân 3.10.0.957.27.2.e17.x86_64
Đăng kí GROMACS 2019.3
Phiên bản sinh học 1.0.0
Trình biên dịch AOCC 2.0.0
FFTW 3.3.8

Bảng 1(b)- Bộ dữ liệu điểm chuẩn được sử dụng để đánh giá hiệu suất GROMACS trên ROME

tập dữ liệu Thông tin chi tiết
Phân tử nước 1536K và 3072K
HecBioSim 1400K và 3000K
Prace – Lignocellulose 3M

Hình 1 đến 5 bên dưới là các đoạn trích đồ họa từ phân tích đa nút của chúng tôi.

Hình 1 . Đánh giá hiệu suất nhiều nút với bộ dữ liệu Water 1536 ánh xạ bộ xử lý logic bị vô hiệu hóa so với dữ liệu đã bật bộ xử lý logic

Hình 2. Đánh giá hiệu suất nhiều nút với bộ dữ liệu Water 3072 ánh xạ dữ liệu Bộ xử lý logic bị vô hiệu hóa so với dữ liệu Đã bật bộ xử lý logic

Hình 3 . Đánh giá hiệu suất nhiều nút với tập dữ liệu HecBioSim 1.4M ánh xạ bộ xử lý logic bị vô hiệu hóa so với dữ liệu đã bật bộ xử lý logic

Hình 4 . Đánh giá hiệu suất nhiều nút với bộ dữ liệu HecBioSim 3M ánh xạ bộ xử lý logic bị vô hiệu hóa so với bộ xử lý logic đã bật dữ liệu

Hình 5. Đánh giá hiệu suất nhiều nút với bộ dữ liệu Lignocellulose 3M ánh xạ dữ liệu Bộ xử lý logic bị vô hiệu hóa so với dữ liệu Bộ xử lý logic được kích hoạt

Đối với nghiên cứu về nhiều nút, chúng tôi đã biên soạn GROMACS phiên bản 2019.3 với OPENMPI-4.0.0 mới nhất). Chúng tôi đã thử nghiệm các trình biên dịch khác nhau trên nền tảng Rome, thêm các cờ trình biên dịch cấp cao có liên quan, cân bằng tải trường tĩnh điện (tức là PME, v.v.), thử nghiệm với nhiều cấp bậc, xếp hạng PME riêng biệt, thay đổi các giá trị nstlist khác nhau và tạo một mô hình cho ứng dụng của chúng tôi (GROMACS) để kiểm tra trên một số nút.

Để hiểu mức tăng hiệu suất của “đa luồng đồng thời” (nghĩa là Bộ xử lý logic được đặt tên theo tùy chọn BIOS của Dell trên các hệ thống dựa trên Rome), với GROMACS, chúng tôi đã thực hiện một số điểm chuẩn với “Bật bộ xử lý logic” so với “Bộ xử lý logic bị vô hiệu hóa”. điểm chuẩn 7452 dựa trên 32 lõi, bộ xử lý logic bị vô hiệu hóa với một nút duy nhất sử dụng 64 luồng (máy chủ ổ cắm kép) và kết quả bộ xử lý logic được bật đã sử dụng 128 luồng (sử dụng tất cả lõi logic trong một hệ thống).

Tất cả các số liệu như đã thấy ở trên thể hiện khả năng mở rộng song song khi chạy Gromac với tối đa 58 nút được định cấu hình với bộ xử lý AMD EPYC 7452. Tất cả các lõi bộ xử lý trong mỗi máy chủ đã được sử dụng khi chạy các tiêu chuẩn này. Hiệu suất tại mỗi số lượng nút được trình bày tương ứng với hiệu suất của một nút.

Hiệu suất được tăng cường trên tất cả các bộ dữ liệu khi Bộ xử lý logic được bật với số lượng nút ngày càng tăng, điều này là do một số thành phần bên trong của lõi (được gọi là đơn vị thực thi) thường không hoạt động trong mỗi chu kỳ xung nhịp. Bằng cách kích hoạt bộ xử lý logic, các đơn vị thực thi có thể xử lý đồng thời các lệnh từ hai luồng, điều đó có nghĩa là sẽ có ít đơn vị thực thi không hoạt động hơn trong mỗi chu kỳ đồng hồ. Do đó, việc kích hoạt bộ xử lý logic có thể tăng đáng kể hiệu suất hệ thống.

Để kiểm tra điều này trên các bộ dữ liệu được nhắm mục tiêu như đã đề cập trong bảng 1(c), chúng tôi đã chạy một vài trường hợp thử nghiệm với cờ trình biên dịch được tối ưu hóa và nhận thấy rằng ứng dụng GROMACS vượt trội hơn Herod tới 32 nút với Bộ xử lý logic được bật, sau đó giảm 9-9,5%. được thấy trong các bộ dữ liệu nhỏ hơn như nước 1536K và HecSimBio 1400k. Ngược lại, các bộ dữ liệu lớn hơn như HecSimBio 3M water 3M có mức tăng đáng kể lên tới 58 nút. Khả năng mở rộng cho các điểm chuẩn này như mong đợi, với tập dữ liệu lớn nhất thể hiện khả năng mở rộng mạnh mẽ.

Một trong những thách thức lớn nhất khi hiểu các cải tiến hiệu suất từ ​​bộ xử lý logic là cách các công cụ hiệu suất báo cáo hiệu suất của bộ xử lý. “% Thời gian của bộ xử lý” bằng cách tính tỷ lệ phần trăm thời gian mà các bộ xử lý logic thực hiện các luồng không hoạt động (trong khoảng thời gian báo cáo) và lấy 100% trừ đi số tiền đó. Đối với các ứng dụng như Gromac có tỷ lệ I/O bộ nhớ cao và nhiều luồng có lõi vật lý lớn hơn, hệ thống có bật bộ xử lý logic hoạt động tốt hơn với tập dữ liệu lớn hơn vì hệ thống có nhiều luồng hoạt động và I/O bộ nhớ cao. Đối với các ứng dụng Động phân tử cho phép song song MPI, tỷ lệ giữa cả hai lớp song song cũng là một điểm quan trọng về hiệu suất và phụ thuộc rất nhiều vào môi trường phần cứng như kết nối mạng.

Sự kết luận

Cụm Minerva tại HPC và Phòng thí nghiệm đổi mới AI được trang bị bộ xử lý AMD ROME mới nhất mang lại hiệu suất đa nút đáng kể cho các ứng dụng như GROMACS. Chúng tôi đã tìm thấy mối tương quan tích cực mạnh mẽ với hiệu suất tổng thể của hệ thống khi bật Bộ xử lý logic trên tập dữ liệu lớn hơn và mối tương quan yếu với Bộ xử lý logic được bật trên tập dữ liệu nhỏ hơn. Xem trang blog này để cập nhật.