thí nghiệm đổi mới HPC và AI tại Dell đang tìm hiểu sâu hơn về các hệ thống dựa trên AMD với chương trình đánh giá ngày càng tăng dành cho các bộ vi xử lý EPYC (Rome) mới nhất của AMD. Trong blog trước của chúng tôi ( Mô phỏng động phân tử với Gromacs trên AMD EPYC Rome ), chúng tôi đã đăng dữ liệu điểm chuẩn ban đầu cho nghiên cứu ứng dụng GROMACS trên một nút duy nhất và giới thiệu Minerva: máy chủ 64 nút, cụm PowerEdge C6525 có trụ sở tại Rome cho đa điểm của chúng tôi. nghiên cứu nút.
Nghị quyết
Blog hiệu suất ban đầu trên máy chủ có trụ sở tại Rome để mô phỏng động phân tử của GROMACS trên một nút duy nhất được mô tả số hiệu suất nút đơn. Chuyển sự chú ý sang các thuộc tính khác nhau, chẳng hạn như Napoli thế hệ thứ nhất sang Rome thế hệ thứ 2 , bật và tắt Bộ xử lý logic, phân tích trên các SKU AMD EPYC khác nhau và điều chỉnh các tùy chọn BIOS, chúng tôi đã có được cơ sở cho nghiên cứu đa nút của mình để thực hiện trên “Minerva Cluster” mới của chúng tôi. Blog này dự định sẽ hướng dẫn bạn quy mô đa nút của AMD EPYC Rome trên “GROMACS”.
Việc mở rộng quy mô của GROMACS trên nhiều nút được đánh giá bằng máy chủ DellEMC PowerEdge hai ổ cắm. Đối với nghiên cứu này, chúng tôi đã thực hiện tất cả các điểm chuẩn trên cụm 58 nút. Cấu hình Cụm được bao gồm trong Bảng 1(a), với danh sách các bộ dữ liệu điểm chuẩn được đưa ra trong Bảng 1(b).
Bảng 1(a)-Cấu hình cụm nhiều nút
Thành phần | Sự mô tả | ||||
---|---|---|---|---|---|
bộ vi xử lý | CPU | lõi | cấu hình | tần số cơ sở | TDP |
7452 | 32C | 4C trên mỗi CCX | 2,35GHz | 155W | |
Nút tính toán | 58 nút | ||||
Kỉ niệm | 256 GB, 16x16GB 3200 MT/s DDR4 mỗi nút | ||||
Hệ điều hành | Doanh nghiệp mũ đỏ Linux 7.6 | ||||
hạt nhân | 3.10.0.957.27.2.e17.x86_64 | ||||
Đăng kí | GROMACS 2019.3 | ||||
Phiên bản sinh học | 1.0.0 | ||||
Trình biên dịch | AOCC 2.0.0 | ||||
FFTW | 3.3.8 |
Bảng 1(b)- Bộ dữ liệu điểm chuẩn được sử dụng để đánh giá hiệu suất GROMACS trên ROME
tập dữ liệu | Thông tin chi tiết |
---|---|
Phân tử nước | 1536K và 3072K |
HecBioSim | 1400K và 3000K |
Prace – Lignocellulose | 3M |
Hình 1 đến 5 bên dưới là các đoạn trích đồ họa từ phân tích đa nút của chúng tôi.
Hình 1 . Đánh giá hiệu suất nhiều nút với bộ dữ liệu Water 1536 ánh xạ bộ xử lý logic bị vô hiệu hóa so với dữ liệu đã bật bộ xử lý logic
Hình 2. Đánh giá hiệu suất nhiều nút với bộ dữ liệu Water 3072 ánh xạ dữ liệu Bộ xử lý logic bị vô hiệu hóa so với dữ liệu Đã bật bộ xử lý logic
Hình 3 . Đánh giá hiệu suất nhiều nút với tập dữ liệu HecBioSim 1.4M ánh xạ bộ xử lý logic bị vô hiệu hóa so với dữ liệu đã bật bộ xử lý logic
Hình 4 . Đánh giá hiệu suất nhiều nút với bộ dữ liệu HecBioSim 3M ánh xạ bộ xử lý logic bị vô hiệu hóa so với bộ xử lý logic đã bật dữ liệu
Hình 5. Đánh giá hiệu suất nhiều nút với bộ dữ liệu Lignocellulose 3M ánh xạ dữ liệu Bộ xử lý logic bị vô hiệu hóa so với dữ liệu Bộ xử lý logic được kích hoạt
Đối với nghiên cứu về nhiều nút, chúng tôi đã biên soạn GROMACS phiên bản 2019.3 với OPENMPI-4.0.0 mới nhất). Chúng tôi đã thử nghiệm các trình biên dịch khác nhau trên nền tảng Rome, thêm các cờ trình biên dịch cấp cao có liên quan, cân bằng tải trường tĩnh điện (tức là PME, v.v.), thử nghiệm với nhiều cấp bậc, xếp hạng PME riêng biệt, thay đổi các giá trị nstlist khác nhau và tạo một mô hình cho ứng dụng của chúng tôi (GROMACS) để kiểm tra trên một số nút.
Để hiểu mức tăng hiệu suất của “đa luồng đồng thời” (nghĩa là Bộ xử lý logic được đặt tên theo tùy chọn BIOS của Dell trên các hệ thống dựa trên Rome), với GROMACS, chúng tôi đã thực hiện một số điểm chuẩn với “Bật bộ xử lý logic” so với “Bộ xử lý logic bị vô hiệu hóa”. điểm chuẩn 7452 dựa trên 32 lõi, bộ xử lý logic bị vô hiệu hóa với một nút duy nhất sử dụng 64 luồng (máy chủ ổ cắm kép) và kết quả bộ xử lý logic được bật đã sử dụng 128 luồng (sử dụng tất cả lõi logic trong một hệ thống).
Tất cả các số liệu như đã thấy ở trên thể hiện khả năng mở rộng song song khi chạy Gromac với tối đa 58 nút được định cấu hình với bộ xử lý AMD EPYC 7452. Tất cả các lõi bộ xử lý trong mỗi máy chủ đã được sử dụng khi chạy các tiêu chuẩn này. Hiệu suất tại mỗi số lượng nút được trình bày tương ứng với hiệu suất của một nút.
Hiệu suất được tăng cường trên tất cả các bộ dữ liệu khi Bộ xử lý logic được bật với số lượng nút ngày càng tăng, điều này là do một số thành phần bên trong của lõi (được gọi là đơn vị thực thi) thường không hoạt động trong mỗi chu kỳ xung nhịp. Bằng cách kích hoạt bộ xử lý logic, các đơn vị thực thi có thể xử lý đồng thời các lệnh từ hai luồng, điều đó có nghĩa là sẽ có ít đơn vị thực thi không hoạt động hơn trong mỗi chu kỳ đồng hồ. Do đó, việc kích hoạt bộ xử lý logic có thể tăng đáng kể hiệu suất hệ thống.
Để kiểm tra điều này trên các bộ dữ liệu được nhắm mục tiêu như đã đề cập trong bảng 1(c), chúng tôi đã chạy một vài trường hợp thử nghiệm với cờ trình biên dịch được tối ưu hóa và nhận thấy rằng ứng dụng GROMACS vượt trội hơn Herod tới 32 nút với Bộ xử lý logic được bật, sau đó giảm 9-9,5%. được thấy trong các bộ dữ liệu nhỏ hơn như nước 1536K và HecSimBio 1400k. Ngược lại, các bộ dữ liệu lớn hơn như HecSimBio 3M water 3M có mức tăng đáng kể lên tới 58 nút. Khả năng mở rộng cho các điểm chuẩn này như mong đợi, với tập dữ liệu lớn nhất thể hiện khả năng mở rộng mạnh mẽ.
Một trong những thách thức lớn nhất khi hiểu các cải tiến hiệu suất từ bộ xử lý logic là cách các công cụ hiệu suất báo cáo hiệu suất của bộ xử lý. “% Thời gian của bộ xử lý” bằng cách tính tỷ lệ phần trăm thời gian mà các bộ xử lý logic thực hiện các luồng không hoạt động (trong khoảng thời gian báo cáo) và lấy 100% trừ đi số tiền đó. Đối với các ứng dụng như Gromac có tỷ lệ I/O bộ nhớ cao và nhiều luồng có lõi vật lý lớn hơn, hệ thống có bật bộ xử lý logic hoạt động tốt hơn với tập dữ liệu lớn hơn vì hệ thống có nhiều luồng hoạt động và I/O bộ nhớ cao. Đối với các ứng dụng Động phân tử cho phép song song MPI, tỷ lệ giữa cả hai lớp song song cũng là một điểm quan trọng về hiệu suất và phụ thuộc rất nhiều vào môi trường phần cứng như kết nối mạng.
Sự kết luận
Cụm Minerva tại HPC và Phòng thí nghiệm đổi mới AI được trang bị bộ xử lý AMD ROME mới nhất mang lại hiệu suất đa nút đáng kể cho các ứng dụng như GROMACS. Chúng tôi đã tìm thấy mối tương quan tích cực mạnh mẽ với hiệu suất tổng thể của hệ thống khi bật Bộ xử lý logic trên tập dữ liệu lớn hơn và mối tương quan yếu với Bộ xử lý logic được bật trên tập dữ liệu nhỏ hơn. Xem trang blog này để cập nhật.
Bài viết mới cập nhật
Tăng tốc đổi mới và tính bền vững của AI: Dell PowerScale F910 mật độ cao, hiệu suất cao
Tăng tốc đổi mới và tính bền vững của AI: Dell ...
Khả năng hiển thị là điều bắt buộc tuyệt đối đối với an ninh
Tìm hiểu cách Dell và Absolute sử dụng dữ liệu từ ...
Dell Reconnect kỷ niệm 20 năm tái chế
Hãy kỷ niệm 20 năm Dell Reconnect và tái chế các ...
Nhật ký của một Kỹ sư Hệ thống VFX—Phần 1: Thống kê isi
Chào mừng bạn đến với bài đăng đầu tiên trong loạt ...