Hiệu suất ứng dụng HPC trên máy chủ Dell PowerEdge R7525 với GPU AMD Instinct™ MI210

Hỗ trợ và hiệu suất của PowerEdge

Máy chủ PowerEdge R7525 có thể hỗ trợ ba   GPU AMD Instinct ™ MI210; nó lý tưởng cho khối lượng công việc HPC . Hơn nữa, việc sử dụng máy chủ PowerEdge R7525 để cấp nguồn cho GPU AMD Instinct MI210 (được xây dựng bằng kiến ​​trúc AMD CDNA™ thế hệ 2) mang lại những cải tiến về hoạt động của FP64 cùng với khả năng mạnh mẽ của hệ sinh thái phần mềm mở AMD ROCm™ 5. Nhìn chung, máy chủ PowerEdge R7525 với GPU AMD Instinct MI210 mang lại hiệu suất chính xác gấp đôi như mong đợi và tổng chi phí sở hữu cao nhất.

Hình 1 : Mặt trước của máy chủ PowerEdge R7525

Chúng tôi đã thực hiện và quan sát nhiều điểm chuẩn với GPU AMD Instinct MI210 được cài đặt trong máy chủ PowerEdge R7525. Blog này hiển thị hiệu suất của LINPACK và các thư viện mô phỏng phân tử có thể tùy chỉnh OpenMM với GPU AMD Instinct MI210 và so sánh các đặc tính hiệu suất với GPU AMD Instinct MI100 thế hệ trước.

Bảng sau đây cung cấp chi tiết cấu hình của hệ thống PowerEdge R7525 đang được thử nghiệm (SUT): 

Bảng 1 . Cấu hình phần cứng và phần mềm SUT

Thành phần Sự miêu tả
Bộ xử lý Bộ xử lý 64 nhân AMD EPYC 7713
Ký ức 512 GB
Đĩa cục bộ SSD 1,8T
Hệ điều hành Ubuntu 20.04.3 LTS
GPU 3xMI210/MI100
Phiên bản trình điều khiển 5.13.20.22.10
Phiên bản ROCm ROCm-5.1.3
Cài đặt bộ xử lý > Bộ xử lý logic Tàn tật
Hồ sơ hệ thống Hiệu suất
Nút NUMA trên mỗi ổ cắm 4
HPL rochpl_rocm-5.1-60_ubuntu-20.04
OpenMM 7.7.0_49

Bảng sau đây chứa thông số kỹ thuật của GPU AMD Instinct MI210 và MI100:

Bảng 2: Thông số GPU AMD Instinct MI100 và MI210 PCIe

kiến trúc GPU Bản năng AMD MI210 Bản năng AMD MI100
Đồng hồ động cơ đỉnh (MHz) 1700 1502
Bộ xử lý luồng 6656 7680
Đỉnh FP64 (TFlop) 22,63 11,5
DGEMM Tensor đỉnh FP64 (TFlops) 45,25 11,5
Đỉnh FP32 (TFlop) 22,63 23.1
SGEMM Tensor đỉnh FP32 (TFlops) 45,25 46,1
Kích thước bộ nhớ (GB) 64 32
Loại bộ nhớ HBM2e HBM2
Băng thông bộ nhớ tối đa (GB/s) 1638 1228
Hỗ trợ ECC bộ nhớ Đúng Đúng
TDP (Watt) 300 300

LINPACK hiệu suất cao (HPL)

HPL đo lường khả năng tính toán dấu phẩy động của một hệ thống bằng cách giải một hệ phương trình tuyến tính ngẫu nhiên thống nhất bằng số học có độ chính xác kép (FP64), như minh họa trong hình sau. Tệp nhị phân HPL được sử dụng để thu thập kết quả được biên dịch bằng ROCm 5.1.3.

Hình 2 : Hiệu suất LINPACK với GPU AMD Instinct MI100 và MI210

Hình dưới đây cho thấy mức tiêu thụ điện năng trong một lần chạy HPL:

Hình 3 : Mức tiêu thụ điện năng LINPACK với GPU AMD Instinct MI100 và MI210

Chúng tôi đã nhận thấy sự cải thiện đáng kể về hiệu suất AMD Instinct MI210 HPL so với GPU AMD Instinct MI100. Con số trong bài kiểm tra GPU duy nhất của MI210 là 18,2 TFLOPS, cao hơn khoảng 2,7 lần so với con số MI100 (6,75 TFLOPS). Sự cải thiện này là nhờ kiến ​​trúc AMD CDNA2 trên GPU AMD Instinct MI210, đã được tối ưu hóa cho khối lượng công việc vectơ và ma trận FP64. Ngoài ra, GPU MI210 có bộ nhớ lớn hơn nên kích thước sự cố (N) được sử dụng ở đây lớn so với GPU AMD Instinct MI100.

Như được hiển thị trong Hình 2, AMD Instinct MI210 đã thể hiện khả năng mở rộng gần như tuyến tính trong các giá trị HPL khi chạy nhiều GPU một nút. GPU AMD Instinct MI210 báo cáo khả năng mở rộng tốt hơn so với GPU AMD Instinct MI100 thế hệ trước. Cả hai GPU đều có cùng TDP, trong đó GPU AMD Instinct MI210 mang lại hiệu năng tốt hơn gấp ba lần. Giá trị hiệu suất trên mỗi watt của hệ thống PowerEdge R7525 cao hơn ba lần. Hình 3 cho thấy đặc điểm tiêu thụ điện năng trong một chu kỳ chạy HPL.  

OpenMM

OpenMM là bộ công cụ hiệu suất cao để mô phỏng phân tử. Nó có thể được sử dụng như một thư viện hoặc một ứng dụng. Nó bao gồm các ràng buộc ngôn ngữ mở rộng cho Python, C, C++ và thậm chí cả Fortran. Mã này là nguồn mở và được duy trì tích cực trên GitHub và được cấp phép theo MIT và LGPL.

Hình 4 : Hiệu suất chính xác gấp đôi OpenMM với GPU AMD Instinct MI100 và MI210

Hình 5 : Hiệu năng chính xác đơn OpenMM với GPU AMD Instinct MI100 và MI210

Hình 6 : Hiệu suất có độ chính xác hỗn hợp OpenMM với GPU AMD Instinct MI100 và MI210

Chúng tôi đã thử nghiệm OpenMM với bảy bộ dữ liệu để xác thực độ chính xác kép, đơn và hỗn hợp. Chúng tôi đã quan sát thấy hiệu suất chính xác gấp đôi đặc biệt với OpenMM trên GPU AMD Instinct MI210 so với GPU AMD Instinct MI100. Sự cải thiện này là nhờ kiến ​​trúc AMD CDNA2 trên GPU AMD Instinct MI210, đã được tối ưu hóa cho khối lượng công việc vectơ và ma trận FP64.

Phần kết luận

GPU AMD Instinct MI210 cho thấy sự cải thiện hiệu suất ấn tượng trong khối lượng công việc FP64. Những khối lượng công việc này được hưởng lợi vì AMD đã tăng gấp đôi chiều rộng ALU của họ lên toàn bộ chiều rộng 64 bit. Thay đổi này cho phép các hoạt động FP64 hiện chạy ở tốc độ tối đa trong kiến ​​trúc AMD CDNA thế hệ 2 mới. Các ứng dụng và khối lượng công việc được thiết kế để chạy trên hoạt động FP64 dự kiến ​​sẽ tận dụng tối đa lợi thế của phần cứng.