Đặc tính BIOS của nền tảng PowerEdge 16G cho HPC với AMD Genoa 9354

Với việc phát hành CPU AMD EPYC 9004 thế hệ thứ 4  tên mã “Genoa”), các máy chủ Dell PowerEdge đã được làm mới để hỗ trợ các bộ xử lý mới nhất này. Trong blog này, chúng tôi sẽ trình bày kết quả nghiên cứu đánh giá hiệu suất của các điểm chuẩn tổng hợp HPC với bộ xử lý AMD 9354 trên máy chủ PowerEdge ổ cắm kép 1U R6625 mới nhất của Dell và máy chủ ổ cắm kép 2U R7625 của Dell. 

Ngành kiến ​​​​trúc

AMD Genoa dựa trên vi kiến ​​trúc Zen4 mới được xây dựng bằng công nghệ chế tạo 5nm. Những thay đổi lớn so với CPU AMD EPYC 7003 tiền nhiệm (tên mã “Milan”) bao gồm hỗ trợ bộ nhớ DDR5 với tốc độ lên tới 4800 MT/s và PCIe Gen5. Nó hỗ trợ tới 96 lõi trên mỗi ổ cắm và bộ đệm L2 trên mỗi lõi được tăng gấp đôi. Zen4 bổ sung hỗ trợ cho tập lệnh AVX-512. Việc triển khai trong Zen4 thực thi các lệnh AVX-512 theo hai chu kỳ. Ngoài ra, các cải tiến cũng được thực hiện trong hướng dẫn trên mỗi chu kỳ (IPC). 

Cấu hình phần cứng và phần mềm chuẩn

Bảng 1.  Cấu hình hệ thống giường thử nghiệm được sử dụng cho nghiên cứu tiêu chuẩn này

Nền tảng  Dell PowerEdge R6625 /R7625
Bộ xử lý  AMD EPYC 9354 
lõi  32 lõi/socket 
Tần số cơ sở  3,25 GHz 
Đồng hồ Turbo  Lên tới 3,8 GHz 
TDP  280 W 
TDP có thể định cấu hình  240-300 W 
Bộ đệm L1  64K mỗi lõi 
Bộ đệm L2  1 MB mỗi lõi 
Bộ đệm L3  256MB (chia sẻ) 
Ký ức  32 GB x 24 DIMM| 4800 tấn/giây  
Kết nối  NVIDIA Mellanox NDR 400 
Hệ điều hành  RHEL 8.6 
Nền tảng Linux   4.18.0-372.9.1
BIOS/CPLD  1.1.3/1.1.3 
OFED   MLNX_OFED_LINUX-5.7-1.0.2.0
Hồ sơ khối lượng công việc BIOS  Hồ sơ HPC 
Trình biên dịch AOCC 4.0.0 và AOCL 4.0
OpenMPI 4.1.5
Tăng tốc Turbo TRÊN

Khuyến nghị tối ưu hóa BIOS

Chúng tôi đã thử nghiệm các cách kết hợp tùy chọn BIOS khác nhau trong nghiên cứu này để hiểu những cải thiện hiệu suất tiềm năng trong các điểm chuẩn tổng hợp. Chúng tôi nhận thấy rằng việc đặt cấu hình khối lượng công việc trong BIOS thành “HPCProfile” sẽ mang lại cho chúng tôi hiệu suất tốt nhất trên các điểm chuẩn tổng hợp HPC. 

Tùy chọn hồ sơ khối lượng công việc này có thể được tìm thấy trong Cài đặt hồ sơ hệ thống của BIOS. Nó là tập hợp nhiều tùy chọn BIOS được khuyến nghị cho khối lượng công việc HPC. Cài đặt này có thể được cập nhật bằng công cụ RACADM CLI. Sử dụng lệnh sau để kích hoạt “HPCProfile” và khởi động lại hệ thống của bạn bằng racadm.

racadm set bios.sysprofilesettings.WorkloadProfile HpcProfile && sudo racadm hàng công việc tạo BIOS.Setup.1-1 -r pwrcycle -s TIME_NOW -e TIME_NA

Sau khi hệ thống hoạt động, hãy sử dụng lệnh bên dưới để xác minh rằng cài đặt đã được bật.

racadm bios.sysprofilesettings.WorkloadProfile

Nó sẽ hiển thị hồ sơ khối lượng công việc dưới dạng HPCProfile. Lưu ý  rằng bất kỳ thay đổi nào được thực hiện trong cài đặt BIOS trên “HPCProfile” sẽ đặt tham số này thành “Không được định cấu hình”, giữ nguyên các cài đặt khác của “HPCProfile”. 

Chúng tôi đã nghiên cứu tác động của các tùy chọn BIOS khác nhau đối với “HPCProfile”. Tất cả các con số hiệu suất được đề cập trong blog này đều có cấu hình khối lượng công việc được đặt thành “HPCProfile”.  

Bảng 2. Chi tiết ứng dụng điểm chuẩn tổng hợp

Chúng tôi đã sử dụng các tệp nhị phân được Tối ưu hóa AMD dựng sẵn cho các điểm chuẩn HPL, Stream và HPCG, được tối ưu hóa cho kiến ​​trúc Zen4 của AMD. OSU được biên dịch bằng trình biên dịch AOCC 4.0. Thông tin điểm chuẩn và số hiệu suất được đề cập trong phần sau. 

Kết quả hiệu suất điểm chuẩn

HPL: Điểm chuẩn này giải quyết hệ phương trình tuyến tính ngẫu nhiên với độ chính xác gấp đôi (64-bit) cho các hệ thống phân tán. Nó báo cáo tốc độ thực hiện dấu phẩy động của hệ thống. 

Trong thử nghiệm điểm chuẩn HPL, chúng tôi đã sử dụng 94% bộ nhớ khả dụng làm kích thước sự cố trong đó sử dụng N=301440 và NB=384. Chúng tôi đã đạt được hiệu suất ~3,75 TFlop trên các ổ cắm kép với hiệu suất khoảng 113 phần trăm, so với tần số cơ bản trên bộ xử lý AMD 9354. Chúng tôi đã theo dõi tần số trong suốt quá trình chạy điểm chuẩn và quan sát thấy rằng bộ xử lý có thể sử dụng tần số turbo liên tục, điều này giải thích hiệu suất của bộ xử lý này là trên 100%. Mức tiêu thụ điện năng trung bình trong quá trình chạy điểm chuẩn là ~830 watt khi cấu hình hệ thống trong BIOS được đặt thành tùy chọn “HPCProfile”. Chúng tôi đã thu được kết quả hiệu suất trên mỗi watt tốt nhất với tùy chọn này. 

Hình 1 . Hiệu suất HPL với bộ xử lý AMD Genoa 9354 trên máy chủ 16G PowerEdge R6625 và R7625

STREAM: Điểm chuẩn tổng hợp này được thiết kế để đo băng thông bộ nhớ bền vững và tốc độ tính toán tương ứng cho bốn hạt nhân vectơ đơn giản: Sao chép, Chia tỷ lệ, Thêm và Bộ ba. 

Trong thử nghiệm điểm chuẩn STREAM TRIAD, chúng tôi có thể đạt tới ~752 GB/giây khi sử dụng tất cả các lõi có sẵn của máy chủ ổ cắm kép. Để tìm hiểu thêm về các con số hiệu suất STREAM trên các máy chủ dựa trên AMD MILAN, vui lòng tham khảo blog trước của chúng tôi tại đây .

Hình 2. Hiệu suất STREAM với bộ xử lý AMD Genoa 9354 trên máy chủ 16G PowerEdge R6625 và R7625

HPCG:  Dự án điểm chuẩn này là nỗ lực nhằm tạo ra một thước đo mới để xếp hạng các hệ thống HPC. Đây là điểm chuẩn ràng buộc I/O nội bộ, nhằm bổ sung cho điểm chuẩn LINPACK.

Trong điểm chuẩn HPCG, chúng tôi đã sử dụng nx=ny=nz=192 kích thước lưới phụ cục bộ để điều chỉnh kích thước sự cố theo bộ nhớ hệ thống của chúng tôi. Chúng tôi có thể đạt hiệu suất ~115 Gflops với mã nhị phân được AMD tối ưu hóa cho HPCG. 

Hình 3.  Hiệu suất HPCG với bộ xử lý AMD Genoa 9354 trên máy chủ 16G PowerEdge R6625 và R7625

Điểm chuẩn vi mô OSU:  Các điểm chuẩn vi mô này  được sử dụng rộng rãi để  đo lường và đánh giá hiệu suất hoạt động của MPI đối với liên lạc điểm-điểm, nhiều cặp và liên lạc tập thể giữa các nút 

Trong điểm chuẩn OSU, chúng tôi đã sử dụng hai nút được kết nối với NDR400. Chúng tôi đã kiểm tra băng thông hai chiều, băng thông một chiều, tốc độ tin nhắn và độ trễ giữa hai nút này. Trong máy chủ ổ cắm kép, ổ cắm được kết nối với card bộ điều hợp mạng hoạt động như cục bộ và ổ cắm còn lại hoạt động như điều khiển từ xa. Chúng tôi đã hoàn thành thử nghiệm này trên cả máy chủ R6625 và R7625 về cả độ trễ và băng thông từ xa cũng như cục bộ. Các kết quả bên dưới được lấy từ máy chủ R6625. Tất cả các kết quả cho OSU hiển thị bên dưới đều được chạy bằng cách sử dụng một lõi cho mỗi nút.

Nhãn Delta trong trục phụ biểu thị phần trăm chênh lệch giữa độ trễ và băng thông cục bộ và từ xa.

Hình 4.  Độ trễ OSU với bộ xử lý AMD Genoa 9354 trên máy chủ Dell PowerEdge R6625

Chúng tôi đã đạt được băng thông một chiều ~48 GB/s và băng thông hai chiều ~87 GB/s.

Hình 5. Tốc độ thông báo OSU với bộ xử lý AMD Genoa 9354 trên máy chủ Dell PowerEdge R6625

Hình 6. Băng thông hai chiều OSU với bộ xử lý AMD Genoa 9354 trên máy chủ Dell PowerEdge R6625

Hình 7. Băng thông một chiều OSU với bộ xử lý AMD Genoa 9354 trên máy chủ Dell PowerEdge R6625 16G

Kết luận và công việc tương lai

Chúng tôi đã thấy sự cải thiện đáng kể về hiệu suất của các điểm chuẩn tổng hợp sử dụng máy chủ đặt tại Genoa so với các máy chủ đặt tại Milan trước đó. Việc thiết lập các thông số BIOS phù hợp là điều quan trọng để đạt được kết quả tốt nhất trên các máy chủ này. Là một phần của nghiên cứu, chúng tôi đã thử nghiệm các tham số BIOS khác nhau và nhận thấy rằng việc đặt cấu hình khối lượng công việc thành “HPCProfile” sẽ mang lại kết quả hiệu suất tốt nhất.

Đối với công việc trong tương lai, chúng tôi dự định nghiên cứu các cải tiến hiệu suất trên các ứng dụng HPC từ các miền khác nhau bằng cách sử dụng các bộ xử lý AMD và máy chủ Dell PowerEdge mới nhất này.