Đặc tính BIOS nền tảng PowerEdge 16G cho HPC với Intel Sapphire Rapids

Dell đã bổ sung hơn chục hệ thống thế hệ tiếp theo vào danh mục máy chủ Dell PowerEdge 16G mở rộng. Các hệ thống mới này nhằm tăng tốc hiệu suất và độ tin cậy cho khả năng tính toán mạnh mẽ trên các trung tâm dữ liệu cốt lõi, đám mây công cộng quy mô lớn và các vị trí biên.

Các máy chủ PowerEdge mới có các hệ số dạng dạng giá đỡ, dạng tháp và nhiều nút, hỗ trợ bộ xử lý Intel Xeon Scalable thế hệ thứ 4 mới (trước đây có tên mã là Sapphire Rapids). Sapphire Rapids vẫn hỗ trợ hướng dẫn SIMD AVX 512, cho phép FLOP 32 DP/chu kỳ. Tốc độ liên kết Ultra Path Interconnect (UPI) được nâng cấp lên 16 GT/s dự kiến ​​sẽ cải thiện việc di chuyển dữ liệu giữa các ổ cắm. Ngoài số lượng lõi và tần số, máy chủ Dell PowerEdge dựa trên Sapphire Rapids còn hỗ trợ RDIMMS DDR5 – 4800 MT/s với tám kênh bộ nhớ trên mỗi bộ xử lý, được kỳ vọng sẽ cải thiện hiệu suất của các ứng dụng có giới hạn băng thông bộ nhớ. 

Blog này cung cấp các kết quả điểm chuẩn tổng hợp và cài đặt BIOS được đề xuất cho bộ xử lý Dell PowerEdge Server dựa trên Sapphire Rapids. Tài liệu này bao gồm các nguyên tắc cho phép khách hàng tối ưu hóa ứng dụng của họ để có hiệu quả sử dụng năng lượng tốt nhất, đồng thời cung cấp các đề xuất về cấu hình bộ nhớ và cài đặt BIOS để có hiệu năng ngay lập tức và khả năng mở rộng tốt nhất trên dòng bộ xử lý có khả năng mở rộng Intel® Xeon® thế hệ thứ 4. 

Chi tiết phần cứng và phần mềm của giường thử nghiệm

Bảng 1 và Bảng 2 hiển thị chi tiết phần cứng của giường thử nghiệm và chi tiết ứng dụng tổng hợp. Có 15 tùy chọn BIOS được khám phá thông qua thử nghiệm hiệu năng ứng dụng. Các tùy chọn này có thể được đặt và hủy đặt thông qua lệnh Quản trị viên kiểm soát truy cập từ xa (RACADM) trong Linux hoặc trực tiếp khi máy ở chế độ BIOS.

Sử dụng lệnh sau để đặt “Hồ sơ HPC” để có kết quả điểm chuẩn tổng hợp tốt nhất.

racadm set bios.sysprofilesettings.WorkloadProfile HpcProfile && sudo racadm hàng công việc tạo BIOS.Setup.1-1 -r pwrcycle -s TIME_NOW -e TIME_NA

Khi hệ thống hoạt động, hãy sử dụng lệnh bên dưới để xác minh xem cài đặt này có được bật hay không.

racadm bios.sysprofilesettings.WorkloadProfile

Nó sẽ hiển thị hồ sơ khối lượng công việc được đặt là HPCProfile. Xin lưu ý rằng bất kỳ thay đổi nào được thực hiện trong cài đặt BIOS phía trên “HPCProfile” sẽ đặt tham số này thành “Không được định cấu hình”, trong khi vẫn giữ nguyên các cài đặt khác của “HPCProfile”. 

Bảng 1.  Chi tiết hệ thống 

Thành phần Máy chủ Dell PowerEdge R660 (Làm mát bằng không khí) Máy chủ Dell PowerEdge R760 (Làm mát bằng không khí) Máy chủ Dell PowerEdge C-Series (C6620) (Làm mát bằng chất lỏng trực tiếp)
Mã hàng 8452Y 6430 8480+
Lõi/ổ cắm 36 32 56
Tần số cơ sở  2 1.9 2
TDP 300 270 350
Bộ nhớ đệm L3 69,12MB 61,44MB 10,75MB
Hệ điều hành RHEL 8.6 RHEL 8.6 RHEL 8.6
Ký ức 1024 – 64 x 16 1024 – 64 x 16 512 -32 x 16
BIOS 1.0.1 1.0.1 1.0.1
CPLD 1.0.1 1.0.1 1.0.1
Kết nối NDR 400 NDR 400 NDR 400
Trình biên dịch OneAPI 2023 OneAPI 2023 OneAPI 2023

Ban 2 . Chi tiết ứng dụng benchmark tổng hợp

Tên ứng dụng  Phiên bản
Linpack hiệu suất cao (HPL) MP_LINPACK INTEL nhị phân dựng sẵn – 2.3
SUỐI DÒNG 5.0
gradient liên hợp hiệu suất cao (HPCG) Hệ nhị phân dựng sẵn từ INTEL oneAPI 2.3
Đại học bang Ohio (OSU) OSU 7.0.1

Trong nghiên cứu hiện tại, các ứng dụng tổng hợp như HPL, STREAM và HPCG được thực hiện trên một nút duy nhất; vì điểm chuẩn OSU là một nghiên cứu điểm chuẩn về hoạt động của MPI nên nó yêu cầu tối thiểu hai nút.

Chi tiết hiệu suất ứng dụng tổng hợp

Như được hiển thị trong Bảng 2, bốn ứng dụng tổng hợp được thử nghiệm trên phần cứng của giường thử nghiệm (Bảng 1). Đó là HPL, STREAM, HPCG và OSU. Chi tiết về hiệu suất của từng ứng dụng được đưa ra dưới đây:

Linpack hiệu suất cao (HPL)

HPL giúp đo lường hiệu quả tính toán dấu phẩy động của hệ thống [ 1 ]. Bạn có thể tìm thấy chi tiết về điểm chuẩn tổng hợp trong blog trước đây về bộ xử lý Intel Ice Lake . 

Hình 1. Giá trị hiệu năng của ứng dụng HPL cho các mẫu bộ xử lý khác nhau

Kích thước N và NB được sử dụng cho điểm chuẩn HPL lần lượt là 348484 và 384 cho bộ xử lý Intel Sapphire Rapids 6430, 8452Y và 246144 và 384 tương ứng cho bộ xử lý 8480. Sự khác biệt về kích thước N là do sự khác biệt về bộ nhớ khả dụng. Hệ thống có bộ xử lý Intel 6430 và 8452Y được trang bị bộ nhớ 1024 GB; hệ thống xử lý 8480 có 512 GB. Các con số hiệu suất được ghi lại bằng các cài đặt BIOS khác nhau, như đã thảo luận ở trên và chênh lệch delta giữa mỗi kết quả là trong khoảng 1-2%. Các kết quả với cấu hình BIOS khối lượng công việc HPC được hiển thị trong Hình 1. bộ xử lý 8452Y hoạt động tốt hơn 1,09 lần so với bộ xử lý Intel Sapphire Rapids 6430 và bộ xử lý 8480 hoạt động tốt hơn 1,65 lần. 

SUỐI

Điểm chuẩn STREAM giúp đo băng thông bộ nhớ bền vững của bộ xử lý. Nói chung đối với điểm chuẩn STREAM, mỗi mảng cho STREAM phải có ít nhất bốn lần tổng kích thước của tất cả các bộ nhớ đệm cấp cuối cùng được sử dụng trong quá trình chạy hoặc 1 triệu phần tử, tùy theo giá trị nào lớn hơn. Kích thước mảng STREAM được sử dụng cho nghiên cứu hiện tại là 4×107 và 12×107 với mức sử dụng toàn bộ lõi. Điểm chuẩn STREAM cũng đã được kiểm tra với 15 tổ hợp BIOS và kết quả được mô tả trong Hình 2 là dành cho trường hợp kiểm tra bios cấu hình khối lượng công việc HPC. Kết quả STREAM TRIAD được ghi lại ở đây tính bằng GB/giây. Kết quả cho thấy sự cải thiện về hiệu suất so với các bộ xử lý Intel Xeon Scalable thế hệ thứ 3 , chẳng hạn như 8380 và 6338. Ngoài ra, nếu so sánh các bộ xử lý 6430, 8452Y và 8480, kết quả STREAM với bộ xử lý Intel Xeon Scalable thế hệ thứ 4 lần lượt là 8452Y và 8480. , tốt hơn 1,12 và 1,24 lần so với bộ xử lý Intel 6430. 

Hình 2. Giá trị hiệu suất của ứng dụng STREAM cho các mẫu bộ xử lý khác nhau

HPCG

Điểm chuẩn HPCG nhằm mục đích mô phỏng các kiểu truy cập dữ liệu của các ứng dụng như tính toán ma trận thưa thớt, đánh giá tác động của hệ thống con bộ nhớ và các hạn chế kết nối bên trong đối với hiệu suất tính toán của Máy tính hiệu suất cao hoặc siêu máy tính. Các kích cỡ bài toán khác nhau được sử dụng trong nghiên cứu là 192, 256, 176, 168, v.v. Ngoài ra, trong nghiên cứu điểm chuẩn này, sự khác biệt về hiệu suất trong các tùy chọn BIOS khác nhau nằm trong khoảng 1–2%. Hình 3 thể hiện kết quả hiệu năng HPCG của các bộ xử lý Intel Sapphire Rapids 6430, 8452Y và 8480. So với bộ xử lý Intel 6430, 8452Y thể hiện hiệu năng cao hơn 1,02 lần và 8480 thể hiện hiệu năng tốt hơn 1,12 lần. 

Hình 3. Giá trị hiệu năng của ứng dụng HPCG cho các mẫu bộ xử lý khác nhau

Điểm chuẩn vi mô OSU

Điểm chuẩn vi mô OSU được sử dụng để đo lường hiệu suất triển khai MPI, vì vậy chúng tôi đã sử dụng hai nút được kết nối với NDR200. Điểm chuẩn OSU xác định băng thông, tốc độ tin nhắn và độ trễ một chiều và hai chiều giữa các nút. Điểm chuẩn OSU được chạy trên cả ba bộ xử lý Intel (6430, 8452Y và 8480) với lõi đơn trên mỗi nút; tuy nhiên, chúng tôi đã hiển thị một trong các kết quả về hệ thống/bộ xử lý (bộ xử lý Intel 8480) trong blog bắt đầu từ Hình 4-7. 

Hình 4. Biểu đồ băng thông hai chiều OSU cho bộ xử lý intel C6620_8480

Hình 5. Biểu đồ băng thông một chiều OSU cho bộ xử lý intel C6620_8480

Hình 6.  Biểu đồ băng thông tin nhắn/Tốc độ tin nhắn OSU cho bộ xử lý intel C6620_8480

Hình 7. Biểu đồ độ trễ OSU cho bộ xử lý intel C6620_8480

Tất cả mười lăm sự kết hợp BIOS đã được thử nghiệm; điểm chuẩn OSU cũng cho thấy hiệu suất tương tự với sự khác biệt trong khoảng 1-2%.

Phần kết luận

Việc so sánh hiệu suất giữa các bộ xử lý Intel Sapphire Rapids khác nhau (6430, 8452Y và 8480) được thực hiện với sự trợ giúp của các ứng dụng điểm chuẩn tổng hợp như HPL, STREAM, HPCG và OSU. Gần 15 cấu hình BIOS được thiết lập trên hệ thống và các giá trị hiệu suất với các tiêu chuẩn khác nhau được ghi lại để xác định cấu hình BIOS tốt nhất cần thiết lập. Từ kết quả, người ta thấy rằng sự khác biệt về hiệu suất với bất kỳ điểm chuẩn nào cho tất cả các cấu hình BIOS được áp dụng là dưới 3 phần trăm delta. 

Do đó, cấu hình khối lượng công việc HPC mang lại kết quả điểm chuẩn tốt hơn với tất cả bộ xử lý Intel Sapphire Rapids. Trong số ba bộ xử lý Intel được so sánh, 8480 có giá trị hiệu năng ứng dụng cao nhất, trong khi 8452Y đứng ở vị trí thứ hai. Sự khác biệt tối đa về hiệu suất giữa các bộ xử lý được tìm thấy đối với điểm chuẩn HPL và đó là bộ xử lý Intel Sapphire Rapids 8480, mang lại kết quả tốt hơn 1,65 lần so với bộ xử lý Intel 6430.