Hiệu năng MLPerf™ Inference 3.1 đầy hứa hẹn của máy chủ Dell PowerEdge XE8640 và XE9640 với GPU NVIDIA H100

trừu tượng                                              

Bản phát hành MLPerf Inference v3.1 gần đây đã giới thiệu các kết quả hiệu suất mới nhất từ ​​các máy chủ PowerEdge XE8640 và PowerEdge XE9640 mới của Dell cũng như một nội dung gửi khác từ máy chủ PowerEdge R760xa. Dữ liệu nhấn mạnh hiệu suất vượt trội của máy chủ PowerEdge. Những điểm chuẩn này minh họa nhu cầu ngày càng tăng về sức mạnh tính toán, với các máy chủ PowerEdge liên tục nổi lên dẫn đầu trên nhiều mô hình khác nhau, giành được nhiều danh hiệu hàng đầu. Blog này kiểm tra hiệu suất dự kiến ​​để phân loại hình ảnh, phát hiện đối tượng, trả lời câu hỏi, nhận dạng giọng nói, phân đoạn và tóm tắt hình ảnh y tế, đặc biệt tập trung vào khả năng của GPU NVIDIA H100 Tensor Core hệ số dạng PCIe và SXM trong hệ thống PowerEdge thế hệ mới.

Tổng quan về kết quả danh hiệu hàng đầu

Máy chủ PowerEdge XE8640 và XE9640 đã giành được một số danh hiệu số 1. 

Chẳng hạn, máy chủ PowerEdge XE8640 nổi lên như người chiến thắng trong tất cả các điểm chuẩn trong bộ trung tâm dữ liệu như phân loại hình ảnh, phát hiện đối tượng, trả lời câu hỏi, nhận dạng giọng nói, phân đoạn hình ảnh y tế và tóm tắt so với các hệ thống khác có bốn GPU NVIDIA H100 SXM. Máy chủ PowerEdge XE9640 đã nhận được danh hiệu số 1 cho tất cả các điểm chuẩn được đề cập trước đó so với các hệ thống làm mát bằng chất lỏng khác có bốn GPU NVIDIA H100 SXM.

So sánh với các đợt nộp trước

Hình dưới đây cho thấy những cải tiến mà khách hàng có thể đạt được bằng cách sử dụng máy chủ PowerEdge XE8640 và XE9640 thế hệ mới từ máy chủ PowerEdge XE8545 thế hệ trước của chúng tôi.                           

Hình 1. Hiệu năng tương đối của máy chủ PowerEdge XE8640 và PowerEdge XE9640 sử dụng máy chủ PowerEdge XE8545 làm tham chiếu cơ sở (đối với trục Y, càng cao càng tốt)

Biểu đồ cho thấy sự cải thiện hiệu suất tương đối từ máy chủ PowerEdge XE8545 với bốn GPU NVIDIA A100 SXM Tensor Core làm cơ sở (từ MLPerf Inference v3.0) và các máy chủ thế hệ mới như máy chủ PowerEdge XE8640 và PowerEdge XE9640 sử dụng NVIDIA H100 Tensor GPU lõi. Sự cải thiện về hiệu suất là đáng kể, thể hiện rõ qua biểu đồ. Người dùng cuối có thể cải thiện hiệu suất từ ​​hai đến bốn lần cho các tác vụ khác nhau trong điểm chuẩn Suy luận MLPerf. Chúng tôi thấy hiệu suất tương đối cao hơn với điểm chuẩn BERT nhờ hỗ trợ FP8 của GPU NVIDIA H100. 

So sánh máy chủ làm mát bằng không khí và làm mát bằng chất lỏng

Hình sau đây cho thấy hiệu suất thô của máy chủ PowerEdge XE8640 và XE9640; biểu đồ này và biểu đồ sau cung cấp điểm số tương đối. Biểu đồ bao gồm tất cả các điểm chuẩn trong bộ trung tâm dữ liệu đóng Inference mà chúng tôi đã gửi. Lưu ý rằng các điểm chuẩn khác nhau có thang đo khác nhau. Tất cả các điểm chuẩn được trình bày trong một biểu đồ, do đó, trục y được biểu thị theo logarit.

Hình 2. Hiệu suất của máy chủ PowerEdge XE8640 và PowerEdge XE9640

Máy chủ PowerEdge XE8640 và XE9640 đều là những lựa chọn tuyệt vời cho khối lượng công việc suy luận với bốn GPU NVIDIA H100 SXM Tensor Core. Máy chủ PowerEdge XE9640 là máy chủ làm mát bằng chất lỏng và máy chủ PowerEdge XE8640 là máy chủ làm mát bằng không khí. Hình dưới đây cho thấy sự khác biệt về hiệu suất giữa các hệ thống này; cả hai đều thực hiện một cách tối ưu. Cả hai hệ thống đều có thông lượng hiệu quả tương tự và mang lại hiệu suất tuyệt vời vì cấu hình CPU và GPU giống nhau. 

Hình 3. Sự khác biệt về hiệu năng giữa máy chủ PowerEdge XE9640 và XE8640 sử dụng máy chủ PowerEdge XE9640 làm đường cơ sở

Tác động của SXM đối với các hệ số dạng PCIe

Hình dưới đây cho thấy hiệu suất của máy chủ PowerEdge R760xa với GPU NVIDIA H100 PCIe làm cơ sở và cho thấy sự cải thiện hiệu suất của máy chủ PowerEdge XE9640 và PowerEdge XE8640 với GPU NVIDIA H100 Tensor Core SXM. Biểu đồ chứng minh rằng máy chủ PowerEdge XE8640 với GPU NVIDIA H100 SXM hoạt động tốt hơn khoảng 1,25 đến 1,7 lần so với máy chủ PowerEdge R760xa với GPU NVIDIA H100 PCIe.

Hình 4. Sự khác biệt về hiệu suất giữa máy chủ PowerEdge XE9640 và XE8640 với máy chủ 4x H100 SXM và PowerEdge R760xa với 4x H100 PCIe làm cơ sở

Vì GPU NVIDIA H100 SXM có Công suất thiết kế nhiệt (TDP) cao hơn nên nếu bắt buộc hiệu suất cao thì sử dụng GPU NVIDIA SXM là một lựa chọn tuyệt vời. 

So sánh hiệu quả của máy chủ thế hệ mới và thế hệ trước

Hình dưới đây cho thấy hiệu suất của máy chủ PowerEdge XE8545 thế hệ trước với GPU NVIDIA A100 SXM so với các máy chủ thế hệ mới như máy chủ PowerEdge R760xa với hệ số dạng NVIDIA H100 PCIE và máy chủ PowerEdge XE8640 và XE9640 với dạng NVIDIA H100 SXM nhân tố. Chúng tôi thấy rằng tất cả các máy chủ thế hệ mới đều mang lại hiệu suất cao hơn. Hơn nữa, máy chủ PowerEdge R760xa thế hệ mới của chúng tôi với bốn GPU NVIDIA H100 PCIe tiết kiệm điện hơn so với máy chủ PowerEdge XE8545 thế hệ trước với bốn GPU NVIDIA A100 SXM. Kết quả này là do GPU NVIDIA A100 SXM có TDP cao hơn so với GPU NVIDIA H100 PCIe. 

Hình 5. Hiệu suất tương đối của các máy chủ PowerEdge R760xa, PowerEdge XE9640 và PowerEdge XE8640 sử dụng máy chủ PowerEdge XE8545 làm cơ sở

Tổng quan về phần cứng

Các phần sau đây mô tả các thành phần của hệ thống. Phụ lục liệt kê các cấu hình hệ thống trong benchmark.  

Máy chủ Dell PowerEdge XE8640

Máy chủ PowerEdge XE8640 là máy chủ 4U làm mát bằng không khí giúp tăng tốc quá trình đào tạo và suy luận AI truyền thống, lập mô hình, mô phỏng và các ứng dụng điện toán hiệu suất cao (HPC) khác với tính toán được tối ưu hóa, chuyển đổi dữ liệu và tự động hóa thông tin chi tiết thành kết quả bằng GPU bốn chiều nền tảng. Kiến trúc mạnh mẽ và sức mạnh của hai bộ xử lý Intel Xeon thế hệ thứ 4 với số lượng lõi cao lên tới 56 lõi cùng những cải tiến mới nhất trên chip để tăng cường hoạt động AI và máy học.

Hình sau đây hiển thị máy chủ PowerEdge XE8640:

Hình 6. Máy chủ Dell PowerEdge XE8640

Máy chủ Dell PowerEdge XE9640

Máy chủ PowerEdge XE9640 là máy chủ 2U làm mát bằng chất lỏng trực tiếp (DLC) được thiết kế có mục đích dành cho khối lượng công việc AI và HPC. Công nghệ NVIDIA NVLink và Intel Xelink trong máy chủ PowerEdge XE9640 cho phép giao tiếp liền mạch giữa các GPU, tập hợp bộ nhớ và lõi của chúng để xử lý khối lượng công việc liên kết với bộ nhớ như mô hình ngôn ngữ lớn (LLM) một cách hiệu quả.

Hình sau đây hiển thị máy chủ PowerEdge XE9640:

Hình 7. Dell PowerEdge XE8640

GPU lõi Tensor NVIDIA H100

GPU NVIDIA H100 là một phần không thể thiếu của nền tảng trung tâm dữ liệu NVIDIA. Được xây dựng cho AI, HPC và phân tích dữ liệu, nền tảng này tăng tốc hơn 3.000 ứng dụng và có sẵn ở mọi nơi từ trung tâm dữ liệu đến biên, mang lại cả mức tăng hiệu suất đáng kể lẫn cơ hội tiết kiệm chi phí. GPU NVIDIA H100 Tensor Core mang lại hiệu năng, khả năng mở rộng
 và bảo mật chưa từng có cho mọi khối lượng công việc.
 Với Hệ thống chuyển mạch NVIDIA® NVLink®, có thể kết nối tới 256 GPU NVIDIA H100 để tăng tốc khối lượng công việc exascale, trong khi
 Transformer Engine chuyên dụng hỗ trợ các mô hình ngôn ngữ nghìn tỷ tham số. GPU NVIDIA H100 sử dụng
 những cải tiến mang tính đột phá trong kiến ​​trúc NVIDIA Hopper™ để mang đến AI đàm thoại hàng đầu trong ngành, tăng tốc các mô hình ngôn ngữ lớn lên gấp 30 lần so với thế hệ trước.

Hình sau đây cho thấy bộ tăng tốc NVIDIA H100 PCIe:

Hình 8. Bộ tăng tốc PCIe H100 của NVIDIA

Hình dưới đây cho thấy bộ tăng tốc NVIDIA H100 SXM:

Hình 9. Bộ tăng tốc NVIDIA H100 SXM 

Phần kết luận

Những điểm chính bao gồm:

  • Cả máy chủ Dell PowerEdge XE8640 và Dell PowerEdge XE9640 đều là sự lựa chọn tuyệt vời cho suy luận. Hiệu suất của máy chủ PowerEdge XE8640 làm mát bằng không khí gần như giống với máy chủ PowerEdge XE9640 làm mát bằng chất lỏng. Mặc dù máy chủ PowerEdge XE9640 là máy chủ 2U nhưng nó yêu cầu các phụ kiện đính kèm bộ làm mát bổ sung. Đó là một lựa chọn tốt nếu có những hạn chế về không gian và nhiệt độ, nếu không thì máy chủ PowerEdge XE8640 là một lựa chọn tuyệt vời. 
  • Máy chủ PowerEdge XE8640 và PowerEdge 9640 đã nhận được một số danh hiệu hàng đầu. Họ rõ ràng là những người đi đầu trong lĩnh vực điện toán suy luận. 
  • Máy chủ PowerEdge XE8640 và PowerEdge XE9640 thế hệ mới với GPU NVIDIA H100 đã cải thiện gấp 2 đến 4 lần so với máy chủ PowerEdge XE8545 thế hệ trước với GPU NVIDIA A100. Nâng cấp từ máy chủ PowerEdge XE8545 sẽ mang lại hiệu suất cao hơn.
  • Máy chủ PowerEdge XE9640 và PowerEdge XE8640 với bốn GPU kiểu dáng NVIDIA H100 SXM có hiệu suất cao hơn đáng kể so với máy chủ PowerEdge R760xa với bốn GPU NVIDIA H100 PCIe với hệ số từ 1,25 đến 1,7 lần.

Kết quả gửi của chúng tôi tới MLPerf Inference kể từ khi thành lập đã liên tục cho thấy những cải tiến hiệu suất đáng kể. Chúng tôi đã thực hiện nhiều nhiệm vụ khác nhau để cung cấp cho khách hàng nhiều kết quả có thể xem xét. Vòng này đánh dấu lần gửi mới và lần đầu tiên tới MLPerf với máy chủ PowerEdge XE8640 và XE9640. Khách hàng có thể dựa vào các máy tính toán cao này để đáp ứng nhu cầu suy luận có độ trễ nhanh/thấp. Nếu bị hạn chế bởi TDP hoặc các yếu tố khác, máy chủ PowerEdge R760xa có hệ số dạng PCIe là lựa chọn tuyệt vời để chạy khối lượng công việc suy luận.

ruột thừa

Bảng sau liệt kê chi tiết cấu hình hệ thống cho các máy chủ được mô tả trong blog này:

Bảng 1. Cấu hình hệ thống  

 

 

Dell PowerEdge XE 8640 (4x NVIDIA H100-SXM-80GB, TensorRT) Dell PowerEdge XE 9640 (4x H100-SXM-80GB, TensorRT) Dell PowerEdge R760xa (4x H100-PCIe-80GB, TensorRT) Dell PowerEdge XE 8545 (4x A100-SXM-80GB, TensorRT)
ID gửi MLPerf 3.1-0066                3.1-0067                3.1-0064                3.0-0011               
ID hệ thống MLPerf XE8640_H100_SXM_80GBx4_TRT XE9640_H100_SXM_80GBx4_TRT R760xa_H100_PCIe_80GBx4_TRT XE8545_A100_SXM4_80GBx4_TRT
Hệ điều hành Rocky Linux 9.1 Ubuntu 22.04 Ubuntu 20.04.4 Ubuntu 22.04
CPU Intel Xeon Bạch Kim 8480 Intel Xeon Bạch Kim 8480+ Intel Xeon Bạch Kim 8480+ AMD EPYC 7763
Ký ức 1 TB 1 TB 2 TB 2 TB
GPU NVIDIA H100 SXM 80GB NVIDIA H100 PCIE 80 GB NVIDIA A100 SXM 80GB CTS
số lượng GPU 4
ngăn xếp phần mềm TenorRT 9.0.0

CUDA 12.2

TenorRT 8.6.0

CUDA 12.2

Kết quả MLCommons

ID hệ thống MLPerf:

  • ID 3.0-0011
  • ID 3.1-0064
  • Mã số 3.1-0066
  • Mã số 3.1-0067

Lưu ý : Chúng tôi chạy lại điểm chuẩn RetinaNet ngoại tuyến cho máy chủ PowerEdge R760xa và điểm chuẩn DLRMv2 cho máy chủ PowerEdge XE8640 để phản ánh hiệu suất chính xác mà máy chủ có thể hiển thị. Chỉ có hai kết quả này là không chính thức do quy định của MLCommons.