GPU NVIDIA H100 SXM của Dell Technologies được gửi tới MLPerf™ Inference 3.0

Dell Technologies gần đây đã gửi kết quả tới MLPerf Inference v3.0 ở bộ phận đóng. Blog này nêu bật nội dung gửi phân chia khép kín của Dell Technologies được thực hiện bằng GPU NVIDIA H100 Tensor Core sử dụng hệ thống HGX dựa trên SXM.

Giới thiệu

Việc gửi MLPerf Inference v3.0 nằm trong trụ cột đo điểm chuẩn của tập đoàn MLCommons TM với mục tiêu đưa ra những so sánh công bằng giữa các cấu hình máy chủ. Các đệ trình được gửi tới bộ phận khép kín đảm bảo sự so sánh công bằng của các hệ thống.

Blog này nêu bật các đề xuất phân chia khép kín mà Dell Technologies đã thực hiện với GPU NVIDIA H100 sử dụng hệ thống HGX 100. Hệ thống HGX sử dụng giải pháp ổ cắm băng thông cao được thiết kế để hoạt động song song với công nghệ kết nối NVIDIA NVSwitch .

Ngoài NVIDIA, Dell Technologies là công ty duy nhất công bố kết quả về card GPU NVIDIA H100 SXM. Kết quả GPU NVIDIA H100 tỏa sáng trong vòng Suy luận MLPerf này. GPU này có hiệu suất tăng từ 300% đến 800% so với GPU NVIDIA A100 Tensor Core. Nó đạt được kết quả cao nhất khi xem xét hiệu suất trên mỗi hệ thống và hiệu suất trên mỗi GPU.

Bài gửi được thực hiện bằng GPU NVIDIA H100

Trong vòng này, Dell Technologies đã sử dụng máy chủ Dell PowerEdge XE9680 và Dell PowerEdge XE8545 để gửi bài cho thẻ NVIDIA H100 SXM. Vì máy chủ PowerEdge XE9680 là máy chủ GPU tám chiều nên nó cho phép khách hàng trải nghiệm khả năng tăng tốc vượt trội cho trí tuệ nhân tạo (AI), học máy (ML) và đào tạo và suy luận học sâu (DL).

Nền tảng PowerEdge XE9680 (8x H100-SXM-80GB, TensorRT) PowerEdge XE8545 (4x A100-SXM-80GB, TensorRT) PowerEdge XE9680 (8x A100-SXM-80GB, TensorRT)
ID hệ thống MLPerf XE9680_H100_SXM_80GBx8_TRT XE8545_A100_SXM4_80GBx4_TRT XE9680_A100_SXM4_80GBx8_TRT
Hệ điều hành Ubuntu 22.04
CPU Intel Xeon Bạch Kim 8470 AMD EPYC 7763 Intel Xeon Bạch Kim 8470
Ký ức 2 TB 4 TB
GPU NVIDIA H100-SXM-80GB NVIDIA A100-SXM-80GB CTS NVIDIA A100-SXM-80GB CTS
Yếu tố hình thức GPU SXM
Cấu hình bộ nhớ GPU HBM3 HBM2e
số lượng GPU số 8 4 số 8
ngăn xếp phần mềm TenorRT 8.6.0

CUDA 12.0

cuDNN 8.8.0

Trình điều khiển 525.85.12

ĐẠI LÝ 1.17.0

Bảng 1: Phần mềm gửi đi được thực hiện trên GPU NVIDIA H100 và NVIDIA A100 SXM trong MLPerf Inference v3.0

Máy chủ giá PowerEdge XE9680

Với máy chủ PowerEdge XE9680, khách hàng có thể đảm nhận khối lượng công việc đòi hỏi trí tuệ nhân tạo, học máy và học sâu, bao gồm cả AI tổng hợp. Máy chủ ứng dụng hiệu suất cao này cho phép phát triển, đào tạo và triển khai nhanh chóng các mô hình học máy lớn. Máy chủ PowerEdge XE9680 được thiết kế cho trí tuệ nhân tạo, học máy, học sâu và các khối lượng công việc đòi hỏi khắt khe khác. Máy chủ PowerEdge XE9680 được trang bị nhiều tính năng dành cho mọi khối lượng công việc trí tuệ nhân tạo, máy học và học sâu vì nó hỗ trợ 8 GPU NVIDIA HGX H100 80GB 700W SXM5 hoặc 8 GPU NVIDIA HGX A100 80GB 500W SXM4, được kết nối hoàn toàn với công nghệ NVIDIA NVLink. Để biết thêm chi tiết, hãy xem bảng thông số kỹ thuật cho máy chủ PowerEdge XE9680.

Hình 2: Mặt trước của Máy chủ Rack PowerEdge XE9680

Hình 3: Mặt trước của Máy chủ Rack PowerEdge XE9680

Hình 4: Mặt sau của Máy chủ Rack PowerEdge XE9680

Sơ đồMô tả được tạo tự động

Hình 5: Mặt sau của Máy chủ Rack PowerEdge XE9680

Hình 6: Mặt trên của Máy chủ Rack PowerEdge XE9680

So sánh GPU NVIDIA H100 SXM với GPU NVIDIA A100 SXM 

Nhìn vào kết quả tốt nhất của toàn bộ hệ thống cho vòng gửi này (v3.0) và vòng gửi trước đó (v2.1), mức tăng hiệu suất mà máy chủ PowerEdge XE9680 đạt được với tám GPU NVIDIA H100 là rất nổi bật. Để so sánh, máy chủ GPU NVIDIA H100 hoạt động tốt hơn người tiền nhiệm của nó, máy chủ GPU NVIDIA A100, với chênh lệch lớn trong tất cả khối lượng công việc được thử nghiệm, như minh họa trong hình sau. Lưu ý rằng kết quả tốt nhất trong vòng gửi trước được tạo ra bởi máy chủ PowerEdge XE8545 với bốn GPU NVIDIA A100.

*ID MLPerf 2.1-004 và ID MLPerf 3.0.-0013

Hình 7: Cải thiện hiệu suất hệ thống của Dell – MLPerf Inference v3.0 so với MLPerf Inference v2.1

Trong miền Thị giác Máy tính để phân loại hình ảnh và phát hiện đối tượng, lượt gửi cho vòng này cho thấy sự cải thiện hiệu suất gấp bốn và năm lần tương ứng trong hai vòng gửi. Đối với nhiệm vụ phân đoạn hình ảnh y tế, điểm chuẩn 3D-Unet, máy chủ PowerEdge XE9680 với GPU NVIDIA H100 đã tạo ra hiệu suất tăng gấp bốn lần. Đối với điểm chuẩn RNNT, nằm trong miền chuyển giọng nói thành văn bản, bản gửi PowerEdge XE9680 cho v3.0 cho thấy sự cải thiện hiệu suất gấp ba lần khi so sánh với bản gửi PowerEdge XE8545 cho v2.1. Trong tiêu chuẩn xử lý ngôn ngữ tự nhiên, BERT, chúng tôi đã quan sát thấy mức tăng ấn tượng ở cả chế độ mặc định và chế độ có độ chính xác cao. Đối với chế độ mặc định, có thể thấy hiệu suất tăng gấp bốn lần và có thể yêu cầu tăng hiệu suất gấp tám lần đối với chế độ có độ chính xác cao. Với sự gia tăng mức độ phổ biến gần đây của Mô hình ngôn ngữ lớn (LLM), những kết quả này tạo nên một bài nộp thú vị.

Phần kết luận

GPU NVIDIA H100 là nhân tố thay đổi cuộc chơi với hiệu suất tăng đáng kể khi so sánh với GPU NVIDIA A100. Máy chủ PowerEdge XE9680 hoạt động cực kỳ tốt trong vòng này trong tất cả các tác vụ học máy, từ phân loại hình ảnh, phát hiện đối tượng, phân đoạn hình ảnh y tế, lời nói đến văn bản và xử lý ngôn ngữ. Ngoài NVIDIA, Dell Technologies là người gửi MLPerf duy nhất cho kết quả GPU NVIDIA H100 SXM. Với các bài nộp chất lượng cao do Dell Technologies thực hiện cho vòng này với máy chủ PowerEdge XE9680, tương lai của không gian học sâu rất thú vị, đặc biệt là khi chúng tôi nhận thấy tác động mà máy chủ này với GPU NVIDIA H100 có thể gây ra đối với khối lượng công việc AI tổng quát.