So sánh GPU NVIDIA H100 và A100 trong Máy chủ Dell PowerEdge R760xa và R750xa

Bài viết

Dell Technologies gần đây đã gửi kết quả tới bộ điểm chuẩn MLPerf™ Inference v3.1. Blog này nêu bật nội dung gửi bộ phận khép kín của Dell Technologies được thực hiện cho các máy chủ Dell PowerEdge R760xa và Dell PowerEdge R750xa với GPU NVIDIA H100 và NVIDIA A100.

Giới thiệu

Blog này cung cấp những so sánh đưa ra kết luận có liên quan về những cải tiến hiệu suất đạt được trên máy chủ Dell PowerEdge R760xa với GPU NVIDIA H100 so với các phiên bản tiền nhiệm tương ứng của chúng, máy chủ Dell PowerEdge R750xa với GPU NVIDIA A100. Trong phần máy chủ Dell PowerEdge R760xa của blog này, chúng tôi so sánh hiệu suất của máy chủ PowerEdge R760xa với máy chủ PowerEdge R750xa trong khi vẫn giữ nguyên GPU NVIDIA H100 để chứng minh sự cải tiến của thế hệ máy chủ PowerEdge mới. Ngoài ra, chúng tôi đã so sánh hiệu suất của máy chủ PowerEdge R760xa với GPU NVIDIA H100 với máy chủ PowerEdge R750xa với GPU NVIDIA A100 để giới thiệu máy chủ cùng với những cải tiến qua từng thế hệ GPU. Trong phần máy chủ Dell PowerEdge R750xa của blog này, chúng tôi giữ nguyên máy chủ và so sánh hiệu suất của GPU NVIDIA H100 với GPU NVIDIA A100. Để có thêm một góc nhìn, chúng tôi đã giữ nguyên máy chủ PowerEdge R750xa và GPU NVIDIA A100 để thể hiện những cải tiến về hiệu suất do các bản cập nhật ngăn xếp phần mềm mang lại.

Cấu hình hệ thống đang thử nghiệm (SUT)

Bảng 1: Cấu hình SUT của máy chủ Dell PowerEdge R760xa và Dell PowerEdge R750xa cho MLPerf Inference v3.1 và v3.0

Nền tảng R750xa R750xa R760xa
Phiên bản MLPerf V3.0 V3.1 V3.1
GPU NVIDIA A100 PCIe 80 GB NVIDIA A100 PCIe 80GB
NVIDIA H100 PCIe 80GB
NVIDIA H100 PCIe 80 GB
Số lượng GPU 4
ID hệ thống MLPerf  R750xa_A100_PCIE_80GBx4_TRT R750xa_A100_PCIe_80GBx4_TRT R750xa_H100_PCIe_80GBx4_TRT R760xa_H100_PCIe_80GBx4_TRT
CPU CPU Intel Xeon Gold 6338 @ 2,00 GHz Intel Xeon Bạch Kim 8480+
Ký ức 512 GB

512 GB

1 TB

2 TB
Ngăn xếp phần mềm TensorRT 8.6
CUDA 12.0
cuDNN 8.8.0
Trình điều khiển 525.85.12
DALI 1.17.0
TensorRT 9.0.0
CUDA 12.2
cuDNN 8.9.2
Trình điều khiển 535.86.10
DALI 1.28.0

Bảng sau đây hiển thị thông số kỹ thuật của GPU NVIDIA H100 và NVIDIA A100:

Bảng 2: So sánh thông số kỹ thuật của GPU NVIDIA H100 và NVIDIA A100

 GPU NVIDIA A100 NVIDIA H100
Yếu tố hình thức SXM4 PCIe thế hệ 4 SXM4 PCIe thế hệ 4 PCIe thế hệ 5 NVL PCIe Gen5 SXM5
kiến trúc GPU Ampe Phễu
lõi CUDA 6912 14592 2×16895 16895
Kích thước bộ nhớ 40GB 80GB 80GB 2x94GB (188GB) 80GB 94 GB
Loại bộ nhớ HBM2e HBM2 HBM2e HBM2e HBM3 HBM2e
Đồng hồ cơ sở 1095 MHz 765 MHz 1275 MHz 1065 MHz 1095 MHz 1080 MHz 1590 MHz 1605 MHz
Đồng hồ tăng cường 1410 MHz 1755 MHz 1785 MHz 1980 MHz
Đồng hồ ghi nhớ 1215 MHz 1593 MHz 1512 MHz 1593 MHz 2619 MHz 1593 MHz
Hỗ trợ MIG Đúng Có/Thế hệ thứ 2
Băng thông bộ nhớ đỉnh 1555 GB/giây 2039 GB/giây

 

1935 GB/giây 2039 GB/giây 3938 GB/giây 3352 GB/giây 2359 GB/giây
Tổng công suất bảng 400 W 250W 400 W 300 W 310/350 W 400 W 700 W

Máy chủ Dell PowerEdge R760xa

Máy chủ PowerEdge R760xa tỏa sáng như một máy chủ khối lượng công việc Trí tuệ nhân tạo (AI) với khả năng suy luận tiên tiến. Máy chủ này thể hiện đỉnh cao về hiệu suất trong không gian suy luận AI với khả năng xử lý được hỗ trợ bởi bộ xử lý Intel Xeon Platinum và GPU NVIDIA H100 PCIe 80 GB. Kết hợp với NVIDIA TensorRT và CUDA 12.2, máy chủ PowerEdge R760xa được định vị hoàn hảo cho mọi khối lượng công việc AI bao gồm nhưng không giới hạn ở Mô hình ngôn ngữ lớn, thị giác máy tính, Xử lý ngôn ngữ tự nhiên, robot và điện toán biên. Cho dù bạn đang xử lý các tác vụ nhận dạng hình ảnh, hiểu ngôn ngữ tự nhiên hay mô hình học sâu, máy chủ PowerEdge R760xa đều cung cấp sức mạnh tính toán để mang lại kết quả đáng tin cậy, chính xác và nhanh chóng.


Hình 1: Mặt trước của máy chủ Dell PowerEdge R760xa

|

Hình 2: Mặt trên của máy chủ Dell PowerEdge R760xa

Các kết quả trong các số liệu sau đây được biểu thị dưới dạng chênh lệch phần trăm trong khi vẫn duy trì một SUT duy nhất làm đường cơ sở. Để xác định phần trăm chênh lệch giữa hai kết quả, chúng tôi đã trừ giá trị hiệu suất đạt được trên máy chủ thứ nhất khỏi giá trị hiệu suất đạt được trên máy chủ thứ hai. Chúng tôi chia sự khác biệt cho hiệu suất đạt được trên máy chủ thứ hai và nhân nó với 100 để có phần trăm. Bằng cách áp dụng công thức này, chúng tôi đạt được mức chênh lệch hiệu suất giữa máy chủ thứ hai và máy chủ thứ nhất. Kết quả này cung cấp sự so sánh dễ đọc giữa hai hệ thống và một số điểm chuẩn.

Hình dưới đây cho thấy sự khác biệt phần trăm giữa máy chủ PowerEdge R760xa và PowerEdge R750xa trong khi duy trì GPU NVIDIA H100 không đổi. Cả hai kết quả đều được thu thập từ bản gửi MLPerf Inference v.3.1 chính thức mới nhất với cùng một ngăn xếp phần mềm. Trên tất cả các điểm chuẩn, máy chủ PowerEdge R760xa vượt trội hoàn toàn so với người tiền nhiệm của nó. Máy chủ PowerEdge R760xa đã tỏa sáng trong tác vụ Xử lý ngôn ngữ tự nhiên với mức cải thiện đáng chú ý là 15%. Trung bình, nó hoạt động tốt hơn khoảng 6% cho tất cả khối lượng công việc. 


Hình 3: Tỷ lệ phần trăm khác biệt giữa máy chủ Dell PowerEdge  R760xa với GPU NVIDIA H100 và máy chủ Dell PowerEdge R750xa với GPU NVIDIA H100 khi gửi v3.1

Hình dưới đây cho thấy sự so sánh giữa máy chủ PowerEdge R760xa với GPU NVIDIA H100 với máy chủ PowerEdge R750xa với GPU NVIDIA A100. Sự so sánh này dự kiến ​​​​sẽ mang lại hiệu suất delta cao nhất nhờ nâng cấp phần cứng của cả máy chủ và GPU. Cả hai lần gửi đều được thực hiện cho vòng MLPerf Inference v3.1 trong đó ngăn xếp phần mềm được giữ nguyên. Máy chủ PowerEdge R760xa kết hợp với GPU NVIDIA H100 hoàn toàn vượt trội so với phiên bản tiền nhiệm trong mọi khối lượng công việc. Trong danh mục độ chính xác cao của khối lượng công việc Xử lý ngôn ngữ tự nhiên, máy chủ PowerEdge R760xa tự hào có mức cải thiện hiệu suất ấn tượng lần lượt là 178% và 197% ở chế độ Máy chủ và Ngoại tuyến. Trung bình, cấu hình mới hơn cho thấy sự cải thiện đáng chú ý là 71% trên tất cả các điểm chuẩn.


Hình 4: Sự khác biệt phần trăm giữa máy chủ Dell PowerEdge  R760xa với GPU NVIDIA H100 và máy chủ Dell PowerEdge R750xa với GPU NVIDIA A100 cho v3.1

Máy chủ Dell PowerEdge R750xa

Máy chủ PowerEdge R750xa là sự kết hợp hoàn hảo giữa sức mạnh công nghệ và sự đổi mới. Máy chủ này được trang bị bộ xử lý Intel Xeon Gold cũng như GPU NVIDIA mới nhất. Máy chủ PowerEdge R760xa được thiết kế cho khối lượng công việc AI/ML/DL đòi hỏi khắt khe nhất vì nó tương thích với công cụ NVIDIA TensorRT và phiên bản CUDA mới nhất. Với tối đa chín khe cắm PCIe Gen4 và khả năng sẵn có ở cấu hình 1U hoặc 2U, máy chủ PowerEdge R750xa là một lựa chọn tuyệt vời cho mọi khối lượng công việc đòi hỏi khắt khe.


Hình 5: Mặt trước của máy chủ Dell PowerEdge R750xa


Hình 6: Mặt sau của máy chủ Dell PowerEdge R750xa

Để so sánh sau, máy chủ Dell PowerEdge R750xa được giữ nguyên nhưng GPU được cập nhật từ GPU NVIDIA A100 lên GPU NVIDIA H100. Sự so sánh này rất hữu ích nếu bạn muốn giữ lại máy chủ mà bạn đã có nhưng đang nâng cấp GPU. Đúng như dự đoán, máy chủ có GPU NVIDIA H100 cho thấy những cải thiện hiệu suất đáng kể trên tất cả các khối lượng công việc. Tương tự như so sánh trước, tác vụ Xử lý ngôn ngữ tự nhiên có độ chính xác cao trên GPU NVIDIA H100 cho thấy những cải tiến hiệu suất đầy hứa hẹn. Trong kịch bản Máy chủ có độ chính xác cao cho BERT, GPU NVIDIA H100 cho thấy mức cải thiện 156% và trong kịch bản Ngoại tuyến, mức cải thiện là 174%. Trung bình, máy chủ PowerEdge R750xa kết hợp với GPU NVIDIA H100 hoạt động tốt hơn khoảng 60% so với GPU tiền nhiệm của nó.


Hình 7: Phần trăm chênh lệch giữa Dell PowerEdge R750xa H100 và Dell PowerEdge R750xa A100 cho MLPerf Inference v3.1

Sự so sánh thể hiện trong hình dưới đây là một sự so sánh thú vị giữa hai vòng gửi bài. Phần cứng của SUT giống hệt với máy chủ Dell PowerEdge R750xa được ghép nối với GPU NVIDIA A100. Đồng bằng hiệu suất từ ​​biểu đồ này có thể được quy cho những thay đổi trong ngăn xếp phần mềm. Đối với các tác vụ thị giác, RetinaNet và 3D-UNet, GPU NVIDIA H100 cho thấy sự cải thiện đáng kể về hiệu suất. Đối với kịch bản Máy chủ BERT, hiệu suất gần như giống nhau. Tuy nhiên, đối với kịch bản BERT ngoại tuyến ở cả chế độ mặc định và chế độ có độ chính xác cao, hiệu suất có sự suy giảm nhẹ. Kết quả này có thể là do hồi quy trong mô hình BERT.


Hình 8: Tỷ lệ phần trăm khác biệt giữa máy chủ Dell PowerEdge R750xa với bản gửi NVIDIA A100 GPU v3.1 và máy chủ Dell PowerEdge R750xa với bản gửi NVIDIA A100 GPU v3.0

Phần kết luận

Các bài nộp Suy luận MLPerf luôn gợi ra những so sánh sâu sắc. Blog này nêu bật những so sánh giữa vòng gửi MLPerf Inference v3.1 và v3.0:

  • So sánh giữa các thế hệ giữa máy chủ Dell PowerEdge R760xa và máy chủ Dell PowerEdge R750xa trong khi vẫn giữ GPU ở mức trung bình không đổi cho thấy mức cải thiện hiệu suất ấn tượng 6,22%.
  • Việc nâng cấp máy chủ cũng như GPU từ máy chủ Dell PowerEdge R750xa kết hợp với GPU NVIDIA A100 lên máy chủ Dell PowerEdge R760xa kết hợp với GPU NVIDIA H100 cho thấy hiệu suất tăng đáng chú ý. Bạn có thể mong đợi hiệu suất tăng trung bình khoảng 71% trên các điểm chuẩn bằng cách nâng cấp cả máy chủ và GPU.
  • Trong khi duy trì máy chủ Dell PowerEdge R750xa và nâng cấp GPU từ GPU NVIDIA A100 lên GPU NVIDIA H100, bạn có thể mong đợi hiệu suất tăng khoảng 60% trên các điểm chuẩn.
  • Trong khi duy trì cùng một SUT qua các vòng với máy chủ Dell PowerEdge R750xa và GPU NVIDIA A100, bạn có thể mong đợi mức cải thiện trung bình tăng 11,36% đối với các tác vụ RetinaNet, 3D-UNet và RNNT nhờ cải tiến phần mềm. Tuy nhiên, có sự sụt giảm nhỏ về hiệu suất trong tiêu chuẩn BERT.

Qua ba so sánh đầu tiên, có thể nhận thấy mô hình cải tiến trong tác vụ Xử lý ngôn ngữ tự nhiên. Với sự ra đời của Mô hình ngôn ngữ lớn mới, máy chủ Dell PowerEdge được định vị tốt để xử lý khối lượng công việc Generative AI. Trong lần so sánh cuối cùng, chúng tôi đã giữ cho máy chủ Dell PowerEdge R750xa và GPU NVIDIA A100 nhất quán nhưng đã xem xét hiệu suất qua các vòng gửi khác nhau.

Kết quả MLCommons™

Lưu ý : Chúng tôi đã chạy lại kết quả RetinaNet Ngoại tuyến cho máy chủ Dell PowerEdge R760xa và Dell PowerEdge R750xa với GPU NVIDIA H100 sau khi gửi với kích thước lô GPU lớn hơn. Những kết quả này đã cải thiện đáng kể hiệu suất và là sự thể hiện thực sự của máy chủ Dell khi chúng tôi thấy hiệu suất tăng lần lượt là 78% và 114% trên máy chủ PowerEdge R760xa và máy chủ PowerEdge R750xa. Đối với máy chủ Dell PowerEdge R760xa có bốn GPU NVIDIA H100, kết quả RetinaNet offline được cải thiện từ 2069,79 lên 4550,67. Kết quả RetinaNet ngoại tuyến cho các bài gửi ID hệ thống 3.1-0063 và 3.1-0065 không phải là kết quả chính thức do các quy tắc của MLCommons vì chúng được chạy lại sau khi gửi và không được gửi chính thức trước thời hạn.

ID hệ thống MLPerf Inference v3.1 và v3.0:

  • 3.1-0058, 3.1-0061 Dell PowerEdge R750xa (4x A100-PCIe-80GB, TensorRT)
  • 3.1-0062 Dell PowerEdge R750xa (4x H100-PCIe-80GB, TensorRT)
  • 3.1-0064 Dell PowerEdge R760xa (4x H100-PCIe-80GB, TensorRT)
  • 3.0-0008 Dell PowerEdge R750xa (4x A100-PCIe-80GB, TensorRT)

Tên và logo MLPerf™ là thương hiệu của Hiệp hội MLCommons tại Hoa Kỳ và các quốc gia khác. Đã đăng ký Bản quyền. Nghiêm cấm sử dụng trái phép. Xem www.mlcommons.org để biết thêm thông tin.