Hiệu suất máy chủ Dell sử dụng điểm chuẩn MLPerf™ Training v3.0 (3)

Kết quả thực hiện

Giới thiệu

Phần này phác thảo các hệ thống nút đơn thế hệ mới nhất đã được gửi tới điểm chuẩn Đào tạo MLPerf.

Tổng quan

Kết quả của chúng tôi dựa trên các máy chủ Dell PowerEdge XE9680, XE8640 và R760xa một nút với sự kết hợp của bốn GPU NVIDIA:

  • NVIDIA H100 PCIE 80 GB
  • NVIDIA H100 SXM5 80GB
  • NVIDIA A100 PCIE 80 GB
  • NVIDIA A100 SXM5 80GB

Chúng tôi cũng đã gửi các máy chủ PowerEdge thế hệ trước, chẳng hạn như máy chủ PowerEdge XE8545 và R750xa với GPU NVIDIA A100, để giúp so sánh các phiên bản.

Điểm chuẩn mới

Chúng tôi đã gửi kết quả DLRMv2 trên máy chủ Dell PowerEdge XE9680 và XE8640 với GPU NVIDIA H100 và NVIDIA A100.

Hệ điều hành khác nhau

Chúng tôi đã chạy thử nghiệm trên các hệ điều hành khác nhau để cho thấy sự khác biệt về hiệu suất. Thử nghiệm cho thấy máy chủ Dell PowerEdge và bộ tăng tốc NVIDIA hoạt động tốt với các khối lượng công việc và mô hình khác nhau.

Cấu hình đã gửi

Bản gửi MLPerf Training v3.0 của chúng tôi bao gồm các hệ thống đa nút và một nút. Sách trắng này mô tả hiệu suất của các hệ thống nút đơn thế hệ mới nhất.

Lưu ý : Sách trắng trong tương lai sẽ mô tả hiệu suất của các hệ thống đa nút.

Cú pháp chung sau đây được sử dụng cho tên hệ thống:

<Số lượng máy chủ> x < Tên máy chủ Dell> x <số lượng máy gia tốc> x <Tên máy gia tốc NVIDIA>

Để xác định hệ thống một nút, hãy lưu ý rằng không có mục nào cho số lượng máy chủ hoặc số lượng máy chủ bằng một. Ví dụ: R750xax4A100-PCIE-80GB là hệ thống một nút.

Bảng sau liệt kê các hệ thống nút đơn để hiển thị cải tiến hiệu suất được thực hiện bởi các máy chủ thế hệ mới hơn.

Lưu ý : Tất cả các hệ thống đều bao gồm ổ NVMe.

Bàn số 3.     Hệ thống nút đơn của Dell

ID MLPerf

Hệ thống MLPerf

Hệ điều hành

CPU

Ký ức

GPU

Yếu tố hình thức GPU

GPU TDP

số lượng GPU

ngăn xếp phần mềm

3.0-2053

XE9680x8H100-SXM-80GB

Ubuntu 22.04.2 LTS

Intel Xeon Bạch Kim 8480+

1,024 TB

NVIDIA H100-SXM5-80GB

SXM5

700 W

số 8

NGC MXNet 23.04

NGC PyTorch 23.04

NGC HugeCTR 23.04

3.0-2052

XE9680x8A100-SXM-80GB

2,048 TB

NVIDIA A100-SXM-80GB CTS

3.0-2051

XE8640x4H100-SXM-80GB

NVIDIA H100-SXM5-80GB CTS

500 W

4

3.0-2048

R760xax4H100-PCIE-80GB

Ubuntu 20.04.6 LTS

1,0 TB

NVIDIA H100-PCIe-80GB

PCIe

(Gen 5 trên máy chủ)

350 W

3.0-2050

XE8545x4A100-SXM-80GB

Ubuntu 20.04.4

Bộ xử lý 64 nhân AMD EPYC 7763

NVIDIA A100-SXM-80GB CTS

SXM4

500 W

NGC MXNet 22.09

NGC PyTorch 22.09

NGC TensorFlow 22.09-tf1

3.0-2047

R750xax4H100-PCIE-80GB

Ubuntu 20.04.6 LTS

Intel Xeon Vàng 6338

NVIDIA H100-PCIe-80GB

PCIe

(Thế hệ 4 trên máy chủ)

310W

NGC MXNet 23.04

NGC PyTorch 23.04

NGC HugeCTR 23.04

Cải thiện hiệu suất

Bản tóm tắt

Phần này mô tả các cải tiến về hiệu suất từ ​​MLPerf Training v2.1 đến MLPerf Training v3.0.

Máy chủ Dell PowerEdge XE8545 so với máy chủ Dell PowerEdge XE9680

Hình dưới đây cho thấy mức tăng hiệu suất mà khách hàng có thể mong đợi nếu họ nâng cấp lên thế hệ máy chủ Dell mới nhất. Nó cho thấy yếu tố cải thiện hiệu suất khi sử dụng máy chủ PowerEdge XE9680 với máy chủ PowerEdge XE8545 thế hệ trước làm cơ sở cho các điểm chuẩn khác nhau. Lưu ý rằng máy chủ PowerEdge XE9680 có tám GPU NVIDIA H100 SXM; máy chủ PowerEdge XE8545 thế hệ trước có bốn GPU NVIDIA A100 SXM.

Hình 11.    So sánh máy chủ Dell PowerEdge XE9680 và máy chủ PowerEdge XE8545

Sự cải thiện nhiều nhất ở mức 846% được quan sát thấy với điểm chuẩn SSD, tiếp theo là điểm chuẩn BERT ở mức 611%. Các tiêu chuẩn khác mang lại sự cải thiện lớn hơn 230%. Những kết quả này rất có ý nghĩa. Thời gian đào tạo được cải thiện gấp đôi đồng nghĩa với việc có nhiều thời gian hơn cho các khối lượng công việc khác trong trung tâm dữ liệu, mang lại thời gian nhanh hơn để tạo ra giá trị cho doanh nghiệp. Với khả năng tăng tốc này, khách hàng có thể mong đợi quá trình tạo mẫu, đào tạo mô hình và đẩy nhanh quy trình MLOps của họ nhanh hơn.

Máy chủ Dell PowerEdge R750xa so với máy chủ Dell PowerEdge R760xa

Hình dưới đây so sánh  máy chủ PowerEdge  R750xa và R760xa với bốn GPU NVIDIA H100 PCIe. Mũi tên xuống cho thấy sự cải thiện về hiệu suất hệ thống.

Hình 12.    Máy chủ Dell PowerEdge R750xa và R760xa với bốn GPU NVIDIA H100 PCIe so sánh

Hình minh họa hiệu suất của máy chủ PowerEdge R750xa và R760xa với cùng một bộ tăng tốc: GPU NVIDIA H100. Trục Y cho thấy thời gian hội tụ thấp hơn. Sự cải thiện nhiều nhất về hiệu suất là từ ResNet (13,1%), tiếp theo là điểm chuẩn RNN-T (13,06%) và MaskRCNN (12,5%) và các điểm chuẩn khác.

Những kết quả này cũng chứng minh tính hiệu quả của PCIe Gen 5 và TDP đối với khối lượng công việc đào tạo đa GPU. TDP cho GPU là 310 W đối với máy chủ PowerEdge R750xa và 350 W đối với máy chủ PowerEdge R760xa.

Hình dưới đây so sánh máy chủ PowerEdge R750xa với bốn GPU NVIDIA A100 và máy chủ PowerEdge R760xa với bốn GPU NVIDIA H100. Kết quả cho thấy sự cải thiện đáng kể. Những cải tiến cao nhất được thấy với SSD (64,56%), ResNet (53,17%), tiếp theo là U-NET3D (50,17%) và các điểm chuẩn khác. Mũi tên xuống biểu thị sự cải thiện hiệu suất với các máy chủ thế hệ mới.

Hình 13.    Dell PowerEdge R750xa với bốn GPU NVIDIA A100 và PowerEdge R760xa với bốn GPU NVIDIA H100 so sánh

Việc nâng cấp lên máy chủ và GPU thế hệ mới hơn cho phép khách hàng thấy được mức tăng trưởng hiệu suất mở rộng với khối lượng công việc của họ như được chỉ ra trong các kết quả này.

Máy chủ Dell PowerEdge XE8640 so với máy chủ Dell PowerEdge XE9680

Hình dưới đây cho thấy rằng việc sử dụng máy chủ PowerEdge XE8640 với bốn GPU NVIDIA H100 và máy chủ PowerEdge XE9680 với tám GPU NVIDIA A100 sẽ mang lại hiệu suất gần như tương tự trên các điểm chuẩn khác nhau. Những kết quả này chứng minh rằng sẽ hiệu quả hơn khi sử dụng bốn GPU NVIDIA H100 thay vì tám GPU NVIDIA A100 về mật độ và sức mạnh tính toán: GPU NVIDIA H100 có thể mang lại thời gian định giá nhanh hơn.

Hình 14.    So sánh máy chủ Dell PowerEdge XE8640 với bốn GPU NVIDIA H100 và máy chủ PowerEdge XE9680 với tám GPU NVIDIA A100

Hình dưới đây cho thấy sự cải tiến mà GPU NVIDIA H100 mang lại so với GPU NVIDIA A100 sử dụng máy chủ PowerEdge XE9680 mới nhất. Những kết quả này cho thấy một sự cải thiện đáng kể. Sự cải thiện cao nhất được thấy với BERT (65,6%), tiếp theo là SSD (53,1%) và ResNet (50,2%) và các điểm chuẩn khác. Rõ ràng là GPU NVIDIA H100 mang lại hiệu suất vượt trội trong tất cả các loại khối lượng công việc và đây là sự lựa chọn tuyệt vời để tăng tốc khối lượng công việc đào tạo. Mũi tên xuống thể hiện hiệu suất được cải thiện.

Hình 15.    Máy chủ Dell PowerEdge XE9680 với tám GPU NVIDIA A100 và tám GPU NVIDIA H100

Để có thời gian định giá nhanh nhất, chúng tôi khuyên bạn nên nâng cấp lên GPU NVIDIA H100 với máy chủ PowerEdge XE9680. Cấu hình này mang lại những cải tiến hiệu suất ấn tượng so với cấu hình máy chủ và GPU thế hệ cũ.

Hình dưới đây so sánh máy chủ PowerEdge XE8545 thế hệ cũ với các máy chủ thế hệ mới như máy chủ PowerEdge XE8640 và XE9680. Đúng như dự đoán, điều đáng chú ý là máy chủ thế hệ cũ với GPU NVIDIA A100 mất nhiều thời gian nhất để hội tụ. Máy chủ PowerEdge XE9680 với tám GPU NVIDIA H100 chứng tỏ có thời gian hội tụ nhanh nhất trên tất cả các điểm chuẩn.

Hình 16.    Máy chủ Dell PowerEdge XE8545, XE8640 và XE9680 với so sánh GPU NVIDIA H100 và A100

Hình dưới đây cho thấy sự cải thiện về hiệu suất mà khách hàng có thể mong đợi khi họ sử dụng hệ số dạng PCIe GPU NVIDIA H100 so với hệ số dạng SXM. Mũi tên xuống biểu thị hiệu suất tốt hơn.

Hình 17.    Máy chủ Dell PowerEdge R760xa và XE8640 có so sánh hệ số dạng PCIe và SXM

Mức tăng cao nhất được thấy với RNN-T (39,12%), tiếp theo là ResNet (33,55%) và các loại khác. Hệ số dạng SXM mang lại khả năng tăng tốc đáng kể khi đào tạo đa GPU. TDP cho GPU hệ số dạng NVIDIA H100 PCIe là 350 W, trong khi TDP cho hệ số dạng SXM là 700 W. TDP này có thể là một điểm dữ liệu quan trọng cần xem xét khi chọn máy chủ và GPU. Các trung tâm dữ liệu có nguồn điện hạn chế có thể được hưởng lợi từ khả năng tăng tốc mà hệ số dạng PCIe mang lại, trong khi đạt được hiệu suất tương đối thấp.

Các máy chủ 4 GPU thế hệ mới như máy chủ PowerEdge R760xa và XE8640 đều là những lựa chọn tốt để đào tạo khối lượng công việc deep learning. Máy chủ PowerEdge R760xa là sự lựa chọn máy chủ tuyệt vời để mang lại hiệu suất cao trong khi xử lý các hạn chế về nguồn điện cứng.

GPU NVIDIA A100 với hệ số dạng SXM mang lại thời gian hội tụ nhanh hơn so với hệ số dạng PCIe. Máy chủ PowerEdge R750xa và XE8545 với GPU NVIDIA A100 mang lại thời gian hội tụ nhanh hơn so với các hệ thống phần cứng thế hệ trước.

Khách hàng cũng có thể hưởng lợi từ những cải tiến chỉ dành cho phần mềm. Tuy nhiên, những cải tiến chỉ dành cho phần mềm là tốt nhưng chúng không tốt bằng những cải tiến về phần cứng và phần mềm, như trong hình sau:

Hình 18.    Máy chủ Dell PowerEdge R750xa và XE8545 thế hệ trước với GPU NVIDIA A100 so sánh

Nếu doanh nghiệp của bạn cần thời gian hội tụ nhanh hơn, việc nâng cấp lên máy chủ thế hệ mới với GPU NVIDIA giờ đây trở nên dễ dàng hơn bao giờ hết. Những cấu hình này mang lại nhiều lợi ích, đi kèm với khả năng tính toán hiệu năng cao, hỗ trợ cho các kiến ​​trúc mô hình mới hơn và những cải tiến mang lại khối lượng công việc học sâu. Những lợi ích này giúp đáp ứng nhu cầu kinh doanh một cách rộng rãi và giúp triển khai AI đi đầu trong kỷ nguyên điện toán hiện đại.

Bản tóm tắt

Sách trắng này đã giới thiệu và cung cấp thông tin tổng quan về MLPerf Training v3.0 cho thế hệ máy chủ Dell mới. Những điểm chính bao gồm:

  • Vòng gửi này giới thiệu các máy chủ Dell mới so với các vòng trước.
  • Chúng tôi đã thấy hiệu suất tăng đáng kể với các máy chủ thế hệ mới và GPU NVIDIA.
  • Máy chủ Dell PowerEdge XE9680 mang lại hiệu suất đào tạo cao nhất với GPU NVIDIA HGX H100 trên các khối lượng công việc khác nhau trong điểm chuẩn như phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng có trọng lượng nhẹ và nặng, nhận dạng giọng nói, NLP và đề xuất.
  • Máy chủ Dell PowerEdge XE9860, XE8640 và R760xa là những lựa chọn tuyệt vời cho khối lượng công việc đào tạo deep learning vì chúng có khả năng mở rộng cao theo chiều ngang. Thông tin thêm về chia tỷ lệ đa nút sẽ có trong blog mới.
  • Kết quả của chúng tôi bao gồm nhiều nội dung gửi đến bộ phận Đóng. Số lượng nội dung gửi lớn này giúp khách hàng xem dữ liệu theo nhiều cách khác nhau để quyết định xem dữ liệu nào phù hợp với khối lượng công việc của họ để so sánh mức độ tương tự giữa các nhà cung cấp và OEM khác nhau.
  • Số lượt gửi tới MLPerf Training 3.0 không ngừng tăng lên; có kết quả nhiều hơn khoảng 30% so với đợt gửi cuối cùng.
  • Những cải tiến về phần cứng và phần mềm có thể giúp giảm đáng kể thời gian hội tụ cho các loại khối lượng công việc đào tạo deep learning khác nhau.
  • Khách hàng có thể tận dụng Dell Technologies để thúc đẩy quá trình chuyển đổi AI của họ nhằm cung cấp chương trình đào tạo deep learning hiệu suất cao bao gồm các khối lượng công việc như AI tổng hợp. Ví dụ: Dell Technologies đã hợp tác với NVIDIA để phát hành Project Helix .