Máy chủ Dell Excel trong chương trình đào tạo MLPerf™ v2.1

Dell Technologies đã hoàn tất việc gửi thành công Khóa đào tạo MLPerf, đánh dấu vòng gửi thứ bảy cho MLCommons™. Blog này cung cấp thông tin tổng quan và nêu bật hiệu suất của các máy chủ Dell PowerEdge R750xa, XE8545 và DSS8440 đã được sử dụng để gửi.

Có gì mới trong MLPerf Training v2.1?

Vòng nộp này không bao gồm các điểm chuẩn mới hoặc những thay đổi trong các điểm chuẩn hiện có. Một thay đổi được đưa ra trong trình kiểm tra tuân thủ việc gửi. 

Vòng này bổ sung chuẩn hóa một phía cho bộ kiểm tra để giảm phương sai về số bước hội tụ. Thay đổi này có nghĩa là nếu một kết quả hội tụ nhanh hơn giá trị trung bình RCP trong một phạm vi nhất định thì trình kiểm tra sẽ chuẩn hóa kết quả thành giá trị trung bình RCP. Việc chuẩn hóa này không có sẵn trong các vòng gửi trước đó.

Có gì mới trong MLPerf Training v2.1 với nội dung gửi của Dell?

Đối với việc gửi Dell cho MLPerf Training v2.1, chúng tôi đã bao gồm:

  • Cải thiện hiệu suất với các mô hình BERT và Mask R-CNN
  • Kết quả gửi Minigo trên máy chủ Dell PowerEdge R750xa với GPU A100 PCIe

Tổng thể bài nộp của Dell

Hình 1.      Nội dung gửi tổng thể cho tất cả máy chủ Dell PowerEdge trong MLPerf Training v2.1

Hình 1 cho thấy nội dung gửi của chúng tôi, trong đó khối lượng công việc trải dài trên việc phân loại hình ảnh, phát hiện vật thể nhẹ và nặng, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, hệ thống gợi ý, phân đoạn hình ảnh y tế và học tăng cường. Có nhiều GPU NVIDIA khác nhau bao gồm A100, với hệ số dạng PCIe và SXM4 có VRAM 40 GB và 80 GB và A30.

Minigo trên máy chủ PowerEdge R750xa là lần gửi đầu tiên và mất khoảng 516 phút để chạy đạt chất lượng mục tiêu. Bài nộp đó có 4x GPU A100 PCIe 80 GB.

Kết quả của chúng tôi đã tăng về số lượng từ 41 lên 45. Số lượng gửi tăng lên này giúp khách hàng thấy được hiệu suất của các hệ thống sử dụng các máy chủ, GPU và CPU PowerEdge khác nhau. Với nhiều kết quả hơn, khách hàng có thể mong đợi thấy được tác động của việc sử dụng các cài đặt phần cứng khác nhau có thể đóng vai trò quan trọng về thời gian hội tụ.

Chúng tôi có một số danh hiệu chiến thắng được mua sắm chứng tỏ hiệu suất cao hơn của hệ thống của chúng tôi so với những người gửi khác, bắt đầu với số lượng kết quả cao nhất trong số tất cả những người gửi. Một số tựa game khác bao gồm vị trí hàng đầu về thời gian hội tụ cho BERT, ResNet và Mask R-CNN với máy chủ PowerEdge XE8545 của chúng tôi được hỗ trợ bởi GPU NVIDIA A100-40GB.

Cải thiện hiệu suất cho BERT và Mask R-CNN

Hình 2 .     Tăng hiệu suất từ ​​MLPerf v2.0 lên MLPerf v2.1 khi chạy BERT

Hình 2 cho thấy những cải tiến được thấy với máy chủ PowerEdge R750xa và PowerEdge XE8545 với GPU A100 từ MLPerf Training v2.0 đến MLPerf Training v2.1 chạy khối lượng công việc mô hình ngôn ngữ BERT. Máy chủ PowerEdge XE8545 với A100-80GB có thời gian hội tụ nhanh nhất và cải thiện cao nhất ở mức 13,1%, trong khi máy chủ PowerEdge XE8545 với A100-40GB có 7,74%, tiếp theo là máy chủ PowerEdge R750xa với A100-PCIe ở mức 5,35%.

Hình 3 .     Hiệu suất tăng từ MLPerf v2.0 lên MLPerf v2.1 khi chạy Mask R-CNN

Hình 3 cho thấy những cải tiến được thấy với máy chủ PowerEdge XE8545 có GPU A100. Có sự cải thiện 3,31 phần trăm về thời gian hội tụ với MLPerf v2.1.

Đối với cả BERT và Mask R-CNN, các cải tiến đều dựa trên phần mềm. Những kết quả này cho thấy những cải tiến chỉ dành cho phần mềm có thể giảm thời gian hội tụ. Khách hàng có thể hưởng lợi từ những cải tiến tương tự mà không cần bất kỳ thay đổi nào trong môi trường phần cứng của họ.

Các phần sau đây so sánh sự khác biệt về hiệu suất giữa GPU hệ số dạng SXM và PCIe.

Sự khác biệt về hiệu suất giữa hệ số dạng PCIe và SXM4 với GPU A100

Hinh 4 .     Hệ số dạng SXM4 so với PCIe cho BERT

Hình 5 .     Hệ số dạng SXM4 so với PCIe cho Resnet50 v1.5

Hình 6 .     Hệ số dạng SXM4 so với PCIe cho RNN-T

Bảng 1:

Hệ thống BERT Resnet50 RNN-T
R750xax4A100-PCIe-80GB 48,95 61,27 66,19
XE8545x4A100-SXM-80GB 32,79 54,23 55,08
Phần trăm chênh lệch 39,54% 12,19% 18,32%

Hình 4, 5, 6 và Bảng 1 cho thấy hệ số dạng SXM nhanh hơn hệ số dạng PCIe đối với khối lượng công việc BERT, Resnet50 v1.5 và RNN-T.

Hệ số dạng SXM thường tiêu thụ nhiều năng lượng hơn và nhanh hơn PCIe. Đối với khối lượng công việc trên, phần trăm cải thiện tối thiểu về khả năng hội tụ mà khách hàng có thể mong đợi là ở mức hai con số, dao động từ khoảng 12% đến 40%, tùy thuộc vào khối lượng công việc.

So sánh kết quả đa nút

Đánh giá hiệu suất đa nút là quan trọng hơn bao giờ hết. Với sự ra đời của các mô hình lớn và các kỹ thuật song song khác nhau, khách hàng ngày càng có nhu cầu tìm kiếm kết quả nhanh hơn. Do đó, chúng tôi đã gửi một số kết quả đa nút để đánh giá hiệu suất mở rộng quy mô.

Hình 7 .     Kết quả đa nút BERT với máy chủ PowerEdge R750xa và XE8545

Hình 7 biểu thị kết quả đa nút từ ba hệ thống khác nhau với các cấu hình sau:

  1. R750xa với 4 GPU A100-PCIe-80GB
  2. XE8545 với 4 GPU A100-SXM-40GB
  3. XE8545 với 4 GPU A100-SXM-80GB

Mỗi nút của hệ thống trên có bốn GPU mỗi nút. Khi biểu đồ hiển thị tám GPU, điều đó có nghĩa là kết quả hiệu suất được lấy từ hai nút. Tương tự, đối với 16 GPU, kết quả được lấy từ bốn nút, v.v.

Hình 8 .     Kết quả đa nút Resnet50 với máy chủ R750xa và XE8545

Hình 9 .     Che dấu kết quả đa nút R-CNN với máy chủ R750xa và XE8545

Như được minh họa trong Hình 7, 8 và 9, kết quả chia tỷ lệ đa nút của BERT, Resnet50 và Mask R-CNN là tỷ lệ tuyến tính hoặc gần như tuyến tính. Điều này cho thấy các máy chủ Dell cung cấp hiệu suất vượt trội với  khả năng mở rộng quy mô một nút và đa nút.

Phần kết luận

Những phát hiện được mô tả trong blog này cho thấy:

  • Máy chủ Dell có thể chạy tất cả các loại khối lượng công việc trong quá trình gửi Đào tạo MLPerf.
  • Các cải tiến chỉ dành cho phần mềm giúp giảm thời gian tìm kiếm giải pháp cho khách hàng của chúng tôi, như được trình bày trong bản gửi MLPerf Training v2.1 của chúng tôi và khách hàng có thể mong đợi thấy những cải tiến trong môi trường của họ.
  • Máy chủ Dell PowerEdge XE8545 và PowerEdge R750xa với NVIDIA A100 với hệ số dạng PCIe và SXM4 đều là những lựa chọn tuyệt vời cho tất cả các mô hình deep learning.
  • Các máy chủ PowerEdge R750xa dựa trên PCIe có thể cung cấp khối lượng công việc học tập tăng cường bên cạnh các loại khối lượng công việc khác, chẳng hạn như phân loại hình ảnh, phát hiện đối tượng nhẹ và nặng, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và phân đoạn hình ảnh y tế.
  • Kết quả về một nút trong quá trình gửi của chúng tôi cho thấy rằng các máy chủ Dell mang lại hiệu suất vượt trội và khả năng chạy đa nút có quy mô tốt và giúp giảm thời gian giải quyết một nhóm loại khối lượng công việc riêng biệt, giúp máy chủ Dell phù hợp với khối lượng công việc đào tạo học sâu một nút và đa nút .
  • Kết quả nút đơn mà chúng tôi gửi cho thấy rằng máy chủ Dell mang lại hiệu suất vượt trội và kết quả đa nút cho thấy hiệu suất có quy mô phù hợp giúp giảm thời gian giải quyết một nhóm loại khối lượng công việc riêng biệt. Điều này làm cho máy chủ Dell phù hợp với cả khối lượng công việc đào tạo nhỏ trên các nút đơn và khối lượng công việc đào tạo deep learning lớn trên nhiều nút.

ruột thừa

Hệ thống đang được thử nghiệm

Cấu hình hệ thống MLPerf cho hệ thống PowerEdge XE8545

Hệ điều hành CPU Ký ức GPU Yếu tố hình thức GPU số lượng GPU  Mạng ngăn xếp phần mềm
XE8545x4A100-SXM-40GB

2xXE8545x4A100-SXM-40GB

4xXE8545x4A100-SXM-40GB

8xXE8545x4A100-SXM-40GB

16xXE8545x4A100-SXM-40GB

32xXE8545x4A100-SXM-40GB

2x ConnectX-6 IB HDR 200Gb/giây

 

 

 
Linux doanh nghiệp mũ đỏ AMD EPYC 7713 1 TB NVIDIA A100-SXM-40GB SXM4 4, 8, 16, 32, 64, 128   CUDA 11.6

Lái xe 510.47.03

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0

XE8545x4A100-SXM-80GB    
Ubuntu 20.04.4 AMD EPYC 7763 1 TB NVIDIA A100-SXM-80GB SXM4 4   CUDA 11.6

Lái xe 510.47.03

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0

2xXE8545x4A100-SXM-80GB

4xXE8545x4A100-SXM-80GB

   
Linux doanh nghiệp mũ đỏ AMD EPYC 7713 1 TB NVIDIA A100-SXM-80GB SXM4 4, 8   CUDA 11.6

Lái xe 510.47.03

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0

Cấu hình hệ thống MLPerf cho máy chủ Dell PowerEdge R750xa

  2xR750xa_A100 8xR750xa_A100
ID hệ thống MLPerf 2xR750xax4A100-PCIE-80GB 8xR750xax4A100-PCIE-80GB
Hệ điều hành  CentOS 8.2.2004
CPU Intel Xeon Vàng 6338
Ký ức  512GB
GPU NVIDIA A100-PCIE-80GB
Yếu tố hình thức GPU PCIe
số lượng GPU 4,32
Mạng 1x ConnectX-5 IB EDR 100Gb/giây
ngăn xếp phần mềm CUDA 11.6

Trình điều khiển 470.42.01

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3 

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0

CUDA 11.6

Trình điều khiển 470.42.01

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0

Cấu hình hệ thống MLPerf máy chủ Dell DSS 8440

  DSS 8440
ID hệ thống MLPerf DSS8440x8A30-NVBRIDGE
Hệ điều hành  CentOS 8.2.2004
CPU Intel Xeon Vàng 6248R
Ký ức  768 GB
GPU NVIDIA A30
Yếu tố hình thức GPU PCIe
số lượng GPU số 8
Mạng          1x ConnectX-5 IB EDR 100Gb/giây
ngăn xếp phần mềm CUDA 11.6

Lái xe 510.47.03

cuBLAS 11.9.2.110

cuDNN 8.4.0.27

TenorRT 8.0.3 

ĐẠI LÝ 1.5.0

NCCL 2.12.10

Mở MPI 4.1.1rc1

MOFED 5.4-1.0.3.0