Hiệu suất đa nút của Máy chủ Dell PowerEdge với MLPerfTM Training v1.1

Trình Dell MLPerf v1.1 bao gồm các kết quả đa nút. Blog này giới thiệu hiệu suất trên nhiều nút trên máy chủ Dell PowerEdge R750xa và XE8545 và chứng minh rằng hiệu suất mở rộng đa nút là tuyệt vời.

Yêu cầu điện toán cho đào tạo deep learning đang tăng với tốc độ chóng mặt. Bắt buộc phải đào tạo các mô hình trên nhiều nút để đạt được thời gian đưa ra giải pháp nhanh hơn. Do đó, điều quan trọng là phải thể hiện hiệu suất mở rộng trên nhiều nút. Để chứng minh cho khách hàng thấy hiệu suất mà họ có thể mong đợi trên nhiều nút, bản gửi v1.1 của chúng tôi bao gồm các kết quả đa nút. Các số liệu sau đây cho thấy kết quả đa nút cho các hệ thống PowerEdge R750xa và XE8545.

 

Hình 1: Kết quả một, hai, bốn và tám nút với hiệu suất mở rộng PowerEdge R750xa Resnet50 MLPerf v1.1

Hình 1 cho thấy hiệu suất của máy chủ PowerEdge R750xa với đào tạo Resnet50. Những con số này chia tỷ lệ từ một nút đến tám nút, từ bốn GPU NVIDIA A100-PCIE-80GB đến 32 GPU NVIDIA A100-PCIE-80GB. Chúng ta có thể thấy rằng tỷ lệ gần như tuyến tính trên các nút. Quá trình đào tạo MLPerf yêu cầu vượt qua Điểm hội tụ tham chiếu (RCP) để tuân thủ. Các RCP này là chất ức chế để hiển thị tỷ lệ tuyến tính cho trường hợp tỷ lệ 8x. Tỷ lệ gần tuyến tính làm cho nút PowerEdge R750xa trở thành lựa chọn tuyệt vời cho thiết lập đào tạo đa nút.

Khối lượng công việc được phân phối bằng cách sử dụng điểm kỳ dị trên máy chủ PowerEdge R750xa. Singularity là một giải pháp chứa an toàn chủ yếu được sử dụng trong các cụm GPU HPC truyền thống. Nội dung gửi của chúng tôi bao gồm các tập lệnh thiết lập có điểm đặc biệt giúp khách hàng HPC truyền thống chạy khối lượng công việc mà không cần phải cơ cấu lại hoàn toàn thiết lập cụm hiện tại của họ. Đệ trình cũng bao gồm các tập lệnh dựa trên Slurm Docker.

 

Hình 2: Kết quả gửi đa nút cho máy chủ PowerEdge XE8545 với BERT, MaskRCNN, Resnet50, SSD và RNNT

Hình 2 cho thấy hiệu suất đã gửi của máy chủ PowerEdge XE8545 với đào tạo BERT, MaskRCNN, Resnet50, SSD và RNNT. Những con số này chia tỷ lệ từ một nút đến hai nút, từ bốn GPU NVIDIA A100-SXM-80GB đến tám GPU NVIDIA A100-SXM-80GB. Tất cả các GPU hoạt động ở mức TDP 500W để đạt hiệu suất tối đa. Chúng được phân phối bằng Slurm và Docker trên máy chủ PowerEdge XE8545. Hiệu suất gần như tuyến tính.

Lưu ý : Kết quả nút đơn RNN-T được gửi cho hệ thống PowerEdge  XE8545x4A100-SXM-80GB đã sử dụng một bộ siêu tham số khác với hai nút. Sau khi gửi, chúng tôi đã chạy lại điểm chuẩn RNN-T trên hệ thống PowerEdge XE8545x4A100-SXM-80GB với cùng các siêu tham số và nhận thấy rằng thời gian mới để hội tụ là khoảng 77,37 phút. Bởi vì chúng tôi chỉ có tài nguyên để cập nhật kết quả cho hệ thống 2xXE8545x4A100-SXM-80GB trước thời hạn gửi, kết quả MLCommons hiển thị 105,6 phút cho hệ thống XE8545x4100-SXM-80GB một nút .

Hình dưới đây cho thấy biểu diễn hiệu suất đã điều chỉnh cho hệ thống PowerEdge XE8545x4A100-SXM-80GB. RNN-T cung cấp số điểm chưa được xác minh là 77,31 phút [1] :

Hình 3: Kết quả đa nút được sửa đổi với PowerEdge XE8545 BERT, MaskRCNN, Resnet50, SSD và RNNT

Hình 3 cho thấy khả năng mở rộng quy mô tuyến tính của máy chủ PowerEdge XE8545 trên các khối lượng công việc khác nhau như BERT, MaskRCNN, ResNet, SSD và RNNT. Khả năng mở rộng quy mô tuyến tính này làm cho máy chủ PowerEdge XE8545 trở thành một lựa chọn tuyệt vời để chạy khối lượng công việc đa nút quy mô lớn.

Lưu ý : Tệp rnnt.zip này bao gồm các tệp nhật ký cho 10 lần chạy cho thấy hiệu suất trung bình là 77,31 phút.

Sự kết luận

  • Điều quan trọng là đo lường hiệu suất học sâu trên nhiều nút để đánh giá thành phần khả năng mở rộng của quá trình đào tạo vì khối lượng công việc học sâu đang tăng lên nhanh chóng.
  • Trình đào tạo MLPerf v1.1 của chúng tôi bao gồm các kết quả đa nút tuyến tính và hoạt động cực kỳ tốt.
  • Số tỷ lệ cho máy chủ PowerEdge XE8545 và PowerEdge R750xa khiến chúng trở thành lựa chọn nền tảng tuyệt vời để hỗ trợ khối lượng công việc đào tạo deep learning quy mô lớn trên các lĩnh vực và nhiệm vụ khác nhau.

[1] Đào tạo MLPerf v1.1 RNN-T; Kết quả không được xác minh bởi Hiệp hội MLCommonsTM. Tên và logo MLPerf là ​​thương hiệu của Hiệp hội MLCommons tại Hoa Kỳ và các quốc gia khác. Đã đăng ký Bản quyền. Nghiêm cấm sử dụng trái phép. Xem http://www.mlcommons.org để biết thêm thông tin.