Hiệu suất Deep Learning trên GPU V100 với Điểm chuẩn MLPerf Training v0.6

Trừu tượng

Dell EMC Ready Solutions for AI – Deep Learning với NVIDA v1.1 và hướng dẫn kiến ​​trúc tham chiếu tương ứng đã được phát hành vào tháng 2 năm 2019. Blog này định lượng hiệu suất đào tạo deep learning trên kiến ​​trúc tham chiếu này bằng cách sử dụng điểm chuẩn hình ảnh trong bộ MLPerf. Việc đánh giá được thực hiện trên tối đa tám nút. Do đó, giải pháp mở rộng quy mô của Dell EMC có thể đạt được hiệu suất tương đương với các giải pháp mở rộng quy mô khác cho các mô hình hình ảnh.

Tổng quan

Sau khi phiên bản đầu tiên 1.0 của Dell EMC Ready Solutions for AI – Deep Learning with NVIDIA được phát hành, giải pháp này đã được cập nhật lên phiên bản 1.1 vào tháng 2 năm 2019. Thông tin chi tiết về giải pháp và cơ sở hạ tầng có thể được tìm thấy trong hướng dẫn kiến ​​trúc ” Dell EMC Ready Giải pháp cho AI – Deep Learning với NVIDIA “. Nói một cách ngắn gọn, sự khác biệt chính trong giải pháp v1.1 là cấu hình M của máy chủ GPU được cập nhật từ cấu hình K và bộ nhớ GPU được tăng lên 32 GB từ 16 GB. Bộ điểm chuẩn MLPerf v0.6 được chọn để đánh giá hiệu suất của giải pháp. Tất cả các điểm chuẩn đào tạo MLPerf v0.6 có sẵn được liệt kê trong Bảng 1, nhưng blog này chỉ tập trung vào các mô hình ResNet-50, SSD và Mask-R-CNN.
SLN319504_en_US__1000_tab1
Chi tiết phần cứng và phần mềm được sử dụng cho đánh giá này được tóm tắt trong Bảng 2.
SLN319504_en_US__2000_tab2

Đánh giá hiệu suất

Hình 1 đến Hình 3 hiển thị thời gian đào tạo tính bằng phút với C4140-M-32GB trong giải pháp sẵn sàng v1.1 với các điểm chuẩn MLPerf khác nhau. Thử nghiệm được chia tỷ lệ từ một nút (4 V100) thành tám nút (32 V100). Giải pháp Dell EMC Ready dành cho AI – Deep Learning với NVIDIA là một giải pháp mở rộng có thể sử dụng nhiều tài nguyên hơn khi có thêm nhiều nút trong giải pháp. Có một giải pháp thay thế được gọi là giải pháp mở rộng quy mô từ các nhà cung cấp khác, giải pháp này sử dụng nhiều GPU hơn trong một máy chủ. Chúng tôi cũng so sánh giải pháp mở rộng quy mô của mình với giải pháp mở rộng quy mô của nhà cung cấp khác* trong các số liệu này. Các kết luận sau đây có thể được đưa ra từ những con số này:

  • Hiệu suất của giải pháp mở rộng quy mô của chúng tôi phù hợp với số lượng nút hoặc GPU ngày càng tăng. Với một EDR InfiniBand, so với hiệu suất của 1 nút, tốc độ tăng tốc khi sử dụng 8 nút cho ResNet-50, SSD, Mask-R-CNN lần lượt là 6,83x, 5,57x và 5,68x,
  • Với hai EDR InfiniBand, so với hiệu suất của 1 nút, tốc độ tăng tốc khi sử dụng 8 nút cho ResNet-50, SSD, Mask-R-CNN lần lượt là 6,83x, 5,78x và 5,74x. Điều này cho thấy rằng InfiniBand bổ sung không có tác động lớn đến hiệu suất của các mẫu hình ảnh đó.
  • Hiệu suất của giải pháp mở rộng quy mô gần bằng hiệu suất của giải pháp mở rộng quy mô cho các kiểu hình ảnh này, với cùng số lượng GPU.
SLN319504_en_US__3000_resnet50_mx_2IB-1
Hình 1: Hiệu suất của ResNet-50 v1.5
SLN319504_en_US__4000_ssd
Hình 2: Hiệu suất của SSD
SLN319504_en_US__5000_maskrcnn_2IB
Hình 3: Hiệu suất của Mask-R-CNN

kết luận

Trong blog này, chúng tôi đã định lượng hiệu suất của Giải pháp Dell EMC Ready dành cho Trí tuệ nhân tạo – Học sâu với NVIDIA v1.1 bằng cách sử dụng điểm chuẩn MLPerf mới nhất. Kết quả cho thấy rằng giải pháp mở rộng quy mô có thể đạt được hiệu suất tương đương với các giải pháp mở rộng quy mô khác cho các mô hình hình ảnh. Và thẻ EDR InfiniBand bổ sung không có lợi ích hiệu suất đáng kể.

*Dữ liệu của các hệ thống mở rộng quy mô được cung cấp công khai tại trang web kết quả MLPerf v0.6 .