Hiệu suất Deep Learning trên R740 với GPU V100-PCIe

Tổng quan

Dell EMC PowerEdge R740 là máy chủ rack 2U, 2 socket. Hệ thống có bộ xử lý Intel Skylake, tối đa 24 DIMM và
tối đa 3 GPU chiều rộng gấp đôi hoặc 6 GPU chiều rộng đơn. Trong blog trước của chúng tôi Suy luận học sâu về P40 so với P4 với SkyLake, chúng tôi đã trình bày
hiệu suất suy luận học sâu trên máy chủ PowerEdge R740 của Dell EMC với GPU P40 và P4. Blog này sẽ trình bày các
hiệu suất đào tạo deep learning trên một R740 với nhiều GPU V100-PCIe. Các framework học sâu
chúng tôi đã đo điểm chuẩn bao gồm Caffe2, MXNet và Horovod+TensorFlow. Horovod là một khung phân tán cho TensorFlow. Chúng tôi đã sử dụng
Horovod vì nó có triển khai khả năng mở rộng tốt hơn (sử dụng mô hình MPI) so với TensorFlow, điều này đã được giải thích trong bài viết
“Gặp gỡ Horovod: Khung học tập sâu phân tán nguồn mở của Uber dành cho TensorFlow”. Bảng 1 cho thấy cấu hình phần cứng
và chi tiết phần mềm chúng tôi đã thử nghiệm. Để kiểm tra hiệu suất học sâu và khả năng mở rộng trên máy chủ R740, chúng tôi đã sử dụng cùng một mạng thần kinh,
cùng một bộ dữ liệu và cùng một phép đo như trong loạt blog học sâu khác của chúng tôi, chẳng hạn như Mở rộng quy mô học sâu trên nhiều V100
Nodes và Deep Learning trên V100

Bảng 1: Cấu hình phần cứng và chi tiết phần mềm

Đánh giá hiệu suất

Kết quả kiểm tra kỹ thuật giải pháp sẵn sàng
Hình 1, Hình 2 và Hình 3 cho thấy hiệu suất Resnet50 và khả năng tăng tốc của nhiều GPU V100 với Caffe2, MXNet và
TensorFlow, tương ứng. Chúng ta có thể rút ra các kết luận sau dựa trên các kết quả này:
 Nhìn chung, hiệu suất của Resnet50 cân đối tốt trên nhiều GPU V100 trong một nút. Với 3 V100:
o Caffe2 đạt tốc độ tăng lần lượt là 2,61x và 2,65x ở chế độ FP32 và FP16.
o MXNet đạt được tốc độ tăng lần lượt là 2,87x và 2,82x ở chế độ FP32 và FP16.
o Horovod+TensorFlow đạt tốc độ tăng 2,12 lần ở chế độ FP32. (FP16 vẫn đang được phát triển)
 Hiệu suất ở chế độ FP16 nhanh hơn khoảng 80%-90% so với FP32 cho cả Caffe2 và MXNet. TensorFlow vẫn chưa
đã hỗ trợ FP16, vì vậy chúng tôi sẽ kiểm tra hiệu suất FP16 của nó sau khi tính năng này được hỗ trợ.

Kết luận

Trong blog này, chúng tôi đã trình bày hiệu suất học sâu và khả năng mở rộng của các khung học sâu phổ biến như Caffe2, MXNet và
Horovod+TensorFlow. Nhìn chung, ba khung có quy mô như mong đợi trên tất cả các GPU trong một máy chủ R740.