Hiệu suất HPC & AI trên DSS8440 với GPU V100S

Tác giả: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, tháng 5 năm 2020Tóm tắt điều hành

Blog này trình bày kết quả nghiên cứu đánh giá 8x V100S trên DSS8440 cho các ứng dụng HPC và deep learning khác nhau bao gồm HPL, LAMMPS và bộ MLPerf-v0.6 . Tóm tắt:

  • Các ứng dụng bị giới hạn bởi băng thông GPU như LAMMPS có thể tận dụng GPU V100S mới và sẽ nhận được hiệu suất tăng cường cho cả một GPU và nhiều GPU.
  • Các ứng dụng học sâu , giống như những ứng dụng được thử nghiệm trong MLPerf, sẽ nhận được lợi ích từ xung nhịp được tăng cường cao hơn và băng thông cao hơn của V100S.
  • Các ứng dụng liên quan đến điện toán GPU như điểm chuẩn HPC HPL sẽ có hiệu suất tương tự như V100-PCIe.

Phần còn lại của blog này đưa ra các chi tiết của thử nghiệm này. Lưu ý rằng trong tương lai, các ứng dụng tương tự sẽ được chạy trên DSS8440 với GPU RTX (thay cho V100S) và các thử nghiệm khác, chẳng hạn như hiệu năng của V100S trên nền tảng AMD, cũng sẽ được chạy.

Nghị quyết

Tổng quan về Testbed

Máy chủ Dell EMC DSS8440 là một máy chủ được tối ưu hóa cho máy gia tốc, được thiết kế đặc biệt cho khối lượng công việc tính toán hiệu suất cao và học sâu. NVIDIA V100S là thành viên mới nhất trong dòng Tesla Volta và nó là thẻ GPU dựa trên 32G PCIe hai chiều rộng. Blog này sẽ trình bày kết quả nghiên cứu đánh giá 8x V100S trên DSS8440 cho các ứng dụng HPC và deep learning khác nhau bao gồm HPL, LAMMPS và bộ MLPerf-v0.6 .

Chi tiết phần cứng và phần mềm của máy chủ DSS 8440 được thử nghiệm và so sánh giữa V100S và V100-PCIe được liệt kê trong Bảng 1 và Bảng 2.

 

Bảng 1: Chi tiết phần cứng và phần mềm

SLN321304_en_US__1hình ảnh(15660)

Bảng 2: Sự khác biệt về thông số kỹ thuật của V100S và V100-PCIe
SLN321304_en_US__2hình ảnh(15661)

 

Hiệu suất ứng dụng HPC

 

SLN321304_en_US__3hình ảnh(15658)

Hình 1: Kết quả V100S và V100-PCIe HPL trên DSS8440

Hình 1 cho thấy các con số hiệu suất HPL. Không có nhiều sự khác biệt giữa V100S và V100-PCIe, vì HPL là một ứng dụng kiểm tra căng thẳng khắc nghiệt. Có rất ít khoảng trống nhiệt độ cho tính năng tăng cường GPU , do đó tần số của GPU quay trở lại tốc độ xung nhịp cơ bản rất nhanh. Do V100S và V100-PCIe có tốc độ xung nhịp cơ bản gần như giống nhau nên đối với các ứng dụng có giới hạn điện toán GPU như HPL, V100S mang lại hiệu suất ở mức tương đương với V100-PCIe. 

SLN321304_en_US__4hình ảnh(15659)

Hình 2: Kết quả LAMPPS V100S và V100-PCIe trên DSS8440

Hình 2 có kết quả dấu thời gian/giây của LAMMPS với bộ dữ liệu Lennard Jones. LAMMPS là một ví dụ về mã động lực học phân tử được biết đến là ứng dụng giới hạn băng thông GPU. V100S mang lại hiệu suất cao hơn 27% so với V100-PCIe trong thử nghiệm này. Việc tăng tốc không chỉ được đóng góp từ tần số tăng cường cao hơn 15% và băng thông rộng hơn 26% mà còn từ phiên bản phần mềm mới hơn. Số V100-PCIe thu được bằng cách sử dụng gói KOKKOS cũ trong phiên bản LAMMPS 8Feb2019. Tuy nhiên, phiên bản mới hơn 24Jan2020 đã thêm hỗ trợ sử dụng cuFFT trên GPU với KOKKOS. Bạn có thể tìm thấy hầu hết các chi tiết trong ghi chú phát hành LAMMPS ngày 24 tháng 1 năm 2020 này .

 

Hiệu suất ứng dụng Deep Learning

SLN321304_en_US__5hình ảnh(15662)

Hình 3: Kết quả MLPerf của V100S và V100-PCIe trên DSS8440

Phiên bản 0.6 đào tạo MLPerf phân chia khép kín có 6 bài kiểm tra phụ bao gồm các lĩnh vực học sâu rộng bao gồm phân loại hình ảnh (ResNet-50), phát hiện đối tượng (Mask R-CNN và SSD), Dịch thuật (NMT và Transformer) và học tăng cường (MiniGo). Kết quả so sánh của cả hai thẻ GPU được trình bày trong Hình 3. Mức tăng hiệu suất khoảng 1-5% đã được quan sát trên bộ MLPerf dành cho V100S, phù hợp với thông lượng cao hơn 1-5% trong tệp nhật ký kết quả. Đầu ra thời gian thực của tốc độ xung nhịp GPU đã được theo dõi và quan sát thấy rằng GPU V100S chạy ở mức cao hơn 1-5% trong tất cả các thử nghiệm đó, do đó, lợi ích về hiệu suất đến từ tần số được tăng cường cao hơn của V100S.

Kết luận và công việc trong tương lai

Trong blog này, hiệu suất của các ứng dụng HPC với HPL, LAMMPS và hiệu suất học sâu với MLPerf được so sánh với các thẻ GPU V100S và V100-PCIe trên cùng một máy chủ DSS8440. Ứng dụng bị giới hạn bởi băng thông GPU như LAMMPS có thể tận dụng GPU V100S mới và sẽ nhận được hiệu suất tăng cường cho cả một GPU và nhiều GPU. Các ứng dụng học sâu được thử nghiệm trong MLPerf cũng nhận được lợi ích từ xung nhịp được tăng cường cao hơn và băng thông cao hơn của V100S. Điểm chuẩn HPC giới hạn điện toán GPU HPL có hiệu suất tương tự như V100-PCIe. Trong tương lai, các ứng dụng tương tự trên DSS8440 sẽ được chạy với GPU RTX và một số thử nghiệm khác như hiệu suất của V100S trên nền tảng AMD sẽ được khám phá.

Thuộc tính bài viết


Sản phẩm bị ảnh hưởng

DSS 8440, Tài nguyên giải pháp điện toán hiệu năng cao