Dell EMC HPC & AI Innovation Lab, tháng 5 năm 2020Tóm tắt điều hành
Blog này trình bày kết quả nghiên cứu đánh giá 8x V100S trên DSS8440 cho các ứng dụng HPC và deep learning khác nhau bao gồm HPL, LAMMPS và bộ MLPerf-v0.6 . Tóm tắt:
- Các ứng dụng bị giới hạn bởi băng thông GPU như LAMMPS có thể tận dụng GPU V100S mới và sẽ nhận được hiệu suất tăng cường cho cả một GPU và nhiều GPU.
- Các ứng dụng học sâu , giống như những ứng dụng được thử nghiệm trong MLPerf, sẽ nhận được lợi ích từ xung nhịp được tăng cường cao hơn và băng thông cao hơn của V100S.
- Các ứng dụng liên quan đến điện toán GPU như điểm chuẩn HPC HPL sẽ có hiệu suất tương tự như V100-PCIe.
Phần còn lại của blog này đưa ra các chi tiết của thử nghiệm này. Lưu ý rằng trong tương lai, các ứng dụng tương tự sẽ được chạy trên DSS8440 với GPU RTX (thay cho V100S) và các thử nghiệm khác, chẳng hạn như hiệu năng của V100S trên nền tảng AMD, cũng sẽ được chạy.
Nghị quyết
Tổng quan về Testbed
Máy chủ Dell EMC DSS8440 là một máy chủ được tối ưu hóa cho máy gia tốc, được thiết kế đặc biệt cho khối lượng công việc tính toán hiệu suất cao và học sâu. NVIDIA V100S là thành viên mới nhất trong dòng Tesla Volta và nó là thẻ GPU dựa trên 32G PCIe hai chiều rộng. Blog này sẽ trình bày kết quả nghiên cứu đánh giá 8x V100S trên DSS8440 cho các ứng dụng HPC và deep learning khác nhau bao gồm HPL, LAMMPS và bộ MLPerf-v0.6 .
Chi tiết phần cứng và phần mềm của máy chủ DSS 8440 được thử nghiệm và so sánh giữa V100S và V100-PCIe được liệt kê trong Bảng 1 và Bảng 2.
Bảng 1: Chi tiết phần cứng và phần mềm
Bảng 2: Sự khác biệt về thông số kỹ thuật của V100S và V100-PCIe
Hiệu suất ứng dụng HPC
Hình 1: Kết quả V100S và V100-PCIe HPL trên DSS8440
Hình 1 cho thấy các con số hiệu suất HPL. Không có nhiều sự khác biệt giữa V100S và V100-PCIe, vì HPL là một ứng dụng kiểm tra căng thẳng khắc nghiệt. Có rất ít khoảng trống nhiệt độ cho tính năng tăng cường GPU , do đó tần số của GPU quay trở lại tốc độ xung nhịp cơ bản rất nhanh. Do V100S và V100-PCIe có tốc độ xung nhịp cơ bản gần như giống nhau nên đối với các ứng dụng có giới hạn điện toán GPU như HPL, V100S mang lại hiệu suất ở mức tương đương với V100-PCIe.
Hình 2: Kết quả LAMPPS V100S và V100-PCIe trên DSS8440
Hình 2 có kết quả dấu thời gian/giây của LAMMPS với bộ dữ liệu Lennard Jones. LAMMPS là một ví dụ về mã động lực học phân tử được biết đến là ứng dụng giới hạn băng thông GPU. V100S mang lại hiệu suất cao hơn 27% so với V100-PCIe trong thử nghiệm này. Việc tăng tốc không chỉ được đóng góp từ tần số tăng cường cao hơn 15% và băng thông rộng hơn 26% mà còn từ phiên bản phần mềm mới hơn. Số V100-PCIe thu được bằng cách sử dụng gói KOKKOS cũ trong phiên bản LAMMPS 8Feb2019. Tuy nhiên, phiên bản mới hơn 24Jan2020 đã thêm hỗ trợ sử dụng cuFFT trên GPU với KOKKOS. Bạn có thể tìm thấy hầu hết các chi tiết trong ghi chú phát hành LAMMPS ngày 24 tháng 1 năm 2020 này .
Hiệu suất ứng dụng Deep Learning
Hình 3: Kết quả MLPerf của V100S và V100-PCIe trên DSS8440
Phiên bản 0.6 đào tạo MLPerf phân chia khép kín có 6 bài kiểm tra phụ bao gồm các lĩnh vực học sâu rộng bao gồm phân loại hình ảnh (ResNet-50), phát hiện đối tượng (Mask R-CNN và SSD), Dịch thuật (NMT và Transformer) và học tăng cường (MiniGo). Kết quả so sánh của cả hai thẻ GPU được trình bày trong Hình 3. Mức tăng hiệu suất khoảng 1-5% đã được quan sát trên bộ MLPerf dành cho V100S, phù hợp với thông lượng cao hơn 1-5% trong tệp nhật ký kết quả. Đầu ra thời gian thực của tốc độ xung nhịp GPU đã được theo dõi và quan sát thấy rằng GPU V100S chạy ở mức cao hơn 1-5% trong tất cả các thử nghiệm đó, do đó, lợi ích về hiệu suất đến từ tần số được tăng cường cao hơn của V100S.
Kết luận và công việc trong tương lai
Trong blog này, hiệu suất của các ứng dụng HPC với HPL, LAMMPS và hiệu suất học sâu với MLPerf được so sánh với các thẻ GPU V100S và V100-PCIe trên cùng một máy chủ DSS8440. Ứng dụng bị giới hạn bởi băng thông GPU như LAMMPS có thể tận dụng GPU V100S mới và sẽ nhận được hiệu suất tăng cường cho cả một GPU và nhiều GPU. Các ứng dụng học sâu được thử nghiệm trong MLPerf cũng nhận được lợi ích từ xung nhịp được tăng cường cao hơn và băng thông cao hơn của V100S. Điểm chuẩn HPC giới hạn điện toán GPU HPL có hiệu suất tương tự như V100-PCIe. Trong tương lai, các ứng dụng tương tự trên DSS8440 sẽ được chạy với GPU RTX và một số thử nghiệm khác như hiệu suất của V100S trên nền tảng AMD sẽ được khám phá.
Thuộc tính bài viết
Sản phẩm bị ảnh hưởng
DSS 8440, Tài nguyên giải pháp điện toán hiệu năng cao
Bài viết mới cập nhật
LatentAI: Nâng cao trí thông minh biên với Dell và NVIDIA AI
Giàn khoan dầu, hoạt động quân sự và xe tự hành ...
Tăng tốc lưu trữ máy chủ lớn với các mô hình Dell Disk Library (DLm) mới
Dell công bố các mẫu lưu trữ băng ảo máy chủ ...
Giới thiệu Dell NativeEdge với Nokia Private Wireless
Dễ dàng quản lý và kết nối cơ sở hạ tầng ...
Dịch vụ bảo vệ APEX dành cho Microsoft Azure: Nâng cao bảo mật dữ liệu
Dịch vụ bảo vệ APEX dành cho Microsoft Azure giúp đơn ...