Máy chủ Dell EMC DSS 8440 được hỗ trợ bởi GPU NVIDIA RTX cho khối lượng công việc HPC và AI

Triệu chứng

Deepthi Cherlopalle và Frank Han

Dell EMC HPC và AI Innovation Lab Tháng 6 năm 2020

Máy chủ Dell EMC DSS8440  là máy chủ 2 Socket, 4U được thiết kế cho khối lượng công việc Điện toán hiệu năng cao, Học máy (ML) và Học sâu. Nó hỗ trợ nhiều GPU khác nhau như GPU NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 và NVIDIA Tesla T4 SLN321776_en_US__1iC_External_Link_BD_v1 Tensor Core cũng như GPU NVIDIA quadro RTX SLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4hình ảnh(18426)

Hình.1 Máy chủ Dell EMC DSS840)

Trong blog này, chúng tôi đánh giá hiệu suất của GPU NVIDIA Quadro RTX 6000 và GPU NVIDIA Quadro RTX 8000 tiết kiệm chi phí so với GPU V100S của bộ tăng tốc hàng đầu bằng cách sử dụng các công cụ đo điểm chuẩn ngành khác nhau. Điều này bao gồm thử nghiệm đối với khối lượng công việc có độ chính xác đơn và kép. Trong khi dòng Quadro đã tồn tại từ lâu, GPU RTX với Kiến trúc NVIDIA Turing đã ra mắt vào cuối năm 2018. Thông số kỹ thuật trong Bảng 1 cho thấy GPU RTX 8000 vượt trội so với RTX 6000 về cấu hình bộ nhớ cao hơn. Tuy nhiên, GPU RTX 8000 và RTX 6000 có nhu cầu năng lượng cao hơn so với GPU V100S. Đối với khối lượng công việc yêu cầu dung lượng bộ nhớ cao hơn, RTX 8000 là lựa chọn tốt hơn.

THÔNG SỐ KỸ THUẬT RTX6000 RTX8000 V100S-32GB
Ngành kiến ​​​​trúc Turing Volta
Kỉ niệm 24GB GDDR6 48GB GDDR6 32GB HBM2
Tốc độ xung nhịp mặc định (MHz) 1395 1245
Tốc độ xung nhịp tối đa của GPU (MHz) 1770 1597
Lõi CUDA 4608 5120
FP32(TFLOPS tối đa) 16.3 16.4
Băng thông bộ nhớ (GB/giây) 672 1134
Quyền lực 295 W 250W

Bảng.1 Thông số kỹ thuật GPU

NGƯỜI PHỤC VỤ DELLEMC POWEREDGE DSS8440
bộ vi xử lý 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Kỉ niệm 24 x 32 GB @ 2933 MT/s (Tổng cộng 768 GB)
GPU  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S – PCIe 
Kho 1 x Dell Express Flash NVMe 1 TB 2,5″ U.2 (P4500)
nguồn điện 4 x 2400 W

Bảng.2 Chi tiết cấu hình máy chủ

BIOS 2.5.4
hệ điều hành RHEEL 7.6
hạt nhân 3.10.0-957,ek7.x86_64
Hồ sơ hệ thống Hiệu suất được tối ưu hóa
Bộ công cụ CUDA
Trình điều khiển CUDA
10.1
440.33.01

Bảng.3 Chi tiết phần sụn hệ thống

ĐĂNG KÍ PHIÊN BẢN
HPL hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Bản cập nhật Intel MKL 2018 4
ĐÈN Ngày 3 tháng 3 năm 2020
OpenMPI – 4.0.3
MLPERF v0.6 Đào tạo SLN321776_en_US__1iC_External_Link_BD_v1
docker 19.03

Bảng.4 Thông tin ứng dụng

Gây ra

ĐÈN

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 là một ứng dụng Động lực học Phân tử được duy trì bởi các nhà nghiên cứu tại Phòng thí nghiệm Quốc gia Sandia và Đại học Temple. LAMMPS được biên dịch với gói KOKKOS SLN321776_en_US__6iC_External_Link_BD_v1 để chạy hiệu quả trên GPU NVIDIA. Bộ dữ liệu Lennard Jones được sử dụng để so sánh hiệu suất và Dấu thời gian/giây là số liệu như trong Hình 2:

SLN321776_en_US__8hình ảnh(18427)

Hình.2 Đồ thị Lennard Jones)

 Như được liệt kê trong Bảng 1, GPU RTX 6000 và RTX 8000 có cùng số lõi, hiệu suất chính xác đơn và băng thông GPU nhưng bộ nhớ GPU khác nhau. Bởi vì cả hai GPU RTX đều có cấu hình tương tự nhau nên hiệu suất cũng nằm trong cùng một phạm vi. GPU RTX mở rộng tốt cho ứng dụng này và hiệu suất của cả hai GPU là giống hệt nhau.

Hiệu suất GPU Volta V100S nhanh hơn khoảng ba lần so với GPU Quadro RTX. Yếu tố chính cho hiệu suất cao hơn này là băng thông bộ nhớ GPU lớn hơn của GPU V100S.

Hiệu suất Linpack hiệu suất cao (HPL)

HPL là một điểm chuẩn HPC tiêu chuẩn để đo hiệu suất máy tính. Nó được sử dụng làm tiêu chuẩn tham khảo trong danh sách TOP500 để xếp hạng các siêu máy tính trên toàn thế giới.

Hình dưới đây cho thấy hiệu suất của GPU RTX 6000, RTX 8000 và V100S sử dụng máy chủ DSS 8440. Như bạn có thể thấy, hiệu suất của GPU RTX thấp hơn đáng kể so với GPU V100S. Điều này được mong đợi vì HPL thực hiện phân tích hệ số LU ma trận, chủ yếu là các phép toán dấu phẩy động có độ chính xác gấp đôi.

SLN321776_vi_US__9hình ảnh(18428)

Hình.3 Hiệu suất HPL với các GPU khác nhau)

Nếu chúng ta so sánh hiệu suất dấu chấm động lý thuyết, tức là Rpeak của cả hai GPU, chúng tôi thấy rằng hiệu suất GPU của V100S cao hơn nhiều. Giá trị Rpeak lý thuyết trên một GPU RTX duy nhất là khoảng 500GFlops. Giá trị này mang lại hiệu suất thấp hơn (Rmax) trên mỗi GPU. Giá trị Rpeak cho GPU Volta V100S là 8,2TFlops, mang lại hiệu suất cao hơn nhiều từ mỗi card.

MLPerf

Nhu cầu về điểm chuẩn hiệu suất theo tiêu chuẩn ngành cho ML đã dẫn đến sự phát triển của bộ MLPerf. Bộ phần mềm này bao gồm các điểm chuẩn để đánh giá hiệu suất đào tạo và suy luận của phần cứng và phần mềm ML. Phần này chỉ đề cập đến hiệu suất đào tạo của GPU. Bảng sau đây liệt kê khối lượng công việc Deep Learning, bộ dữ liệu và tiêu chí mục tiêu được sử dụng để đánh giá GPU.

ĐIỂM CHUẨN TẬP DỮ LIỆU MỤC TIÊU CHẤT LƯỢNG MÔ HÌNH TRIỂN KHAI THAM KHẢO
phân loại hình ảnh ImageNet (224×224) Độ chính xác Top-1 75,9% Resnet-50 v1.5
Phát hiện đối tượng
(trọng lượng nhẹ)
COCO 2017 23% bản đồ SSD-ResNet34
Phát hiện đối tượng
(trọng lượng nặng)
COCO 2017 0,377 AP tối thiểu của hộp
0,339 AP tối thiểu của mặt nạ
Mặt nạ R-CNN
Bản dịch
(định kỳ)
WMT tiếng Anh-tiếng Đức 24.0 MÀU XANH GNMT
Bản dịch
(không lặp lại)
 WMT tiếng Anh-tiếng Đức  25.0 MÀU XANH máy biến áp
Học tăng cường không áp dụng Điểm kiểm tra được đào tạo trước đi nhỏ

Bảng.5 Bộ dữ liệu MLPerf và tiêu chí mục tiêu (Nguồn: https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

Hình dưới đây cho thấy thời gian để đáp ứng tiêu chí mục tiêu cho cả GPU RTX và V100S:

SLN321776_en_US__11hình ảnh(18441)
Hình.4 Hiệu suất MLPERF)

Kết quả được xem xét sau khi thực hiện nhiều lần chạy, loại bỏ giá trị cao nhất và thấp nhất, đồng thời lấy trung bình các lần chạy khác theo nguyên tắc được liệt kê. Hiệu suất của cả hai GPU RTX là tương tự nhau. Tỷ lệ chênh lệch giữa cả hai GPU RTX là tối thiểu và nằm trong phạm vi chấp nhận được theo hướng dẫn của MLPerf. Mặc dù GPU Volta V100 mang lại hiệu suất tốt nhất, nhưng GPU RTX cũng hoạt động tốt ngoại trừ điểm chuẩn phát hiện đối tượng.

Tại thời điểm xuất bản, điểm chuẩn phân loại Hình ảnh trong MLPerf không thành công với GPU RTX do lỗi tích chập. Sự cố này dự kiến ​​sẽ được khắc phục trong bản phát hành cuDNN trong tương lai.

Nghị quyết

Bản tóm tắt

Trong blog này, chúng tôi đã thảo luận về hiệu suất của Máy chủ GPU Dell EMC DSS 8440 và GPU NVIDIA RTX cho khối lượng công việc HPC và AI. Hiệu suất của cả hai GPU RTX là tương tự nhau, tuy nhiên, GPU RTX 8000 sẽ là lựa chọn tốt nhất cho các ứng dụng yêu cầu dung lượng bộ nhớ cao hơn. Đối với khối lượng công việc có độ chính xác gấp đôi hoặc khối lượng công việc yêu cầu băng thông bộ nhớ cao, Volta V100S và GPU NVIDIA A100 mới là lựa chọn tốt nhất.

Trong tương lai, chúng tôi dự định cung cấp một nghiên cứu hiệu suất trên GPU RTX với các ứng dụng chính xác đơn lẻ khác và một nghiên cứu Suy luận về GPU RTX và A100.