Triệu chứng
Deepthi Cherlopalle và Frank Han
Dell EMC HPC và AI Innovation Lab Tháng 6 năm 2020
Máy chủ Dell EMC DSS8440 là máy chủ 2 Socket, 4U được thiết kế cho khối lượng công việc Điện toán hiệu năng cao, Học máy (ML) và Học sâu. Nó hỗ trợ nhiều GPU khác nhau như GPU NVIDIA Volta V100S và NVIDIA Tesla T4 Tensor Core cũng như GPU NVIDIA quadro RTX .
( Hình.1 Máy chủ Dell EMC DSS840)
Trong blog này, chúng tôi đánh giá hiệu suất của GPU NVIDIA Quadro RTX 6000 và GPU NVIDIA Quadro RTX 8000 tiết kiệm chi phí so với GPU V100S của bộ tăng tốc hàng đầu bằng cách sử dụng các công cụ đo điểm chuẩn ngành khác nhau. Điều này bao gồm thử nghiệm đối với khối lượng công việc có độ chính xác đơn và kép. Trong khi dòng Quadro đã tồn tại từ lâu, GPU RTX với Kiến trúc NVIDIA Turing đã ra mắt vào cuối năm 2018. Thông số kỹ thuật trong Bảng 1 cho thấy GPU RTX 8000 vượt trội so với RTX 6000 về cấu hình bộ nhớ cao hơn. Tuy nhiên, GPU RTX 8000 và RTX 6000 có nhu cầu năng lượng cao hơn so với GPU V100S. Đối với khối lượng công việc yêu cầu dung lượng bộ nhớ cao hơn, RTX 8000 là lựa chọn tốt hơn.
THÔNG SỐ KỸ THUẬT | RTX6000 | RTX8000 | V100S-32GB |
---|---|---|---|
Ngành kiến trúc | Turing | Volta | |
Kỉ niệm | 24GB GDDR6 | 48GB GDDR6 | 32GB HBM2 |
Tốc độ xung nhịp mặc định (MHz) | 1395 | 1245 | |
Tốc độ xung nhịp tối đa của GPU (MHz) | 1770 | 1597 | |
Lõi CUDA | 4608 | 5120 | |
FP32(TFLOPS tối đa) | 16.3 | 16.4 | |
Băng thông bộ nhớ (GB/giây) | 672 | 1134 | |
Quyền lực | 295 W | 250W |
Bảng.1 Thông số kỹ thuật GPU
NGƯỜI PHỤC VỤ | DELLEMC POWEREDGE DSS8440 | ||
---|---|---|---|
bộ vi xử lý | 2 x Intel Xeon 6248, 20 C @ 2,5 GHz | ||
Kỉ niệm | 24 x 32 GB @ 2933 MT/s (Tổng cộng 768 GB) | ||
GPU | 8 x Quadro RTX 6000 | 8 x Quadro RTX 8000 | 8 x Volta V100S – PCIe |
Kho | 1 x Dell Express Flash NVMe 1 TB 2,5″ U.2 (P4500) | ||
nguồn điện | 4 x 2400 W |
Bảng.2 Chi tiết cấu hình máy chủ
BIOS | 2.5.4 |
---|---|
hệ điều hành | RHEEL 7.6 |
hạt nhân | 3.10.0-957,ek7.x86_64 |
Hồ sơ hệ thống | Hiệu suất được tối ưu hóa |
Bộ công cụ CUDA Trình điều khiển CUDA |
10.1 440.33.01 |
Bảng.3 Chi tiết phần sụn hệ thống
ĐĂNG KÍ | PHIÊN BẢN |
---|---|
HPL | hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Bản cập nhật Intel MKL 2018 4 |
ĐÈN | Ngày 3 tháng 3 năm 2020 OpenMPI – 4.0.3 |
MLPERF | v0.6 Đào tạo docker 19.03 |
Bảng.4 Thông tin ứng dụng
Gây ra
ĐÈN
LAMMPS là một ứng dụng Động lực học Phân tử được duy trì bởi các nhà nghiên cứu tại Phòng thí nghiệm Quốc gia Sandia và Đại học Temple. LAMMPS được biên dịch với gói KOKKOS để chạy hiệu quả trên GPU NVIDIA. Bộ dữ liệu Lennard Jones được sử dụng để so sánh hiệu suất và Dấu thời gian/giây là số liệu như trong Hình 2:
( Hình.2 Đồ thị Lennard Jones)
Như được liệt kê trong Bảng 1, GPU RTX 6000 và RTX 8000 có cùng số lõi, hiệu suất chính xác đơn và băng thông GPU nhưng bộ nhớ GPU khác nhau. Bởi vì cả hai GPU RTX đều có cấu hình tương tự nhau nên hiệu suất cũng nằm trong cùng một phạm vi. GPU RTX mở rộng tốt cho ứng dụng này và hiệu suất của cả hai GPU là giống hệt nhau.
Hiệu suất GPU Volta V100S nhanh hơn khoảng ba lần so với GPU Quadro RTX. Yếu tố chính cho hiệu suất cao hơn này là băng thông bộ nhớ GPU lớn hơn của GPU V100S.
Hiệu suất Linpack hiệu suất cao (HPL)
HPL là một điểm chuẩn HPC tiêu chuẩn để đo hiệu suất máy tính. Nó được sử dụng làm tiêu chuẩn tham khảo trong danh sách TOP500 để xếp hạng các siêu máy tính trên toàn thế giới.
Hình dưới đây cho thấy hiệu suất của GPU RTX 6000, RTX 8000 và V100S sử dụng máy chủ DSS 8440. Như bạn có thể thấy, hiệu suất của GPU RTX thấp hơn đáng kể so với GPU V100S. Điều này được mong đợi vì HPL thực hiện phân tích hệ số LU ma trận, chủ yếu là các phép toán dấu phẩy động có độ chính xác gấp đôi.
( Hình.3 Hiệu suất HPL với các GPU khác nhau)
Nếu chúng ta so sánh hiệu suất dấu chấm động lý thuyết, tức là Rpeak của cả hai GPU, chúng tôi thấy rằng hiệu suất GPU của V100S cao hơn nhiều. Giá trị Rpeak lý thuyết trên một GPU RTX duy nhất là khoảng 500GFlops. Giá trị này mang lại hiệu suất thấp hơn (Rmax) trên mỗi GPU. Giá trị Rpeak cho GPU Volta V100S là 8,2TFlops, mang lại hiệu suất cao hơn nhiều từ mỗi card.
MLPerf
Nhu cầu về điểm chuẩn hiệu suất theo tiêu chuẩn ngành cho ML đã dẫn đến sự phát triển của bộ MLPerf. Bộ phần mềm này bao gồm các điểm chuẩn để đánh giá hiệu suất đào tạo và suy luận của phần cứng và phần mềm ML. Phần này chỉ đề cập đến hiệu suất đào tạo của GPU. Bảng sau đây liệt kê khối lượng công việc Deep Learning, bộ dữ liệu và tiêu chí mục tiêu được sử dụng để đánh giá GPU.
ĐIỂM CHUẨN | TẬP DỮ LIỆU | MỤC TIÊU CHẤT LƯỢNG | MÔ HÌNH TRIỂN KHAI THAM KHẢO |
---|---|---|---|
phân loại hình ảnh | ImageNet (224×224) | Độ chính xác Top-1 75,9% | Resnet-50 v1.5 |
Phát hiện đối tượng (trọng lượng nhẹ) |
COCO 2017 | 23% bản đồ | SSD-ResNet34 |
Phát hiện đối tượng (trọng lượng nặng) |
COCO 2017 | 0,377 AP tối thiểu của hộp 0,339 AP tối thiểu của mặt nạ |
Mặt nạ R-CNN |
Bản dịch (định kỳ) |
WMT tiếng Anh-tiếng Đức | 24.0 MÀU XANH | GNMT |
Bản dịch (không lặp lại) |
WMT tiếng Anh-tiếng Đức | 25.0 MÀU XANH | máy biến áp |
Học tăng cường | không áp dụng | Điểm kiểm tra được đào tạo trước | đi nhỏ |
Bảng.5 Bộ dữ liệu MLPerf và tiêu chí mục tiêu (Nguồn: https://mlperf.org/training-overview/#overview )
Hình dưới đây cho thấy thời gian để đáp ứng tiêu chí mục tiêu cho cả GPU RTX và V100S:
( Hình.4 Hiệu suất MLPERF)
Kết quả được xem xét sau khi thực hiện nhiều lần chạy, loại bỏ giá trị cao nhất và thấp nhất, đồng thời lấy trung bình các lần chạy khác theo nguyên tắc được liệt kê. Hiệu suất của cả hai GPU RTX là tương tự nhau. Tỷ lệ chênh lệch giữa cả hai GPU RTX là tối thiểu và nằm trong phạm vi chấp nhận được theo hướng dẫn của MLPerf. Mặc dù GPU Volta V100 mang lại hiệu suất tốt nhất, nhưng GPU RTX cũng hoạt động tốt ngoại trừ điểm chuẩn phát hiện đối tượng.
Tại thời điểm xuất bản, điểm chuẩn phân loại Hình ảnh trong MLPerf không thành công với GPU RTX do lỗi tích chập. Sự cố này dự kiến sẽ được khắc phục trong bản phát hành cuDNN trong tương lai.
Nghị quyết
Bản tóm tắt
Trong blog này, chúng tôi đã thảo luận về hiệu suất của Máy chủ GPU Dell EMC DSS 8440 và GPU NVIDIA RTX cho khối lượng công việc HPC và AI. Hiệu suất của cả hai GPU RTX là tương tự nhau, tuy nhiên, GPU RTX 8000 sẽ là lựa chọn tốt nhất cho các ứng dụng yêu cầu dung lượng bộ nhớ cao hơn. Đối với khối lượng công việc có độ chính xác gấp đôi hoặc khối lượng công việc yêu cầu băng thông bộ nhớ cao, Volta V100S và GPU NVIDIA A100 mới là lựa chọn tốt nhất.
Trong tương lai, chúng tôi dự định cung cấp một nghiên cứu hiệu suất trên GPU RTX với các ứng dụng chính xác đơn lẻ khác và một nghiên cứu Suy luận về GPU RTX và A100.
Bài viết mới cập nhật
OneFS Cbind và DNS Caching
OneFS cbind là daemon bộ đệm DNS phân tán cho cụm ...
NANON OneFS
Theo cách nói của OneFS, các cụm PowerScale có kết nối ...
Mở khóa tiềm năng của dữ liệu phi cấu trúc với PowerScale OneFS S3
Trong bối cảnh lưu trữ dữ liệu đang phát triển nhanh ...
Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI
Trình điều khiển máy khách đa đường dẫn PowerScale và khả ...