Máy chủ Dell EMC DSS 8440 được hỗ trợ bởi GPU NVIDIA RTX cho khối lượng công việc HPC và AI

Triệu chứng

Deepthi Cherlopalle và Frank Han

Dell EMC HPC và AI Innovation Lab Tháng 6 năm 2020

Máy chủ Dell EMC DSS8440 là máy chủ 2 Socket, 4U được thiết kế cho khối lượng công việc Điện toán hiệu năng cao, Học máy (ML) và Học sâu. Nó hỗ trợ nhiều GPU khác nhau như GPU NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 và NVIDIA Tesla T4 Tensor Core cũng như GPU NVIDIA quadro RTX .

SLN321776_en_US__4hình ảnh(18426)

( Hình.1 Máy chủ Dell EMC DSS840)

Trong blog này, chúng tôi đánh giá hiệu suất của GPU NVIDIA Quadro RTX 6000 và GPU NVIDIA Quadro RTX 8000 tiết kiệm chi phí so với GPU V100S của bộ tăng tốc hàng đầu bằng cách sử dụng các công cụ đo điểm chuẩn ngành khác nhau. Điều này bao gồm thử nghiệm đối với khối lượng công việc có độ chính xác đơn và kép. Trong khi dòng Quadro đã tồn tại từ lâu, GPU RTX với Kiến trúc NVIDIA Turing đã ra mắt vào cuối năm 2018. Thông số kỹ thuật trong Bảng 1 cho thấy GPU RTX 8000 vượt trội so với RTX 6000 về cấu hình bộ nhớ cao hơn. Tuy nhiên, GPU RTX 8000 và RTX 6000 có nhu cầu năng lượng cao hơn so với GPU V100S. Đối với khối lượng công việc yêu cầu dung lượng bộ nhớ cao hơn, RTX 8000 là lựa chọn tốt hơn.

THÔNG SỐ KỸ THUẬT	RTX6000	RTX8000	V100S-32GB
Ngành kiến trúc	Turing		Volta
Kỉ niệm	24GB GDDR6	48GB GDDR6	32GB HBM2
Tốc độ xung nhịp mặc định (MHz)	1395		1245
Tốc độ xung nhịp tối đa của GPU (MHz)	1770		1597
Lõi CUDA	4608		5120
FP32(TFLOPS tối đa)	16.3		16.4
Băng thông bộ nhớ (GB/giây)	672		1134
Quyền lực	295 W		250W

Bảng.1 Thông số kỹ thuật GPU

NGƯỜI PHỤC VỤ	DELLEMC POWEREDGE DSS8440
bộ vi xử lý	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Kỉ niệm	24 x 32 GB @ 2933 MT/s (Tổng cộng 768 GB)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S – PCIe
Kho	1 x Dell Express Flash NVMe 1 TB 2,5″ U.2 (P4500)
nguồn điện	4 x 2400 W

Bảng.2 Chi tiết cấu hình máy chủ

BIOS	2.5.4
hệ điều hành	RHEEL 7.6
hạt nhân	3.10.0-957,ek7.x86_64
Hồ sơ hệ thống	Hiệu suất được tối ưu hóa
Bộ công cụ CUDA Trình điều khiển CUDA	10.1 440.33.01

Bảng.3 Chi tiết phần sụn hệ thống

ĐĂNG KÍ	PHIÊN BẢN
HPL	hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Bản cập nhật Intel MKL 2018 4
ĐÈN	Ngày 3 tháng 3 năm 2020 OpenMPI – 4.0.3
MLPERF	v0.6 Đào tạo docker 19.03

Bảng.4 Thông tin ứng dụng

Gây ra

ĐÈN

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 là một ứng dụng Động lực học Phân tử được duy trì bởi các nhà nghiên cứu tại Phòng thí nghiệm Quốc gia Sandia và Đại học Temple. LAMMPS được biên dịch với gói KOKKOS để chạy hiệu quả trên GPU NVIDIA. Bộ dữ liệu Lennard Jones được sử dụng để so sánh hiệu suất và Dấu thời gian/giây là số liệu như trong Hình 2:

SLN321776_en_US__8hình ảnh(18427)

( Hình.2 Đồ thị Lennard Jones)

Như được liệt kê trong Bảng 1, GPU RTX 6000 và RTX 8000 có cùng số lõi, hiệu suất chính xác đơn và băng thông GPU nhưng bộ nhớ GPU khác nhau. Bởi vì cả hai GPU RTX đều có cấu hình tương tự nhau nên hiệu suất cũng nằm trong cùng một phạm vi. GPU RTX mở rộng tốt cho ứng dụng này và hiệu suất của cả hai GPU là giống hệt nhau.

Hiệu suất GPU Volta V100S nhanh hơn khoảng ba lần so với GPU Quadro RTX. Yếu tố chính cho hiệu suất cao hơn này là băng thông bộ nhớ GPU lớn hơn của GPU V100S.

Hiệu suất Linpack hiệu suất cao (HPL)

HPL là một điểm chuẩn HPC tiêu chuẩn để đo hiệu suất máy tính. Nó được sử dụng làm tiêu chuẩn tham khảo trong danh sách TOP500 để xếp hạng các siêu máy tính trên toàn thế giới.

Hình dưới đây cho thấy hiệu suất của GPU RTX 6000, RTX 8000 và V100S sử dụng máy chủ DSS 8440. Như bạn có thể thấy, hiệu suất của GPU RTX thấp hơn đáng kể so với GPU V100S. Điều này được mong đợi vì HPL thực hiện phân tích hệ số LU ma trận, chủ yếu là các phép toán dấu phẩy động có độ chính xác gấp đôi.

SLN321776_vi_US__9hình ảnh(18428)

( Hình.3 Hiệu suất HPL với các GPU khác nhau)

Nếu chúng ta so sánh hiệu suất dấu chấm động lý thuyết, tức là Rpeak của cả hai GPU, chúng tôi thấy rằng hiệu suất GPU của V100S cao hơn nhiều. Giá trị Rpeak lý thuyết trên một GPU RTX duy nhất là khoảng 500GFlops. Giá trị này mang lại hiệu suất thấp hơn (Rmax) trên mỗi GPU. Giá trị Rpeak cho GPU Volta V100S là 8,2TFlops, mang lại hiệu suất cao hơn nhiều từ mỗi card.

MLPerf

Nhu cầu về điểm chuẩn hiệu suất theo tiêu chuẩn ngành cho ML đã dẫn đến sự phát triển của bộ MLPerf. Bộ phần mềm này bao gồm các điểm chuẩn để đánh giá hiệu suất đào tạo và suy luận của phần cứng và phần mềm ML. Phần này chỉ đề cập đến hiệu suất đào tạo của GPU. Bảng sau đây liệt kê khối lượng công việc Deep Learning, bộ dữ liệu và tiêu chí mục tiêu được sử dụng để đánh giá GPU.

ĐIỂM CHUẨN	TẬP DỮ LIỆU	MỤC TIÊU CHẤT LƯỢNG	MÔ HÌNH TRIỂN KHAI THAM KHẢO
phân loại hình ảnh	ImageNet (224×224)	Độ chính xác Top-1 75,9%	Resnet-50 v1.5
Phát hiện đối tượng (trọng lượng nhẹ)	COCO 2017	23% bản đồ	SSD-ResNet34
Phát hiện đối tượng (trọng lượng nặng)	COCO 2017	0,377 AP tối thiểu của hộp 0,339 AP tối thiểu của mặt nạ	Mặt nạ R-CNN
Bản dịch (định kỳ)	WMT tiếng Anh-tiếng Đức	24.0 MÀU XANH	GNMT
Bản dịch (không lặp lại)	WMT tiếng Anh-tiếng Đức	25.0 MÀU XANH	máy biến áp
Học tăng cường	không áp dụng	Điểm kiểm tra được đào tạo trước	đi nhỏ

Bảng.5 Bộ dữ liệu MLPerf và tiêu chí mục tiêu (Nguồn: https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

Hình dưới đây cho thấy thời gian để đáp ứng tiêu chí mục tiêu cho cả GPU RTX và V100S:

SLN321776_en_US__11hình ảnh(18441)
( Hình.4 Hiệu suất MLPERF)

Kết quả được xem xét sau khi thực hiện nhiều lần chạy, loại bỏ giá trị cao nhất và thấp nhất, đồng thời lấy trung bình các lần chạy khác theo nguyên tắc được liệt kê. Hiệu suất của cả hai GPU RTX là tương tự nhau. Tỷ lệ chênh lệch giữa cả hai GPU RTX là tối thiểu và nằm trong phạm vi chấp nhận được theo hướng dẫn của MLPerf. Mặc dù GPU Volta V100 mang lại hiệu suất tốt nhất, nhưng GPU RTX cũng hoạt động tốt ngoại trừ điểm chuẩn phát hiện đối tượng.

Tại thời điểm xuất bản, điểm chuẩn phân loại Hình ảnh trong MLPerf không thành công với GPU RTX do lỗi tích chập. Sự cố này dự kiến sẽ được khắc phục trong bản phát hành cuDNN trong tương lai.

Nghị quyết

Bản tóm tắt

Trong blog này, chúng tôi đã thảo luận về hiệu suất của Máy chủ GPU Dell EMC DSS 8440 và GPU NVIDIA RTX cho khối lượng công việc HPC và AI. Hiệu suất của cả hai GPU RTX là tương tự nhau, tuy nhiên, GPU RTX 8000 sẽ là lựa chọn tốt nhất cho các ứng dụng yêu cầu dung lượng bộ nhớ cao hơn. Đối với khối lượng công việc có độ chính xác gấp đôi hoặc khối lượng công việc yêu cầu băng thông bộ nhớ cao, Volta V100S và GPU NVIDIA A100 mới là lựa chọn tốt nhất.

Trong tương lai, chúng tôi dự định cung cấp một nghiên cứu hiệu suất trên GPU RTX với các ứng dụng chính xác đơn lẻ khác và một nghiên cứu Suy luận về GPU RTX và A100.

Tin tức

Máy chủ Dell EMC DSS 8440 được hỗ trợ bởi GPU NVIDIA RTX cho khối lượng công việc HPC và AI

Triệu chứng

Deepthi Cherlopalle và Frank Han

Dell EMC HPC và AI Innovation Lab Tháng 6 năm 2020

Gây ra

ĐÈN

Hiệu suất Linpack hiệu suất cao (HPL)

MLPerf

Nghị quyết

Bản tóm tắt

Bài viết mới cập nhật

Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu

Bảo mật PowerScale OneFS SyncIQ

Danh sách kiểm tra cơ sở bảo mật PowerScale

Bảo vệ dữ liệu của bạn trong tương lai: Airgap Bộ dữ liệu về tính liên tục của doanh nghiệp của bạn

Về chúng tôi

LIÊN HỆ GTEK

DỊCH VỤ

giải pháp

nhận thông tin

Triệu chứng

Deepthi Cherlopalle và Frank Han

Dell EMC HPC và AI Innovation Lab Tháng 6 năm 2020

Gây ra

ĐÈN

Hiệu suất Linpack hiệu suất cao (HPL)

MLPerf

Nghị quyết

Bản tóm tắt

Bài viết mới cập nhật

Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu

Bảo mật PowerScale OneFS SyncIQ

Danh sách kiểm tra cơ sở bảo mật PowerScale

Bảo vệ dữ liệu của bạn trong tương lai: Airgap Bộ dữ liệu về tính liên tục của doanh nghiệp của bạn

Login