Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới, nền tảng dựa trên khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, học máy và các giải pháp điện toán hiệu năng cao. Nền tảng socket kép/2U hỗ trợ bộ xử lý Intel Xeon thế hệ thứ 3 (mã có tên Ice Lake) ^. Nó hỗ trợ tới 40 lõi cho mỗi bộ xử lý, có tám kênh bộ nhớ cho mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe có chiều rộng gấp đôi nằm ở phía trước bên trái và phía trước bên phải của máy chủ.

So với các tùy chọn nền tảng GPU PowerEdge C4140 và PowerEdge R740 thế hệ trước, máy chủ PowerEdge R750xa mới hỗ trợ dung lượng lưu trữ lớn hơn, cung cấp các dịch vụ GPU linh hoạt hơn và cải thiện yêu cầu về nhiệt

Hình 1 Máy chủ PowerEdge R750xa

GPU NVIDIA A100 được xây dựng trên kiến trúc NVIDIA Ampere để hỗ trợ khối lượng công việc có độ chính xác gấp đôi. Blog này đánh giá máy chủ PowerEdge R750xa mới và so sánh hiệu năng của nó với máy chủ PowerEdge C4140 thế hệ trước.

Bảng sau đây hiển thị các thông số kỹ thuật cho GPU NVIDIA được thảo luận trong blog này và so sánh mức cải thiện hiệu suất so với thế hệ trước.

Bảng 1 Thông số GPU NVIDIA

	PCIe		Sự cải tiến
Tên GPU	A100	V100
kiến trúc GPU	Ampe	Volta	–
bộ nhớ GPU	40GB	32 GB	60%
Băng thông bộ nhớ GPU	1555 GB/giây	900 GB/giây	73%
Đỉnh FP64	9,7 TFLOPS	7 TFLOPS	39%
Lõi Tensor đỉnh FP64	19,5 TFLOPS	không áp dụng	–
Đỉnh FP32	19,5 TFLOPS	14 TFLOPS	39%
Lõi Tensor đỉnh FP32	156 TFLOPS 312 TFLOPS*	không áp dụng	–
Độ chính xác hỗn hợp đỉnh cao Hoạt động của FP16/FP32 Tích trữ	312 TFLOPS 624 TFLOPS*	125 TFLOPS	5x
Đồng hồ cơ sở GPU	765 MHz	1230 MHz	–
Đỉnh INT8	624 NGỌN 1.248 NGỌN*	không áp dụng	–
Đồng hồ tăng cường GPU	1410 MHz	1380 MHz	2,1%
Tốc độ NVLink	600 GB/giây	không áp dụng	–
tiêu thụ điện năng tối đa	250 W	250 W	Không thay đổi

* với sự thưa thớt

Giường thử nghiệm và ứng dụng

Blog này định lượng sự cải thiện hiệu suất của GPU với nền tảng GPU PowerEdge mới.

Bằng cách sử dụng một máy chủ PowerEdge R750xa nút duy nhất trong Phòng thí nghiệm đổi mới Dell HPC & AI, chúng tôi đã thu được tất cả các kết quả được trình bày trong blog này từ nền tảng thử nghiệm này. Phần này mô tả nền tảng thử nghiệm và các ứng dụng được đánh giá như một phần của nghiên cứu. Bảng sau cung cấp thông tin chi tiết về môi trường thử nghiệm:

Bảng 2 Cấu hình máy chủ

Thành phần	Giường thử 1	Giường thử 2
Máy chủ	Dell PowerEdge R750xa	Cấu hình Dell PowerEdge C4140 M
Bộ xử lý	Intel Xeon 8380	Intel Xeon 6248
Ký ức	32 x 16 GB @ 3200MT/s	16 x 16 GB @ 2933MT/s
Hệ điều hành	Red Hat Enterprise Linux 8.3	Red Hat Enterprise Linux 8.3
GPU	4 x GPU NVIDIA A100-PCIe-40 GB	4 x GPU NVIDIA V100-PCIe-32 GB

Bảng sau đây cung cấp thông tin về các ứng dụng và điểm chuẩn được sử dụng:

Bảng 3 Điểm chuẩn và chi tiết ứng dụng

Ứng dụng	Lãnh địa	Phiên bản	Tập dữ liệu điểm chuẩn
Linpack hiệu suất cao	Điểm chuẩn hệ thống chuyên sâu về tính toán dấu phẩy động	xhpl_cuda-11.0-dyn_mkl-static_ompi-4.0.4_gcc4.8.5_7-23-20	Kích thước sự cố chiếm hơn 95% bộ nhớ GPU
HPCG	Tính toán ma trận thưa thớt	xhpcg-3.1_cuda_11_ompi-3.1	512512288
GROMACS	Ứng dụng động lực phân tử	2020	Ligno Cellulose Nước 1536 Nước 3072
LAMMPS	Ứng dụng động lực phân tử	Bản phát hành ngày 29 tháng 10 năm 2020	Lennard Jones

LAMMPS

Trình mô phỏng song song nguyên tử/phân tử quy mô lớn (LAMMPS) được phân phối bởi Phòng thí nghiệm quốc gia Sandia và Bộ Năng lượng Hoa Kỳ. LAMMPS là mã nguồn mở có các mô hình tăng tốc khác nhau để cải thiện hiệu suất trên CPU và GPU. Đối với thử nghiệm của chúng tôi, chúng tôi đã biên dịch tệp nhị phân bằng gói KOKKOS, gói này chạy hiệu quả trên GPU.

Hình 2 Hiệu suất LAMMPS trên máy chủ PowerEdge R750xa và PowerEdge C4140

Với GPU thế hệ mới hơn, ứng dụng này cải thiện hiệu suất gấp 2,4 lần so với hiệu suất GPU đơn. Hiệu suất tổng thể từ một máy chủ được cải thiện gấp đôi với máy chủ PowerEdge R750xa và GPU NVIDIA A100.

GROMACS

GROMACS là gói động lực phân tử song song mã nguồn mở và miễn phí được thiết kế để mô phỏng các phân tử sinh hóa như protein, lipid và axit nucleic. Nó được sử dụng bởi nhiều nhà nghiên cứu, đặc biệt là cho các mô phỏng hóa học và phân tử sinh học. GROMACS hỗ trợ tất cả các thuật toán thông thường được mong đợi từ việc triển khai động lực học phân tử hiện đại. Đây là phần mềm nguồn mở với các phiên bản mới nhất có sẵn theo Giấy phép Công cộng GNU Ít hơn (LGPL).

Hình 3 Hiệu suất GROMACS trên máy chủ PowerEdge C4140 và r750xa

Với các GPU thế hệ mới hơn, ứng dụng này đã cải thiện khoảng 1,5 lần trên toàn bộ tập dữ liệu so với hiệu suất của một GPU. Hiệu suất tổng thể từ một máy chủ được cải thiện 1,5 lần với máy chủ PowerEdge R750xa và GPU NVIDIA A100.

Linpack hiệu suất cao

Linpack hiệu suất cao (HPL) không cần giới thiệu trong lĩnh vực HPC. Đây là một bài kiểm tra điểm chuẩn tiêu chuẩn được sử dụng rộng rãi trong ngành.

Hình 4 Hiệu suất HPL trên máy chủ PowerEdge R750xa với GPU A100 và máy chủ PowerEdge C4140 với GPU V100

Hình 5 Mức sử dụng năng lượng của HPL chạy trên GPU NVIDIA

Từ Hình 4 và Hình 5, thu được các kết quả sau:

Hiệu suất—Đối với số lượng GPU, GPU NVIDIA A100 thể hiện hiệu suất gấp đôi GPU NVIDIA V100. Kích thước bộ nhớ cao hơn, FLOPS có độ chính xác gấp đôi và kiến trúc mới hơn góp phần cải tiến GPU NVIDIA A100.
Khả năng mở rộng — Máy chủ PowerEdge R750xa với bốn GPU NVIDIA A100-PCIe-40 GB mang lại hiệu suất HPL cao hơn 3,6 lần so với một GPU NVIDIA A100-PCIE-40 GB. GPU NVIDIA A100 có quy mô tốt bên trong máy chủ PowerEdge R750xa cho điểm chuẩn HPL.
Rpeak cao hơn —Mã HPL trên GPU NVIDIA A100 sử dụng lõi Tensor có độ chính xác kép mới . Mức cao nhất về mặt lý thuyết cho mỗi GPU là 19,5 TFlop, trái ngược với 9,7 TFlop.
Nguồn — Hình 5 cho thấy mức tiêu thụ điện năng của một lần chạy HPL hoàn chỉnh với máy chủ PowerEdge R750xa sử dụng bốn GPU A100-PCIe. Kết quả này được đo bằng các lệnh iDRAC và mức tiêu thụ điện năng cao nhất được quan sát là 2022 Watts. Dựa trên những quan sát trước đây của chúng tôi , chúng tôi biết rằng máy chủ PowerEdge C4140 tiêu thụ khoảng 1800 W điện năng.

HPCG

Hình 6 Chia tỷ lệ dữ liệu hiệu suất GPU cho HPCG Benchmark

Như đã thảo luận trong các blog khác, gradient liên hợp hiệu suất cao (HPCG) là một điểm chuẩn tiêu chuẩn khác để kiểm tra các mẫu truy cập dữ liệu của phép tính ma trận thưa thớt. Từ biểu đồ, chúng ta thấy rằng điểm chuẩn HPCG có tỷ lệ tốt với điểm chuẩn này, dẫn đến cải thiện hiệu suất gấp 1,6 lần so với máy chủ PowerEdge C4140 thế hệ trước có GPU NVIDIA V100.

Việc cải thiện 72% băng thông bộ nhớ của GPU NVIDIA A100 so với GPU NVIDIA V100 góp phần cải thiện hiệu suất.

Phần kết luận

Trong blog này, chúng tôi đã giới thiệu nền tảng PowerEdge R750xa thế hệ mới nhất và thảo luận về việc cải thiện hiệu suất so với máy chủ PowerEdge C4140 thế hệ trước. Máy chủ PowerEdge R750xa là một lựa chọn tốt cho những khách hàng đang tìm kiếm nền tảng dựa trên CPU có khả năng mở rộng Intel Xeon được hỗ trợ bởi GPU NVIDIA.

Với máy chủ PowerEdge R750xa thế hệ mới hơn và GPU NVIDIA A100, các ứng dụng được thảo luận trong blog này cho thấy sự cải thiện hiệu suất đáng kể.

Tin tức

Những giới hạn mới—Máy chủ Dell EMC PowerEdge R750xa với GPU NVIDIA A100

Giường thử nghiệm và ứng dụng

LAMMPS

GROMACS

Linpack hiệu suất cao

HPCG

Phần kết luận

Bài viết mới cập nhật

Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)

Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA

Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead

Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp

Về chúng tôi

LIÊN HỆ GTEK

DỊCH VỤ

giải pháp

nhận thông tin

Giường thử nghiệm và ứng dụng

LAMMPS

GROMACS

Linpack hiệu suất cao

HPCG

Phần kết luận

Bài viết mới cập nhật

Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)

Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA

Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead

Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp

Login