Những giới hạn mới—Máy chủ Dell EMC PowerEdge R750xa với GPU NVIDIA A100

Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới, nền tảng dựa trên khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, học máy và các giải pháp điện toán hiệu năng cao. Nền tảng socket kép/2U hỗ trợ bộ xử lý Intel Xeon thế hệ thứ 3 (mã có tên Ice Lake) . Nó hỗ trợ tới 40 lõi cho mỗi bộ xử lý, có tám kênh bộ nhớ cho mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe có chiều rộng gấp đôi nằm ở phía trước bên trái và phía trước bên phải của máy chủ.

So với các tùy chọn nền tảng GPU PowerEdge C4140 và PowerEdge R740 thế hệ trước, máy chủ PowerEdge R750xa mới hỗ trợ dung lượng lưu trữ lớn hơn, cung cấp các dịch vụ GPU linh hoạt hơn và cải thiện yêu cầu về nhiệt

 

Hình 1 Máy chủ PowerEdge R750xa

GPU NVIDIA A100 được xây dựng trên kiến ​​trúc NVIDIA Ampere để hỗ trợ khối lượng công việc có độ chính xác gấp đôi. Blog này đánh giá máy chủ PowerEdge R750xa mới và so sánh hiệu năng của nó với máy chủ PowerEdge C4140 thế hệ trước.

Bảng sau đây hiển thị các thông số kỹ thuật cho GPU NVIDIA được thảo luận trong blog này và so sánh mức cải thiện hiệu suất so với thế hệ trước.

Bảng 1 Thông số GPU NVIDIA

PCIe  Sự cải tiến
Tên GPU  A100 V100  
kiến trúc GPU  Ampe  Volta 
bộ nhớ GPU  40GB  32 GB  60%
Băng thông bộ nhớ GPU  1555 GB/giây  900 GB/giây  73%
Đỉnh FP64  9,7 TFLOPS  7 TFLOPS  39%
Lõi Tensor đỉnh FP64  19,5 TFLOPS  không áp dụng 
Đỉnh FP32  19,5 TFLOPS 14 TFLOPS 39%
Lõi Tensor đỉnh FP32  156 TFLOPS

312 TFLOPS*

không áp dụng
Độ chính xác hỗn hợp đỉnh cao

Hoạt động của FP16/FP32

Tích trữ

312 TFLOPS

624 TFLOPS*

125 TFLOPS 5x
Đồng hồ cơ sở GPU  765 MHz  1230 MHz 
Đỉnh INT8 624 NGỌN

1.248 NGỌN*

không áp dụng
Đồng hồ tăng cường GPU  1410 MHz  1380 MHz  2,1%
Tốc độ NVLink  600 GB/giây  không áp dụng 
tiêu thụ điện năng tối đa  250 W  250 W  Không thay đổi

với sự thưa thớt

Giường thử nghiệm và ứng dụng

Blog này định lượng sự cải thiện hiệu suất của GPU với nền tảng GPU PowerEdge mới.

Bằng cách sử dụng một máy chủ PowerEdge R750xa nút duy nhất trong Phòng thí nghiệm đổi mới Dell HPC & AI, chúng tôi đã thu được tất cả các kết quả được trình bày trong blog này từ nền tảng thử nghiệm này. Phần này mô tả nền tảng thử nghiệm và các ứng dụng được đánh giá như một phần của nghiên cứu. Bảng sau cung cấp thông tin chi tiết về môi trường thử nghiệm:

Bảng 2 Cấu hình máy chủ

Thành phần Giường thử 1 Giường thử 2
Máy chủ Dell PowerEdge R750xa

 

Cấu hình Dell PowerEdge C4140 M
Bộ xử lý Intel Xeon 8380 Intel Xeon 6248
Ký ức 32 x 16 GB @ 3200MT/s 16 x 16 GB @ 2933MT/s
Hệ điều hành Red Hat Enterprise Linux 8.3 Red Hat Enterprise Linux 8.3
GPU 4 x GPU NVIDIA A100-PCIe-40 GB 4 x GPU NVIDIA V100-PCIe-32 GB

Bảng sau đây cung cấp thông tin về các ứng dụng và điểm chuẩn được sử dụng:

Bảng 3 Điểm chuẩn và chi tiết ứng dụng

Ứng dụng Lãnh địa Phiên bản  Tập dữ liệu điểm chuẩn
Linpack hiệu suất cao Điểm chuẩn hệ thống chuyên sâu về tính toán dấu phẩy động xhpl_cuda-11.0-dyn_mkl-static_ompi-4.0.4_gcc4.8.5_7-23-20 Kích thước sự cố chiếm hơn 95% bộ nhớ GPU
HPCG Tính toán ma trận thưa thớt xhpcg-3.1_cuda_11_ompi-3.1 512*512*288

 

GROMACS Ứng dụng động lực phân tử 2020 Ligno Cellulose

Nước 1536

Nước 3072

LAMMPS Ứng dụng động lực phân tử Bản phát hành ngày 29 tháng 10 năm 2020 Lennard Jones

LAMMPS

Trình mô phỏng song song nguyên tử/phân tử quy mô lớn (LAMMPS) được phân phối bởi Phòng thí nghiệm quốc gia Sandia và Bộ Năng lượng Hoa Kỳ. LAMMPS là mã nguồn mở có các mô hình tăng tốc khác nhau để cải thiện hiệu suất trên CPU và GPU. Đối với thử nghiệm của chúng tôi, chúng tôi đã biên dịch tệp nhị phân bằng gói KOKKOS, gói này chạy hiệu quả trên GPU.

Hình 2 Hiệu suất LAMMPS trên máy chủ PowerEdge R750xa và PowerEdge C4140

Với GPU thế hệ mới hơn, ứng dụng này cải thiện hiệu suất gấp 2,4 lần so với hiệu suất GPU đơn. Hiệu suất tổng thể từ một máy chủ được cải thiện gấp đôi với máy chủ PowerEdge R750xa và GPU NVIDIA A100.

GROMACS

GROMACS là gói động lực phân tử song song mã nguồn mở và miễn phí được thiết kế để mô phỏng các phân tử sinh hóa như protein, lipid và axit nucleic. Nó được sử dụng bởi nhiều nhà nghiên cứu, đặc biệt là cho các mô phỏng hóa học và phân tử sinh học. GROMACS hỗ trợ tất cả các thuật toán thông thường được mong đợi từ việc triển khai động lực học phân tử hiện đại. Đây là phần mềm nguồn mở với các phiên bản mới nhất có sẵn theo Giấy phép Công cộng GNU Ít hơn (LGPL).

Hình 3 Hiệu suất GROMACS trên máy chủ PowerEdge C4140 và r750xa

Với các GPU thế hệ mới hơn, ứng dụng này đã cải thiện khoảng 1,5 lần trên toàn bộ tập dữ liệu so với hiệu suất của một GPU. Hiệu suất tổng thể từ một máy chủ được cải thiện 1,5 lần với máy chủ PowerEdge R750xa và GPU NVIDIA A100.

Linpack hiệu suất cao

Linpack hiệu suất cao (HPL) không cần giới thiệu trong lĩnh vực HPC. Đây là một bài kiểm tra điểm chuẩn tiêu chuẩn được sử dụng rộng rãi trong ngành.  

 Hình 4 Hiệu suất HPL trên máy chủ PowerEdge R750xa với GPU A100 và máy chủ PowerEdge C4140 với GPU V100

Hình 5 Mức sử dụng năng lượng của HPL chạy trên GPU NVIDIA

Từ Hình 4 và Hình 5, thu được các kết quả sau: 

  • Hiệu suất—Đối với số lượng GPU, GPU NVIDIA A100 thể hiện hiệu suất gấp đôi GPU NVIDIA V100. Kích thước bộ nhớ cao hơn, FLOPS có độ chính xác gấp đôi và kiến ​​trúc mới hơn góp phần cải tiến GPU NVIDIA A100.
  • Khả năng mở rộng  Máy chủ PowerEdge R750xa với bốn GPU NVIDIA A100-PCIe-40 GB mang lại hiệu suất HPL cao hơn 3,6 lần so với một GPU NVIDIA A100-PCIE-40 GB. GPU NVIDIA A100 có quy mô tốt bên trong máy chủ PowerEdge R750xa cho điểm chuẩn HPL.  
  • Rpeak cao hơn —Mã  HPL trên GPU NVIDIA A100 sử dụng lõi Tensor có độ chính xác kép mới . Mức cao nhất về mặt lý thuyết cho mỗi GPU là 19,5 TFlop, trái ngược với 9,7 TFlop. 
  • Nguồn  Hình 5 cho thấy mức tiêu thụ điện năng của một lần chạy HPL hoàn chỉnh với máy chủ PowerEdge R750xa sử dụng bốn GPU A100-PCIe. Kết quả này được đo bằng các lệnh iDRAC và mức tiêu thụ điện năng cao nhất được quan sát là 2022 Watts. Dựa trên những quan sát trước đây của chúng tôi , chúng tôi biết rằng máy chủ PowerEdge C4140 tiêu thụ khoảng 1800 W điện năng.

HPCG

Hình 6 Chia tỷ lệ dữ liệu hiệu suất GPU cho HPCG Benchmark

Như đã thảo luận trong các blog khác, gradient liên hợp hiệu suất cao (HPCG) là một điểm chuẩn tiêu chuẩn khác để kiểm tra các mẫu truy cập dữ liệu của phép tính ma trận thưa thớt. Từ biểu đồ, chúng ta thấy rằng điểm chuẩn HPCG có tỷ lệ tốt với điểm chuẩn này, dẫn đến cải thiện hiệu suất gấp 1,6 lần so với máy chủ PowerEdge C4140 thế hệ trước có GPU NVIDIA V100.

Việc cải thiện 72% băng thông bộ nhớ của GPU NVIDIA A100 so với GPU NVIDIA V100 góp phần cải thiện hiệu suất.

Phần kết luận

Trong blog này, chúng tôi đã giới thiệu nền tảng PowerEdge R750xa thế hệ mới nhất và thảo luận về việc cải thiện hiệu suất so với máy chủ PowerEdge C4140 thế hệ trước. Máy chủ PowerEdge R750xa là một lựa chọn tốt cho những khách hàng đang tìm kiếm nền tảng dựa trên CPU có khả năng mở rộng Intel Xeon được hỗ trợ bởi GPU NVIDIA.

Với máy chủ PowerEdge R750xa thế hệ mới hơn và GPU NVIDIA A100, các ứng dụng được thảo luận trong blog này cho thấy sự cải thiện hiệu suất đáng kể.