Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới, nền tảng dựa trên khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, học máy và các giải pháp điện toán hiệu năng cao. Nền tảng socket kép/2U hỗ trợ bộ xử lý Intel Xeon thế hệ thứ 3 (mã có tên Ice Lake) . Nó hỗ trợ tới 40 lõi cho mỗi bộ xử lý, có tám kênh bộ nhớ cho mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe có chiều rộng gấp đôi nằm ở phía trước bên trái và phía trước bên phải của máy chủ.
So với các tùy chọn nền tảng GPU PowerEdge C4140 và PowerEdge R740 thế hệ trước, máy chủ PowerEdge R750xa mới hỗ trợ dung lượng lưu trữ lớn hơn, cung cấp các dịch vụ GPU linh hoạt hơn và cải thiện yêu cầu về nhiệt
Hình 1 Máy chủ PowerEdge R750xa
GPU NVIDIA A100 được xây dựng trên kiến trúc NVIDIA Ampere để hỗ trợ khối lượng công việc có độ chính xác gấp đôi. Blog này đánh giá máy chủ PowerEdge R750xa mới và so sánh hiệu năng của nó với máy chủ PowerEdge C4140 thế hệ trước.
Bảng sau đây hiển thị các thông số kỹ thuật cho GPU NVIDIA được thảo luận trong blog này và so sánh mức cải thiện hiệu suất so với thế hệ trước.
Bảng 1 Thông số GPU NVIDIA
PCIe | Sự cải tiến | ||
Tên GPU | A100 | V100 | |
kiến trúc GPU | Ampe | Volta | – |
bộ nhớ GPU | 40GB | 32 GB | 60% |
Băng thông bộ nhớ GPU | 1555 GB/giây | 900 GB/giây | 73% |
Đỉnh FP64 | 9,7 TFLOPS | 7 TFLOPS | 39% |
Lõi Tensor đỉnh FP64 | 19,5 TFLOPS | không áp dụng | – |
Đỉnh FP32 | 19,5 TFLOPS | 14 TFLOPS | 39% |
Lõi Tensor đỉnh FP32 | 156 TFLOPS
312 TFLOPS* |
không áp dụng | – |
Độ chính xác hỗn hợp đỉnh cao
Hoạt động của FP16/FP32 Tích trữ |
312 TFLOPS
624 TFLOPS* |
125 TFLOPS | 5x |
Đồng hồ cơ sở GPU | 765 MHz | 1230 MHz | – |
Đỉnh INT8 | 624 NGỌN
1.248 NGỌN* |
không áp dụng | – |
Đồng hồ tăng cường GPU | 1410 MHz | 1380 MHz | 2,1% |
Tốc độ NVLink | 600 GB/giây | không áp dụng | – |
tiêu thụ điện năng tối đa | 250 W | 250 W | Không thay đổi |
Giường thử nghiệm và ứng dụng
Blog này định lượng sự cải thiện hiệu suất của GPU với nền tảng GPU PowerEdge mới.
Bằng cách sử dụng một máy chủ PowerEdge R750xa nút duy nhất trong Phòng thí nghiệm đổi mới Dell HPC & AI, chúng tôi đã thu được tất cả các kết quả được trình bày trong blog này từ nền tảng thử nghiệm này. Phần này mô tả nền tảng thử nghiệm và các ứng dụng được đánh giá như một phần của nghiên cứu. Bảng sau cung cấp thông tin chi tiết về môi trường thử nghiệm:
Bảng 2 Cấu hình máy chủ
Thành phần | Giường thử 1 | Giường thử 2 |
Máy chủ | Dell PowerEdge R750xa
|
Cấu hình Dell PowerEdge C4140 M |
Bộ xử lý | Intel Xeon 8380 | Intel Xeon 6248 |
Ký ức | 32 x 16 GB @ 3200MT/s | 16 x 16 GB @ 2933MT/s |
Hệ điều hành | Red Hat Enterprise Linux 8.3 | Red Hat Enterprise Linux 8.3 |
GPU | 4 x GPU NVIDIA A100-PCIe-40 GB | 4 x GPU NVIDIA V100-PCIe-32 GB |
Bảng sau đây cung cấp thông tin về các ứng dụng và điểm chuẩn được sử dụng:
Bảng 3 Điểm chuẩn và chi tiết ứng dụng
Ứng dụng | Lãnh địa | Phiên bản | Tập dữ liệu điểm chuẩn |
Linpack hiệu suất cao | Điểm chuẩn hệ thống chuyên sâu về tính toán dấu phẩy động | xhpl_cuda-11.0-dyn_mkl-static_ompi-4.0.4_gcc4.8.5_7-23-20 | Kích thước sự cố chiếm hơn 95% bộ nhớ GPU |
HPCG | Tính toán ma trận thưa thớt | xhpcg-3.1_cuda_11_ompi-3.1 | 512*512*288
|
GROMACS | Ứng dụng động lực phân tử | 2020 | Ligno Cellulose
Nước 1536 Nước 3072 |
LAMMPS | Ứng dụng động lực phân tử | Bản phát hành ngày 29 tháng 10 năm 2020 | Lennard Jones |
LAMMPS
Trình mô phỏng song song nguyên tử/phân tử quy mô lớn (LAMMPS) được phân phối bởi Phòng thí nghiệm quốc gia Sandia và Bộ Năng lượng Hoa Kỳ. LAMMPS là mã nguồn mở có các mô hình tăng tốc khác nhau để cải thiện hiệu suất trên CPU và GPU. Đối với thử nghiệm của chúng tôi, chúng tôi đã biên dịch tệp nhị phân bằng gói KOKKOS, gói này chạy hiệu quả trên GPU.
Hình 2 Hiệu suất LAMMPS trên máy chủ PowerEdge R750xa và PowerEdge C4140
Với GPU thế hệ mới hơn, ứng dụng này cải thiện hiệu suất gấp 2,4 lần so với hiệu suất GPU đơn. Hiệu suất tổng thể từ một máy chủ được cải thiện gấp đôi với máy chủ PowerEdge R750xa và GPU NVIDIA A100.
GROMACS
GROMACS là gói động lực phân tử song song mã nguồn mở và miễn phí được thiết kế để mô phỏng các phân tử sinh hóa như protein, lipid và axit nucleic. Nó được sử dụng bởi nhiều nhà nghiên cứu, đặc biệt là cho các mô phỏng hóa học và phân tử sinh học. GROMACS hỗ trợ tất cả các thuật toán thông thường được mong đợi từ việc triển khai động lực học phân tử hiện đại. Đây là phần mềm nguồn mở với các phiên bản mới nhất có sẵn theo Giấy phép Công cộng GNU Ít hơn (LGPL).
Hình 3 Hiệu suất GROMACS trên máy chủ PowerEdge C4140 và r750xa
Với các GPU thế hệ mới hơn, ứng dụng này đã cải thiện khoảng 1,5 lần trên toàn bộ tập dữ liệu so với hiệu suất của một GPU. Hiệu suất tổng thể từ một máy chủ được cải thiện 1,5 lần với máy chủ PowerEdge R750xa và GPU NVIDIA A100.
Linpack hiệu suất cao
Linpack hiệu suất cao (HPL) không cần giới thiệu trong lĩnh vực HPC. Đây là một bài kiểm tra điểm chuẩn tiêu chuẩn được sử dụng rộng rãi trong ngành.
Hình 4 Hiệu suất HPL trên máy chủ PowerEdge R750xa với GPU A100 và máy chủ PowerEdge C4140 với GPU V100
Hình 5 Mức sử dụng năng lượng của HPL chạy trên GPU NVIDIA
Từ Hình 4 và Hình 5, thu được các kết quả sau:
- Hiệu suất—Đối với số lượng GPU, GPU NVIDIA A100 thể hiện hiệu suất gấp đôi GPU NVIDIA V100. Kích thước bộ nhớ cao hơn, FLOPS có độ chính xác gấp đôi và kiến trúc mới hơn góp phần cải tiến GPU NVIDIA A100.
- Khả năng mở rộng — Máy chủ PowerEdge R750xa với bốn GPU NVIDIA A100-PCIe-40 GB mang lại hiệu suất HPL cao hơn 3,6 lần so với một GPU NVIDIA A100-PCIE-40 GB. GPU NVIDIA A100 có quy mô tốt bên trong máy chủ PowerEdge R750xa cho điểm chuẩn HPL.
- Rpeak cao hơn —Mã HPL trên GPU NVIDIA A100 sử dụng lõi Tensor có độ chính xác kép mới . Mức cao nhất về mặt lý thuyết cho mỗi GPU là 19,5 TFlop, trái ngược với 9,7 TFlop.
- Nguồn — Hình 5 cho thấy mức tiêu thụ điện năng của một lần chạy HPL hoàn chỉnh với máy chủ PowerEdge R750xa sử dụng bốn GPU A100-PCIe. Kết quả này được đo bằng các lệnh iDRAC và mức tiêu thụ điện năng cao nhất được quan sát là 2022 Watts. Dựa trên những quan sát trước đây của chúng tôi , chúng tôi biết rằng máy chủ PowerEdge C4140 tiêu thụ khoảng 1800 W điện năng.
HPCG
Hình 6 Chia tỷ lệ dữ liệu hiệu suất GPU cho HPCG Benchmark
Như đã thảo luận trong các blog khác, gradient liên hợp hiệu suất cao (HPCG) là một điểm chuẩn tiêu chuẩn khác để kiểm tra các mẫu truy cập dữ liệu của phép tính ma trận thưa thớt. Từ biểu đồ, chúng ta thấy rằng điểm chuẩn HPCG có tỷ lệ tốt với điểm chuẩn này, dẫn đến cải thiện hiệu suất gấp 1,6 lần so với máy chủ PowerEdge C4140 thế hệ trước có GPU NVIDIA V100.
Việc cải thiện 72% băng thông bộ nhớ của GPU NVIDIA A100 so với GPU NVIDIA V100 góp phần cải thiện hiệu suất.
Phần kết luận
Trong blog này, chúng tôi đã giới thiệu nền tảng PowerEdge R750xa thế hệ mới nhất và thảo luận về việc cải thiện hiệu suất so với máy chủ PowerEdge C4140 thế hệ trước. Máy chủ PowerEdge R750xa là một lựa chọn tốt cho những khách hàng đang tìm kiếm nền tảng dựa trên CPU có khả năng mở rộng Intel Xeon được hỗ trợ bởi GPU NVIDIA.
Với máy chủ PowerEdge R750xa thế hệ mới hơn và GPU NVIDIA A100, các ứng dụng được thảo luận trong blog này cho thấy sự cải thiện hiệu suất đáng kể.
Bài viết mới cập nhật
Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)
Trong quy trình làm việc NDU, các nút được khởi động ...
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...