Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới, một nền tảng dựa trên khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, máy học và các giải pháp điện toán hiệu năng cao. Nền tảng ổ cắm kép/2U hỗ trợ bộ xử lý Intel Xeon thế hệ thứ 3 (tên mã là Ice Lake). Nó hỗ trợ tối đa 40 lõi trên mỗi bộ xử lý, có tám kênh bộ nhớ trên mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe hai chiều được đặt ở phía trước bên trái và phía trước bên phải của máy chủ.
So với các tùy chọn nền tảng GPU PowerEdge C4140 và PowerEdge R740 thế hệ trước, máy chủ PowerEdge R750xa mới hỗ trợ dung lượng lưu trữ lớn hơn, cung cấp các dịch vụ GPU linh hoạt hơn và cải thiện yêu cầu nhiệt.
Hình 1 Máy chủ PowerEdge R750xa
GPU NVIDIA A100 được xây dựng trên kiến trúc NVIDIA Ampere để hỗ trợ khối lượng công việc có độ chính xác gấp đôi. Blog này đánh giá máy chủ PowerEdge R750xa mới và so sánh hiệu suất của nó với máy chủ PowerEdge C4140 thế hệ trước.
Bảng sau đây hiển thị các thông số kỹ thuật cho GPU NVIDIA được thảo luận trong blog này và so sánh sự cải thiện hiệu suất so với thế hệ trước.
Bảng 1 Thông số kỹ thuật GPU NVIDIA
PCIe | Sự cải tiến | ||
tên GPU | A100 | v100 | |
kiến trúc GPU | Ampe | Volta | – |
bộ nhớ GPU | 40 GB | 32 GB | 60% |
Băng thông bộ nhớ GPU | 1555GB/giây | 900 GB/giây | 73% |
Đỉnh FP64 | 9.7 TFLOP | 7 TFLOPS | 39% |
Lõi Tenor đỉnh FP64 | 19,5 TFLOP | không áp dụng | – |
Đỉnh FP32 | 19,5 TFLOP | 14 TFLOPS | 39% |
Lõi Tenor đỉnh FP32 | TẬP 156
312 TFLOPS* |
không áp dụng | – |
Đỉnh hỗn hợp chính xác
Hoạt động FP16/ FP32 Tích trữ |
TẬP 312
624 TFLOPS* |
125 TFLOPS | 5x |
Đồng hồ cơ sở GPU | 765 MHz | 1230 MHz | – |
Đỉnh INT8 | 624 HÀNG ĐẦU
1.248 HÀNG ĐẦU* |
không áp dụng | – |
Đồng hồ GPU Boost | 1410 MHz | 1380 MHz | 2,1% |
Tốc độ NVLink | 600GB/giây | không áp dụng | – |
tiêu thụ điện năng tối đa | 250W | 250W | Không thay đổi |
Giường thử nghiệm và ứng dụng
Blog này định lượng sự cải thiện hiệu suất của GPU với nền tảng GPU PowerEdge mới.
Sử dụng một máy chủ PowerEdge R750xa một nút trong Phòng thí nghiệm đổi mới AI và HPC của Dell, chúng tôi đã thu được tất cả các kết quả được trình bày trong blog này từ giường thử nghiệm này. Phần này mô tả khu vực thử nghiệm và các ứng dụng đã được đánh giá như một phần của nghiên cứu. Bảng sau đây cung cấp thông tin chi tiết về môi trường thử nghiệm:
Bảng 2 Cấu hình máy chủ
Thành phần | Giường thử nghiệm 1 | Giường thử nghiệm 2 |
Người phục vụ | Dell PowerEdge R750xa
|
Dell PowerEdge C4140 cấu hình M |
bộ vi xử lý | Intel Xeon 8380 | Intel Xeon 6248 |
Kỉ niệm | 32 x 16 GB @ 3200 tấn/giây | 16 x 16GB @ 2933MT/giây |
Hệ điều hành | Doanh nghiệp mũ đỏ Linux 8.3 | Doanh nghiệp mũ đỏ Linux 8.3 |
GPU | 4 x GPU NVIDIA A100-PCIe-40 GB | 4 x GPU NVIDIA V100-PCIe-32 GB |
Bảng sau đây cung cấp thông tin về các ứng dụng và điểm chuẩn được sử dụng:
Bảng 3 Điểm chuẩn và chi tiết ứng dụng
Đăng kí | Miền | Phiên bản | tập dữ liệu điểm chuẩn |
Linpack hiệu suất cao | Điểm chuẩn hệ thống tính toán chuyên sâu dấu phẩy động | xhpl_cuda-11.0-dyn_mkl-static_ompi-4.0.4_gcc4.8.5_7-23-20 | Kích thước sự cố chiếm hơn 95% bộ nhớ GPU |
HPCG | Tính toán ma trận thưa thớt | xhpcg-3.1_cuda_11_ompi-3.1 | 512*512*288
|
GROMACS | ứng dụng động học phân tử | 2020 | Ligno Cellulose
Nước 1536 nước 3072 |
ĐÈN | ứng dụng động học phân tử | phát hành ngày 29 tháng 10 năm 2020 | lennard jones |
ĐÈN
Trình mô phỏng song song khối lượng lớn nguyên tử/phân tử quy mô lớn (LAMMPS) được phân phối bởi Phòng thí nghiệm quốc gia Sandia và Bộ năng lượng Hoa Kỳ. LAMMPS là mã nguồn mở có các mô hình tăng tốc khác nhau cho hiệu suất trên CPU và GPU. Đối với thử nghiệm của chúng tôi, chúng tôi đã biên dịch tệp nhị phân bằng gói KOKKOS, gói này chạy hiệu quả trên GPU.
Hình 2 Hiệu suất LAMMPS trên máy chủ PowerEdge R750xa và PowerEdge C4140
Với các GPU thế hệ mới, ứng dụng này cải thiện hiệu năng gấp 2,4 lần so với GPU đơn. Hiệu suất tổng thể từ một máy chủ được cải thiện gấp đôi với máy chủ PowerEdge R750xa và GPU NVIDIA A100.
GROMACS
GROMACS là gói động lực học phân tử song song mã nguồn mở và miễn phí được thiết kế để mô phỏng các phân tử sinh hóa như protein, lipid và axit nucleic. Nó được nhiều nhà nghiên cứu sử dụng, đặc biệt là cho các mô phỏng sinh học phân tử và hóa học. GROMACS hỗ trợ tất cả các thuật toán thông thường được mong đợi từ việc triển khai động lực học phân tử hiện đại. Đây là phần mềm nguồn mở với các phiên bản mới nhất có sẵn theo Giấy phép Công cộng Ít hơn GNU (LGPL).
Hình 3 Hiệu suất GROMACS trên máy chủ PowerEdge C4140 và r750xa
Với các GPU thế hệ mới hơn, ứng dụng này đã cải thiện khoảng 1,5 lần trên toàn bộ tập dữ liệu so với hiệu suất của một GPU. Hiệu suất tổng thể từ một máy chủ được cải thiện 1,5 lần với máy chủ PowerEdge R750xa và GPU NVIDIA A100.
Linpack hiệu suất cao
Linpack hiệu suất cao (HPL) không cần giới thiệu trong đấu trường HPC. Nó là một bài kiểm tra điểm chuẩn tiêu chuẩn được sử dụng rộng rãi trong ngành.
Hình 4 Hiệu suất HPL trên máy chủ PowerEdge R750xa với GPU A100 và máy chủ PowerEdge C4140 với GPU V100
Hình 5 Sử dụng năng lượng của HPL chạy trên GPU NVIDIA
Từ Hình 4 và Hình 5, các kết quả sau đây đã được quan sát thấy:
- Hiệu suất—Đối với số lượng GPU, GPU NVIDIA A100 thể hiện hiệu suất gấp đôi so với GPU NVIDIA V100. Kích thước bộ nhớ cao hơn, FLOPS có độ chính xác gấp đôi và kiến trúc mới hơn góp phần cải thiện GPU NVIDIA A100.
- Khả năng mở rộng — Máy chủ PowerEdge R750xa với bốn GPU NVIDIA A100-PCIe-40 GB mang lại hiệu suất HPL cao hơn 3,6 lần so với một GPU NVIDIA A100-PCIE-40 GB. GPU NVIDIA A100 mở rộng tốt bên trong máy chủ PowerEdge R750xa cho điểm chuẩn HPL.
- Cao hơn Rpeak —Mã HPL trên GPU NVIDIA A100 sử dụng lõi Tensor có độ chính xác kép mới . Đỉnh lý thuyết cho mỗi GPU là 19,5 TFlops, trái ngược với 9,7 TFlops.
- Nguồn điện — Hình 5 cho thấy mức tiêu thụ điện năng của một lần chạy HPL hoàn chỉnh với máy chủ PowerEdge R750xa sử dụng bốn GPU A100-PCIe. Kết quả này được đo bằng các lệnh iDRAC và mức tiêu thụ điện năng cao nhất được quan sát là 2022 Watts. Dựa trên những quan sát trước đây của chúng tôi , chúng tôi biết rằng máy chủ PowerEdge C4140 tiêu thụ khoảng 1800 W điện năng.
HPCG
Hình 6 Chia tỷ lệ dữ liệu hiệu suất GPU cho HPCG Benchmark
Như đã thảo luận trong các blog khác, độ dốc liên hợp hiệu suất cao (HPCG) là một điểm chuẩn tiêu chuẩn khác để kiểm tra các mẫu truy cập dữ liệu của các phép tính ma trận thưa thớt. Từ biểu đồ, chúng tôi thấy rằng điểm chuẩn HPCG cân đối tốt với điểm chuẩn này dẫn đến cải thiện hiệu suất 1,6 lần so với máy chủ PowerEdge C4140 thế hệ trước với GPU NVIDIA V100.
Việc cải thiện 72% băng thông bộ nhớ của GPU NVIDIA A100 so với GPU NVIDIA V100 góp phần cải thiện hiệu suất.
Sự kết luận
Trong blog này, chúng tôi đã giới thiệu nền tảng PowerEdge R750xa thế hệ mới nhất và thảo luận về cải thiện hiệu suất so với máy chủ PowerEdge C4140 thế hệ trước. Máy chủ PowerEdge R750xa là một lựa chọn tốt cho những khách hàng đang tìm kiếm một nền tảng dựa trên CPU có khả năng mở rộng Intel Xeon được hỗ trợ bởi GPU NVIDIA.
Với máy chủ PowerEdge R750xa thế hệ mới hơn và GPU NVIDIA A100, các ứng dụng được thảo luận trong blog này cho thấy hiệu suất được cải thiện đáng kể.