Thiết kế đã được xác nhận của Dell dành cho Chính phủ (2)

Cấu hình hệ thống

Kiểm tra điểm chuẩn hiệu suất được tiến hành trong Phòng thí nghiệm Đổi mới AI và HPC của Dell bằng cách sử dụng các cấu hình hệ thống được liệt kê trong bảng số 3.

Bảng 3.       Cấu hình hệ thống chuẩn

Khối xây dựng

Điện toán GPU AI/DL/ML/HPC – 1

PowerEdge XE8545

AMD EPYC 7763 kép

512GB RAM 16x 32GB 3200 MTps DIMM

4x NVIDIA A100 80GB SXM4

Bộ điều hợp NVIDIA ConnectX-6 HDR

Công tắc NVIDIA QM8790 InfiniBand

Điện toán GPU AI/DL/ML/HPC – 2

PowerEdge R750xa

Intel Xeon vàng kép 6338

512GB RAM 16x 32GB 3200 MTps DIMM

4x NVIDIA A100 80GB PCIe

Bộ điều hợp NVIDIA ConnectX-6 HDR

Công tắc NVIDIA QM8790 InfiniBand

Điện toán mật độ cao
PowerEdge C6520
Dual Intel Xeon Platinum 8352Y
512GB RAM 16x 32GB DIMM 3200 MTps
Bộ điều hợp NVIDIA ConnectX-6 HDR

Công tắc NVIDIA QM8790 InfiniBand

Các cấu hình BIOS được sử dụng cho các hệ thống tham chiếu được mô tả trong Bảng 4 Và Bảng 5.

Bảng 4.       Cấu hình BIOS – GPU Building Block 1

Tùy chọn BIOS

Cài đặt

Bộ xử lý logic

Tàn tật

Công nghệ ảo hóa

Tàn tật

Hồ sơ hệ thống

Hiệu suất

NUMA trên mỗi ổ cắm

4

Bảng 5.       Cấu hình BIOS – GPU Building Block 2 và Dense Compute

Tùy chọn BIOS

Cài đặt

Bộ xử lý logic

Tàn tật

Công nghệ ảo hóa

Tàn tật

Hồ sơ hệ thống

Hiệu suất

Phân cụm NUMA phụ

Đã bật

Các phiên bản phần mềm để đo điểm chuẩn MLPerf của các khối xây dựng Điện toán GPU được mô tả trong  Bảng 6.

Bảng 6.      phiên bản phần mềmcho Điểm chuẩn MLPerf

Thành phần

Phiên bản

Nền tảng

XE8545 (Khối xây dựng GPU1)

R750xa (Khối xây dựng GPU 2)

Hệ điều hành

CentOS 8.2

CentOS 8.2

hạt nhân

4.18.0-193.el8.x86_64

4.18.0-193.el8.x86_64

OFED

5.4-1.0.3.0

5.4-1.0.3.0

Trình quản lý cụm sáng

9.1

9.1

Đào tạo MLPerf

1.1

1.1

Các phiên bản phần mềm được sử dụng cho hệ thống tham chiếu Điện toán dày đặc được liệt kê trong Bảng 7.

Bảng 7.       Các phiên bản phần mềm cho điểm chuẩn Điện toán dày đặc

Thành phần

Phiên bản

Hệ điều hành

Doanh nghiệp mũ đỏ Linux 8.3

hạt nhân

4.18.0-240.22.1.el8_3.x86_64

OFED

NVIDIA Mellanox 5.4-3.0.3.0

Trình quản lý cụm sáng

9,0

HPL

2.3 (Intel oneAPI 2021.4.0)

HPCG

3.1 (Intel oneAPI 2021.4.0)

SUỐI

5.10

Điểm chuẩn vi mô OSU

5,9

Tuyên bố từ chối trách nhiệm đối với điểm chuẩn

Kết quả điểm chuẩn phụ thuộc vào khối lượng công việc, yêu cầu ứng dụng cụ thể cũng như thiết kế và triển khai hệ thống. Hiệu suất hệ thống tương đối thay đổi dựa trên những yếu tố này và các yếu tố khác. Không nên sử dụng khối lượng công việc này để thay thế cho điểm chuẩn ứng dụng cụ thể của khách hàng khi hoạch định năng lực quan trọng hoặc quyết định đánh giá sản phẩm được dự tính.

Tất cả hiệu suất được trình bày trong báo cáo này đã thu được trong một môi trường được kiểm soát chặt chẽ. Kết quả thu được trong các môi trường vận hành khác có thể thay đổi đáng kể. Dell Technologies không đảm bảo hoặc tuyên bố rằng người dùng có thể hoặc sẽ đạt được kết quả hoạt động tương tự.

Khối xây dựng GPU hiệu năng MLPerf

Giới thiệu

Khối lượng công việc của khách hàng rất đa dạng và không thể gói gọn tất cả sắc thái đó trong một điểm chuẩn duy nhất. Chúng tôi đã chọn MLPerf cho các khối xây dựng GPU trong nghiên cứu hiệu suất này, vì MLPerf cung cấp nhiều điểm chuẩn khác nhau và được khách hàng của chúng tôi ưa chuộng.

MLPerf là ​​bộ đo điểm chuẩn tập trung vào deep learning do cộng đồng MLCommons phát triển. Mục tiêu của nghiên cứu hiệu suất này là xây dựng các tiêu chuẩn đại diện để so sánh các hệ thống. Điểm chuẩn Đào tạo MLPerf kiểm tra hệ thống trong nhiều loại vấn đề học sâu khác nhau.

Hiệu suất máy chủ đơn

Số liệu hiệu suất cho bốn tiêu chuẩn Đào tạo MLPerf trên một máy chủ được mô tả trong Bảng 8.

Bảng 8.       Chọn kết quả Đào tạo MLPerf cho Khối xây dựng GPU (tính bằng phút)

Thành phần

Phân loại hình ảnh (Resnet50)

NLP (BERT-lớn)

Phát hiện đối tượng, trọng lượng nặng (Mask R-CNN)

Phân đoạn hình ảnh (3D U-Net)

XE8545 (Khối xây dựng GPU 1)

56.326

38.855

83.774

55.999

R750xa (Khối xây dựng GPU 2)

62.949

56.260

93.134

60.586

Kết quả trong Bảng 8 là thời gian đào tạo tính bằng phút cho các điểm chuẩn Đào tạo MLPerf cụ thể, trong đó các giá trị nhỏ hơn sẽ tốt hơn. Sự khác biệt chính giữa hai khối xây dựng là khối xây dựng XE8545 có GPU SXM4 400 W và R750xa có GPU PCIe 300 W. Toàn bộ kết quả MLPerf có tại trang kết quả MLCommons .

Hiệu suất khối xây dựng điện toán dày đặc

Giới thiệu

Khối lượng công việc dựa trên GPU chỉ là một phần của giải pháp. Nhiều khối lượng công việc vẫn chỉ là CPU. Mật độ ngày càng trở nên quan trọng khi kích thước cụm tăng lên. Khối công trình này chú trọng đến mật độ. Chúng tôi đã thử nghiệm bốn ứng dụng cụ thể: HPL, HPCG, STREAM và OSU.

High Performance Linpack (HPL) là một tiêu chuẩn HPC cổ điển được sử dụng để đo kích thước và hiệu suất của hệ thống trong nhiều năm ( TOP500 ) . Điểm chuẩn thực hiện phân tích hệ số LU trên một ma trận lớn.

High Performance Conjugate Gradients (HPCG) được thiết kế để bổ sung cho HPL khả năng truy cập dữ liệu và các mẫu điện toán phù hợp hơn với khối lượng công việc hiện tại trong HPC.

STREAM đo băng thông bộ nhớ được duy trì với bốn nhân khác nhau: Sao chép, Chia tỷ lệ, Thêm và Bộ ba. Bộ ba được yêu cầu thường xuyên nhất trong số bốn hạt nhân này.

OSU Micro-Benchmarks là một bộ điểm chuẩn mạng có thể kiểm tra nhiều khía cạnh của hiệu suất mạng như độ trễ, băng thông, tốc độ tin nhắn cho các bài kiểm tra điểm-điểm và tập thể.

Hiệu suất máy chủ đơn

Số liệu hiệu suất cho bốn điểm chuẩn trên một máy chủ được hiển thị trong Bảng 9. Điểm chuẩn OSU đại diện cho một bộ điểm chuẩn chạy trên hai máy chủ được kết nối với một Bộ chuyển mạch NVIDIA QM8790 InfiniBand duy nhất.

Bảng 9.       Kết quả điểm chuẩn khối xây dựng Điện toán dày đặc

HPL (TFLOP)

HPCG (GFLOP)

Luồng (MB/giây)

Độ trễ OSU (chúng tôi)

Băng thông OSU (MB/giây)

3,21

59.0305

321229.5

0,89

24681.34

Phần kết luận

Sách trắng này nêu bật Thiết kế đã được Xác thực của Dell dành cho HPC của Chính phủ, AI và phân tích dữ liệu. Thiết kế đã được kiểm chứng này bao gồm các khối xây dựng linh hoạt cho phép tạo ra giải pháp có khả năng tùy chỉnh cao được điều chỉnh riêng cho khối lượng công việc cụ thể của khách hàng đồng thời đơn giản hóa quy trình quyết định bằng cách tính đến tất cả các khía cạnh chính của thiết kế cụm: quản trị và quản lý, tính toán, lưu trữ, kết nối mạng và phần mềm.