Cấu hình hệ thống
Kiểm tra điểm chuẩn hiệu suất được tiến hành trong Phòng thí nghiệm Đổi mới AI và HPC của Dell bằng cách sử dụng các cấu hình hệ thống được liệt kê trong bảng số 3.
Khối xây dựng |
Điện toán GPU AI/DL/ML/HPC – 1 PowerEdge XE8545 AMD EPYC 7763 kép 512GB RAM 16x 32GB 3200 MTps DIMM 4x NVIDIA A100 80GB SXM4 Bộ điều hợp NVIDIA ConnectX-6 HDR Công tắc NVIDIA QM8790 InfiniBand |
Điện toán GPU AI/DL/ML/HPC – 2 PowerEdge R750xa Intel Xeon vàng kép 6338 512GB RAM 16x 32GB 3200 MTps DIMM 4x NVIDIA A100 80GB PCIe Bộ điều hợp NVIDIA ConnectX-6 HDR Công tắc NVIDIA QM8790 InfiniBand |
Điện toán mật độ cao Công tắc NVIDIA QM8790 InfiniBand |
Các cấu hình BIOS được sử dụng cho các hệ thống tham chiếu được mô tả trong Bảng 4 Và Bảng 5.
Tùy chọn BIOS |
Cài đặt |
Bộ xử lý logic |
Tàn tật |
Công nghệ ảo hóa |
Tàn tật |
Hồ sơ hệ thống |
Hiệu suất |
NUMA trên mỗi ổ cắm |
4 |
Tùy chọn BIOS |
Cài đặt |
Bộ xử lý logic |
Tàn tật |
Công nghệ ảo hóa |
Tàn tật |
Hồ sơ hệ thống |
Hiệu suất |
Phân cụm NUMA phụ |
Đã bật |
Các phiên bản phần mềm để đo điểm chuẩn MLPerf của các khối xây dựng Điện toán GPU được mô tả trong Bảng 6.
Thành phần |
Phiên bản |
|
Nền tảng |
XE8545 (Khối xây dựng GPU1) |
R750xa (Khối xây dựng GPU 2) |
Hệ điều hành |
CentOS 8.2 |
CentOS 8.2 |
hạt nhân |
4.18.0-193.el8.x86_64 |
4.18.0-193.el8.x86_64 |
OFED |
5.4-1.0.3.0 |
5.4-1.0.3.0 |
Trình quản lý cụm sáng |
9.1 |
9.1 |
Đào tạo MLPerf |
1.1 |
1.1 |
Các phiên bản phần mềm được sử dụng cho hệ thống tham chiếu Điện toán dày đặc được liệt kê trong Bảng 7.
Thành phần |
Phiên bản |
Hệ điều hành |
Doanh nghiệp mũ đỏ Linux 8.3 |
hạt nhân |
4.18.0-240.22.1.el8_3.x86_64 |
OFED |
NVIDIA Mellanox 5.4-3.0.3.0 |
Trình quản lý cụm sáng |
9,0 |
HPL |
2.3 (Intel oneAPI 2021.4.0) |
HPCG |
3.1 (Intel oneAPI 2021.4.0) |
SUỐI |
5.10 |
Điểm chuẩn vi mô OSU |
5,9 |
Tuyên bố từ chối trách nhiệm đối với điểm chuẩn
Kết quả điểm chuẩn phụ thuộc vào khối lượng công việc, yêu cầu ứng dụng cụ thể cũng như thiết kế và triển khai hệ thống. Hiệu suất hệ thống tương đối thay đổi dựa trên những yếu tố này và các yếu tố khác. Không nên sử dụng khối lượng công việc này để thay thế cho điểm chuẩn ứng dụng cụ thể của khách hàng khi hoạch định năng lực quan trọng hoặc quyết định đánh giá sản phẩm được dự tính.
Tất cả hiệu suất được trình bày trong báo cáo này đã thu được trong một môi trường được kiểm soát chặt chẽ. Kết quả thu được trong các môi trường vận hành khác có thể thay đổi đáng kể. Dell Technologies không đảm bảo hoặc tuyên bố rằng người dùng có thể hoặc sẽ đạt được kết quả hoạt động tương tự.
Khối xây dựng GPU hiệu năng MLPerf
Giới thiệu
Khối lượng công việc của khách hàng rất đa dạng và không thể gói gọn tất cả sắc thái đó trong một điểm chuẩn duy nhất. Chúng tôi đã chọn MLPerf cho các khối xây dựng GPU trong nghiên cứu hiệu suất này, vì MLPerf cung cấp nhiều điểm chuẩn khác nhau và được khách hàng của chúng tôi ưa chuộng.
MLPerf là bộ đo điểm chuẩn tập trung vào deep learning do cộng đồng MLCommons phát triển. Mục tiêu của nghiên cứu hiệu suất này là xây dựng các tiêu chuẩn đại diện để so sánh các hệ thống. Điểm chuẩn Đào tạo MLPerf kiểm tra hệ thống trong nhiều loại vấn đề học sâu khác nhau.
Hiệu suất máy chủ đơn
Số liệu hiệu suất cho bốn tiêu chuẩn Đào tạo MLPerf trên một máy chủ được mô tả trong Bảng 8.
Thành phần |
Phân loại hình ảnh (Resnet50) |
NLP (BERT-lớn) |
Phát hiện đối tượng, trọng lượng nặng (Mask R-CNN) |
Phân đoạn hình ảnh (3D U-Net) |
XE8545 (Khối xây dựng GPU 1) |
56.326 |
38.855 |
83.774 |
55.999 |
R750xa (Khối xây dựng GPU 2) |
62.949 |
56.260 |
93.134 |
60.586 |
Kết quả trong Bảng 8 là thời gian đào tạo tính bằng phút cho các điểm chuẩn Đào tạo MLPerf cụ thể, trong đó các giá trị nhỏ hơn sẽ tốt hơn. Sự khác biệt chính giữa hai khối xây dựng là khối xây dựng XE8545 có GPU SXM4 400 W và R750xa có GPU PCIe 300 W. Toàn bộ kết quả MLPerf có tại trang kết quả MLCommons .
Hiệu suất khối xây dựng điện toán dày đặc
Giới thiệu
Khối lượng công việc dựa trên GPU chỉ là một phần của giải pháp. Nhiều khối lượng công việc vẫn chỉ là CPU. Mật độ ngày càng trở nên quan trọng khi kích thước cụm tăng lên. Khối công trình này chú trọng đến mật độ. Chúng tôi đã thử nghiệm bốn ứng dụng cụ thể: HPL, HPCG, STREAM và OSU.
High Performance Linpack (HPL) là một tiêu chuẩn HPC cổ điển được sử dụng để đo kích thước và hiệu suất của hệ thống trong nhiều năm ( TOP500 ) . Điểm chuẩn thực hiện phân tích hệ số LU trên một ma trận lớn.
High Performance Conjugate Gradients (HPCG) được thiết kế để bổ sung cho HPL khả năng truy cập dữ liệu và các mẫu điện toán phù hợp hơn với khối lượng công việc hiện tại trong HPC.
STREAM đo băng thông bộ nhớ được duy trì với bốn nhân khác nhau: Sao chép, Chia tỷ lệ, Thêm và Bộ ba. Bộ ba được yêu cầu thường xuyên nhất trong số bốn hạt nhân này.
OSU Micro-Benchmarks là một bộ điểm chuẩn mạng có thể kiểm tra nhiều khía cạnh của hiệu suất mạng như độ trễ, băng thông, tốc độ tin nhắn cho các bài kiểm tra điểm-điểm và tập thể.
Hiệu suất máy chủ đơn
Số liệu hiệu suất cho bốn điểm chuẩn trên một máy chủ được hiển thị trong Bảng 9. Điểm chuẩn OSU đại diện cho một bộ điểm chuẩn chạy trên hai máy chủ được kết nối với một Bộ chuyển mạch NVIDIA QM8790 InfiniBand duy nhất.
HPL (TFLOP) |
HPCG (GFLOP) |
Luồng (MB/giây) |
Độ trễ OSU (chúng tôi) |
Băng thông OSU (MB/giây) |
3,21 |
59.0305 |
321229.5 |
0,89 |
24681.34 |
Phần kết luận
Sách trắng này nêu bật Thiết kế đã được Xác thực của Dell dành cho HPC của Chính phủ, AI và phân tích dữ liệu. Thiết kế đã được kiểm chứng này bao gồm các khối xây dựng linh hoạt cho phép tạo ra giải pháp có khả năng tùy chỉnh cao được điều chỉnh riêng cho khối lượng công việc cụ thể của khách hàng đồng thời đơn giản hóa quy trình quyết định bằng cách tính đến tất cả các khía cạnh chính của thiết kế cụm: quản trị và quản lý, tính toán, lưu trữ, kết nối mạng và phần mềm.
Bài viết mới cập nhật
Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell
Sự cố CNTT nghiêm trọng ảnh hưởng đến 8,5 triệu hệ ...
Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu
Hiện đang ở thế hệ thứ 9, giải pháp lưu trữ Dell ...
Bảo mật PowerScale OneFS SyncIQ
Trong thế giới sao chép dữ liệu, việc đảm bảo tính ...
Danh sách kiểm tra cơ sở bảo mật PowerScale
Là một biện pháp bảo mật tốt nhất, chúng tôi khuyến ...