Giới thiệu
Trong blog này, chúng tôi trình bày kết quả suy luận trung tâm dữ liệu MLPerf™ v4.0 thu được trên Dell PowerEdge R760 với Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5 mới nhất (hệ thống chỉ có CPU).
Các bộ xử lý Intel® Xeon® mới này sử dụng công nghệ nhân ma trận Intel® AMX trong mỗi lõi để tăng cường hiệu suất suy luận tổng thể. Tập trung vào tính dễ sử dụng, Dell Technologies mang đến hiệu suất CPU vượt trội ngay khi xuất xưởng với cấu hình BIOS được tối ưu hóa, khai thác tối đa sức mạnh của phần mềm OneDNN của Intel – một phần mềm được tích hợp hoàn toàn với cả nền tảng PyTorch và TensorFlow. Cấu hình máy chủ và thông số kỹ thuật CPU trong các thử nghiệm benchmark được thể hiện lần lượt trong Bảng 1 và Bảng 2.
Bảng 1. Cấu hình máy chủ Dell PowerEdge R760
| Tên hệ thống | PowerEdge R760 |
| Trạng thái | Có sẵn |
| Loại hệ thống | Trung tâm dữ liệu |
| Số lượng nút | 1 |
| Mô hình bộ xử lý máy chủ | Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5 |
| Bộ xử lý máy chủ trên mỗi nút | 2 |
| Số lượng lõi bộ xử lý máy chủ | 64 |
| Tần số bộ xử lý máy chủ | Tăng tốc Turbo 1,9 GHz, 3,9 GHz |
| Dung lượng bộ nhớ máy chủ | 2 TB, 16 x 128 GB 5600 MT/giây |
| Dung lượng lưu trữ của máy chủ | 7,68TB, NVME |
Bảng 2. Thông số kỹ thuật của Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5
| Bộ sưu tập sản phẩm | Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5 |
| Tên bộ xử lý | Bạch kim 8592+ |
| Trạng thái | Đã ra mắt |
| Số lõi CPU | 64 |
| # Chủ đề | 128 |
| Tần số cơ bản | 1,9 GHz |
| Tốc độ Turbo tối đa | 3,9 GHz |
| Bộ nhớ đệm L3 | 320 MB |
| Loại bộ nhớ | DDR5 5600 MT/giây |
| Bộ nhớ ECC được hỗ trợ | Đúng |
MLPerf™ Inference v4.0 – Trung tâm dữ liệu
Tiêu chuẩn suy luận MLPerf™ đo lường tốc độ một hệ thống có thể thực hiện suy luận ML bằng cách sử dụng một mô hình đã được huấn luyện với dữ liệu mới trong nhiều tình huống triển khai khác nhau. Có hai bộ tiêu chuẩn, một cho hệ thống Trung tâm dữ liệu và một cho hệ thống Biên (Edge). Hình 1 hiển thị 7 mô hình, mỗi mô hình nhắm đến các tác vụ khác nhau trong danh mục Hệ thống Trung tâm dữ liệu phiên bản chính thức v4.0, được chạy trên PowerEdge R760 này và được gửi trong danh mục đóng. Bộ dữ liệu và mục tiêu chất lượng được xác định cho từng mô hình để đánh giá tiêu chuẩn, như được liệt kê trong Bảng 3.

Hình 1. Các mô hình chuẩn cho suy luận trung tâm dữ liệu MLPerf™ v4.0
Bảng 3. Điểm chuẩn của Bộ trung tâm dữ liệu. Nguồn: MLCommons™
| Khu vực | Nhiệm vụ | Người mẫu | Bộ dữ liệu | Kích thước QSL | Chất lượng | Độ trễ của máy chủ
ràng buộc |
| Tầm nhìn | Phân loại hình ảnh | ResNet50-v1.5 | ImageNet (224×224) | 1024 | 99% FP32 (76,46%) | 15 ms |
| Tầm nhìn | Sự vật
phát hiện |
RetinaNet | OpenImages (800×800) | 64 | 99% FP32 (0,20 mAP) | 100 ms |
| Tầm nhìn | Thuộc về y học
hình ảnh |
3D-Unet | BỘ DỤNG CỤ 2019 (602x512x512) | 16 | 99,9% FP32 (điểm DICE trung bình 0,86330) | Không có |
| Lời nói | Chuyển giọng nói thành văn bản | RNN-T | Librispeech dev-clean (mẫu < 15 giây) | 2513 | 99% FP32 (1 – WER, trong đó WER=7,452253714852645%) | 1000 ms |
| Ngôn ngữ | Xử lý ngôn ngữ | BERT-lớn | SQuAD v1.1 (max_seq_len=384) | 10833 | 99% FP32 và 99,9% FP32 (f1_score=90,874%) | 130 ms |
| Ngôn ngữ | Tóm tắt | GPT-J | CNN Dailymail (v3.0.0, max_seq_len=2048) | 13368 | 99% FP32 (f1_score=80,25%
rouge1=42,9865, rouge2=20,1235, rougeL=29,9881). |
20 giây |
| Thương mại | Sự giới thiệu | DLRMv2 | Criteo 4TB đa năng | 204800 | 99% FP32 (AUC=80,25%) | 60 ms |
Các kịch bản
Các mô hình được triển khai trong nhiều ứng dụng suy luận quan trọng hoặc trường hợp sử dụng được gọi là “kịch bản”, trong đó mỗi kịch bản yêu cầu các số liệu khác nhau, thể hiện hiệu suất môi trường sản xuất trong thực tế. Sau đây là mô tả của từng kịch bản. Bảng 4 hiển thị các kịch bản cần thiết cho từng chuẩn mực Trung tâm dữ liệu được đưa vào bản đệ trình v4.0 này.
Kịch bản ngoại tuyến : biểu thị các ứng dụng xử lý dữ liệu đầu vào theo từng đợt có sẵn ngay lập tức và không có ràng buộc về độ trễ đối với hiệu suất số liệu được đo bằng mẫu mỗi giây.
Kịch bản máy chủ : thể hiện việc triển khai các ứng dụng trực tuyến với các truy vấn đầu vào ngẫu nhiên. Hiệu suất đo lường được đo bằng số truy vấn mỗi giây (QPS) tùy thuộc vào giới hạn độ trễ. Kịch bản máy chủ phức tạp hơn về các ràng buộc độ trễ và việc tạo truy vấn đầu vào. Sự phức tạp này được phản ánh trong kết quả suy giảm thông lượng so với kịch bản ngoại tuyến.
Mỗi tiêu chuẩn Trung tâm dữ liệu đều yêu cầu các tình huống sau:
Bảng 4. Các kịch bản chuẩn của bộ trung tâm dữ liệu. Nguồn: MLCommons™
| Khu vực | Nhiệm vụ | Các tình huống bắt buộc |
| Tầm nhìn | Phân loại hình ảnh | Máy chủ, Ngoại tuyến |
| Tầm nhìn | Phát hiện đối tượng | Máy chủ, Ngoại tuyến |
| Tầm nhìn | Hình ảnh y tế | Ngoại tuyến |
| Lời nói | Chuyển giọng nói thành văn bản | Máy chủ, Ngoại tuyến |
| Ngôn ngữ | Xử lý ngôn ngữ | Máy chủ, Ngoại tuyến |
| Ngôn ngữ | Tóm tắt | Máy chủ, Ngoại tuyến |
| Thương mại | Sự giới thiệu | Máy chủ, Ngoại tuyến |
Phần mềm và cấu hình hệ thống
Cấu hình hệ thống và phần mềm được sử dụng cho bài nộp này được tóm tắt trong Bảng 5.
Bảng 5. Cấu hình hệ thống
| Hệ điều hành | CentOS Stream 8 (GNU/Linux x86_64) |
| Hạt nhân | 6.7.4-1.el8.elrepo.x86_64 |
| Phần mềm suy luận được tối ưu hóa của Intel® dành cho MLPerf™ | MLPerf™ Intel® OneDNN tích hợp với Intel® Extension for PyTorch (IPEX) |
| Chế độ bộ nhớ ECC | TRÊN |
| Cấu hình bộ nhớ máy chủ | 2TB, 16 x 128 GB, 1 DIMM cho mỗi kênh, cân bằng tốt |
| Chế độ Turbo | TRÊN |
| Bộ điều chỉnh tần số CPU | Hiệu suất |
Intel® AMX (Advanced Matrix Extensions) là gì?
Intel® AMX là bộ tăng tốc tích hợp cho phép bộ xử lý Intel® Xeon® Scalable thế hệ thứ 5 tối ưu hóa khối lượng công việc đào tạo học sâu (DL) và suy luận. Với khả năng nhân ma trận tốc độ cao của Intel® AMX, bộ xử lý Intel® Xeon® Scalable thế hệ thứ 5 có thể nhanh chóng chuyển đổi giữa việc tối ưu hóa khối lượng công việc tính toán chung và AI.
Hãy tưởng tượng một chiếc ô tô có thể vượt trội khi lái trong thành phố và sau đó nhanh chóng chuyển sang hiệu suất đua xe Công thức 1. Bộ xử lý Intel® Xeon® Scalable thế hệ thứ 5 mang đến mức độ linh hoạt này. Các nhà phát triển có thể viết mã chức năng AI để tận dụng bộ lệnh Intel® AMX cũng như viết mã chức năng không phải AI để sử dụng kiến trúc bộ lệnh (ISA) của bộ xử lý. Intel® đã tích hợp Thư viện Mạng Nơ-ron Sâu oneAPI (oneDNN) – công cụ oneAPI DL – vào các công cụ mã nguồn mở phổ biến cho các ứng dụng AI, bao gồm TensorFlow, PyTorch, PaddlePaddle và ONNX.
Kiến trúc AMX
Kiến trúc Intel® AMX bao gồm hai thành phần, như thể hiện trong Hình 1:
- Mỗi ô gồm tám thanh ghi hai chiều, mỗi thanh ghi có kích thước 1 kilobyte. Chúng lưu trữ những khối dữ liệu lớn.
- Phép nhân ma trận ô (TMUL) là một công cụ tăng tốc được gắn vào các ô để thực hiện các phép tính nhân ma trận cho AI.

Hình 2. Kiến trúc Intel ® AMX bao gồm các tệp đăng ký 2D (ô) và TMUL
Kết quả
Cả kết quả benchmark MLPerf™ v3.1 và MLPerf™ v4.0 đều dựa trên máy chủ Dell R760 nhưng sử dụng các thế hệ CPU Xeon® khác nhau ( CPU Intel® Xeon® thế hệ thứ 4 cho MLPerf™ v3.1 so với CPU Intel® Xeon® thế hệ thứ 5 cho MLPerf™ v4.0) và các gói phần mềm được tối ưu hóa. Trong phần này, chúng tôi trình bày hiệu suất ở chế độ so sánh để có thể dễ dàng quan sát sự cải thiện so với lần gửi trước.
So sánh hiệu suất từ MLPerf TM v4.0 với MLPerf TM v3.1
Máy chủ ResNet50 và các tình huống ngoại tuyến:

Hình 3. Thông lượng suy luận ResNet50 trong các tình huống máy chủ và ngoại tuyến
Máy chủ Mô hình ngôn ngữ lớn BERT & các tình huống ngoại tuyến:

Hình 4. Kết quả suy luận BERT cho các tình huống máy chủ và ngoại tuyến
Máy chủ Mô hình phát hiện đối tượng RetinaNet & các tình huống ngoại tuyến:

Hình 5. Kết quả suy luận của Mô hình phát hiện đối tượng RetinaNet cho các tình huống máy chủ và ngoại tuyến
Máy chủ mô hình chuyển văn bản thành giọng nói RNN-T và các tình huống ngoại tuyến:

Hình 6. Kết quả suy luận của mô hình chuyển văn bản thành giọng nói RNN-T cho các tình huống ngoại tuyến và máy chủ
Các tình huống ngoại tuyến của Mô hình hình ảnh y tế 3D-Unet:

Hình 7. Kết quả suy luận mô hình hình ảnh y tế 3D-Unet cho các tình huống máy chủ và ngoại tuyến
Mô hình khuyến nghị DLRMv2-99 máy chủ & tình huống ngoại tuyến:

Hình 8. Kết quả suy luận của Mô hình khuyến nghị DLRMv2-99 cho các tình huống máy chủ và ngoại tuyến
Tóm tắt mô hình GPT-J-99 máy chủ và các tình huống ngoại tuyến:

Hình 9. Kết quả suy luận của Mô hình tóm tắt GPT-J-99 cho các tình huống máy chủ và ngoại tuyến
Phần kết luận
- Máy chủ PowerEdge R760 với Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5 mang lại hiệu suất suy luận trung tâm dữ liệu mạnh mẽ, được xác nhận bởi kết quả đánh giá chuẩn MLPerf TM phiên bản 4.0 chính thức từ MLCommons TM .
- Hiệu suất cao và tính linh hoạt được thể hiện trên các hệ thống xử lý ngôn ngữ tự nhiên, phân loại hình ảnh, phát hiện đối tượng, chụp ảnh y tế, suy luận giọng nói thành văn bản, đề xuất và tóm tắt.
- So với các phiên bản 3.0 và 3.1 trước đây được trang bị Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 4 , R760 với Bộ xử lý Intel® Xeon® có khả năng mở rộng thế hệ thứ 5 cho thấy sự cải thiện hiệu suất đáng kể trên nhiều mô hình khác nhau, bao gồm cả các mô hình AI tạo sinh như GPT-J.
- R760 hỗ trợ nhiều kịch bản suy luận học sâu khác nhau trong các kịch bản chuẩn MLPerfTM cũng như các khối lượng công việc phức tạp khác như cơ sở dữ liệu và phân tích nâng cao. Đây là giải pháp lý tưởng cho việc hiện đại hóa trung tâm dữ liệu nhằm thúc đẩy hiệu quả hoạt động, nâng cao năng suất và giảm thiểu tổng chi phí sở hữu (TCO).

Bài viết mới cập nhật
CPU cứu cánh: LLM dành cho mọi người
Tối ưu hóa các mô hình ngôn ngữ lớn Năm qua ...
Hướng dẫn thiết kế được Dell xác thực để suy luận và tùy chỉnh mô hình – Cập nhật tháng 3 năm 2024
Đổi mới liên tục với các thiết kế được Dell xác ...
Bắt đầu xây dựng các đường ống RAG trong doanh nghiệp của bạn với Dell Technologies và NVIDIA (Phần 1)
Trong bài viết trước, chúng tôi đã giới thiệu cách chạy ...
MLPerf™ Inference 4.0 trên Máy chủ Dell PowerEdge với CPU Intel® Xeon® thế hệ thứ 5
Giới thiệu Trong blog này, chúng tôi trình bày kết quả ...