Máy chủ Dell PowerEdge mang lại hiệu suất tuyệt vời với MLCommonsTM Inference 3.1

MLCommons đã phát hành phiên bản mới nhất (v3.1) của kết quả Suy luận MLPerf . Dell Technologies đã gửi tiêu chuẩn suy luận kể từ khi phiên bản 0.5 ra mắt vào năm 2019. Chúng tôi tiếp tục chứng minh kết quả nổi bật trên các mô hình khác nhau trong tiêu chuẩn như phân loại hình ảnh, phát hiện đối tượng, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, hệ thống đề xuất và phân đoạn hình ảnh y tế và tóm tắt LLM. Xem MLPerf™ Inference v2.1 của chúng tôi với Điểm chuẩn dựa trên GPU NVIDIA trên  sách trắng Máy chủ Dell PowerEdge giới thiệu điểm chuẩn Suy luận MLCommons. Generative AI (GenAI) đã đáp ứng nhu cầu điện toán deep learning như một cơn bão và nhu cầu ngày càng tăng về việc kích hoạt các phương pháp suy luận đổi mới hiệu suất cao. Blog này cung cấp thông tin tổng quan về các bản tóm tắt hiệu suất mà máy chủ Dell PowerEdge cho phép người dùng cuối thực hiện trong quá trình chuyển đổi Suy luận AI của họ.

Suy luận 3.1 có gì mới?

Suy luận 3.1 và đệ trình của Dell bao gồm:

  • Điểm chuẩn suy luận đã bổ sung thêm hai điểm chuẩn mới thú vị:
    1. Các mô hình dựa trên LLM, chẳng hạn như GPT-J  
    2. DLRM-V2 với mã hóa đa nóng sử dụng kiến ​​trúc DLRM-DCNv2
  • Việc đệ trình của Dell đã được mở rộng để bao gồm các máy chủ PowerEdge XE8640 và PowerEdge XE9640 mới được tăng tốc bởi GPU NVIDIA.
  • Việc đệ trình của Dell bao gồm kết quả của các máy chủ PowerEdge với bộ tăng tốc Qualcomm.
  • Bên cạnh các kết quả dựa trên máy gia tốc, bài nộp của Dell bao gồm các kết quả chỉ dựa trên CPU của Intel.

Tổng quan về kết quả

Dell Technologies đã gửi 230 kết quả trên 20 cấu hình khác nhau. Các kết quả ấn tượng nhất được tạo ra bởi PowerEdge XE9680, XE9640, XE8640, R760xa và các máy chủ với GPU NVIDIA H100 PCIe và SXM Tensor Core mới , máy chủ PowerEdge XR7620 và XR5610 với GPU NVIDIA L4 Tensor Core và máy chủ PowerEdge R760xa với GPU NVIDIA L40 .

 Nhìn chung, kết quả dựa trên NVIDIA bao gồm các yếu tố tăng tốc sau:

  • (Mới) GPU NVIDIA H100 Tensor Core bốn chiều (SXM)
  • (Mới) GPU NVIDIA L40 bốn chiều
  • GPU NVIDIA H100 Tensor Core tám chiều (SXM)
  • GPU NVIDIA A100 Tensor Core (PCIe) bốn chiều
  • GPU lõi Tensor NVIDIA L4

Các bộ tăng tốc này đã được đo điểm chuẩn trên các máy chủ khác nhau như PowerEdge XE9680, XE8640, XE9640, R760xa, XR7620, XR5610 và R750xa trên các bộ trung tâm dữ liệu và bộ biên.

Số lượng lớn các lựa chọn kết quả mang lại cho người dùng cuối cơ hội đưa ra quyết định mua hệ thống cũng như đặt ra các kỳ vọng về hiệu suất và thiết kế.

Điểm dữ liệu thú vị của Dell

Các điểm dữ liệu thú vị nhất bao gồm:

  • Các con số hiệu suất trên các máy chủ Dell PowerEdge mới được phát hành rất vượt trội.
  • Trong số 21 người nộp đơn, Dell Technologies là một trong số ít công ty đáp ứng tất cả các tiêu chuẩn trong tất cả các bộ phận khép kín dành cho trung tâm dữ liệu, bộ năng lượng biên và biên.
  • Hệ thống PowerEdge XE9680 với tám GPU NVIDIA H100 SXM mang lại các tựa game có hiệu suất cao nhất với ResNet Server, RetinaNet Server, RNNT Server và Ngoại tuyến, Máy chủ BERT 99, BERT 99.9 Ngoại tuyến, DLRM-DCNv2 99 và DLRM-DNCv2 99.9 Điểm chuẩn ngoại tuyến.
  • Hệ thống PowerEdge XE8640 với bốn GPU NVIDIA H100 SXM mang lại danh hiệu hiệu suất cao nhất với tất cả các điểm chuẩn của bộ trung tâm dữ liệu.
  • Hệ thống PowerEdge XE9640 với bốn GPU NVIDIA H100 SXM giành được danh hiệu hiệu năng cao nhất cho tất cả các hệ thống trong số các hệ thống làm mát bằng chất lỏng khác cho tất cả các điểm chuẩn của bộ trung tâm dữ liệu.
  • Hệ thống PowerEdge XR5610 với GPU NVIDIA L4 Tensor Core cung cấp hiệu suất/watt cao hơn khoảng hai đến ba lần so với vòng trước và giành được các tựa game có hiệu suất sử dụng năng lượng cao nhất với Resnet RetinaNet 3d-unet 99, 3D U-Net 99.9 và Bert -99.

Điểm nổi bật  

Hình dưới đây cho thấy hiệu suất hệ thống khác nhau đối với các kịch bản ngoại tuyến và máy chủ trong trung tâm dữ liệu. Những kết quả này cung cấp một cái nhìn tổng quan; các blog trong tương lai sẽ cung cấp thêm chi tiết về kết quả.

Hình vẽ cho thấy các máy chủ này mang lại hiệu suất tuyệt vời cho tất cả các model trong tiêu chuẩn như ResNet, RetinaNet, 3D-U-Net, RNN-T, BERT, DLRM-v2 và GPT-J. Điều quan trọng là phải nhận ra rằng các tiêu chuẩn khác nhau hoạt động trên các quy mô khác nhau. Tất cả chúng đều được trình bày trong các số liệu sau để cung cấp một cái nhìn tổng quan toàn diện.

Hình 1: Thông lượng hệ thống của các hệ thống được gửi cho bộ trung tâm dữ liệu

Hình dưới đây hiển thị kết quả kịch bản một luồng và MultiStream cho biên cho các điểm chuẩn ResNet, RetinaNet, 3D-Unet, RNN-T và BERT 99 và GPTJ. Độ trễ càng thấp thì kết quả càng tốt.

Hình 2: Thông lượng hệ thống cho các hệ thống được gửi cho biên

Phần kết luận

Chúng tôi đã cung cấp các nội dung gửi tuân thủ MLCommons cho điểm chuẩn Inference 3.1 trên nhiều điểm chuẩn và bộ khác nhau cho tất cả các tác vụ trong điểm chuẩn như phân loại hình ảnh, phát hiện đối tượng, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, hệ thống đề xuất và phân đoạn hình ảnh y tế cũng như tóm tắt LLM. Những kết quả này chỉ ra rằng với thế hệ máy chủ Dell PowerEdge mới hơn như máy chủ PowerEdge XE9680, XE8640, XE9640 và R760xa cũng như GPU mới hơn của NVIDIA, người dùng cuối có thể hưởng lợi từ hiệu suất cao hơn từ việc triển khai trung tâm dữ liệu và suy luận biên của họ. Chúng tôi cũng đã giành được nhiều danh hiệu Số 1 giúp máy chủ Dell PowerEdge trở thành sự lựa chọn tuyệt vời cho việc triển khai trung tâm dữ liệu suy luận và biên. Người dùng cuối có thể tham khảo các kết quả khác nhau trên nhiều máy chủ khác nhau để đưa ra quyết định về hiệu suất và kích thước. Với những kết quả này, Dell Technologies có thể giúp thúc đẩy quá trình chuyển đổi AI của doanh nghiệp, bao gồm cả việc áp dụng và mở rộng AI sáng tạo một cách hiệu quả.

Những bước đi tương lai

Nhiều blog cung cấp thông tin so sánh chuyên sâu về hiệu suất của các mô hình cụ thể với các máy gia tốc khác nhau sẽ sớm được ra mắt. Nếu có bất kỳ câu hỏi hoặc yêu cầu nào, hãy liên hệ với đại diện Dell tại địa phương của bạn.