Máy chủ Dell Excel có hiệu suất MLPerf™ Inference 3.0

MLCommons đã phát hành phiên bản mới nhất (phiên bản 3.0) của kết quả suy luận MLPerf . Dell Technologies đã là thành viên của MLCommons và đã gửi báo cáo kể từ khi bắt đầu tiêu chuẩn Suy luận MLPerf. Các kết quả mới nhất của chúng tôi cho thấy hiệu suất xuất sắc từ các máy chủ của chúng tôi và tiếp tục tỏa sáng trong tất cả các lĩnh vực của điểm chuẩn bao gồm phân loại hình ảnh, phát hiện đối tượng, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, hệ thống đề xuất và phân đoạn hình ảnh y tế. Chúng tôi khuyến khích bạn xem báo cáo chính thức trước đây của chúng tôi về Suy luận v2.1, trong đó giới thiệu điểm chuẩn suy luận MLCommons. AI và nhận thức gần đây nhất về Generative AI, với các ví dụ ứng dụng như ChatGPT, đã giúp nâng cao hiểu biết về các mục tiêu hiệu suất cần thiết để giúp khách hàng có được kết quả và thời gian tạo mô hình nhanh hơn. Các kết quả mới nhất phản ánh sự đổi mới liên tục mà Dell Technologies mang lại để giúp khách hàng đạt được các mục tiêu hiệu suất đó và tăng tốc các sáng kiến ​​của họ nhằm đánh giá và hỗ trợ khối lượng công việc bao gồm cả Generative AI trong doanh nghiệp của họ.

Có gì mới với Suy luận 3.0?

Các tính năng mới cho Suy luận 3.0 bao gồm:

  • Các quy tắc chuẩn suy luận không thực hiện bất kỳ thay đổi đáng kể nào. Tuy nhiên, nội dung gửi của chúng tôi đã được mở rộng với thế hệ máy chủ Dell PowerEdge mới:
    • Nội dung gửi của chúng tôi bao gồm các máy chủ PowerEdge XE9680, XR7620 và XR5610 mới.
    • Kết quả của chúng tôi đề cập đến các công cụ tăng tốc mới từ các đối tác của chúng tôi như NVIDIA và Qualcomm.
  • Chúng tôi đã gửi kết quả ảo hóa với VMware chạy trên phần mềm NVIDIA AI Enterprise và bộ tăng tốc NVIDIA.
  • Bên cạnh các con số dựa trên bộ tăng tốc, chúng tôi đã gửi các kết quả chỉ dựa trên CPU dựa trên Intel.

Tổng quan về kết quả

Dell Technologies đã gửi 255 kết quả trên 27 hệ thống khác nhau. Các kết quả nổi bật nhất được tạo ra từ các máy chủ PowerEdge R750xa và XE9680 với bộ tăng tốc H100 PCIe và SXM mới, tương ứng, cũng như các máy chủ PowerEdge XR5610 và XR7620 với thẻ L4. Kết quả tổng thể dựa trên NVIDIA của chúng tôi bao gồm các yếu tố tăng tốc sau:

  • (Mới) GPU NVIDIA H100 Tensor Core tám chiều (SXM)
  • (Mới) GPU NVIDIA H100 Tensor Core (PCIe) bốn chiều
  • (Mới) GPU NVIDIA A100 Tensor Core tám chiều (SXM)
  •  GPU NVIDIA A100 Tensor Core (PCIe) bốn chiều
  • GPU lõi Tensor NVIDIA A30
  • (Mới) GPU lõi Tensor NVIDIA L4
  • GPU NVIDIA A2
  • GPU NVIDIA T4

Chúng tôi đã chạy các bộ tăng tốc này trên các cấu hình PowerEdge XE9680, R750xa, R7525, XE8545, XR7620, XR5610 khác nhau và các cấu hình máy chủ khác.

Những kết quả đa dạng này trên các máy chủ, trình tăng tốc và trường hợp sử dụng deep learning khác nhau cho phép khách hàng sử dụng chúng làm điểm dữ liệu để đưa ra quyết định mua hàng và đặt ra kỳ vọng về hiệu suất.

Điểm dữ liệu thú vị của Dell

Các điểm dữ liệu thú vị nhất bao gồm:

  • Trong số 21 người gửi, Dell Technologies là một trong số ít công ty gửi kết quả cho tất cả các kịch bản đóng bao gồm trung tâm dữ liệu, sức mạnh trung tâm dữ liệu, Edge và Edge power.
  • Máy chủ PowerEdge XE9680 mua được các tựa game có hiệu suất cao nhất với các điểm chuẩn Máy chủ RetinaNet và Ngoại tuyến, Máy chủ RNN-T và BERT 99 Server. Nó đạt được hiệu suất số 2 với Máy chủ Resnet và Ngoại tuyến, 3D-UNet Ngoại tuyến và 3D-UNet Ngoại tuyến 99.9, BERT 99 Ngoại tuyến, Máy chủ BERT 99.9 và điểm chuẩn Ngoại tuyến RNN-T.
  • Máy chủ PowerEdge XR5610 đạt được hiệu suất hệ thống cao nhất trên mỗi watt với bộ tăng tốc NVIDIA L4 trên ResNet Single Stream, Resnet Multi Stream, RetinaNet Single Stream, RetinaNet Ngoại tuyến, RetinaNet Multi Stream, 3D-UNet 99, 3D-UNet 99.9 Ngoại tuyến, RNN-T Điểm chuẩn ngoại tuyến, luồng đơn, BERT 99 ngoại tuyến, luồng đơn BERT-99.
  • Kết quả của chúng tôi không chỉ bao gồm các hệ thống khác nhau mà còn vượt quá mức tăng hiệu suất so với vòng trước do thế hệ tăng tốc phần cứng mới hơn từ máy chủ và trình tăng tốc mới hơn.
  • Điểm chuẩn Bert 99.9 được triển khai với FP8 lần đầu tiên. Do yêu cầu về độ chính xác nên trước đây, điểm chuẩn Bert 99.9 được triển khai với FP16 trong khi tất cả các mẫu khác chạy theo INT8.

Trong hình dưới đây, kịch bản Ngoại tuyến BERT 99.9 v3.0 cải thiện hơn 843% so với Inference v2.1. Kết quả này là nhờ máy chủ PowerEdge XE9680 mới, là hệ thống NVIDIA H100 SXM tám chiều, so với NVIDIA A100 SXM bốn chiều PowerEdge XE8545 trước đây. Ngoài ra, GPU NVIDIA H100 còn có Transformer Engine với độ chính xác FP8 giúp tăng tốc kết quả một cách đáng kể.

* ID MLPerf 2.1-0014 và ID MLPerf 3.0-0013

Hình 1: Hiệu suất tăng từ Inference v2.1 đến Inference v3.0 nhờ hệ thống mới

Kết quả trong nháy mắt

Hình sau đây thể hiện hiệu suất hệ thống cho các kịch bản Ngoại tuyến và Máy chủ. Những kết quả này cung cấp cái nhìn tổng quan vì các blog sắp tới sẽ cung cấp thông tin chi tiết về những kết quả này. Các phiên bản điểm chuẩn có độ chính xác cao được bao gồm cho DLRM và 3D-UNet vì kết quả của phiên bản có độ chính xác cao giống hệt với phiên bản mặc định. Đối với điểm chuẩn BERT, cả phiên bản mặc định và phiên bản có độ chính xác cao đều được đưa vào vì chúng khác nhau.

Hình 2: Thông lượng hệ thống cho các hệ thống do bộ trung tâm dữ liệu gửi

Hình dưới đây cho thấy độ trễ của kịch bản Luồng đơn và Đa luồng cho các điểm chuẩn ResNet, RetinaNet, 3D-UNet, RNN-T và BERT-99. Độ trễ càng thấp thì kết quả càng tốt.

Hình 3: Độ trễ của hệ thống đối với các điểm chuẩn khác nhau

Kết quả điểm chuẩn biên bao gồm các kịch bản Luồng đơn, Đa luồng và Ngoại tuyến. Hình dưới đây cho thấy hiệu suất của kịch bản ngoại tuyến.

Hình 4: Thông lượng hệ thống Kịch bản ngoại tuyến cho bộ Edge  

Các số liệu trước đây cho thấy máy chủ PowerEdge mang lại hiệu suất tuyệt vời trên nhiều tiêu chuẩn và tình huống khác nhau.

Phần kết luận

Chúng tôi đã cung cấp các nội dung gửi tuân thủ MLCommons cho điểm chuẩn Inference 3.0 trên nhiều điểm chuẩn và bộ khác nhau. Những kết quả này chỉ ra rằng với các thế hệ máy chủ mới hơn, chẳng hạn như máy chủ PowerEdge XE9680 và các bộ tăng tốc mới hơn, chẳng hạn như GPU NVIDIA H100, khách hàng có thể đạt được hiệu suất cao hơn từ việc triển khai trung tâm dữ liệu và biên của họ. Việc nâng cấp lên phần cứng mới hơn có thể mang lại sự cải thiện từ 304 đến 843 phần trăm trên tất cả các điểm chuẩn như phân loại hình ảnh, phát hiện đối tượng, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói, hệ thống gợi ý và phân đoạn hình ảnh y tế liên quan đến điểm chuẩn suy luận MLPerf. Từ những nội dung gửi của chúng tôi dành cho các máy chủ mới như máy chủ PowerEdge XR5610 và XR7620 với GPU NVIDIA L4, chúng tôi đã thấy được những kết quả đặc biệt. Những kết quả này cho thấy máy chủ PowerEdge mới là một lựa chọn nền tảng biên tuyệt vời. Hơn nữa, sự đa dạng của chúng tôi gửi đến điểm chuẩn có thể đóng vai trò là cơ sở để đáp ứng các kỳ vọng về hiệu suất khác nhau và phục vụ cho các quyết định mua hàng. Với những kết quả này, Dell Technologies có thể giúp thúc đẩy quá trình chuyển đổi AI của doanh nghiệp, bao gồm việc áp dụng và triển khai AI sáng tạo một cách chính xác và hiệu quả.