Định lượng hiệu suất của máy chủ Dell EMC PowerEdge R7525 với GPU NVIDIA A100 để suy luận học sâu

Máy chủ Dell EMC PowerEdge R7525 cung cấp các kết quả MLPerf Inference v0.7 đặc biệt , cho thấy rằng:

  • Dell Technologies giữ vị trí số 1 về hiệu suất trên mỗi GPU với GPU NVIDIA A100-PCIe trên kịch bản Máy chủ DLRM-99
  • Dell Technologies giữ vị trí số 1 về hiệu suất trên mỗi GPU với NVIDIA A100-PCIe trên kịch bản Máy chủ DLRM-99.9
  • Dell Technologies giữ vị trí số 1 về hiệu suất trên mỗi GPU với NVIDIA A100-PCIe trên kịch bản Máy chủ ResNet-50

Bản tóm tắt

Trong blog này, chúng tôi cung cấp các số hiệu hiệu suất của máy chủ Dell EMC PowerEdge R7525 mới phát hành gần đây của chúng tôi với hai GPU NVIDIA A100 trên tất cả các kết quả của điểm chuẩn MLPerf Inference v0.7. Kết quả của chúng tôi chỉ ra rằng máy chủ PowerEdge R7525 là một lựa chọn tuyệt vời cho khối lượng công việc suy luận. Nó mang lại hiệu suất tối ưu cho các tác vụ khác nhau nằm trong điểm chuẩn MLPerf Inference v0.7. Các tác vụ này bao gồm phân loại hình ảnh, phát hiện đối tượng, phân đoạn hình ảnh y tế, lời nói thành văn bản, xử lý ngôn ngữ và đề xuất. 

Máy chủ PowerEdge R7525 là máy chủ rack 2U, hai socket được thiết kế để chạy khối lượng công việc bằng cách sử dụng cấu hình mạng và I/O linh hoạt. Máy chủ PowerEdge R7525 có bộ xử lý AMD EPYC thế hệ thứ 2, hỗ trợ tới 32 DIMM, có khe cắm mở rộng hỗ trợ PCI Express (PCIe) Gen 4.0 và cung cấp nhiều lựa chọn công nghệ giao diện mạng để đáp ứng các tùy chọn mạng. 

Hình sau đây hiển thị giao diện phía trước của máy chủ PowerEdge R7525:

Hình 1. Máy chủ Dell EMC PowerEdge R7525

Máy chủ PowerEdge R7525 được thiết kế để xử lý khối lượng công việc đòi hỏi khắt khe và dành cho các ứng dụng AI như đào tạo AI cho các loại mô hình khác nhau và suy luận cho các tình huống triển khai khác nhau . Máy chủ PowerEdge R7525 hỗ trợ nhiều bộ tăng tốc khác nhau như NVIDIA T4, NVIDIA V100S, NVIDIA RTX và GPU NVIDIA A100. Các phần sau đây so sánh hiệu suất của GPU NVIDIA A100 với GPU NVIDIA T4 và NVIDIA RTX sử dụng MLPerf Inference v0.7 làm điểm chuẩn.

Bảng sau đây cung cấp chi tiết về cấu hình máy chủ PowerEdge R7525 và môi trường phần mềm cho MLPerf Inference v0.7:

Thành phần Sự miêu tả
Bộ xử lý Bộ xử lý 32 nhân AMD EPYC 7502
Ký ức 512 GB (32 GB 3200 MT/s * 16)
Đĩa cục bộ SSD 2x 1,8 TB (Không có RAID)
Hệ điều hành CentOS Linux phát hành 8.1
GPU NVIDIA A100-PCIe-40G, T4-16G và RTX8000
Trình điều khiển CUDA 450.51.05
Bộ công cụ CUDA 11.0
Các thư viện khác liên quan đến CUDA TensorRT 7.2, CUDA 11.0, cuDNN 8.0.2, cuBLAS 11.2.0, libjemalloc2, cub 1.8.0, nhánh mlperf phòng thí nghiệm tenorrt
Ngăn xếp phần mềm khác Docker 19.03.12, Python 3.6.8, GCC 5.5.0, ONNX 1.3.0, TensorFlow 1.13.1, PyTorch 1.1.0, torchvision 0.3.0, PyCUDA 2019.1, SacreBLEU 1.3.3, simplejson, OpenCV 4.1.1
Hồ sơ hệ thống Hiệu suất

Để biết thêm thông tin về cách chạy điểm chuẩn, hãy xem Chạy điểm chuẩn MLPerf Inference v0.7 trên Hệ thống Dell EMC .

Kết quả hiệu suất MLPerf Inference v0.7

Điểm chuẩn suy luận MLPerf đo lường tốc độ hệ thống có thể thực hiện suy luận học máy (ML) bằng cách sử dụng mô hình được đào tạo trong các tình huống triển khai khác nhau. Các kết quả sau đây thể hiện các kịch bản Ngoại tuyến và Máy chủ của điểm chuẩn Suy luận MLPerf. Để biết thêm thông tin về các kịch bản, mô hình, bộ dữ liệu, mục tiêu chính xác và giới hạn độ trễ khác nhau trong MLPerf Inference v0.7, hãy xem Hiệu suất học tập sâu với điểm chuẩn MLPerf Inference v0.7 .

Trong khung đánh giá suy luận MLPerf, trình tạo tải LoadGen gửi các truy vấn suy luận đến hệ thống đang được thử nghiệm, trong trường hợp của chúng tôi là máy chủ PowerEdge R7525 với nhiều cấu hình GPU khác nhau. Hệ thống được thử nghiệm sử dụng phần phụ trợ (ví dụ: TensorRT, TensorFlow hoặc PyTorch) để thực hiện suy luận và gửi kết quả trở lại LoadGen.

MLPerf đã xác định bốn kịch bản khác nhau cho phép thử nghiệm đại diện cho nhiều nền tảng suy luận và trường hợp sử dụng khác nhau . Trong blog này, chúng tôi thảo luận về hiệu suất của kịch bản Ngoại tuyến và Máy chủ. Sự khác biệt chính giữa các trường hợp này dựa trên cách gửi và nhận truy vấn:

  • Ngoại tuyến —Một truy vấn với tất cả các mẫu được gửi đến hệ thống đang được thử nghiệm. Hệ thống được kiểm tra có thể gửi lại kết quả một hoặc nhiều lần theo bất kỳ thứ tự nào. Số liệu hiệu suất là mẫu mỗi giây.
  • Máy chủ —Các truy vấn được gửi đến hệ thống đang được thử nghiệm theo phân phối Poisson (để lập mô hình các sự kiện ngẫu nhiên trong thế giới thực). Một truy vấn có một mẫu. Chỉ số hiệu suất là số truy vấn mỗi giây (QPS) trong giới hạn độ trễ.

Lưu ý : Cả số liệu hiệu suất cho kịch bản Ngoại tuyến và Máy chủ đều thể hiện thông lượng của hệ thống. 

Trong tất cả các điểm chuẩn, hai GPU NVIDIA A100 vượt trội hơn tám GPU NVIDIA T4 và ba GPU NVIDIA RTX800 cho các mẫu sau:

  • Mô hình phân loại hình ảnh ResNet-50
  • Mô hình phát hiện đối tượng SSD-ResNet34
  • Mô hình nhận dạng giọng nói RNN-T
  • Mô hình xử lý ngôn ngữ BERT
  • Mô hình tư vấn DLRM
  • Mô hình phân đoạn hình ảnh y tế 3D U-Net

Các biểu đồ sau đây cho thấy hiệu suất máy chủ PowerEdge R7525 với hai GPU NVIDIA A100, tám GPU NVIDIA T4 và ba GPU NVIDIA RTX8000 với điểm chuẩn mục tiêu có độ chính xác 99% và mục tiêu chính xác 99,9% cho các điểm chuẩn hiện hành:

  • Điểm chuẩn mục tiêu có độ chính xác 99% (độ chính xác mặc định): ResNet-50, SSD-Resnet34 và RNN-T
  • Điểm chuẩn mục tiêu có độ chính xác 99% và 99,9% (độ chính xác cao): DLRM, BERT và 3D-Unet

Điểm chuẩn mục tiêu chính xác 99%

ResNet-50

Hình sau đây hiển thị kết quả cho mô hình ResNet-50:

Hình 2. Hiệu suất suy luận của máy chủ và ngoại tuyến ResNet-50

Từ biểu đồ, chúng ta có thể rút ra các giá trị trên mỗi GPU. Chúng tôi chia thông lượng hệ thống (chứa tất cả GPU) cho số lượng GPU để nhận được kết quả trên mỗi GPU khi chúng được chia tỷ lệ tuyến tính. 

SSD-Resnet34

Hình sau đây hiển thị kết quả cho model SSD-Resnet34:

Hình 3. Hiệu năng suy luận máy chủ và ngoại tuyến của SSD-Resnet34

RNN-T

Hình dưới đây thể hiện kết quả của mô hình RNN-T:

Hình 4. Hiệu suất suy luận của máy chủ và ngoại tuyến RNN-T

Điểm chuẩn mục tiêu chính xác 99,9%

DLRM

Các số liệu sau đây cho thấy kết quả của mô hình DLRM với độ chính xác 99% và 99,9%:

Biểu đồ, biểu đồ thanh Mô tả được tạo tự động

Hình 5.  Hiệu suất suy luận của Kịch bản máy chủ và ngoại tuyến DLRM – độ chính xác 99% và 99,9%

 Đối với mô hình đề xuất DLRM và mô hình phân đoạn hình ảnh y tế 3D U-Net (xem Hình 7), cả độ chính xác 99% và 99,9% đều có cùng thông lượng. Điểm chuẩn chính xác 99,9% cũng đáp ứng các ràng buộc về độ chính xác cần thiết với thông lượng tương tự như 99%.

BERT

Các số liệu sau đây cho thấy kết quả của mô hình BERT với độ chính xác 99% và 99,9%:

Hình 6. Hiệu suất suy luận máy chủ và ngoại tuyến BERT – độ chính xác 99% và 99,9% 

Đối với mô hình xử lý ngôn ngữ BERT, hai GPU NVIDIA A100 vượt trội hơn 8 GPU NVIDIA T4 và 3 GPU NVIDIA RTX8000. Tuy nhiên, hiệu năng của ba GPU NVIDIA RTX8000 tốt hơn một chút so với tám GPU NVIDIA T4.

Lưới chữ U 3D

Đối với mô hình phân đoạn hình ảnh y tế 3D-Unet, chỉ có sẵn điểm chuẩn kịch bản Ngoại tuyến.

Hình sau đây hiển thị kết quả cho kịch bản ngoại tuyến mô hình U-Net 3D:

Hình 7. Hiệu suất suy luận ngoại tuyến 3D U-Net 

Đối với mô hình phân đoạn hình ảnh y tế 3D-Unet, do chỉ có điểm chuẩn kịch bản ngoại tuyến cho 3D-Unet nên biểu đồ trên chỉ thể hiện kịch bản Ngoại tuyến.

Bảng sau đây so sánh thông lượng giữa hai GPU NVIDIA A100, tám GPU NVIDIA T4 và ba GPU NVIDIA RTX8000 với điểm chuẩn mục tiêu chính xác 99% và mục tiêu chính xác 99,9%:

Người mẫu  Kịch bản  Sự chính xác 2 x GPU A100 so với 8 x   GPU T4 2 x GPU A100 so với 3 x GPU RTX8000
ResNet-50 Ngoại tuyến  99%  5,21x 2,10 lần
Máy chủ  4,68 lần 1,89 lần
SSD-Resnet34 Ngoại tuyến  6,00 lần 2,35 lần
Máy chủ  5,99 lần 2,21 lần
RNN-T Ngoại tuyến  5,55 lần 2,14 lần
Máy chủ  6,71 lần 2,43 lần
DLRM Ngoại tuyến  6,55 lần 2,52 lần
Máy chủ  5,92 lần 2,47 lần
Ngoại tuyến  99,9%  6,55 lần 2,52 lần
Máy chủ  5,92 lần 2,47 lần
BERT Ngoại tuyến  99%  6,26 lần 2,31 lần
Máy chủ  6,80 lần 2,72 lần
Ngoại tuyến  99,9%  7,04 lần 2,22 lần
Máy chủ  6,84 lần 2,20 lần
Lưới chữ U 3D Ngoại tuyến  99%  5,05 lần 2,06x
Máy chủ  99,9%  5,05 lần 2,06x

Phần kết luận

Với sự hỗ trợ của GPU NVIDIA A100, NVIDIA T4 hoặc NVIDIA RTX8000, máy chủ Dell EMC PowerEdge R7525 là sự lựa chọn đặc biệt cho các khối lượng công việc khác nhau liên quan đến suy luận học sâu. Tuy nhiên, thông lượng cao hơn mà chúng tôi quan sát được với GPU NVIDIA A100 sẽ mang lại hiệu suất tăng và giá trị kinh doanh nhanh hơn cho các ứng dụng suy luận. 

Máy chủ Dell EMC PowerEdge R7525 với hai GPU NVIDIA A100 mang lại hiệu suất tối ưu cho nhiều khối lượng công việc suy luận khác nhau, cho dù đó là trong cài đặt suy luận hàng loạt như Kịch bản ngoại tuyến hay Cài đặt suy luận trực tuyến như Kịch bản máy chủ.