Hiệu suất MLPerf™ Inference v4.0 trên Máy chủ Dell PowerEdge R760xa và R7615 với GPU NVIDIA L40S

Dell Technologies gần đây đã gửi kết quả tới bộ điểm chuẩn MLPerf™ Inference v4.0 . Blog này nêu bật nội dung gửi bộ phận khép kín của Dell Technologies được thực hiện cho các máy chủ Dell PowerEdge R760xa, Dell PowerEdge R7615 và Dell PowerEdge R750xa với GPU NVIDIA L40S và NVIDIA A100.

Giới thiệu

Blog này cung cấp các kết luận có liên quan về những cải tiến hiệu suất đạt được trên máy chủ PowerEdge R760xa và R7615 với GPU NVIDIA L40S so với máy chủ PowerEdge R750xa với GPU NVIDIA A100. Trong các so sánh sau đây, chúng tôi đã giữ GPU không đổi trên các máy chủ PowerEdge R760xa và PowerEdge R7615 để cho thấy hiệu suất tuyệt vời của GPU NVIDIA L40S. Ngoài ra, chúng tôi cũng so sánh máy chủ PowerEdge R750xa với GPU NVIDIA A100 với máy chủ kế nhiệm PowerEdge R760xa với GPU NVIDIA L40S. 

Cấu hình hệ thống đang thử nghiệm

Bảng sau đây hiển thị cấu hình Hệ thống đang thử nghiệm (SUT) cho máy chủ PowerEdge.

Bảng 1: Cấu hình SUT của máy chủ Dell PowerEdge R750xa, R760xa và R7615 cho MLPerf Inference v4.0

Máy chủ PowerEdge R750xa PowerEdge R760xa PowerEdge R7615
Phiên bản MLPerf V4.0

 

GPU NVIDIA A100 PCIe 80 GB NVIDIA L40S

 

Số lượng GPU 4 2
ID hệ thống MLPerf  R750xa_A100_PCIe_80GBx4_TRT R760xa_L40Sx4_TRT R7615_L40Sx2_TRT

 

CPU 2 x CPU Intel Xeon Gold 6338 @ 2.00GHz 2 x Intel Xeon Platinum 8470Q 1 x Bộ xử lý 32 nhân AMD EPYC 9354
Ký ức 512GB
Ngăn xếp phần mềm TenorRT 9.3.0

CUDA 12.2

cuDNN 8.9.2

Trình điều khiển 535.54.03 / 535.104.12

ĐẠI LÝ 1.28.0

 Bảng sau liệt kê các thông số kỹ thuật của GPU NVIDIA L40S và NVIDIA A100.

Bảng 2: Thông số kỹ thuật của GPU NVIDIA A100 và NVIDIA L40S

Người mẫu NVIDIA A100 NVIDIA L40S
Yếu tố hình thức SXM4 PCIe thế hệ 4 PCIe thế hệ 4
kiến trúc GPU Ampe Ada Lovelace
lõi CUDA 6912 18176
Kích thước bộ nhớ 80GB 48GB
Loại bộ nhớ HBM2e HBM2e
Đồng hồ cơ sở 1275 MHz 1065 MHz 1110 MHz            
Đồng hồ tăng cường 1410 MHz 2520 MHz
Đồng hồ ghi nhớ 1593 MHz 1512 MHz 2250 MHz
Hỗ trợ MIG Đúng KHÔNG
Băng thông bộ nhớ đỉnh 2039 GB/giây  1935 GB/giây 864 GB/giây
Tổng công suất bảng 500 W 300 W 350W

Máy chủ Dell PowerEdge R760xa

Máy chủ PowerEdge R760xa tỏa sáng như một máy chủ khối lượng công việc Trí tuệ nhân tạo (AI) với khả năng suy luận tiên tiến. Máy chủ này thể hiện đỉnh cao về hiệu suất trong không gian suy luận AI với khả năng xử lý được hỗ trợ bởi bộ xử lý Intel Xeon Platinum và GPU NVIDIA L40S. Kết hợp với NVIDIA TensorRT và CUDA 12.2, máy chủ PowerEdge R760xa được định vị hoàn hảo cho mọi khối lượng công việc AI, bao gồm nhưng không giới hạn ở Mô hình ngôn ngữ lớn, thị giác máy tính, Xử lý ngôn ngữ tự nhiên, robot và điện toán biên. Cho dù bạn đang xử lý các tác vụ nhận dạng hình ảnh, hiểu ngôn ngữ tự nhiên hay mô hình học sâu, máy chủ PowerEdge R760xa đều cung cấp sức mạnh tính toán để mang lại kết quả đáng tin cậy, chính xác và nhanh chóng.

Tiêu đề: Đang chèn hình ảnh...
Hình 1: Mặt trước của máy chủ Dell PowerEdge R760xa

Tiêu đề: Đang chèn hình ảnh...

Hình 2: Mặt trên của máy chủ Dell PowerEdge R760xa

Máy chủ Dell PowerEdge R7615

Máy chủ PowerEdge R7615 nổi bật là sự lựa chọn tuyệt vời cho khối lượng công việc AI, máy học (ML) và học sâu (DL) nhờ khả năng hiệu suất mạnh mẽ và kiến ​​trúc được tối ưu hóa. Với khả năng xử lý mạnh mẽ bao gồm tối đa ba GPU NVIDIA L40S được TensorRT hỗ trợ, máy chủ này có thể xử lý các tác vụ đào tạo và suy luận mạng thần kinh phức tạp một cách dễ dàng. Được hỗ trợ bởi một bộ xử lý AMD EPYC duy nhất, máy chủ này hoạt động tốt cho mọi khối lượng công việc AI đòi hỏi khắt khe.


Hình 3: Mặt trước của máy chủ Dell PowerEdge R7615


Hình 4: Mặt trên của máy chủ Dell PowerEdge R7615

Máy chủ Dell PowerEdge R750xa

Máy chủ PowerEdge R750xa là sự kết hợp hoàn hảo giữa sức mạnh công nghệ và sự đổi mới. Máy chủ này được trang bị bộ xử lý Intel Xeon Gold và GPU NVIDIA mới nhất. Máy chủ PowerEdge R760xa được thiết kế cho khối lượng công việc AI, ML và DL đòi hỏi khắt khe nhất vì nó tương thích với công cụ NVIDIA TensorRT và phiên bản CUDA mới nhất. Với tối đa chín khe cắm PCIe Gen4 và khả năng sẵn có ở cấu hình 1U hoặc 2U, máy chủ PowerEdge R750xa là một lựa chọn tuyệt vời cho mọi khối lượng công việc đòi hỏi khắt khe.


Hình 5: Mặt trước của máy chủ Dell PowerEdge R750xa


Hình 6: Mặt trên của máy chủ Dell PowerEdge R750xa

Kết quả thực hiện

Hiệu suất của mô hình Deep Learning cổ điển

Hình dưới đây trình bày kết quả dưới dạng tỷ lệ các số được chuẩn hóa trên máy chủ Dell PowerEdge R750xa với bốn GPU NVIDIA A100. Kết quả này cung cấp sự so sánh dễ đọc giữa ba hệ thống và một số điểm chuẩn. 

Hình 7: Hiệu suất GPU NVIDIA L40S được chuẩn hóa trên máy chủ PowerEdge R750xa với bốn GPU A100

Đường xu hướng màu xanh lá cây thể hiện hiệu suất của máy chủ Dell PowerEdge R750xa với bốn GPU NVIDIA A100. Với điểm 1,00 cho mỗi giá trị điểm chuẩn, các kết quả đã được chia cho nhau để làm đường cơ sở có màu xanh lục cho phép so sánh này. Đường xu hướng màu xanh thể hiện hiệu suất của máy chủ PowerEdge R760xa với bốn GPU NVIDIA L40S đã được chuẩn hóa bằng cách chia từng kết quả benchmark cho số điểm tương ứng mà máy chủ PowerEdge R750xa đạt được. Trong hầu hết các trường hợp, hiệu suất đạt được trên máy chủ PowerEdge R760xa vượt trội so với kết quả của máy chủ PowerEdge R750xa với GPU NVIDIA A100, chứng tỏ những cải tiến đáng mong đợi từ GPU NVIDIA L40S. Đường xu hướng màu đỏ cũng đã được chuẩn hóa trên máy chủ PowerEdge R750xa và thể hiện hiệu suất của máy chủ PowerEdge R7615 với hai GPU NVIDIA L40S. Điều thú vị là đường màu đỏ gần giống đường màu xanh. Kết quả này cho thấy máy chủ PowerEdge R7615, mặc dù có một nửa tài nguyên tính toán, nhưng vẫn hoạt động tương đối tốt trong hầu hết các trường hợp, cho thấy hiệu quả của nó.

Hiệu suất AI sáng tạo

Bài nộp mới nhất chứng kiến ​​sự ra đời của tiêu chuẩn Stable Diffusion XL mới. Trong bối cảnh AI tổng quát, khuếch tán ổn định là mô hình chuyển văn bản thành hình ảnh tạo ra các mẫu hình ảnh mạch lạc. Kết quả này đạt được dần dần bằng cách sàng lọc và phổ biến thông tin trong suốt quá trình tạo ra. Hãy xem xét ví dụ về việc thả màu thực phẩm vào một xô nước lớn. Ban đầu, chỉ một phần nhỏ nước đậm đặc chuyển sang màu, nhưng dần dần màu được phân bố đều trong xô. 

Bảng sau đây cho thấy hiệu suất tuyệt vời của máy chủ PowerEdge R760xa với GPU NVIDIA L40S mạnh mẽ cho các tiêu chuẩn GPT-J và Stable Diffusion XL. PowerEdge R760xa chiếm vị trí hàng đầu trong GPT-J và Stable Diffusion XL khi so sánh với các kết quả NVIDIA L40S khác .

Bảng 3: Kết quả Benchmark cho máy chủ PowerEdge R760xa với GPU NVIDIA L40S

Điểm chuẩn Kết quả Dell PowerEdge R760xa L40S (Máy chủ trong/giây và Ngoại tuyến trong Mẫu/giây) % tăng của Dell đối với kết quả tốt nhất tiếp theo không phải của Dell (%)
Máy chủ XL khuếch tán ổn định 0,65 5,24
Khuếch tán ổn định XL ngoại tuyến 0,67 2,28
Máy chủ GPT-J 99 12:75 4.33
GPT-J 99 Ngoại tuyến 12.61 1,88
Máy chủ GPT-J 99.9 12:75 4.33
GPT-J 99.9 Ngoại tuyến 12.61 1,88

Phần kết luận

Các bài nộp Suy luận MLPerf gợi ra những so sánh sâu sắc về lượt thích. Blog này nêu bật hiệu suất ấn tượng của GPU NVIDIA L40S trong máy chủ Dell PowerEdge R760xa và PowerEdge R7615. Cả hai máy chủ đều hoạt động tốt khi so sánh với hiệu suất của máy chủ Dell PowerEdge R750xa với GPU NVIDIA A100. Những cải tiến hiệu suất vượt trội trong GPU NVIDIA L40S kết hợp với máy chủ Dell PowerEdge giúp khách hàng của Dell thành công trong khối lượng công việc AI. Với sự ra đời của GPT-J và Mô hình XL khuếch tán ổn định, máy chủ Dell PowerEdge có vị trí thuận lợi để xử lý khối lượng công việc Generative AI.