Khối lượng công việc biên MLPerf™ Inference v3.1 được cung cấp bởi máy chủ Dell PowerEdge

Dell Technologies gần đây đã gửi kết quả tới bộ điểm chuẩn MLPerf Inference v3.1 . Blog này kiểm tra kết quả trên các máy chủ Dell PowerEdge XR4520c, PowerEdge XR7620 và PowerEdge XR5610 với GPU NVIDIA L4.

Nền suy luận MLPerf

Bộ điểm chuẩn suy luận MLPerf là ​​một khung toàn diện được thiết kế để đánh giá một cách công bằng hiệu suất của một loạt các tác vụ suy luận học máy trên các cấu hình phần cứng và phần mềm khác nhau. Cộng đồng MLCommons TM  nhằm mục đích cung cấp một bộ khối lượng công việc học sâu được tiêu chuẩn hóa để làm việc cũng như các phương pháp đo lường và kiểm tra công bằng. Kết quả gửi suy luận MLPerf đóng vai trò là thông tin có giá trị để các nhà nghiên cứu, khách hàng và đối tác đưa ra quyết định sáng suốt về khả năng suy luận trên các hệ thống trung tâm dữ liệu và biên khác nhau.

Bộ biên suy luận MLPerf bao gồm ba kịch bản:

  • Luồng đơn —Chỉ số hiệu suất của kịch bản này là độ trễ 90 phần trăm. Trường hợp sử dụng phổ biến là trợ lý giọng nói Siri trên các sản phẩm iOS mà công cụ của Siri đợi cho đến khi truy vấn được đưa ra rồi trả về kết quả.
  • Đa luồng —Kịch bản này có chỉ số hiệu suất cao hơn với độ trễ 99%. Một trường hợp sử dụng ví dụ là xe tự lái. Xe tự lái sử dụng nhiều camera và đầu vào lidar để đưa ra các quyết định lái xe theo thời gian thực, có tác động trực tiếp đến những gì xảy ra trên đường.
  • Ngoại tuyến —Kịch bản này được đo bằng thông lượng. Một ví dụ về Xử lý ngoại tuyến ở biên là điện thoại chia sẻ đề xuất album dựa trên bộ ảnh và video gần đây từ một sự kiện cụ thể.

Điện toán biên

Trong điện toán đám mây truyền thống tại trung tâm dữ liệu, dữ liệu từ điện thoại, máy tính bảng, cảm biến và máy móc được gửi đến các trung tâm dữ liệu ở xa để xử lý. Vị trí nơi dữ liệu được thu thập và nơi dữ liệu được xử lý là riêng biệt. Khái niệm điện toán biên thay đổi phương pháp này bằng cách xử lý dữ liệu trên chính thiết bị hoặc trên các tài nguyên điện toán cục bộ có sẵn ở gần. Các tài nguyên điện toán có sẵn ở gần được gọi là “thiết bị ở rìa”. Điện toán biên phổ biến trong một số ngành như ô tô tự lái, phân tích bán lẻ, quản lý đội xe tải, phân phối năng lượng lưới điện thông minh, chăm sóc sức khỏe và sản xuất.

Điện toán ranh giới bổ sung cho điện toán đám mây truyền thống bằng cách giảm tốc độ xử lý đồng thời giảm độ trễ, nâng cao hiệu quả, tăng cường bảo mật và mang lại độ tin cậy cao hơn. Bằng cách xử lý dữ liệu ở biên, tải trọng trên các trung tâm dữ liệu trung tâm sẽ được giảm bớt cũng như thời gian nhận được phản hồi cho bất kỳ loại truy vấn suy luận nào. Với việc giảm tải tính toán trong các trung tâm dữ liệu, tình trạng tắc nghẽn mạng đối với người dùng đám mây trở nên ít đáng lo ngại hơn. Ngoài ra, do dữ liệu nhạy cảm được xử lý ở biên và không gặp phải các mối đe dọa trên mạng rộng hơn nên nguy cơ dữ liệu nhạy cảm bị xâm phạm sẽ ít hơn. Hơn nữa, nếu kết nối với đám mây bị gián đoạn và không liên tục, điện toán biên có thể cho phép các hệ thống tiếp tục hoạt động. Với một số thiết bị ở biên hoạt động như các trung tâm dữ liệu nhỏ tính toán, vấn đề về một điểm lỗi duy nhất sẽ được giảm thiểu và khả năng mở rộng bổ sung trở nên dễ dàng đạt được.

Tổng quan về hệ thống và GPU Dell PowerEdge

Máy chủ Dell PowerEdge XR4520c

Đối với các dự án cần một máy chủ mạnh mẽ và có khả năng thích ứng để xử lý khối lượng công việc AI đòi hỏi khắt khe ở biên, máy chủ PowerEdge XR4520c là một lựa chọn tuyệt vời. Dell Technologies đã thiết kế máy chủ PowerEdge XR4520c với độ tin cậy có thể chịu được các môi trường biên đầy thách thức. Máy chủ PowerEdge XR4520c cung cấp sức mạnh và khả năng tính toán cần thiết cho phân tích thời gian thực ở biên với bộ xử lý Intel Xeon có thể mở rộng. Các quyết định thiết kế được tối ưu hóa ở cạnh bao gồm bề ngoài chắc chắn và phạm vi nhiệt độ mở rộng để hoạt động ở những địa điểm xa và môi trường công nghiệp. Ngoài ra, hệ số dạng nhỏ gọn và thiết kế tiết kiệm không gian cho phép triển khai ở rìa. Giống như tất cả các sản phẩm Dell PowerEdge, máy chủ này đi kèm với sự hỗ trợ đẳng cấp thế giới của Dell và Dell (Bộ điều khiển truy cập từ xa Dell tích hợp (iDRAC) để quản lý từ xa. Để biết thêm thông tin về thông số kỹ thuật của máy chủ PowerEdge XR4520c, hãy xem bảng thông số kỹ thuật .

Hình 1: Mặt trước của máy chủ Dell PowerEdge XR4520c

Hình 2: Mặt trên của máy chủ Dell PowerEdge XR4520c

Máy chủ Dell PowerEdge XR7620

Máy chủ PowerEdge XR7620 là máy chủ hàng đầu dành cho deep learning ở biên. Được trang bị bộ xử lý Intel Xeon có thể mở rộng mới nhất, thời gian đào tạo giảm và số lượng suy luận bổ sung là điều đáng chú ý trên máy chủ PowerEdge XR7620. Dell Technologies đã thiết kế máy chủ này như một máy chủ nửa chiều rộng dành cho môi trường gồ ghề với bộ lọc bụi và hạt cũng như phạm vi nhiệt độ mở rộng từ –5C đến 55C (23 F đến 131 F). Hơn nữa, các tính năng bảo mật và bảo vệ dữ liệu toàn diện của Dell bao gồm mã hóa dữ liệu và logic không tin cậy để bảo vệ dữ liệu nhạy cảm. Để biết thêm thông tin về thông số kỹ thuật của máy chủ PowerEdge XR7620, hãy xem bảng thông số kỹ thuật .

Hình 3: Mặt trước của máy chủ Dell PowerEdge XR7620

Hình 4: Mặt sau của máy chủ Dell PowerEdge XR7620

Máy chủ Dell PowerEdge XR5610

Máy chủ Dell PowerEdge XR5610 là một lựa chọn tuyệt vời cho khối lượng công việc AI ở biên. Máy chủ socket đơn chắc chắn, dành cho tất cả các mục đích này là một máy chủ biên đa năng được thiết kế cho các môi trường viễn thông, quốc phòng, bán lẻ và các môi trường biên có yêu cầu khắt khe khác. Như thể hiện trong các hình dưới đây, khung gầm ngắn có thể phù hợp với môi trường hạn chế về không gian và cũng là một lựa chọn đáng gờm khi xem xét hiệu quả sử dụng năng lượng. Máy chủ này được điều khiển bởi bộ xử lý Intel Xeon có thể mở rộng và được tăng cường bằng GPU NVIDIA cũng như các kết nối NVIDIA NVLink tốc độ cao. Để biết thêm thông tin về thông số kỹ thuật của máy chủ PowerEdge XR5610, hãy xem bảng thông số kỹ thuật .

Hình 5: Mặt trước của máy chủ Dell PowerEdge XR5610

Hình 6: Mặt trên của máy chủ Dell PowerEdge XR5610

GPU NVIDIA L4

GPU NVIDIA L4 là một lựa chọn chiến lược tuyệt vời cho biên vì nó tiêu thụ ít năng lượng và không gian hơn nhưng mang lại hiệu suất vượt trội. GPU NVIDIA L4 dựa trên kiến ​​trúc Ada Lovelace và mang lại hiệu suất vượt trội cho video, AI, đồ họa và ảo hóa. GPU NVIDIA L4 đi kèm với gói phần mềm AI tiên tiến của NVIDIA bao gồm CUDA, cuDNN và hỗ trợ một số khung học sâu như Tensorflow và PyTorch.

Hệ thống đang được thử nghiệm

Bảng sau liệt kê các Hệ thống đang được thử nghiệm (SUT) được mô tả trong blog này.

Bảng 1: Cấu hình hệ thống MLPerf Inference v3.1 của máy chủ Dell PowerEdge XR7620 và PowerEdge XR4520c

Nền tảng Dell PowerEdge XR7620 (1x L4, TensorRT) Dell PowerEdge XR4520c (1x L4, TensorRT)
ID hệ thống MLPerf XR7620_L4x1_TRT XR4520c_L4x1_TRT
Hệ điều hành CentOS 8 Ubuntu 22.04
CPU CPU Intel Xeon Gold 6448Y kép @ 2.10 GHz CPU Intel Xeon D-2776NT đơn @ 2.10
Ký ức 256 GB 128GB
GPU NVIDIA L4
số lượng GPU 1
ngăn xếp phần mềm TenorRT 9.0.0

CUDA 12.2

cuDNN 8.8.0

Trình điều khiển 535.54.03

ĐẠI LÝ 1.28.0

TenorRT 9.0.0

CUDA 12.2

cuDNN 8.9.2

Trình điều khiển 525.105.17

ĐẠI LÝ 1.28.0

 

Hiệu suất từ ​​suy luận v3.1

Hình dưới đây so sánh các máy chủ Dell PowerEdge XR4520c và PowerEdge XR7620 trên các điểm chuẩn ResNet50, RetinaNet, RNNT và BERT 99 Một luồng, Nhiều luồng và Ngoại tuyến. Trên tất cả các điểm chuẩn trong so sánh này, chúng tôi có thể khẳng định rằng hiệu suất trong khối lượng công việc xử lý ngôn ngữ, phát hiện đối tượng, giọng nói thành văn bản và ngôn ngữ được đóng gói bằng GPU NVIDIA L4 cho cả hai máy chủ đều mang lại hiệu suất vượt trội.

Hình 7: Máy chủ Dell PowerEdge XR4520c và PowerEdge XR7620 trên các điểm chuẩn ResNet50, RetinaNet, RNNT và BERT 99 Đơn và Đa luồng

Hình 8: Máy chủ Dell PowerEdge XR4520c và PowerEdge XR7620 trên các điểm chuẩn ngoại tuyến ResNet50, RetinaNet, RNNT và BERT 99

Giống như ResNet50 và RetinaNet, điểm chuẩn 3D-Unet nằm trong vùng tầm nhìn nhưng tập trung vào nhiệm vụ phân đoạn hình ảnh y tế. Các số liệu sau đây cho thấy hiệu suất giống hệt nhau của hai máy chủ ở cả chế độ mặc định và chế độ có độ chính xác cao trong các tình huống Một luồng và Ngoại tuyến.

Hình 9: Máy chủ Dell PowerEdge XR4520c và PowerEdge XR7620 trên luồng đơn 3D-Unet

Hình 10: Máy chủ Dell PowerEdge XR4520c và PowerEdge XR7620 trên 3D-Unet offline

Trình cấp nguồn Dell PowerEdge XR5610

Trong vòng gửi MLPerf Inference v3.0, Dell Technologies đã thực hiện một bài gửi sức mạnh trong danh mục xem trước cho máy chủ Dell PowerEdge XR5610 với GPU NVIDIA L4. Đối với vòng gửi v3.1, Dell Technologies đã thực hiện một lần gửi sức mạnh khác cho cùng một máy chủ trong danh mục biên đóng. Như được hiển thị trong bảng sau, cấu hình chi tiết của cả hai hệ thống qua các vòng gửi cho thấy phần cứng vẫn nhất quán nhưng ngăn xếp phần mềm đã được cập nhật. Xét về hiệu suất hệ thống trên mỗi watt, máy chủ PowerEdge XR 5610 khẳng định vị trí hàng đầu trong phân loại hình ảnh, phát hiện đối tượng, chuyển giọng nói thành văn bản, xử lý ngôn ngữ và phân đoạn hình ảnh y tế.

Bảng 2: Cấu hình hệ thống MLPerf Inference v3.0 và v3.1 của máy chủ Dell PowerEdge XR5610

Nền tảng Dell PowerEdge XR5610 (1x L4, MaxQ, TensorRT) v3.0 Dell PowerEdge XR5610 (1x L4, MaxQ, TensorRT) v3.1
ID hệ thống MLPerf XR5610_L4x1_TRT_MaxQ XR5610_L4x1_TRT_MaxQ
Hệ điều hành CentOS 8.2
CPU CPU Intel(R) Xeon(R) Gold 5423N @ 2,10 GHz
Ký ức 256 GB
GPU NVIDIA L4
số lượng GPU 1
ngăn xếp phần mềm TenorRT 8.6.0

CUDA 12.0

cuDNN 8.8.0

Tài xế 515.65.01

ĐẠI LÝ 1.17.0

TenorRT 9.0.0

CUDA 12.2

cuDNN 8.9.2

Trình điều khiển 525.105.17

ĐẠI LÝ 1.28.0

 

Việc gửi sức mạnh bao gồm các kết quả sức mạnh bổ sung trong mỗi lần gửi. Đối với mỗi điểm chuẩn được gửi, sẽ có một thước đo sức mạnh được ghép nối với nó. Chỉ số cho kết quả hiệu suất Một luồng và Đa luồng là Độ trễ tính bằng mili giây và mức tiêu thụ điện năng tương ứng được ghi nhận bằng milijoules (mj). Các con số hiệu suất ngoại tuyến được ghi lại theo mẫu trên giây (mẫu/giây) và số đọc công suất tương ứng được cung cấp theo watt. Bảng sau đây trình bày chi tiết về cách tính toán cho các truy vấn trên mỗi milijoule và số mẫu/giây trên mỗi watt đã được tính toán.

Bảng 3: Phân tích đọc bài nộp điện

Kịch bản Chỉ số hiệu suất Chỉ số sức mạnh Hiệu suất trên mỗi đơn vị năng lượng
Luồng đơn Độ trễ (ms) Millijoules (mj) 1 truy vấn/mj -> truy vấn/mj
Đa luồng Độ trễ (ms) Millijoules (mj) 8 truy vấn/mj -> truy vấn/mj
Ngoại tuyến Mẫu/giây Watt Mẫu/s / Watts -> hiệu suất trên mỗi Watt

Hình sau đây cho thấy sự cải thiện về hiệu suất trên mỗi năng lượng được sử dụng trên máy chủ Dell PowerEdge XR5610 qua các vòng gửi v3.1 và v3.0. Trên tất cả các điểm chuẩn, máy chủ đạt được hiệu suất trên mỗi năng lượng gấp đôi. Đối với điểm chuẩn luồng đơn RNNT, các máy chủ đã cho thấy hiệu suất tăng vọt gần gấp 5 lần. Những cải tiến về hiệu suất đến từ việc tối ưu hóa phần cứng và phần mềm. Ngoài ra, việc nâng cấp firmware BIOS cũng góp phần đáng kể.

Hình 11: Dell PowerEdge XR5610 với GPU NVIDIA L4 cho v3.1 so với v3.0

Hình sau đây hiển thị kết quả độ trễ Một luồng và Đa luồng từ máy chủ Dell PowerEdge XR5610:

Hình 12: Máy chủ Dell PowerEdge XR5610 NVIDIA L4 GPU L4 v3.1

Phần kết luận

Cả máy chủ Dell PowerEdge XR4520c và Dell PowerEdge XR7620 đều tiếp tục thể hiện hiệu suất tuyệt vời trong bộ biên cho MLPerf Inference. Máy chủ Dell PowerEdge XR5610 cho thấy hiệu suất trên mỗi năng lượng tăng gấp đôi nhất quán trên tất cả các điểm chuẩn, tự xác nhận đây là một tùy chọn máy chủ tiết kiệm năng lượng. Được thiết kế dành cho giới hạn, danh mục Dell PowerEdge XR chứng tỏ là một lựa chọn nổi bật với hiệu suất ổn định trong bản gửi MLPerf Inference v3.1. Khi nhu cầu về điện toán biên tiếp tục tăng lên, bộ công cụ biên suy luận MLPerf cho thấy các máy chủ Dell PowerEdge tiếp tục là một lựa chọn tuyệt vời cho mọi khối lượng công việc Trí tuệ nhân tạo.