Triệu chứng
Nghị quyết
trừu tượng
Hiệu suất suy luận học sâu đã được đánh giá trên Dell EMC PowerEdge R740 , sử dụng điểm chuẩn suy luận MLPerf v0.5 . Đánh giá hiệu suất được thực hiện trên 4x GPU Nvidia Tesla T4 trong một máy chủ R740. Kết quả chỉ ra rằng hệ thống mang lại hiệu suất suy luận hàng đầu được chuẩn hóa cho số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường.
Tổng quan
Suy luận là mục tiêu của học sâu sau khi đào tạo mô hình mạng thần kinh. Suy luận có thể được thực hiện trong các trung tâm dữ liệu, ở vùng biên và trong các thiết bị IoT. Mỗi môi trường này có các yêu cầu khác nhau, do đó rất khó để đánh giá hiệu suất của chúng bằng một điểm chuẩn thống nhất. MLPerf là bộ điểm chuẩn tiêu chuẩn ngành mới với mục tiêu đo lường cả hiệu suất đào tạo và suy luận trên các hệ thống máy học. Các điểm chuẩn và kết quả suy luận MLPerf v0.5 đầu tiên đã được công bố gần đây. Bảng 1 liệt kê tất cả các điểm chuẩn và bộ dữ liệu có sẵn trong suy luận MLPerf v0.5.
Trong khung đánh giá suy luận MLPerf, một trình tạo tải có tên là LoadGen gửi các truy vấn suy luận đến hệ thống đang được kiểm tra (SUT), sau đó SUT sử dụng một chương trình phụ trợ (ví dụ: TensorRT, TensorFlow, PyTorch) để thực hiện suy luận và gửi kết quả trở lại LoadGen . Có bốn tình huống liên quan đến cách gửi và nhận truy vấn:
- Máy chủ: Các truy vấn được gửi đến SUT theo phân phối Poisson (để lập mô hình các sự kiện ngẫu nhiên trong thế giới thực). Một truy vấn có một mẫu. Số liệu là số truy vấn mỗi giây (QPS) trong giới hạn độ trễ.
- Ngoại tuyến: Một truy vấn với tất cả các mẫu được gửi đến SUT. SUT có thể gửi lại kết quả một lần hoặc nhiều lần theo bất kỳ thứ tự nào. Số liệu là mẫu mỗi giây.
- Single-Stream : Một mẫu cho mỗi truy vấn được gửi đến SUT. Truy vấn tiếp theo sẽ không được gửi cho đến khi nhận được phản hồi trước đó. Số liệu này là độ trễ phần trăm thứ 90 .
- Đa luồng: Một truy vấn có N mẫu được gửi với khoảng thời gian cố định. Số liệu là N tối đa khi độ trễ của tất cả truy vấn nằm trong giới hạn độ trễ.
Các quy tắc suy luận chi tiết và các ràng buộc về độ trễ được mô tả ở đây . Blog này chỉ tập trung vào các kịch bản Máy chủ và Ngoại tuyến vì chúng được thiết kế hướng tới môi trường trung tâm dữ liệu nhiều hơn, trong khi Single-Stream và Multi-Stream được thiết kế hướng tới các thiết bị biên và IoT.
Hình 1 cho thấy cấu trúc liên kết phần cứng của Dell EMC PowerEdge R740 được sử dụng trong đánh giá suy luận. Nó có CPU Intel Xeon Skylake kép và bốn GPU Nvidia Tesla T4. Mỗi CPU được kết nối với hai GPU có hai bus PCIe x16. Điều này đảm bảo cấu hình cân bằng và số lượng làn PCIe cao đảm bảo truyền dữ liệu nhanh giữa CPU và GPU. Trong quá trình đánh giá hiệu suất, thư viện Nvidia TensorRT 6.0 đã được sử dụng làm phụ trợ suy luận. Thư viện được bao gồm trong bộ chứa NGC TensorRT 19.09.
TensorRT 6.0 bao gồm hỗ trợ cho các tính năng mới bao gồm: định dạng lại I/O miễn phí và hợp nhất lớp. Các tính năng mới này giúp tăng tốc độ suy luận trong điểm chuẩn MLPerf. Bảng 2 là danh sách chi tiết phần cứng và phần mềm được sử dụng trong đánh giá suy luận.
Đánh giá hiệu suất
Để đạt được kết quả suy luận tối ưu, một số điều chỉnh tham số là cần thiết. Như đã trình bày trong blog trước của chúng tôi ” Suy luận Deep Learning trên P40 so với P4 với Skylake “, thông lượng suy luận tăng lên khi kích thước lô tăng lên, tuy nhiên, nó có thể đạt đến mức ổn định hoặc thậm chí giảm sau một thời điểm. Do đó, kích thước lô tối ưu cần được tìm thấy cho cả trường hợp Máy chủ và Ngoại tuyến. Đối với kịch bản Máy chủ, kích thước lô tối ưu cũng cần đáp ứng ràng buộc về độ trễ.
Bảng 3 cho thấy kết quả của tất cả các tiêu chuẩn suy luận MLPerf cho các kịch bản Máy chủ và Ngoại tuyến . Dell EMC R740 với bốn GPU T4 mang lại hiệu suất suy luận cao nhất được chuẩn hóa theo số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường. Tất cả các kết quả suy luận MLPerf v0.5 có sẵn công khai đều có tại đây .
kết luận
Trong blog này, chúng tôi đã định lượng hiệu suất suy luận trên máy chủ Dell EMC PowerEdge R740 với bốn GPU Nvidia Tesla T4, sử dụng điểm chuẩn MLPerf Inference v0.5. Hệ thống mang lại hiệu suất suy luận hàng đầu được chuẩn hóa cho số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường.
Bài viết mới cập nhật
OneFS Cbind và DNS Caching
OneFS cbind là daemon bộ đệm DNS phân tán cho cụm ...
NANON OneFS
Theo cách nói của OneFS, các cụm PowerScale có kết nối ...
Mở khóa tiềm năng của dữ liệu phi cấu trúc với PowerScale OneFS S3
Trong bối cảnh lưu trữ dữ liệu đang phát triển nhanh ...
Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI
Trình điều khiển máy khách đa đường dẫn PowerScale và khả ...