Hiệu suất Deep Learning trên GPU T4 với Điểm chuẩn MLPerf Inference v0.5

Triệu chứng

Bài viết của Rengan Xu, Frank Han và Quy Ta của HPC và AI Innovation Lab vào tháng 11 năm 2019.

Nghị quyết

trừu tượng

Hiệu suất suy luận học sâu đã được đánh giá trên Dell EMC PowerEdge R740 , sử dụng điểm chuẩn suy luận MLPerf v0.5 . Đánh giá hiệu suất được thực hiện trên 4x GPU Nvidia Tesla T4 trong một máy chủ R740. Kết quả chỉ ra rằng hệ thống mang lại hiệu suất suy luận hàng đầu được chuẩn hóa cho số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường.

Tổng quan

Suy luận là mục tiêu của học sâu sau khi đào tạo mô hình mạng thần kinh. Suy luận có thể được thực hiện trong các trung tâm dữ liệu, ở vùng biên và trong các thiết bị IoT. Mỗi môi trường này có các yêu cầu khác nhau, do đó rất khó để đánh giá hiệu suất của chúng bằng một điểm chuẩn thống nhất. MLPerf là ​​bộ điểm chuẩn tiêu chuẩn ngành mới với mục tiêu đo lường cả hiệu suất đào tạo và suy luận trên các hệ thống máy học. Các điểm chuẩn và kết quả suy luận MLPerf v0.5 đầu tiên đã được công bố gần đây. Bảng 1 liệt kê tất cả các điểm chuẩn và bộ dữ liệu có sẵn trong suy luận MLPerf v0.5.

Trong khung đánh giá suy luận MLPerf, một trình tạo tải có tên là LoadGen gửi các truy vấn suy luận đến hệ thống đang được kiểm tra (SUT), sau đó SUT sử dụng một chương trình phụ trợ (ví dụ: TensorRT, TensorFlow, PyTorch) để thực hiện suy luận và gửi kết quả trở lại LoadGen . Có bốn tình huống liên quan đến cách gửi và nhận truy vấn:

  • Máy chủ: Các truy vấn được gửi đến SUT theo phân phối Poisson (để lập mô hình các sự kiện ngẫu nhiên trong thế giới thực). Một truy vấn có một mẫu. Số liệu là số truy vấn mỗi giây (QPS) trong giới hạn độ trễ.
  • Ngoại tuyến: Một truy vấn với tất cả các mẫu được gửi đến SUT. SUT có thể gửi lại kết quả một lần hoặc nhiều lần theo bất kỳ thứ tự nào. Số liệu là mẫu mỗi giây.
  • Single-Stream : Một mẫu cho mỗi truy vấn được gửi đến SUT. Truy vấn tiếp theo sẽ không được gửi cho đến khi nhận được phản hồi trước đó. Số liệu này là độ trễ phần trăm thứ 90 .
  • Đa luồng: Một truy vấn có N mẫu được gửi với khoảng thời gian cố định. Số liệu là N tối đa khi độ trễ của tất cả truy vấn nằm trong giới hạn độ trễ.

Các quy tắc suy luận chi tiết và các ràng buộc về độ trễ được mô tả ở đây . Blog này chỉ tập trung vào các kịch bản Máy chủ và Ngoại tuyến vì chúng được thiết kế hướng tới môi trường trung tâm dữ liệu nhiều hơn, trong khi Single-Stream và Multi-Stream được thiết kế hướng tới các thiết bị biên và IoT.
SLN319502_en_US__100_tab1

Hình 1 cho thấy cấu trúc liên kết phần cứng của Dell EMC PowerEdge R740 được sử dụng trong đánh giá suy luận. Nó có CPU Intel Xeon Skylake kép và bốn GPU Nvidia Tesla T4. Mỗi CPU được kết nối với hai GPU có hai bus PCIe x16. Điều này đảm bảo cấu hình cân bằng và số lượng làn PCIe cao đảm bảo truyền dữ liệu nhanh giữa CPU và GPU. Trong quá trình đánh giá hiệu suất, thư viện Nvidia TensorRT 6.0 đã được sử dụng làm phụ trợ suy luận. Thư viện được bao gồm trong bộ chứa NGC TensorRT 19.09.

TensorRT 6.0 bao gồm hỗ trợ cho các tính năng mới bao gồm: định dạng lại I/O miễn phí và hợp nhất lớp. Các tính năng mới này giúp tăng tốc độ suy luận trong điểm chuẩn MLPerf. Bảng 2 là danh sách chi tiết phần cứng và phần mềm được sử dụng trong đánh giá suy luận.
SLN319502_en_US__200_fig1(1)

SLN319502_en_US__300_tab2

Đánh giá hiệu suất

Để đạt được kết quả suy luận tối ưu, một số điều chỉnh tham số là cần thiết. Như đã trình bày trong blog trước của chúng tôi ” Suy luận Deep Learning trên P40 so với P4 với Skylake “, thông lượng suy luận tăng lên khi kích thước lô tăng lên, tuy nhiên, nó có thể đạt đến mức ổn định hoặc thậm chí giảm sau một thời điểm. Do đó, kích thước lô tối ưu cần được tìm thấy cho cả trường hợp Máy chủ và Ngoại tuyến. Đối với kịch bản Máy chủ, kích thước lô tối ưu cũng cần đáp ứng ràng buộc về độ trễ.

Bảng 3 cho thấy kết quả của tất cả các tiêu chuẩn suy luận MLPerf cho các kịch bản Máy chủ và Ngoại tuyến Dell EMC R740 với bốn GPU T4 mang lại hiệu suất suy luận cao nhất được chuẩn hóa theo số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường. Tất cả các kết quả suy luận MLPerf v0.5 có sẵn công khai đều có tại đây .

SLN319502_en_US__400_tab3(2)

kết luận

Trong blog này, chúng tôi đã định lượng hiệu suất suy luận trên máy chủ Dell EMC PowerEdge R740 với bốn GPU Nvidia Tesla T4, sử dụng điểm chuẩn MLPerf Inference v0.5. Hệ thống mang lại hiệu suất suy luận hàng đầu được chuẩn hóa cho số lượng bộ xử lý trong số các kết quả có sẵn trên thị trường.