Hiệu suất Deep Learning trên GPU T4 với Điểm chuẩn MLPerf

Tổng quan

Dell EMC PowerEdge R740 là máy chủ rack 2U, 2 socket. Hệ thống này có bộ xử lý Intel Skylake, tối đa 24 DIMM và tối đa 3 GPU V100-PCIe chiều rộng gấp đôi hoặc 4 GPU T4 chiều rộng đơn trong các khe cắm x16 PCIe 3.0. T4 là GPU sử dụng kiến ​​trúc Turing mới nhất của NVIDIA. Sự khác biệt về thông số kỹ thuật của GPU T4 và V100-PCIe được liệt kê trong Bảng 1. MLPerf được chọn để đánh giá hiệu suất của T4 trong quá trình đào tạo học sâu. MLPerf là ​​một công cụ đo điểm chuẩn được tập hợp bởi một nhóm đa dạng từ các học viện và ngành bao gồm Google, Baidu, Intel, AMD, Harvard và Stanford, v.v., để đo tốc độ và hiệu suất của phần cứng và phần mềm máy học. Phiên bản phát hành ban đầu là v0.5 và nó bao gồm các triển khai mô hình trong các lĩnh vực máy học khác nhau bao gồm phân loại hình ảnh, phát hiện và phân đoạn đối tượng, dịch máy và học tăng cường. Tóm tắt các điểm chuẩn MLPerf được sử dụng cho đánh giá này được hiển thị trong Bảng 2. Việc triển khai ResNet-50 TensorFlow từNội dung gửi của Google đã được sử dụng và tất cả các triển khai của các mô hình khác từ nội dung gửi của NVIDIA đều được sử dụng. Tất cả các điểm chuẩn được chạy trên kim loại trần mà không có thùng chứa. Bảng 3 liệt kê phần cứng và phần mềm được sử dụng để đánh giá. Hiệu suất T4 với điểm chuẩn MLPerf sẽ được so sánh với V100-PCIe.

TESLA V100-PCIE TESLA T4
Ngành kiến ​​​​trúc Volta Turing
Lõi CUDA 5120 2560
lõi căng 640 320
Khả năng tính toán 7,0 7,5
Đồng hồ GPU 1245 MHz 585 MHz
Đồng hồ tăng tốc 1380 MHz 1590 MHz
Loại bộ nhớ HBM2 GDDR6
Kích thước bộ nhớ 16GB/32GB 16GB
Băng thông 900GB/giây 320GB/giây
Chiều rộng khe Khe cắm kép Khe cắm đơn
Độ chính xác đơn (FP32) 14 TFLOPS 8.1 TFLOP
Độ chính xác hỗn hợp (FP16/FP32) 112 TFLOPS 65 TFLOPS
Độ chính xác kép (FP64) 7 TFLOPS 254.4 GFLOPS
TDP 250W 70W

Bảng 1: So sánh giữa T4 và V100-PCIe

PHÂN LOẠI HÌNH ẢNH PHÂN LOẠI ĐỐI TƯỢNG PHÂN ĐOẠN TRƯỜNG HỢP ĐỐI TƯỢNG BẢN DỊCH (THƯỜNG XUYÊN) TANSLATION (KHÔNG LẶP LẠI) SỰ GIỚI THIỆU
Dữ liệu Hình ảnhNet COCO COCO WMT EG WMT EG MovieLens-20M
Kích thước dữ liệu 144GB 20GB 20GB 37GB 1,3GB 306MB
Kiểu mẫu ResNet-50 v1.5 Máy dò một tầng (SSD) Mặt nạ-R-CNN GNMT máy biến áp NCF
khung TenorFlow PyTorch PyTorch PyTorch PyTorch PyTorch

Bảng 2: Điểm chuẩn MLF Perf được sử dụng trong đánh giá

Nền tảng PowerEdge R740
CPU 2x Intel Xeon Vàng 6136 @3.0GHz (SkyLake)
Kỉ niệm 384GB DDR4 @ 2666MHz
Kho 782TB ánh
GPU T4, V100-PCIe
Hệ điều hành và phần sụn
Hệ điều hành Red Hat® Enterprise Linux® 7.5 x86_64
hạt nhân Linux 3.10.0-693.el7.x86_64
BIOS 1.6.12
Học sâu liên quan
Trình biên dịch CUDA và trình điều khiển GPU CUDA 10.0.130 (410.66)
CUDNN 7.4.1
NCCL 2.3.7
TenorFlow hàng đêm-gpu-dev20190130
PyTorch 1.0.0
MLPerf v0.5

Bảng 3: Chi tiết cấu hình phần cứng và phần mềm

 


Đánh giá hiệu suất

Hình 1 cho thấy kết quả hoạt động của MLPerf trên T4 và V100-PCIe trên máy chủ PowerEdge R740. Sáu điểm chuẩn từ MLPerf được bao gồm. Đối với mỗi điểm chuẩn, quá trình đào tạo mô hình từ đầu đến cuối được thực hiện để đạt được độ chính xác của mô hình mục tiêu do ủy ban MLPerf xác định. Thời gian đào tạo tính bằng phút được ghi lại cho mỗi điểm chuẩn. Các kết luận sau đây có thể được đưa ra dựa trên những kết quả này:

  • Các mô hình ResNet-50 v1.5, SSD và Mask-R-CNN mở rộng tốt với số lượng GPU ngày càng tăng. Đối với ResNet-50 v1.5, V100-PCIe nhanh hơn 3,6 lần so với T4. Đối với SSD, V100-PCI nhanh hơn 3,3 – 3,4 lần so với T4. Đối với Mask-R-CNN, V100-PCIe nhanh hơn 2,2 – 2,7 lần so với T4. Với cùng số lượng GPU, mỗi kiểu máy gần như mất cùng số lượng kỷ nguyên để hội tụ cho T4 và V100-PCIe.
  • Đối với mô hình GNMT, tốc độ tăng tốc siêu tuyến tính được quan sát thấy khi sử dụng nhiều GPU T4 hơn. So với một T4, tốc độ tăng tốc là 3,1 lần với hai T4 và 10,4 lần với bốn T4. Điều này là do sự hội tụ của mô hình bị ảnh hưởng bởi hạt giống ngẫu nhiên được sử dụng để huấn luyện xáo trộn dữ liệu và khởi tạo trọng số mạng thần kinh. Bất kể có bao nhiêu GPU được sử dụng, với các seed ngẫu nhiên khác nhau, mô hình có thể cần số lượng epoch khác nhau để hội tụ. Trong thử nghiệm này, mô hình mất 12, 7, 5 và 4 kỷ nguyên để hội tụ với 1, 2, 3 và 4 T4 tương ứng. Và mô hình mất 16, 12 và 9 kỷ nguyên để hội tụ lần lượt với 1, 2 và 3 V100-PCIe. Vì số lượng kỷ nguyên khác nhau đáng kể ngay cả với cùng số lượng GPU T4 và V100, hiệu suất không thể được so sánh trực tiếp. Trong kịch bản này, chỉ số thông lượng là một so sánh công bằng vì nó không phụ thuộc vào hạt giống ngẫu nhiên. Hình 2 cho thấy sự so sánh thông lượng cho cả T4 và V100-PCIe. Với cùng số lượng GPU, V100-PCIe nhanh hơn 2,5 – 3,6 lần so với T4.
  • Mô hình NCF và mô hình Transformer có cùng vấn đề với GNMT. Đối với mô hình NCF, kích thước tập dữ liệu nhỏ và mô hình không mất nhiều thời gian để hội tụ; do đó, vấn đề này không rõ ràng để nhận thấy trong hình kết quả. Mẫu Transformer cũng gặp vấn đề tương tự khi sử dụng một GPU, vì mẫu này mất 12 epoch để hội tụ với một T4, nhưng chỉ mất 8 epoch để hội tụ với một V100-PCIe. Khi hai GPU trở lên được sử dụng, mô hình sẽ mất 4 epoch để hội tụ bất kể có bao nhiêu GPU được sử dụng hay loại GPU nào được sử dụng. V100-PCIe nhanh hơn 2,6 lần – 2,8 lần so với T4 trong những trường hợp này.

SLN316560_en_US__1hình ảnh(9291) SLN316560_en_US__2hình ảnh(9292)

SLN316560_en_US__3hình ảnh(9293) SLN316560_en_US__4hình ảnh(9294)

SLN316560_en_US__5hình ảnh(9295) SLN316560_en_US__6hình ảnh(9296)

Hình 1: Kết quả MLPerf trên T4 và V100-PCIe

SLN316560_en_US__7hình ảnh(9289)

Hình 2: So sánh thông lượng cho mô hình GNMT

 


Kết luận và công việc tương lai

Trong blog này, chúng tôi đã đánh giá hiệu suất của GPU T4 trên máy chủ Dell EMC PowerEdge R740 bằng các tiêu chuẩn MLPerf khác nhau. Hiệu suất của T4 được so sánh với V100-PCIe sử dụng cùng một máy chủ và phần mềm. Nhìn chung, V100-PCIe nhanh hơn T4 từ 2,2 – 3,6 lần tùy thuộc vào đặc điểm của từng điểm chuẩn. Một quan sát là một số mô hình ổn định cho dù sử dụng giá trị hạt giống ngẫu nhiên nào, nhưng các mô hình khác bao gồm GNMT, NCF và Transformer bị ảnh hưởng nhiều bởi hạt giống ngẫu nhiên. Trong công việc trong tương lai, chúng tôi sẽ tinh chỉnh các siêu tham số để làm cho các mô hình không ổn định hội tụ với ít kỷ nguyên hơn. Chúng tôi cũng sẽ chạy MLPerf trên nhiều GPU hơn và nhiều nút hơn để đánh giá khả năng mở rộng của các mô hình đó trên máy chủ PowerEdge.