Hiệu suất Deep Learning trên GPU T4 với Điểm chuẩn MLPerf

Tổng quan

Dell EMC PowerEdge R740 là máy chủ rack 2U, 2 socket. Hệ thống này có bộ xử lý Intel Skylake, tối đa 24 DIMM và tối đa 3 GPU V100-PCIe chiều rộng gấp đôi hoặc 4 GPU T4 chiều rộng đơn trong các khe cắm x16 PCIe 3.0. T4 là GPU sử dụng kiến trúc Turing mới nhất của NVIDIA. Sự khác biệt về thông số kỹ thuật của GPU T4 và V100-PCIe được liệt kê trong Bảng 1. MLPerf được chọn để đánh giá hiệu suất của T4 trong quá trình đào tạo học sâu. MLPerf là một công cụ đo điểm chuẩn được tập hợp bởi một nhóm đa dạng từ các học viện và ngành bao gồm Google, Baidu, Intel, AMD, Harvard và Stanford, v.v., để đo tốc độ và hiệu suất của phần cứng và phần mềm máy học. Phiên bản phát hành ban đầu là v0.5 và nó bao gồm các triển khai mô hình trong các lĩnh vực máy học khác nhau bao gồm phân loại hình ảnh, phát hiện và phân đoạn đối tượng, dịch máy và học tăng cường. Tóm tắt các điểm chuẩn MLPerf được sử dụng cho đánh giá này được hiển thị trong Bảng 2. Việc triển khai ResNet-50 TensorFlow từNội dung gửi của Google đã được sử dụng và tất cả các triển khai của các mô hình khác từ nội dung gửi của NVIDIA đều được sử dụng. Tất cả các điểm chuẩn được chạy trên kim loại trần mà không có thùng chứa. Bảng 3 liệt kê phần cứng và phần mềm được sử dụng để đánh giá. Hiệu suất T4 với điểm chuẩn MLPerf sẽ được so sánh với V100-PCIe.

	TESLA V100-PCIE	TESLA T4
Ngành kiến trúc	Volta	Turing
Lõi CUDA	5120	2560
lõi căng	640	320
Khả năng tính toán	7,0	7,5
Đồng hồ GPU	1245 MHz	585 MHz
Đồng hồ tăng tốc	1380 MHz	1590 MHz
Loại bộ nhớ	HBM2	GDDR6
Kích thước bộ nhớ	16GB/32GB	16GB
Băng thông	900GB/giây	320GB/giây
Chiều rộng khe	Khe cắm kép	Khe cắm đơn
Độ chính xác đơn (FP32)	14 TFLOPS	8.1 TFLOP
Độ chính xác hỗn hợp (FP16/FP32)	112 TFLOPS	65 TFLOPS
Độ chính xác kép (FP64)	7 TFLOPS	254.4 GFLOPS
TDP	250W	70W

Bảng 1: So sánh giữa T4 và V100-PCIe

	PHÂN LOẠI HÌNH ẢNH	PHÂN LOẠI ĐỐI TƯỢNG	PHÂN ĐOẠN TRƯỜNG HỢP ĐỐI TƯỢNG	BẢN DỊCH (THƯỜNG XUYÊN)	TANSLATION (KHÔNG LẶP LẠI)	SỰ GIỚI THIỆU
Dữ liệu	Hình ảnhNet	COCO	COCO	WMT EG	WMT EG	MovieLens-20M
Kích thước dữ liệu	144GB	20GB	20GB	37GB	1,3GB	306MB
Kiểu mẫu	ResNet-50 v1.5	Máy dò một tầng (SSD)	Mặt nạ-R-CNN	GNMT	máy biến áp	NCF
khung	TenorFlow	PyTorch	PyTorch	PyTorch	PyTorch	PyTorch

Bảng 2: Điểm chuẩn MLF Perf được sử dụng trong đánh giá

Hệ điều hành và phần sụn
Nền tảng	PowerEdge R740
CPU	2x Intel Xeon Vàng 6136 @3.0GHz (SkyLake)
Kỉ niệm	384GB DDR4 @ 2666MHz
Kho	782TB ánh
GPU	T4, V100-PCIe
Hệ điều hành	Red Hat® Enterprise Linux® 7.5 x86_64
hạt nhân Linux	3.10.0-693.el7.x86_64
BIOS	1.6.12
Học sâu liên quan
Trình biên dịch CUDA và trình điều khiển GPU	CUDA 10.0.130 (410.66)
CUDNN	7.4.1
NCCL	2.3.7
TenorFlow	hàng đêm-gpu-dev20190130
PyTorch	1.0.0
MLPerf	v0.5

Bảng 3: Chi tiết cấu hình phần cứng và phần mềm

Đánh giá hiệu suất

Hình 1 cho thấy kết quả hoạt động của MLPerf trên T4 và V100-PCIe trên máy chủ PowerEdge R740. Sáu điểm chuẩn từ MLPerf được bao gồm. Đối với mỗi điểm chuẩn, quá trình đào tạo mô hình từ đầu đến cuối được thực hiện để đạt được độ chính xác của mô hình mục tiêu do ủy ban MLPerf xác định. Thời gian đào tạo tính bằng phút được ghi lại cho mỗi điểm chuẩn. Các kết luận sau đây có thể được đưa ra dựa trên những kết quả này:

Các mô hình ResNet-50 v1.5, SSD và Mask-R-CNN mở rộng tốt với số lượng GPU ngày càng tăng. Đối với ResNet-50 v1.5, V100-PCIe nhanh hơn 3,6 lần so với T4. Đối với SSD, V100-PCI nhanh hơn 3,3 – 3,4 lần so với T4. Đối với Mask-R-CNN, V100-PCIe nhanh hơn 2,2 – 2,7 lần so với T4. Với cùng số lượng GPU, mỗi kiểu máy gần như mất cùng số lượng kỷ nguyên để hội tụ cho T4 và V100-PCIe.
Đối với mô hình GNMT, tốc độ tăng tốc siêu tuyến tính được quan sát thấy khi sử dụng nhiều GPU T4 hơn. So với một T4, tốc độ tăng tốc là 3,1 lần với hai T4 và 10,4 lần với bốn T4. Điều này là do sự hội tụ của mô hình bị ảnh hưởng bởi hạt giống ngẫu nhiên được sử dụng để huấn luyện xáo trộn dữ liệu và khởi tạo trọng số mạng thần kinh. Bất kể có bao nhiêu GPU được sử dụng, với các seed ngẫu nhiên khác nhau, mô hình có thể cần số lượng epoch khác nhau để hội tụ. Trong thử nghiệm này, mô hình mất 12, 7, 5 và 4 kỷ nguyên để hội tụ với 1, 2, 3 và 4 T4 tương ứng. Và mô hình mất 16, 12 và 9 kỷ nguyên để hội tụ lần lượt với 1, 2 và 3 V100-PCIe. Vì số lượng kỷ nguyên khác nhau đáng kể ngay cả với cùng số lượng GPU T4 và V100, hiệu suất không thể được so sánh trực tiếp. Trong kịch bản này, chỉ số thông lượng là một so sánh công bằng vì nó không phụ thuộc vào hạt giống ngẫu nhiên. Hình 2 cho thấy sự so sánh thông lượng cho cả T4 và V100-PCIe. Với cùng số lượng GPU, V100-PCIe nhanh hơn 2,5 – 3,6 lần so với T4.
Mô hình NCF và mô hình Transformer có cùng vấn đề với GNMT. Đối với mô hình NCF, kích thước tập dữ liệu nhỏ và mô hình không mất nhiều thời gian để hội tụ; do đó, vấn đề này không rõ ràng để nhận thấy trong hình kết quả. Mẫu Transformer cũng gặp vấn đề tương tự khi sử dụng một GPU, vì mẫu này mất 12 epoch để hội tụ với một T4, nhưng chỉ mất 8 epoch để hội tụ với một V100-PCIe. Khi hai GPU trở lên được sử dụng, mô hình sẽ mất 4 epoch để hội tụ bất kể có bao nhiêu GPU được sử dụng hay loại GPU nào được sử dụng. V100-PCIe nhanh hơn 2,6 lần – 2,8 lần so với T4 trong những trường hợp này.

Hình 1: Kết quả MLPerf trên T4 và V100-PCIe

Hình 2: So sánh thông lượng cho mô hình GNMT

Kết luận và công việc tương lai

Trong blog này, chúng tôi đã đánh giá hiệu suất của GPU T4 trên máy chủ Dell EMC PowerEdge R740 bằng các tiêu chuẩn MLPerf khác nhau. Hiệu suất của T4 được so sánh với V100-PCIe sử dụng cùng một máy chủ và phần mềm. Nhìn chung, V100-PCIe nhanh hơn T4 từ 2,2 – 3,6 lần tùy thuộc vào đặc điểm của từng điểm chuẩn. Một quan sát là một số mô hình ổn định cho dù sử dụng giá trị hạt giống ngẫu nhiên nào, nhưng các mô hình khác bao gồm GNMT, NCF và Transformer bị ảnh hưởng nhiều bởi hạt giống ngẫu nhiên. Trong công việc trong tương lai, chúng tôi sẽ tinh chỉnh các siêu tham số để làm cho các mô hình không ổn định hội tụ với ít kỷ nguyên hơn. Chúng tôi cũng sẽ chạy MLPerf trên nhiều GPU hơn và nhiều nút hơn để đánh giá khả năng mở rộng của các mô hình đó trên máy chủ PowerEdge.

Tin tức

Hiệu suất Deep Learning trên GPU T4 với Điểm chuẩn MLPerf

Tổng quan

Đánh giá hiệu suất

Kết luận và công việc tương lai

Bài viết mới cập nhật

Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell

Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu

Bảo mật PowerScale OneFS SyncIQ

Danh sách kiểm tra cơ sở bảo mật PowerScale

Về chúng tôi

LIÊN HỆ GTEK

DỊCH VỤ

giải pháp

nhận thông tin

Tổng quan

Đánh giá hiệu suất

Kết luận và công việc tương lai

Bài viết mới cập nhật

Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell

Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu

Bảo mật PowerScale OneFS SyncIQ

Danh sách kiểm tra cơ sở bảo mật PowerScale

Login