Tổng quan
Dell EMC PowerEdge R740 là máy chủ rack 2U, 2 socket. Hệ thống này có bộ xử lý Intel Skylake, tối đa 24 DIMM và tối đa 3 GPU V100-PCIe chiều rộng gấp đôi hoặc 4 GPU T4 chiều rộng đơn trong các khe cắm x16 PCIe 3.0. T4 là GPU sử dụng kiến trúc Turing mới nhất của NVIDIA. Sự khác biệt về thông số kỹ thuật của GPU T4 và V100-PCIe được liệt kê trong Bảng 1. MLPerf được chọn để đánh giá hiệu suất của T4 trong quá trình đào tạo học sâu. MLPerf là một công cụ đo điểm chuẩn được tập hợp bởi một nhóm đa dạng từ các học viện và ngành bao gồm Google, Baidu, Intel, AMD, Harvard và Stanford, v.v., để đo tốc độ và hiệu suất của phần cứng và phần mềm máy học. Phiên bản phát hành ban đầu là v0.5 và nó bao gồm các triển khai mô hình trong các lĩnh vực máy học khác nhau bao gồm phân loại hình ảnh, phát hiện và phân đoạn đối tượng, dịch máy và học tăng cường. Tóm tắt các điểm chuẩn MLPerf được sử dụng cho đánh giá này được hiển thị trong Bảng 2. Việc triển khai ResNet-50 TensorFlow từNội dung gửi của Google đã được sử dụng và tất cả các triển khai của các mô hình khác từ nội dung gửi của NVIDIA đều được sử dụng. Tất cả các điểm chuẩn được chạy trên kim loại trần mà không có thùng chứa. Bảng 3 liệt kê phần cứng và phần mềm được sử dụng để đánh giá. Hiệu suất T4 với điểm chuẩn MLPerf sẽ được so sánh với V100-PCIe.
TESLA V100-PCIE | TESLA T4 | |
---|---|---|
Ngành kiến trúc | Volta | Turing |
Lõi CUDA | 5120 | 2560 |
lõi căng | 640 | 320 |
Khả năng tính toán | 7,0 | 7,5 |
Đồng hồ GPU | 1245 MHz | 585 MHz |
Đồng hồ tăng tốc | 1380 MHz | 1590 MHz |
Loại bộ nhớ | HBM2 | GDDR6 |
Kích thước bộ nhớ | 16GB/32GB | 16GB |
Băng thông | 900GB/giây | 320GB/giây |
Chiều rộng khe | Khe cắm kép | Khe cắm đơn |
Độ chính xác đơn (FP32) | 14 TFLOPS | 8.1 TFLOP |
Độ chính xác hỗn hợp (FP16/FP32) | 112 TFLOPS | 65 TFLOPS |
Độ chính xác kép (FP64) | 7 TFLOPS | 254.4 GFLOPS |
TDP | 250W | 70W |
Bảng 1: So sánh giữa T4 và V100-PCIe
PHÂN LOẠI HÌNH ẢNH | PHÂN LOẠI ĐỐI TƯỢNG | PHÂN ĐOẠN TRƯỜNG HỢP ĐỐI TƯỢNG | BẢN DỊCH (THƯỜNG XUYÊN) | TANSLATION (KHÔNG LẶP LẠI) | SỰ GIỚI THIỆU | |
---|---|---|---|---|---|---|
Dữ liệu | Hình ảnhNet | COCO | COCO | WMT EG | WMT EG | MovieLens-20M |
Kích thước dữ liệu | 144GB | 20GB | 20GB | 37GB | 1,3GB | 306MB |
Kiểu mẫu | ResNet-50 v1.5 | Máy dò một tầng (SSD) | Mặt nạ-R-CNN | GNMT | máy biến áp | NCF |
khung | TenorFlow | PyTorch | PyTorch | PyTorch | PyTorch | PyTorch |
Bảng 2: Điểm chuẩn MLF Perf được sử dụng trong đánh giá
Nền tảng | PowerEdge R740 |
---|---|
CPU | 2x Intel Xeon Vàng 6136 @3.0GHz (SkyLake) |
Kỉ niệm | 384GB DDR4 @ 2666MHz |
Kho | 782TB ánh |
GPU | T4, V100-PCIe |
Hệ điều hành và phần sụn | |
Hệ điều hành | Red Hat® Enterprise Linux® 7.5 x86_64 |
hạt nhân Linux | 3.10.0-693.el7.x86_64 |
BIOS | 1.6.12 |
Học sâu liên quan | |
Trình biên dịch CUDA và trình điều khiển GPU | CUDA 10.0.130 (410.66) |
CUDNN | 7.4.1 |
NCCL | 2.3.7 |
TenorFlow | hàng đêm-gpu-dev20190130 |
PyTorch | 1.0.0 |
MLPerf | v0.5 |
Bảng 3: Chi tiết cấu hình phần cứng và phần mềm
Đánh giá hiệu suất
Hình 1 cho thấy kết quả hoạt động của MLPerf trên T4 và V100-PCIe trên máy chủ PowerEdge R740. Sáu điểm chuẩn từ MLPerf được bao gồm. Đối với mỗi điểm chuẩn, quá trình đào tạo mô hình từ đầu đến cuối được thực hiện để đạt được độ chính xác của mô hình mục tiêu do ủy ban MLPerf xác định. Thời gian đào tạo tính bằng phút được ghi lại cho mỗi điểm chuẩn. Các kết luận sau đây có thể được đưa ra dựa trên những kết quả này:
- Các mô hình ResNet-50 v1.5, SSD và Mask-R-CNN mở rộng tốt với số lượng GPU ngày càng tăng. Đối với ResNet-50 v1.5, V100-PCIe nhanh hơn 3,6 lần so với T4. Đối với SSD, V100-PCI nhanh hơn 3,3 – 3,4 lần so với T4. Đối với Mask-R-CNN, V100-PCIe nhanh hơn 2,2 – 2,7 lần so với T4. Với cùng số lượng GPU, mỗi kiểu máy gần như mất cùng số lượng kỷ nguyên để hội tụ cho T4 và V100-PCIe.
- Đối với mô hình GNMT, tốc độ tăng tốc siêu tuyến tính được quan sát thấy khi sử dụng nhiều GPU T4 hơn. So với một T4, tốc độ tăng tốc là 3,1 lần với hai T4 và 10,4 lần với bốn T4. Điều này là do sự hội tụ của mô hình bị ảnh hưởng bởi hạt giống ngẫu nhiên được sử dụng để huấn luyện xáo trộn dữ liệu và khởi tạo trọng số mạng thần kinh. Bất kể có bao nhiêu GPU được sử dụng, với các seed ngẫu nhiên khác nhau, mô hình có thể cần số lượng epoch khác nhau để hội tụ. Trong thử nghiệm này, mô hình mất 12, 7, 5 và 4 kỷ nguyên để hội tụ với 1, 2, 3 và 4 T4 tương ứng. Và mô hình mất 16, 12 và 9 kỷ nguyên để hội tụ lần lượt với 1, 2 và 3 V100-PCIe. Vì số lượng kỷ nguyên khác nhau đáng kể ngay cả với cùng số lượng GPU T4 và V100, hiệu suất không thể được so sánh trực tiếp. Trong kịch bản này, chỉ số thông lượng là một so sánh công bằng vì nó không phụ thuộc vào hạt giống ngẫu nhiên. Hình 2 cho thấy sự so sánh thông lượng cho cả T4 và V100-PCIe. Với cùng số lượng GPU, V100-PCIe nhanh hơn 2,5 – 3,6 lần so với T4.
- Mô hình NCF và mô hình Transformer có cùng vấn đề với GNMT. Đối với mô hình NCF, kích thước tập dữ liệu nhỏ và mô hình không mất nhiều thời gian để hội tụ; do đó, vấn đề này không rõ ràng để nhận thấy trong hình kết quả. Mẫu Transformer cũng gặp vấn đề tương tự khi sử dụng một GPU, vì mẫu này mất 12 epoch để hội tụ với một T4, nhưng chỉ mất 8 epoch để hội tụ với một V100-PCIe. Khi hai GPU trở lên được sử dụng, mô hình sẽ mất 4 epoch để hội tụ bất kể có bao nhiêu GPU được sử dụng hay loại GPU nào được sử dụng. V100-PCIe nhanh hơn 2,6 lần – 2,8 lần so với T4 trong những trường hợp này.
Hình 1: Kết quả MLPerf trên T4 và V100-PCIe
Hình 2: So sánh thông lượng cho mô hình GNMT
Kết luận và công việc tương lai
Trong blog này, chúng tôi đã đánh giá hiệu suất của GPU T4 trên máy chủ Dell EMC PowerEdge R740 bằng các tiêu chuẩn MLPerf khác nhau. Hiệu suất của T4 được so sánh với V100-PCIe sử dụng cùng một máy chủ và phần mềm. Nhìn chung, V100-PCIe nhanh hơn T4 từ 2,2 – 3,6 lần tùy thuộc vào đặc điểm của từng điểm chuẩn. Một quan sát là một số mô hình ổn định cho dù sử dụng giá trị hạt giống ngẫu nhiên nào, nhưng các mô hình khác bao gồm GNMT, NCF và Transformer bị ảnh hưởng nhiều bởi hạt giống ngẫu nhiên. Trong công việc trong tương lai, chúng tôi sẽ tinh chỉnh các siêu tham số để làm cho các mô hình không ổn định hội tụ với ít kỷ nguyên hơn. Chúng tôi cũng sẽ chạy MLPerf trên nhiều GPU hơn và nhiều nút hơn để đánh giá khả năng mở rộng của các mô hình đó trên máy chủ PowerEdge.
Bài viết mới cập nhật
Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell
Sự cố CNTT nghiêm trọng ảnh hưởng đến 8,5 triệu hệ ...
Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu
Hiện đang ở thế hệ thứ 9, giải pháp lưu trữ Dell ...
Bảo mật PowerScale OneFS SyncIQ
Trong thế giới sao chép dữ liệu, việc đảm bảo tính ...
Danh sách kiểm tra cơ sở bảo mật PowerScale
Là một biện pháp bảo mật tốt nhất, chúng tôi khuyến ...