Hiệu suất Deep Learning trên GPU V100 với Mô hình ResNet-50

Triệu chứng

Trừu tượng

Dell EMC Ready Solutions for AI – Deep Learning với NVIDA v1.1 và hướng dẫn kiến ​​trúc tham chiếu tương ứng đã được phát hành vào tháng 2 năm 2019. Blog này sẽ định lượng hiệu suất đào tạo deep learning trên kiến ​​trúc tham chiếu này bằng mô hình ResNet-50. Việc đánh giá hiệu suất sẽ được mở rộng trên tối đa tám nút.

Tổng quan

Vào tháng 8 năm 2018, phiên bản đầu tiên 1.0 của Dell EMC Ready Solutions for AI – Deep Learning with NVIDIA đã được phát hành. Vào tháng 2 năm 2019, giải pháp này đã được cập nhật lên phiên bản 1.1. Sự khác biệt chính là trong phiên bản 1.1, cấu trúc liên kết kết nối CPU và GPU đã được thay đổi từ cấu hình K thành cấu hình M. So sánh hai cấu hình khác nhau này được hiển thị trong Hình 1. Không giống như cấu hình K chỉ có một liên kết PCIe giữa hai CPU và bốn GPU, cấu hình M mới có bốn liên kết PCIe giữa chúng và kích thước bộ nhớ của mỗi GPU đã thay đổi từ 16GB trong Giải pháp sẵn sàng v1.0 thành 32GB trong v1.1.

Cơ sở hạ tầng phần cứng của giải pháp được hiển thị trong Hình 2. Cơ sở hạ tầng bao gồm một nút đầu PowerEdge R740xd, n nút điện toán PowerEdge C4140, các đĩa cục bộ trên nút đầu cụm được xuất qua NFS, bộ lưu trữ Isilon và hai mạng. Tất cả các nút điện toán được kết nối với nhau thông qua một công tắc InfiniBand. Nút đầu cũng được kết nối với bộ chuyển đổi InfiniBand vì nó cần truy cập vào bộ lưu trữ Isilon khi được bao gồm và sử dụng IPoIB để xuất không gian đầu của phần chia sẻ NFS sang các nút điện toán. Tất cả các nút điện toán và nút đầu cũng được kết nối với bộ chuyển mạch quản lý 1 Gigabit Ethernet được sử dụng để quản lý trong và ngoài băng tần thông qua iDRAC9 (Bộ điều khiển truy cập từ xa tích hợp của Dell) cũng như mạng cung cấp và triển khai của Bright Cluster Manager để quản lý cụm.

Hình 2: Cơ sở hạ tầng của giải pháp sẵn sàng

Mô hình ResNet-50 đã được sử dụng để đánh giá hiệu suất của giải pháp sẵn sàng này. Đây là một trong những mô hình trong bộ điểm chuẩn MLPerf đang cố gắng thiết lập tiêu chuẩn điểm chuẩn trong lĩnh vực máy học. Theo triết lý của MLPerf, chúng tôi đã đo thời gian đồng hồ treo tường để đào tạo mô hình ResNet-50 cho đến khi mô hình hội tụ với độ chính xác đánh giá Top-1 mục tiêu là 74,9%. Điểm chuẩn mà chúng tôi đã sử dụng là từ kho lưu trữ git Ví dụ học tập sâu của Nvidia . Chúng tôi đã thêm tập lệnh khởi chạy phân tán từ kho lưu trữ MXNet để chạy mô hình này trên các máy chủ phân tán. Chi tiết phần cứng và phần mềm của đánh giá này được liệt kê trong Bảng 1.

Bảng 1: Cấu hình phần cứng và chi tiết phần mềm

Nền tảng PowerEdge C4140
CPU 2 x Intel® Xeon® Gold 6148 @3.0GHz (Skylake)
Kỉ niệm 384GB DDR4 @ 2666MHz
Kho 96 TB Isilon F800
GPU V100-SXM2 với bộ nhớ 32GB
Hệ điều hành và phần sụn
Hệ điều hành Red Hat® Enterprise Linux® 7.5 x86_64
Nền tảng Linux 3.10.0-693.el7.x86_64
BIOS 1.6.12
Liên quan đến Deep Learning
MXNet Bộ chứa Nvidia-mxnet-18.12-py3
ResNet-50 v1.5 https://github.com/NVIDIA/DeepLearningExamples/tree/master/MxNet/Classification/RN50v1.5 trong cam kết 0e66c6dabb8b4c90bd637e27aeb4e67722ca95fc

Nguyên nhân

Đánh giá hiệu suất

Hình 3 cho thấy thời gian đào tạo ResNet-50 đến độ chính xác mục tiêu 74,9% với C4140-M trong giải pháp sẵn sàng v1.1. Hình 4 cho thấy sự so sánh thông lượng với C4140-K trong giải pháp sẵn sàng v1.0. Cả kết quả thông lượng và thời gian chính xác đều được hiển thị ở đây vì hai số liệu này không phải lúc nào cũng tương quan với nhau. Thử nghiệm được chia tỷ lệ từ một nút (4 V100) thành tám nút (32 V100). Giải pháp Dell EMC sẵn sàng là một giải pháp mở rộng quy mô có thể sử dụng nhiều tài nguyên hơn nếu nhiều nút hơn được thêm vào giải pháp. Có một giải pháp thay thế được gọi là giải pháp mở rộng quy mô từ các nhà cung cấp khác, cố gắng đưa nhiều GPU hơn vào một máy chủ. Chúng tôi cũng so sánh giải pháp mở rộng quy mô của mình với giải pháp mở rộng quy mô của nhà cung cấp khác trong Hình 3. Có thể đưa ra các kết luận sau đây từ Hình 3 và Hình 4:

  • Với cùng số lượng GPU cho kiểu máy này, cả giải pháp mở rộng và mở rộng quy mô đều có hiệu suất như nhau.*
  • Trong Hình 3, tốc độ tăng lần lượt là 1,8x, 3,3x và 4,9x với 2, 4 và 8 nút. Tốc độ tăng tốc hơi thấp với tám nút, đó là do mô hình cần nhiều kỷ nguyên hơn để hội tụ. Trong đánh giá này, mô hình đã hội tụ sau 61 kỷ nguyên, 62 kỷ nguyên, 65 kỷ nguyên và 81 kỷ nguyên với 1, 2, 4 và 8 nút tương ứng.    
  • Thông lượng đào tạo mô hình trong giải pháp 1.1 cao hơn nhiều so với giải pháp 1.0. Điều này chủ yếu là do cập nhật phần mềm.

* Cả hai dữ liệu của các hệ thống mở rộng quy mô đều được công khai tại trang web kết quả MLPerf v0.5 .

Hình 3: So sánh thời gian chính xác

Hình 4: So sánh thông lượng
Lưu trữ và phân tích mạng

Cách lưu trữ và mạng được sử dụng được phân tích trong phần này. Công cụ Isilon InsightIQ được sử dụng để giám sát việc sử dụng bộ lưu trữ Isilon và Mellanox Unified Fabric Manager (UFM) được sử dụng để giám sát việc sử dụng InfiniBand EDR. Hình 5 cho thấy thông lượng đĩa Isilon tương ứng với 1, 2, 4 và 8 nút. Các kết luận sau đây có thể được thực hiện từ hình này:

  • Thông lượng đĩa tối đa tăng ~66% khi nhân đôi số lượng nút.
  • Thông lượng đĩa giảm do bộ nhớ đệm trong bộ lưu trữ Isilon. Thông lượng sẽ giảm xuống 0 khi tất cả dữ liệu được lưu trong bộ nhớ cache vào bộ nhớ hệ thống trên mỗi nút điện toán. Toàn bộ tập dữ liệu là 144GB, có thể dễ dàng lưu vào bộ nhớ hệ thống 384GB.

(a) 1 nút

(b) 2 nút

(4) 4 nút

(d) 8 nút
Hình 5: Thông lượng đĩa từ bộ lưu trữ Isilon
Hình 6 cho thấy thông lượng gửi và nhận EDR của InfiniBand với 1, 2, 4 và 8 nút tương ứng. Các kết luận sau đây có thể được thực hiện từ hình này:

  • Thông lượng nhận cao nhất ban đầu đến từ việc đọc dữ liệu từ các đĩa của bộ lưu trữ Isilon.
  • Thông lượng nhận thấp hơn lúc đầu là do việc đọc dữ liệu từ hệ thống tệp của bộ lưu trữ Isilon. Ở giai đoạn này, dữ liệu được đọc từ bộ đệm lưu trữ Isilon chứ không phải từ đĩa nữa.
  • Nhiều lần giảm mạnh trong quá trình đào tạo ở cả thông lượng gửi và nhận là do thao tác xáo trộn dữ liệu sau mỗi kỷ nguyên. Khi xảy ra xáo trộn dữ liệu, không có giao tiếp giữa các nút khác nhau.
  • Khi một nút được sử dụng, InfiniBand chỉ có thông lượng nhận từ quá trình đọc dữ liệu từ bộ lưu trữ Isilon. 
  • Khi số lượng nút tăng gấp đôi, thông lượng gửi và nhận tăng ~100 MB/s.

(a) 1 nút

(b) 2 nút

(c) 4 nút

(d) 8 nút
Hình 6: Thông lượng EDR của InfiniBand

Nghị quyết

Kết luận và công việc tương lai

Trong blog này, chúng tôi đã định lượng hiệu suất của giải pháp Dell EMC sẵn sàng v1.1 với mô hình ResNet-50 v1.5. Kết quả cho thấy giải pháp mở rộng quy mô có thể đạt được hiệu suất tương đương với giải pháp mở rộng quy mô khác. Và so với giải pháp sẵn sàng v1.0, giải pháp hiện tại có thông lượng đào tạo cao hơn nhiều. Việc lưu trữ và sử dụng mạng cũng được lập hồ sơ. Khi số lượng nút tăng gấp đôi, thông lượng đĩa tối đa tăng ~66% và thông lượng mạng tăng 100 MB/s. Trong công việc trong tương lai, chúng tôi sẽ đánh giá thêm hiệu suất của giải pháp sẵn sàng với các điểm chuẩn khác như Phát hiện đối tượng, Dịch thuật và Đề xuất trong bộ MLPerf.