Hiệu suất Deep Learning trên MLPerf™ Training v1.0 với Máy chủ Dell EMC DSS 8440

Trừu tượng

Blog này cung cấp các kết quả đã đóng của trung tâm dữ liệu MLPerf™ Training v1.0 cho các máy chủ Dell EMC DSS 8440 chạy các tiêu chuẩn đào tạo MLPerf . Kết quả của chúng tôi cho thấy hiệu suất đào tạo tối ưu đối với các cấu hình DSS 8440 mà chúng tôi đã chọn để chạy điểm chuẩn đào tạo. Ngoài ra, chúng ta có thể mong đợi mức tăng hiệu suất cao hơn bằng cách nâng cấp lên bộ tăng tốc NVIDIA A100 chạy khối lượng công việc học sâu trên máy chủ DSS 8440.

Tiểu sử

Máy chủ DSS 8440 cho phép tối đa 10 GPU rộng gấp đôi trong PCIe. Cấu hình này làm cho nó trở thành một máy chủ thích hợp phù hợp cho khả năng tính toán cao cần thiết để chạy khối lượng công việc như đào tạo học sâu.

Các mô hình điểm chuẩn MLPerf Training v1.0 giải quyết các vấn đề như phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng trọng lượng nhẹ và nặng, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên (NLP) cũng như khuyến nghị và học tăng cường.

Kể từ tháng 6 năm 2021, Chương trình đào tạo MLPerf đã trở nên hoàn thiện hơn và đã hoàn thành thành công phiên bản 1.0, đây là vòng đệ trình thứ tư của chương trình đào tạo MLPerf. Xem blog này để biết các tính năng mới của điểm chuẩn MLPerf Training v1.0.

thử nghiệm

Kết quả cho các mô hình được gửi với máy chủ DSS 8440 bao gồm:

  • 1 x DSS 8440 (x8 A100-PCIE-40GB)—Tất cả tám kiểu máy, bao gồm ResNet50, SSD, MaskRCNN, U-Net3D, BERT, DLRM, Minigo và RNN-T
  • 2 x DSS 8440 (x16 A100-PCIE-40GB)—ResNet50 hai nút
  • 3 x DSS 8440 (x24 A100-PCIe-40GB)—ResNet50 ba nút
  • 1 x DSS 8440 (x8 A100-PCIE-40GB, được kết nối với Cầu nối NVLink)—BERT

Chúng tôi đã chọn BERT với NVLink Bridge vì BERT có nhiều giao tiếp giữa thẻ với thẻ mang lại lợi ích cho NVLink Bridge.

Bảng sau đây cho thấy cấu hình phần cứng DSS8440 một nút và môi trường phần mềm:

Bảng 1: Thông số nút DSS 8440

Phần cứng
Nền tảng  DSS 8440
CPU  trên mỗi nút 2 x CPU Intel Xeon Gold 6248R @ 3,00 GHz
Bộ nhớ trên mỗi nút 768 GB (24 x 32 GB)
GPU  8 x NVIDIA A100-PCIE-40GB (250 W)
Lưu trữ máy chủ 1x NVMe 1,5 TB + 2x SSD 512 GB
Mạng máy chủ 1x ConnectX-5 IB EDR 100Gb/giây
Phần mềm
Hệ điều hành Bản phát hành CentOS Linux 8.2.2004 (Lõi)
trình điều khiển GPU  460.32.03
TUYỆT VỜI 5.1-2.5.8.0
CUDA 11.2
MXNet  NGC MXNet 21.05
PyTorch NGC PyTorch 21.05
TenorFlow NGC TensorFlow 21.05-tf1
cuBLAS 11.5.1.101
phiên bản NCCL  2.9.8
cuDNN 8.2.0.51
Phiên bản TensorRT 7.2.3.4
mở MPI 4.1.1rc1
điểm kỳ dị 3.6.4-1.el8

Kết quả điểm chuẩn MLPerf Training 1.0

Hiệu suất nút đơn 

Hình dưới đây cho thấy hiệu suất của máy chủ DSS 8440 trên tất cả các mô hình đào tạo:

Hình 1: Hiệu suất của một nút DSS 8440 với 8 x GPU A100-PCIE-40GB

Trục y là một trục được chia tỷ lệ theo cấp số nhân. Quá trình đào tạo MLPerf đo lường việc đệ trình bằng cách đánh giá mất bao nhiêu phút để một hệ thống được thử nghiệm hội tụ đến độ chính xác của mục tiêu trong khi đáp ứng tất cả các quy tắc .

Các điểm chính bao gồm:

  • Tất cả các kết quả của chúng tôi đã được gửi chính thức tới MLCommons ™   Consortium và đã được xác minh.
  • Máy chủ DSS 8440 có thể chạy tất cả các mô hình trong tiêu chuẩn đào tạo MLPerf v1.0 trên các lĩnh vực khác nhau như tầm nhìn, ngôn ngữ, thương mại và nghiên cứu.
  • Máy chủ DSS8440 là một ứng cử viên sáng giá để phù hợp với danh mục hiệu suất cao trên mỗi watt.
    1. Với công suất thiết kế nhiệt (TDP) là 250 W, A100 PCIE 40 GB cung cấp thông lượng cao cho tất cả các điểm chuẩn. Thông lượng này, khi so sánh với các GPU khác có TDP cao hơn, cung cấp thông lượng gần như tương tự cho nhiều điểm chuẩn (xem kết quả tại đây ).
  • Mô hình DLRM mất nhiều thời gian hơn để hội tụ vì triển khai khung Merlin HurgeCTR cơ bản được tối ưu hóa cho hệ số dạng SXM4. Máy chủ Dell EMC PowerEdge XE8545 của chúng tôi hỗ trợ yếu tố hình thức này.

Nhìn chung, bằng cách nâng cấp bộ tăng tốc lên NVIDIA A100 PCIE 40 GB, có thể cải thiện hiệu suất gấp 2,1 đến 2,4 lần so với vòng Huấn luyện MLPerf v0.7 trước đó sử dụng GPU NVIDIA V100 PCIe thế hệ trước.

Chia tỷ lệ đa nút

Đào tạo đa nút rất quan trọng đối với khối lượng công việc học máy lớn. Nó cung cấp một lượng điện toán đáng kể, giúp tăng tốc quá trình đào tạo một cách tuyến tính. Trong khi đào tạo một nút chắc chắn hội tụ, đào tạo đa nút cung cấp thông lượng cao hơn và hội tụ nhanh hơn.

Hình 2: Mở rộng quy mô đa nút Resnet50 trên máy chủ DSS8440 với một, hai và ba nút

Các kết quả này dành cho nhiều (tối đa ba) máy chủ DSS 8440 được thử nghiệm với mô hình Resnet50.

Lưu ý những điều sau đây về những kết quả này:

  • Thêm nhiều nút hơn vào cùng một nhiệm vụ đào tạo giúp giảm thời gian quay vòng tổng thể của đào tạo. Mức giảm này giúp các nhà khoa học dữ liệu điều chỉnh mô hình của họ một cách nhanh chóng. Một số kiểu máy lớn hơn có thể chạy nhiều ngày trên máy chủ GPU đơn nhanh nhất; đào tạo đa nút có thể giảm thời gian xuống hàng giờ hoặc vài phút.
  • Để có thể so sánh được và tuân thủ các quy tắc RCP trong khóa đào tạo MLPerf v1.0, chúng tôi giữ nguyên kích thước lô toàn cầu với hai và ba nút. Cấu hình này được coi là mở rộng quy mô mạnh vì khối lượng công việc và kích thước lô chung không tăng theo số lượng GPU cho cài đặt mở rộng đa nút. Do các ràng buộc của RCP, chúng tôi không thể thấy tỷ lệ tuyến tính.
  • Chúng tôi thấy số lượng thông lượng cao hơn với kích thước lô lớn hơn.
  • Mô hình ResNet50 có quy mô tốt trên máy chủ DSS 8440.

Nói chung, việc thêm nhiều máy chủ DSS 8440 vào một vấn đề đào tạo deep learning lớn sẽ giúp giảm thời gian dành cho các khối lượng công việc đào tạo đó.

Cầu nối NVLink

Cầu nối NVLINK là bảng cầu nối liên kết một cặp GPU để hỗ trợ khối lượng công việc trao đổi dữ liệu thường xuyên giữa các GPU. Các GPU A100 PCIe đó trên máy chủ DSS 8440 có thể hỗ trợ ba cầu cho mỗi cặp GPU. Hình dưới đây cho thấy sự khác biệt đối với mô hình BERT có và không có NVLink Bridges:

Hình 3: Chênh lệch thời gian hội tụ BERT khi không có và có NVLink Bridges trên máy chủ DSS 8440

  • Cầu NVLink cung cấp khả năng hội tụ nhanh hơn 10 phần trăm cho mô hình BERT.
  • Vì cấu trúc liên kết của phần cứng NVLink Bridge tương đối mới, nên có thể có cơ hội để cấu trúc liên kết này chuyển thành mức tăng hiệu suất cao hơn khi phần mềm hỗ trợ hoàn thiện.

Kết luận và công việc trong tương lai

Máy chủ Dell EMC DSS 8440 phù hợp tuyệt vời cho khối lượng công việc đào tạo học sâu hiện đại giúp giải quyết các vấn đề khác nhau bao gồm phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng trọng lượng nhẹ và nặng, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên (NLP), đề xuất và học tăng cường. Các máy chủ này cung cấp thông lượng cao và là một phương tiện có khả năng mở rộng tuyệt vời để chạy các công việc đa nút. Họ cung cấp hội tụ nhanh hơn trong khi đáp ứng các hạn chế đào tạo. Kết hợp Cầu nối NVLink với bộ tăng tốc NVIDIA A100 PCIE có thể cải thiện thông lượng cho các mô hình giao tiếp giữa các GPU cao hơn như BERT. Hơn nữa,

Với sự hỗ trợ gần đây của GPU A100-PCIe-80GB trên máy chủ DSS8440, chúng tôi dự định tiến hành các điểm chuẩn đào tạo MLPerf với 10 GPU trong mỗi máy chủ, điều này sẽ cho phép chúng tôi cung cấp so sánh về hiệu suất mở rộng và mở rộng quy mô.