Máy chủ Dell EMC Excel trong Điểm chuẩn đào tạo MLPerf™ v1.0

Dell Technologies đã gửi kết quả đào tạo MLPerf v1.0. Blog này cung cấp giải thích về những điểm mới trong chương trình đào tạo MLPerf v1.0 và tổng quan cấp cao về các nội dung gửi của chúng tôi. Kết quả chỉ ra rằng máy chủ Dell EMC DSS8440 và PowerEdge XE8545 mang lại hiệu suất đầy hứa hẹn cho khối lượng công việc đào tạo Deep Learning trên các lĩnh vực khác nhau.

MLCommons™ là một cộng đồng bao gồm một nhóm các chuyên gia trong ngành Machine Learning/Deep Learning từ các lĩnh vực khác nhau trong công nghệ AI. Nó bao gồm các chuyên gia từ ngành công nghiệp, học viện, công ty khởi nghiệp và các nhà nghiên cứu cá nhân. MLPerf™ Training là bộ thử nghiệm do cộng đồng hướng dẫn, tập trung vào đào tạo học sâu. Bộ thử nghiệm này nhằm mục đích đo lường tốc độ một hệ thống có thể đào tạo các mô hình học sâu qua tám loại vấn đề khác nhau:

  • Phân loại hình ảnh
  • Phân đoạn hình ảnh y tế 
  • Phát hiện vật thể nhẹ
  • Phát hiện vật thể nặng
  • Nhận dạng giọng nói
  • Xử lý ngôn ngữ tự nhiên
  • Sự giới thiệu
  • Học tăng cường 

Các điểm chuẩn này cung cấp một cách nhất quán và có thể lặp lại để đo lường độ chính xác và độ hội tụ trên các máy gia tốc, hệ thống và thiết lập đám mây riêng lẻ. Kể từ tháng 6 năm 2021, MLPerf™ Training đã công bố kết quả v1.0 mới nhất trong vòng gửi thứ tư của MLPerf Training. Những thay đổi sau đây là mới với v1.0:

  • Bổ sung hai điểm chuẩn: 
    • RNN-T —RNN-T là mô hình nhận dạng giọng nói. Nhận dạng giọng nói chấp nhận các mẫu âm thanh thô và tạo ra bản phiên âm văn bản tương ứng. Nó sử dụng tập dữ liệu Libri-speech, có nguồn gốc từ sách nói. Một ví dụ về việc sử dụng nhận dạng giọng nói là Tìm kiếm bằng giọng nói của Google.
    • 3D-UNet —3D-Unet là mô hình phân đoạn hình ảnh y tế 3D. Nó chấp nhận hình ảnh 3D có chứa khối u; mô hình phân chia (hoặc phân đoạn) khối u khỏi các phần khác trong hình ảnh. Nó sử dụng bộ dữ liệu KiTs19. Một ví dụ về việc sử dụng phân đoạn hình ảnh y tế 3D là để xác định khối u thận. 
  • Giới thiệu một quy trình thống nhất và hoàn thiện hơn để đánh giá và nộp hồ sơ: 
    • Trình kiểm tra Điểm hội tụ tham chiếu (RCP) để đảm bảo các siêu tham số được đánh giá một cách nhất quán và thống nhất trên các lần gửi khác nhau.  
    • Các công cụ kiểm tra khác như trình kiểm tra tuân thủ, trình kiểm tra mô tả hệ thống và trình kiểm tra gói để kiểm tra tính chính xác của việc gửi. 
    • Trình tóm tắt kết quả để cung cấp bản tóm tắt nội dung gửi. 
  • Gỡ bỏ hai điểm chuẩn dịch ngôn ngữ từ v0.7: 
    • GNMT 
    • Máy biến áp

BERT đóng vai trò thay thế cho các tác vụ mô hình ngôn ngữ. 

Hình dưới đây minh họa các con số từ điểm chuẩn Deep Learning v1.0 do Dell Technologies gửi:

Hình 1: Kết quả MLPerf v1.0 từ Dell Technologies   

Đóng góp từ Dell Technologies  

Nội dung gửi của chúng tôi tập trung vào máy chủ Dell EMC DSS 8440 và Dell EMC PowerEdge XE8545. Máy chủ DSS 8440 là máy chủ PCIe Gen3 4U dựa trên Intel, hỗ trợ tối đa 10 GPU PCIe rộng gấp đôi, tập trung vào các ứng dụng Machine Learning/Deep Learning như đào tạo. Máy chủ 4U PowerEdge XE8545 hỗ trợ bộ xử lý AMD EPYC thế hệ thứ 3 mới nhất, PCIe Gen4 và GPU NVIDIA A100 Tensor Core mới nhất để đáp ứng khối lượng công việc học máy tiên tiến. Cả hai cấu hình hệ thống này đều được NVIDIA chứng nhận, nghĩa là chúng đã được xác thực để có hiệu suất tốt nhất và khả năng mở rộng tối ưu. Bài gửi từ Dell Technologies cũng bao gồm các mục đào tạo đa nút để thể hiện hiệu suất mở rộng quy mô. 

Đào tạo đa nút là quan trọng. Việc đào tạo đòi hỏi tính toán chuyên sâu, do đó, nhiều nút tính toán hơn được sử dụng trong khi đào tạo mô hình. Vì các nút điện toán bổ sung giúp giảm thời gian quay vòng nên điều quan trọng là phải thể hiện hiệu suất của nhiều nút. Dell Technologies và NVIDIA là những người gửi duy nhất gửi nhiều nút trên GPU. Các bài gửi từ NVIDIA chạy trên Docker với môi trường Slurm tùy chỉnh để tối ưu hóa hiệu suất; chúng tôi đã gửi các bản gửi đa nút với Singularity trên các máy chủ DSS 8440 của chúng tôi cũng như các bản gửi Docker và Slurm trên các máy chủ PowerEdge XE8545. Singularity là một giải pháp đóng gói an toàn chủ yếu được sử dụng trong các cụm GPU HPC truyền thống. Các tập lệnh thiết lập có tính đặc biệt giúp khách hàng HPC truyền thống chạy chương trình Đào tạo MLPerf™ trên cụm của họ mà không cần phải cơ cấu lại toàn bộ thiết lập cụm hiện có của họ. 

Máy chủ PowerEdge XE8545 cung cấp khả năng gửi hiệu suất tốt nhất với giải pháp làm mát bằng không khí cho GPU NVIDIA A100-SXM-80GB 500W. Thông thường, GPU 500W trong hệ thống của hầu hết các nhà cung cấp đều được làm mát bằng chất lỏng do những thách thức do TDP cao đặt ra. Tuy nhiên, Dell Technologies đã đầu tư thời gian thiết kế và kỹ thuật để giải quyết thách thức về nhiệt và cho phép khách hàng tránh phải thực hiện những thay đổi tốn kém đối với việc thiết lập trung tâm dữ liệu tiêu chuẩn. 

Số lần gửi máy chủ DSS 8440 tới MLPerf™ Training v1.0 sử dụng GPU NVIDIA A100 40 GB-PCIe thế hệ mới nhất cho thấy mức tăng từ 2,1 đến 2,4 lần so với số lần gửi MLPerf™ Training v0.7 tương đương sử dụng GPU NVIDIA V100S PCIe. Dell Technologies cam kết mang đến những cải tiến hiệu suất mới nhất cho khách hàng nhanh nhất có thể. 

Trong số 12 tổ chức khác nhau, Dell Technologies và NVIDIA là hai tổ chức duy nhất gửi kết quả cho tất cả tám mô hình trong bộ điểm chuẩn đào tạo MLPerf™ v1.0.  

Bước tiếp theo

Bước tiếp theo, chúng tôi sẽ xuất bản nhiều blog kỹ thuật hơn để cung cấp thông tin chuyên sâu về kết quả máy chủ DSS 8440 và máy chủ PowerEdge XE8545.