Hiệu suất máy chủ Dell sử dụng điểm chuẩn MLPerf™ Training v3.0

Giới thiệu

Các ứng dụng học sâu đang trên đà tăng trưởng theo cấp số nhân liên tục. Sự tăng trưởng này thậm chí còn lan rộng hơn với sự ra đời của khối lượng công việc AI tổng hợp. Khối lượng công việc học sâu, bao gồm cả khối lượng công việc AI tổng quát, đòi hỏi khả năng tính toán chuyên sâu để đào tạo. Sách trắng này cung cấp kết quả về hiệu suất mà khách hàng có thể mong đợi với thế hệ máy chủ Dell PowerEdge mới cho phép đào tạo khối lượng công việc máy học nhanh hơn. Những con số hiệu suất này cho phép các trung tâm dữ liệu đưa ra quyết định mua và thiết kế tốt hơn.

Trong báo cáo nghiên cứu chuyên sâu này, chúng tôi phác thảo hiệu suất hệ thống của các máy chủ sử dụng điểm chuẩn MLPerf Training v3.0 được phát hành gần đây. Máy chủ Dell mang lại hiệu suất vượt trội trên các khối lượng công việc khác nhau như phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng có trọng lượng nhẹ và nặng, nhận dạng giọng nói, NLP và đề xuất. Khách hàng có thể tham khảo dữ liệu này để dự đoán khả năng tăng tốc khối lượng công việc nhằm phản ánh cài đặt của họ.

 

Giới thiệu khóa đào tạo MLPerf

MLCommons™ là một nhóm kỹ thuật mở gồm các chuyên gia về học sâu tập trung vào việc cải thiện quy trình học máy liên quan đến khả năng tăng tốc hệ thống, khả năng truy cập dễ dàng và tiêu chuẩn hóa công cụ học sâu. Nó được thành lập bởi các chuyên gia từ các lĩnh vực khác nhau như các công ty quy mô lớn, các công ty khởi nghiệp, học giả và viện nghiên cứu. MLCommons lưu trữ các điểm chuẩn MLPerf với mục đích tạo ra các điểm chuẩn hiệu quả. Các điểm chuẩn này nhằm mục đích tương quan với các trường hợp sử dụng trong thế giới thực mà khách hàng thường xuyên gặp phải trong cài đặt trung tâm dữ liệu của họ.

Điểm chuẩn Đào tạo MLPerf nhằm mục đích thể hiện hợp lý khối lượng công việc không chỉ yêu cầu thông lượng cao và khả năng tính toán cao mà còn đạt được chỉ số hội tụ mục tiêu dự kiến. Nó đo thời gian hội tụ. MLPerf không đo thông lượng hệ thống làm thước đo chính vì thông lượng có thể dễ dàng bị thao túng bằng cách tăng kích thước lô. Sự hội tụ không thể dễ dàng bị thao túng như thông lượng.

Đào tạo MLPerf bao gồm hai phần: Mở và Đóng.

Bộ phận Mở hỗ trợ các kiến ​​trúc mô hình mới, cơ chế cập nhật mô hình (bộ tối ưu hóa) và các nghiên cứu khác nhằm đạt được chất lượng dịch vụ mục tiêu (độ chính xác).

Nội dung gửi của chúng tôi tới chương trình đào tạo MLPerf là ​​dành cho Bộ phận Đóng, trong đó nội dung gửi đảm bảo việc so sánh có thể được thực hiện tương tự giữa những người gửi bộ phận Đóng khác. Bộ phận Đóng bắt buộc các nội dung gửi phải tuân theo cùng một quy trình xử lý trước tập dữ liệu, mô hình, phương pháp đào tạo và mục tiêu chất lượng như cách triển khai tham chiếu. Ví dụ: siêu tham số phải giống với cách triển khai tham chiếu. Siêu tham số bao gồm các trình tối ưu hóa được sử dụng và các giá trị như định mức chính quy và phân rã trọng số. Các định dạng số fp64, fp32, tf32, fp16, fp8, bfloat16, int8, uint8, int4 và uint4 đã được phê duyệt trước để sử dụng. Các định dạng bổ sung yêu cầu sự chấp thuận rõ ràng.

Bảng sau liệt kê các điểm chuẩn có sẵn để gửi và mục tiêu chất lượng mong đợi tương ứng của chúng. Để nội dung gửi có giá trị, độ chính xác của mô hình cụ thể đó phải hội tụ đến mục tiêu chất lượng được chỉ định.

Bảng 1.     Điểm chuẩn có sẵn trong MLPerf Training v3.0

Khu vực

Vấn đề

Người mẫu

Mục tiêu

Tầm nhìn

Phân loại hình ảnh

ResNet-50 v1.5

Phân loại 75,90%

Phân đoạn hình ảnh (y tế)

U-Net3D

0,908 Điểm DICE trung bình

Phát hiện đối tượng (trọng lượng nhẹ)

SSD (RetinaNet)

34,0% mAP

Phát hiện đối tượng (trọng lượng nặng)

Mặt nạ R-CNN

0,377 AP tối thiểu hộp và 0,339 AP tối thiểu mặt nạ

Ngôn ngữ

Nhận dạng giọng nói

RNN-T

Tỷ lệ lỗi từ 0,058

NLP

BERT

Độ chính xác 0,720 Mask-LM

Mô hình ngôn ngữ lớn

GPT3

2,69 sự phức tạp của nhật ký

thương mại

Sự giới thiệu

DLRMv2 (DCNv2)

0,80275 AUC

Bảng sau đây hiển thị số lần chạy dự kiến ​​​​tối thiểu cho điểm chuẩn hợp lệ trong phần Đóng:

Ban 2.     Số lần chạy dự kiến ​​tối thiểu

Khu vực

Vấn đề

Số lần chạy tối thiểu

Tầm nhìn

Phân loại hình ảnh

5

Phân đoạn hình ảnh (y tế)

40

Phát hiện đối tượng (trọng lượng nhẹ)

5

Phát hiện đối tượng (trọng lượng nặng)

5

Ngôn ngữ

NLP

10

Nhận dạng giọng nói

10

Mô hình ngôn ngữ lớn

3

thương mại

Sự giới thiệu

10

Bộ đào tạo MLPerf sử dụng trình kiểm tra tuân thủ để đảm bảo rằng việc gửi bài được thực hiện theo tiêu chuẩn một cách công bằng. Việc kiểm tra này diễn ra thông qua gói và trình kiểm tra RCP. Trình kiểm tra gói đảm bảo rằng các tiêu chí mong đợi được đáp ứng, như được xác định bởi quy tắc phân chia khép kín.

Trình kiểm tra RCP đảm bảo rằng độ hội tụ của điểm chuẩn được gửi không sai lệch so với độ hội tụ của tham chiếu. Mục đích của nó là để tránh trường hợp tốc độ hội tụ đệ trình nhanh hơn tham chiếu. Sự hội tụ triển khai tham chiếu đặt ra giới hạn dưới cho sự hội tụ kỷ nguyên mà một lần gửi hợp lệ không được vượt qua.

 

Các tính năng mới

Các tính năng mới cho lần gửi này bao gồm:

  • Cải thiện đáng kể hiệu suất đạt được.
  • Kết quả bao gồm GPU NVIDIA H100 Tensor Core. Kết quả của chúng tôi bao gồm việc gửi tới điểm chuẩn Mô hình đề xuất học tập sâu v2 (DLRMv2) mới được giới thiệu, có mã hóa đa điểm.
  • Gửi đào tạo lần đầu sử dụng máy chủ Dell PowerEdge thế hệ mới.

Sự tăng trưởng của MLPerf

Giới thiệu

MLPerf đang phát triển với tốc độ chóng mặt. Các nhà phân tích thị trường khác nhau, bao gồm Hyperion Research, IDC, v.v., đều đồng ý rằng sự tăng trưởng này xác nhận rằng MLPerf thực sự là một chuẩn mực hữu ích để đưa ra những so sánh công bằng và quyết định mua hàng. Những so sánh này đặc biệt hữu ích để nhận ra rằng các nhà cung cấp và OEM khác nhau hợp tác để tạo ra một hệ thống hiệu suất cao. Nhờ sự phát triển của nó, số lượng kết quả được gửi tới MLPerf đã tăng khoảng 30% cho vòng gửi này. 

Hơn nữa, một số khách hàng sử dụng MLPerf làm điểm đầu vào để đánh giá hiệu suất mà họ có thể mong đợi từ hệ thống mới mà họ dự định mua. Việc mua lại có thể là một máy chủ Dell mới hoặc một bộ tăng tốc NVIDIA mới hoặc một hệ thống tổng thể bao gồm máy chủ và bộ tăng tốc. Tất cả các điểm dữ liệu này cho phép đưa ra quyết định tốt hơn về thiết kế trung tâm dữ liệu và đầu tư phần cứng. 

Tất cả các nội dung gửi của Dell tới MLPerf Training v3.0 đều bao gồm các bộ tăng tốc NVIDIA. Các trình tăng tốc này cho phép toàn bộ các trường hợp sử dụng được thấy trong điểm chuẩn đào tạo MLPerf chạy với thời gian hội tụ nhanh hơn. Với sự ra đời của các mô hình mới như DLRMv2, đào tạo LLM mô hình ngôn ngữ lớn đang là động lực thú vị để khách hàng tham khảo. Những điểm chuẩn lớn này mô hình hóa các mẫu truy cập dữ liệu, tính toán hành vi sử dụng và các vấn đề phức tạp khác liên quan đến việc đào tạo các khối lượng công việc này.

Hình dưới đây cho thấy tỷ lệ phần trăm bài nộp được lấy từ số lượng kết quả Phân chia kín. Dell Technologies đã đưa ra nhiều kết quả; chúng tôi đã gửi một phần ba tổng số kết quả, tiếp theo là NVIDIA. 

Biểu đồ có nhiều vòng tròn màuMô tả được tạo tự động

Hình 1.   Kết quả phép chia kín được biểu thị bằng phần trăm

Thật đáng khích lệ khi thấy một số lượng đáng kể các bài gửi từ những người gửi mới. Sự bổ sung này thúc đẩy nhiều kết quả tập thể hơn và nhiều cơ hội hơn để đạt được kết quả cụ thể, nếu cần. Ví dụ: với số lượng kết quả lớn hơn, có thể thu được một điểm dữ liệu cụ thể về ResNet bằng một máy gia tốc cụ thể.