MLPerf Training v3.0 vừa được phát hành và kết quả của Dell Technologies đang tỏa sáng hơn bao giờ hết. Nội dung gửi của chúng tôi bao gồm kết quả kiểm tra điểm chuẩn từ các máy chủ thế hệ mới mới ra mắt gần đây, chẳng hạn như máy chủ Dell PowerEdge XE9680, XE8640 và R760xa cũng như thế hệ máy chủ trước đây của chúng tôi, chẳng hạn như máy chủ PowerEdge XE8545 và R750xa. Nội dung gửi của chúng tôi bao gồm các trường hợp sử dụng khác nhau trong tiêu chuẩn đào tạo MLPerf như phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng có trọng lượng nhẹ và nặng, nhận dạng giọng nói, NLP và đề xuất. Chúng tôi khuyến khích bạn đọc sách trắng trước đây của chúng tôi về MLPerf Training v2.0, trong đó giới thiệu tiêu chuẩn đào tạo MLPerf. Những điểm chuẩn này đóng vai trò là tài liệu tham khảo về loại hiệu suất mà khách hàng có thể mong đợi.
Dell Technologies cũng đã công bố Project Helix , giới thiệu một giải pháp mà khách hàng có thể sử dụng để chạy khối lượng công việc AI tổng hợp của họ.
Có gì mới với MLPerf Training 3.0 do Dell gửi?
Các tính năng mới cho lần gửi này bao gồm:
- Cải thiện đáng kể hiệu suất đạt được.
- Kết quả bao gồm GPU NVIDIA H100 Tensor Core . Kết quả của chúng tôi bao gồm việc gửi tới điểm chuẩn DLRMv2 mới được giới thiệu, có mã hóa đa điểm.
- Gửi đào tạo lần đầu sử dụng máy chủ Dell PowerEdge thế hệ mới.
- Kết quả đa nút đầu tiên và duy nhất sử dụng kết cấu kết nối Cornelis Omnipath.
- Nhiều kết quả đa nút hơn bằng cách sử dụng các loại vải kết nối khác nhau.
Tổng quan về kết quả
Dell Technologies đã gửi tổng cộng 91 kết quả, số lượng kết quả cao nhất so với những người gửi khác, chiếm hơn một phần ba tổng số kết quả của bộ phận đóng. Những kết quả này được gửi bằng cách sử dụng 27 hệ thống khác nhau. Kết quả nổi bật nhất là từ các máy chủ Dell PowerEdge XE9680, XE8640 và R760xa với bộ tăng tốc dựa trên hệ số dạng NVIDIA H100 PCIe và NVIDIA H100 SXM mới. Kết quả bao gồm nhiều nút. Các bộ tăng tốc khác bao gồm các hệ số dạng NVIDIA A100 PCIE và SXM.
Các điểm dữ liệu thú vị bao gồm:
- Trong số các máy chủ khác có bốn GPU có bộ tăng tốc NVIDIA H100 PCIe, máy chủ Dell PowerEdge R760xa có thời gian hội tụ thấp nhất trong các tiêu chuẩn MaskRCNN, ResNet và UNet-3D. Tương tự, đối với bốn bộ tăng tốc NVIDIA H100 SXM, máy chủ PowerEdge XE8640 có thời gian hội tụ thấp nhất với các điểm chuẩn BERT, DLRMv2, ResNet và UNet-3D.
- Máy chủ Dell PowerEdge R760xa có PCIe Gen 5, cho phép đào tạo đa GPU nhanh hơn. Nội dung gửi của chúng tôi bao gồm các máy chủ PowerEdge R750xa và R760xa có cùng bộ tăng tốc để cho thấy mức tăng hiệu suất mà khách hàng có thể mong đợi.
- MLPerf Training 3.0 là lần đầu tiên Dell Technologies thực hiện trình tăng tốc hệ số dạng NVIDIA SXM tám chiều cho khối lượng công việc đào tạo. Máy chủ Dell PowerEdge XE9680 với tám GPU NVIDIA HGX H100 SXM có thời gian hội tụ điểm chuẩn ResNet-50 thấp nhất trong số các cấu hình tám GPU và đã hoạt động chặt chẽ so với các hệ thống NVIDIA HGX khác trên các điểm chuẩn khác.
- Kết quả đa nút cho thấy tỷ lệ gần như tuyến tính, cho thấy khách hàng có thể đạt được giá trị nhanh hơn với tất cả khối lượng công việc. Các lần gửi đa nút này bao gồm các kết nối khác nhau như InfiniBand và Cornelis Omnipath, cho phép khách hàng thực hiện sự cân bằng.
- Kết quả cho các máy chủ Dell PowerEdge khác nhau hiển thị TDP tăng tốc khác nhau đã được gửi. Những kết quả này rất hữu ích cho các tình huống trong đó trung tâm dữ liệu bị hạn chế về năng lượng. Những kết quả này giúp đưa ra quyết định FLOPS trên mỗi watt.
- Việc gửi máy chủ dựa trên Intel và AMD cho phép khách hàng xem CPU có thể ảnh hưởng đến quá trình đào tạo như thế nào.
- Kết quả của chúng tôi không chỉ bao gồm các hệ thống khác nhau mà còn vượt quá mức tăng hiệu suất so với vòng trước do thế hệ tăng tốc phần cứng mới hơn từ máy chủ và trình tăng tốc mới hơn.
Hình 1: Các hệ thống Dell được sử dụng cho điểm chuẩn ResNet, MaskRCNN và BERT
Hình 2: Hệ thống Dell được sử dụng cho các điểm chuẩn SSD, RNN-T, UNnet-3D và DLRM
Hình 1 và Hình 2 liệt kê các hệ thống và GPU NVIDIA tương ứng đã được sử dụng trong các thử nghiệm. Chúng tôi thấy rằng nhiều hệ thống khác nhau với GPU NVIDIA khác nhau đã được sử dụng cho các trường hợp sử dụng khác nhau, chẳng hạn như ResNet-50, MaskRCNN, BERT, SSD, RNN-T, UNet-3D và DLRMv2. Tất cả các hệ thống đều hoạt động tối ưu và có thời gian hội tụ thấp. Những kết quả này cũng bao gồm các kết quả đa nút.
Máy chủ duy nhất có thời gian hội tụ thấp nhất là máy chủ Dell PowerEdge XE9680, mang lại giá trị đáng kinh ngạc cho khối lượng công việc đào tạo và suy luận. Các hệ thống này có quy mô tốt và đáp ứng nhu cầu hiện tại về tính toán rất cao. Khối lượng công việc AI lớn, bao gồm đào tạo AI tổng quát (LLM) quy mô lớn, có thể được đào tạo trên nhiều máy chủ PowerEdge XE9680.
Hình dưới đây cho thấy sự cải thiện về hiệu suất so với lần gửi trước. Nó cho thấy kết quả gửi đào tạo hệ thống đơn của Dell tốt nhất so với vòng gửi trước đó.
Hình 3: Hệ số cải thiện hiệu năng sử dụng máy chủ Dell PowerEdge XE9680 với máy chủ Dell PowerEdge XE8545 thế hệ trước làm cơ sở cho các benchmark khác nhau
Hình này cho thấy mức tăng hiệu suất mà khách hàng có thể mong đợi nếu họ nâng cấp lên thế hệ máy chủ mới nhất. Lưu ý rằng máy chủ thế hệ mới nhất, máy chủ Dell PowerEdge XE9680, có tám GPU NVIDIA H100 SXM; máy chủ Dell PowerEdge XE8545 thế hệ trước có bốn GPU NVIDIA A100 SXM.
Sự cải thiện nhiều nhất ở mức 846% được quan sát thấy với điểm chuẩn SSD, tiếp theo là điểm chuẩn BERT ở mức 611%. Các tiêu chuẩn khác mang lại sự cải thiện lớn hơn 230%. Những kết quả này rất có ý nghĩa. Thời gian đào tạo được cải thiện gấp đôi đồng nghĩa với việc có nhiều thời gian hơn cho các khối lượng công việc khác trong trung tâm dữ liệu, mang lại thời gian nhanh hơn để tạo ra giá trị cho doanh nghiệp. Với khả năng tăng tốc này, khách hàng có thể mong đợi quá trình tạo mẫu, đào tạo mô hình nhanh hơn và đẩy nhanh quy trình MLOps của họ.
Phần kết luận
Chúng tôi đã gửi kết quả tuân thủ cho điểm chuẩn MLCommons Training 3.0. Những kết quả này rất nhiều, sử dụng các máy chủ khác nhau được cung cấp bởi GPU NVIDIA. Kết quả cho thấy việc chia tỷ lệ đa nút là tuyến tính, trong đó nhiều máy chủ hơn có thể giúp giải quyết vấn đề nhanh hơn. Việc có được nhiều kết quả khác nhau giúp khách hàng chọn được máy chủ tốt nhất cho trung tâm dữ liệu của mình để triển khai khối lượng công việc đào tạo. Các máy chủ thế hệ mới hơn như máy chủ Dell PowerEdge XE9680, XE8640 và R760xa đều mang lại hiệu suất cao đồng thời phá vỡ các kỷ lục MLCommons trong các trường hợp sử dụng khác nhau như phân loại hình ảnh, phân đoạn hình ảnh y tế, phát hiện đối tượng trọng lượng nhẹ và nặng, nhận dạng giọng nói, NLP và đề xuất. Hơn nữa, Project Helix cung cấp cho khách hàng một cách hiệu quả để thu được giá trị từ AI tổng hợp. Các doanh nghiệp có thể kích hoạt quá trình chuyển đổi AI của mình với Dell Technologies một cách hiệu quả để có thời gian định giá nhanh hơn nhằm phù hợp với nhu cầu của họ.
Bài viết mới cập nhật
Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)
Trong quy trình làm việc NDU, các nút được khởi động ...
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...