Dell Technologies tỏa sáng với kết quả khuếch tán ổn định MLPerf™

Tóm tắt

Bản phát hành gần đây của kết quả MLPerf Training v3.1 bao gồm điểm chuẩn Stable Diffusion mới ra mắt. Tại thời điểm công bố, Dell Technologies dẫn đầu thị trường OEM về điểm chuẩn hiệu suất này trong việc đào tạo mô hình nền tảng AI Tạo sinh, đặc biệt là cho mô hình Stable Diffusion. Với việc nộp máy chủ Dell PowerEdge XE9680, Dell Technologies được đánh giá là nhà cung cấp duy nhất có điểm Stable Diffusion cho hệ thống tám chiều. Thời gian hội tụ khi sử dụng tám GPU NVIDIA H100 Tensor Core là 46,7 phút. 

Tổng quan

Việc triển khai khối lượng công việc AI tạo sinh đang tăng trưởng với tốc độ chưa từng có. Những lý do chính bao gồm năng suất tăng và sự hội tụ ngày càng tăng của đầu vào đa phương thức. Việc tạo nội dung đã trở nên dễ dàng hơn và ngày càng khả thi hơn trong nhiều ngành công nghiệp khác nhau. AI tạo sinh đã hỗ trợ nhiều trường hợp sử dụng trong doanh nghiệp và tiếp tục mở rộng bằng cách khám phá thêm nhiều lĩnh vực mới. Sự tăng trưởng này có thể được quy cho việc chuyển đổi văn bản thành hình ảnh, văn bản thành video và các phương thức khác với độ phân giải cao hơn. Đối với những tác vụ AI ấn tượng này, nhu cầu tính toán thậm chí còn mở rộng hơn nữa. Một số khối lượng công việc AI tạo sinh phổ biến hơn bao gồm chatbot, tạo video, tạo nhạc, tạo tài sản 3D, v.v. 

Stable Diffusion là một mô hình học sâu chuyển đổi văn bản thành hình ảnh, chấp nhận văn bản đầu vào và tạo ra hình ảnh tương ứng. Hình ảnh đầu ra đáng tin cậy và trông chân thực. Đôi khi, khó có thể phân biệt được hình ảnh được tạo ra bằng máy tính. Việc xem xét khối lượng công việc này rất quan trọng do sự phát triển nhanh chóng của các ứng dụng như thương mại điện tử, tiếp thị, thiết kế đồ họa, mô phỏng, tạo video, thời trang ứng dụng, thiết kế web, v.v.  

Vì những khối lượng công việc này đòi hỏi tính toán chuyên sâu để đào tạo, việc đo lường hiệu suất hệ thống trong quá trình sử dụng là rất cần thiết. Là một chuẩn mực đánh giá hệ thống AI, MLPerf đã nổi lên như một phương pháp chuẩn mực để so sánh các bên gửi dữ liệu khác nhau, bao gồm các OEM, nhà cung cấp bộ tăng tốc và các bên khác, theo cách tương tự. 

MLPerf gần đây đã giới thiệu chuẩn Stable Diffusion cho phiên bản 3.1 của MLPerf Training. Chuẩn này đo thời gian hội tụ của một khối lượng công việc Stable Diffusion để đạt được các mục tiêu chất lượng mong đợi. Chuẩn này sử dụng mô hình Stable Diffusion v2 được huấn luyện trên bộ dữ liệu đã lọc LAION-400M . Bộ dữ liệu LAION 400M ban đầu có 400 triệu cặp hình ảnh và văn bản. Một tập con trong số những hình ảnh này (khoảng 6,5 triệu) được sử dụng để huấn luyện trong chuẩn. Bộ dữ liệu xác thực là một tập con gồm 30 nghìn hình ảnh COCO 2014. Các mục tiêu chất lượng mong đợi là FID <= 90 và CLIP >= 0,15.

Hình sau đây cho thấy một mô hình khuếch tán tiềm ẩn [1] : 

Hình minh họa cho thấy một hộp bên trái biểu thị không gian điểm ảnh, một hộp ở giữa biểu thị không gian tiềm ẩn và một hộp bên phải biểu thị điều kiện.

Hình 1: Mô hình khuếch tán tiềm ẩn

[1] Nguồn:   https://arxiv.org/pdf/2112.10752.pdf

Stable Diffusion v2 là một mô hình khuếch tán tiềm ẩn kết hợp bộ mã hóa tự động với một mô hình khuếch tán được huấn luyện trong không gian tiềm ẩn của bộ mã hóa tự động. MLPerf Stable Diffusion tập trung vào mạng khử nhiễu U-Net, có khoảng 865 triệu tham số. Có một số sai lệch so với mô hình v2. Tuy nhiên, những điều chỉnh này là nhỏ và khuyến khích nhiều người nộp bài hơn với các ràng buộc tính toán. 

Bài dự thi sử dụng nền tảng NVIDIA NeMo , đi kèm với NVIDIA AI Enterprise , cho AI sản xuất an toàn, được hỗ trợ và ổn định. Đây là một nền tảng để xây dựng, tùy chỉnh và triển khai các mô hình AI tạo sinh. Nền tảng này bao gồm các nền tảng đào tạo và suy luận, bộ công cụ rào chắn, công cụ quản lý dữ liệu và các mô hình được đào tạo trước, mang đến cho doanh nghiệp một cách dễ dàng, tiết kiệm chi phí và nhanh chóng để áp dụng AI tạo sinh. 

Hiệu suất của máy chủ Dell PowerEdge XE9680 và các GPU khác dựa trên NVIDIA trên Stable Diffusion

Hình ảnh sau đây thể hiện hiệu suất của các hệ thống sử dụng GPU NVIDIA H100 Tensor Core trên chuẩn Stable Diffusion. Bài kiểm tra bao gồm các bài dự thi từ Dell Technologies và NVIDIA, sử dụng số lượng GPU NVIDIA H100 khác nhau. Kết quả hiển thị dao động từ tám GPU (bài dự thi của Dell) đến 1024 GPU (bài dự thi của NVIDIA). Hình ảnh sau đây thể hiện hiệu suất dự kiến ​​của khối lượng công việc này và chứng minh rằng khả năng mở rộng mạnh mẽ có thể đạt được với tổn thất mở rộng thấp hơn.  

Hình minh họa biểu đồ kết quả hiệu năng. Với 8 GPU, giá trị là 46,78. Với 64 GPU, giá trị là 10,02. Với 512 GPU, giá trị là 2,93. Giá trị cho 1024 GPU là 2,47.

Hình 2: Kết quả mở rộng khuếch tán ổn định của MLPerf Training trên GPU NVIDIA H100 từ Dell Technologies và NVIDIA

Người dùng cuối có thể sử dụng công nghệ tính toán hiện đại để rút ngắn thời gian tạo ra giá trị.

Phần kết luận

Những điểm chính cần lưu ý bao gồm:

  • Phiên bản MLPerf Training v3.1 mới nhất được phát hành đo lường khối lượng công việc AI tạo ra như Stable Diffusion.
  • Dell Technologies là nhà cung cấp OEM duy nhất đã nộp hồ sơ Stable Diffusion tuân thủ MLPerf.
  • Máy chủ Dell PowerEdge XE9680 là lựa chọn tuyệt vời để khai thác giá trị từ khối lượng công việc AI tạo hình ảnh cho tiếp thị, nghệ thuật, chơi game, v.v. Kết quả benchmark rất xuất sắc đối với Stable Diffusion v2.