Tóm tắt

Lần đầu tiên, phiên bản mới nhất của chuẩn mực MLPerf™ inference v3.1 bao gồm mô hình GPT-J để thể hiện hiệu suất của mô hình ngôn ngữ lớn (LLM) trên các hệ thống khác nhau. Là một thành viên chủ chốt trong liên minh MLPerf kể từ phiên bản 0.7, Dell Technologies đã trở lại với những cập nhật thú vị về việc nộp mô hình GPT-J gần đây trong MLPerf Inference v3.1. Trong bài viết này, chúng tôi sẽ phân tích ý nghĩa của những con số mới này và trình bày những cải tiến mà Dell Technologies đã đạt được với máy chủ Dell PowerEdge XE9680.

Suy luận MLPerf v3.1

Suy luận MLPerf là một bài kiểm tra chuẩn hóa dành cho các hệ thống học máy (ML), cho phép người dùng so sánh hiệu suất trên các loại phần cứng máy tính khác nhau. Bài kiểm tra này giúp xác định hiệu suất của các mô hình, chẳng hạn như GPT-J, trên các máy khác nhau. Các bài viết trước đây cung cấp phần giới thiệu chi tiết về suy luận MLPerf. Để biết thông tin chi tiết, hãy xem phần Giới thiệu về Hiệu suất suy luận MLPerf v1.0 với Máy chủ Dell . Để biết hướng dẫn từng bước về cách chạy bài kiểm tra chuẩn, hãy xem phần Chạy bài kiểm tra chuẩn mực suy luận MLPerf v1.0 trên Hệ thống Dell . Phiên bản suy luận v3.1 là bài kiểm tra suy luận thứ bảy mà Dell Technologies tham gia. Bài kiểm tra này hiển thị hiệu suất hệ thống mới nhất cho các tác vụ và mô hình học sâu (DL) khác nhau.

Máy chủ Dell PowerEdge XE9680

Máy chủ PowerEdge XE9680 là máy chủ rack 6U làm mát bằng không khí, hai ổ cắm mới nhất của Dell, được thiết kế để đào tạo và suy luận cho các mô hình ML và DL lớn đòi hỏi khắt khe nhất.

Hình 1. Máy chủ Dell PowerEdge XE9680

Các tính năng chính của hệ thống bao gồm:

Hai bộ xử lý Intel Xeon thế hệ thứ 4 có khả năng mở rộng
Lên đến 32 khe cắm DDR5 DIMM
Tám GPU NVIDIA HGX H100 SXM 80 GB
Lên đến 10 khe cắm PCIe Gen5 để hỗ trợ các thiết bị PCIe Gen5 mới nhất và mạng, cho phép thiết kế mạng linh hoạt
Tối đa tám ổ SSD U.2 SAS4/SATA (với ổ đĩa fPERC12)/ NVMe (PSB trực tiếp) hoặc tối đa 16 ổ đĩa E3.S NVMe (PSB trực tiếp)
Thiết kế để đào tạo và suy luận các mô hình ML và DL lớn đòi hỏi khắt khe nhất và chạy khối lượng công việc HPC chuyên sâu về tính toán

Hình ảnh sau đây hiển thị một GPU NVIDIA H100 SXM duy nhất:

Hình 2. GPU NVIDIA H100 SXM

Mô hình GPT-J để suy luận

Các mô hình ngôn ngữ lấy token làm đầu vào và dự đoán xác suất của token hoặc các token tiếp theo. Phương pháp này được sử dụng rộng rãi để tạo bài luận, phát triển mã, dịch ngôn ngữ, tóm tắt và thậm chí hiểu các chuỗi di truyền. Mô hình GPT-J trong MLPerf inference v3.1 có 6 tham số B và thực hiện các tác vụ tóm tắt văn bản trên tập dữ liệu CNN-DailyMail. Mô hình có 28 lớp biến đổi và độ dài chuỗi là 2048 token.

Cập nhật hiệu suất

Kết quả suy luận MLPerf v3.1 chính thức cho tất cả các hệ thống Dell được công bố tại https://mlcommons.org/benchmarks/inference-datacenter/ . ID hệ thống PowerEdge XE9680 là ID 3.1-0069.

Sau khi gửi mô hình GPT-J, chúng tôi đã áp dụng bản cập nhật firmware mới nhất cho máy chủ PowerEdge XE9680. Hình ảnh sau đây cho thấy hiệu suất đã được cải thiện:

Hình 3. Cải tiến máy chủ PowerEdge XE9680 trên GPT-J Datacenter 99 và 99.9, các tình huống Máy chủ và Ngoại tuyến [1]

Trong cả hai kịch bản Máy chủ 99 và 99.9, hiệu suất đều tăng từ 81,3 lên mức ấn tượng 84,6. Sự chênh lệch 4,1 phần trăm này thể hiện khả năng của máy chủ khi xử lý các yêu cầu được cung cấp ngẫu nhiên trong giới hạn độ trễ do MLPerf xác định. Trong các kịch bản Ngoại tuyến, hiệu suất tăng đáng kể 5,3 phần trăm từ 101,8 lên 107,2. Những kết quả này cho thấy máy chủ thậm chí còn hiệu quả hơn và có khả năng xử lý khối lượng công việc LLM theo lô.

Lưu ý : Để biết chi tiết về cấu hình máy chủ PowerEdge XE9680, hãy xem https://github.com/mlcommons/inference_results_v3.1/blob/main/closed/Dell/systems/XE9680_H100_SXM_80GBx8_TRT.json

Phần kết luận

Bài viết này tập trung vào các bản cập nhật của mô hình GPT-J trong bản đệ trình v3.1, tiếp tục hành trình trải nghiệm của Dell với suy luận MLPerf. Chúng tôi đã nêu bật những cải tiến được thực hiện trên máy chủ PowerEdge XE9680, thể hiện cam kết của Dell trong việc vượt qua giới hạn của các tiêu chuẩn ML. Khi công nghệ phát triển, Dell Technologies vẫn là công ty dẫn đầu, không ngừng đổi mới và mang lại kết quả vượt trội.