Dell củng cố vị trí dẫn đầu về tiêu chuẩn TPCx-AI của mình bằng cách sử dụng Nền tảng phần cứng 16G PowerEdge R6625 tại SF1000

Tổng quan

Vào ngày 13-06-2023, Dell Technologies đã công bố kết quả TPCx-AI SF1000 dựa trên nền tảng phần cứng 11 x Dell PowerEdge R6625 được hỗ trợ bởi bộ xử lý AMD Genoa. Tính đến ngày công bố, kết quả của Dell giữ vị trí số một trên bảng Hiệu suất và Giá/Hiệu suất Hàng đầu cho TPCx-AI trên SF3, SF100, SF300 và SF1000. Những kết quả này củng cố vị trí dẫn đầu về điểm chuẩn TPCx-AI của Dell Technologies; tuyên bố về hiệu suất tuyệt vời mà các giải pháp AI, ML và DL mang lại.

Blog này trình bày nền tảng phần cứng đã được thử nghiệm, những gì được đo lường và kết quả có ý nghĩa gì.

Các bài kiểm tra TPCx-AI đo lường điều gì

TPCx-AI đo lường nền tảng khoa học dữ liệu hoặc học máy từ đầu đến cuối bằng cách sử dụng tập dữ liệu đại diện đa dạng có quy mô từ 1 GB đến 10 TB. Điểm chuẩn TPCx-AI đánh giá các khía cạnh khác nhau của hiệu suất suy luận và đào tạo AI, bao gồm tạo dữ liệu, đào tạo mô hình, phân phát, tính điểm và khả năng mở rộng hệ thống. Điểm chuẩn có thể được sử dụng trên nhiều hệ thống khác nhau từ biên đến trung tâm dữ liệu. Nó nhằm mục đích cung cấp thước đo tiêu chuẩn và khách quan về hiệu suất AI trên các nền tảng và cấu hình khác nhau.

Bằng cách sử dụng TPCx-AI, các tổ chức và nhà cung cấp có thể đưa ra quyết định sáng suốt về cơ sở hạ tầng AI phù hợp nhất với nhu cầu của họ. Điểm chuẩn giúp hiểu rõ khả năng của hệ thống trong việc xử lý khối lượng công việc đào tạo AI quy mô lớn và có thể giúp tối ưu hóa hiệu suất cũng như phân bổ nguồn lực cho các nhiệm vụ AI.

Tiêu chuẩn TPCx-AI xác định 10 trường hợp sử dụng dựa trên quy trình khoa học dữ liệu được mô hình hóa trên trung tâm dữ liệu doanh nghiệp bán lẻ để đánh giá hiệu suất của hệ thống trí tuệ nhân tạo. Khối lượng công việc đào tạo mạng lưới thần kinh sâu trên các tập dữ liệu lớn bằng cách sử dụng các khung học máy nổi bật như TensorFlow. Các biện pháp điểm chuẩn:

  1. Tổng thời gian cần thiết để đào tạo mô hình cho từng trường hợp sử dụng đến mức độ chính xác cụ thể
  2. Thời gian cần thiết để mô hình đó được sử dụng cho việc suy luận hoặc phục vụ

Blog Giải thích kết quả của Điểm chuẩn TPCx-AI nêu ra mười trường hợp sử dụng, mô hình khoa học dữ liệu của chúng và các giai đoạn điểm chuẩn.

 Hệ thống đang được thử nghiệm (SUT)

Hình 1 Hệ thống đang được thử nghiệm (SUT).

Phiên bản phần mềm

 Bảng 1 Phiên bản phần mềm

Phần mềm Phiên bản
Nền tảng dữ liệu Cloudera (CDP) 7.1.7 SP2
Hadoop 3.1.1
HDFS 3.1.1
SỢI 3.1.1
MR2 3.1.1
tia lửa 2.4.7
Người giữ vườn thú 3.5.5
Java 1.8.0
Python 3.7.16
Linux doanh nghiệp mũ đỏ 8.7 (Nút chính)
8.6 (Nút công nhân)
Bộ TPCx-AI 1.0.2

 

Kết quả

Số liệu chính

 Bảng 2 Điểm số liệu chính

Chỉ số chính Điểm
Hiệu suất (AIUCpm@1000) 3.258,01 
Giá/Hiệu suất (USD/AIUCpm@100) 267,96
khả dụng Ngày 13 tháng 6 năm 2023

 Ba số liệu chính trong Bảng 2 là bắt buộc đối với tất cả các kết quả TPC. Mười kết quả hàng đầu, dựa trên hiệu suất hoặc giá/hiệu suất ở một danh mục SF cụ thể, được hiển thị trong các bảng tiêu chuẩn điểm chuẩn tương ứng được phân loại theo số liệu và SF. Để so sánh bất kỳ kết quả nào, cả ba số liệu phải được tiết lộ trong nội dung thông báo. TPC không cho phép so sánh kết quả TPCx-AI từ các loại SF khác nhau. Blog Giải thích kết quả của Điểm chuẩn TPCx-AI đi  sâu vào chi tiết về cách tính toán các chỉ số hiệu suất và giá/hiệu suất. Ngày có hàng là ngày mà tất cả các mục hàng có giá (SKU) đều có sẵn cho khách hàng và phải trong vòng 185 ngày kể từ ngày gửi. Đối với chỉ số hiệu suất, điểm càng cao thì càng tốt. Về giá cả/hiệu năng, càng thấp càng tốt.

Các số liệu khác

 Bảng 3 Các số liệu khác

Hệ mét Điểm
Tổng chi phí hệ thống $872,988
Khung Nền tảng dữ liệu Cloudera SEL Phiên bản cơ sở đám mây riêng
Hệ điều hành Red Hat Enterprise Linux 8.6/8.7
Yếu tố quy mô 1.000
Lưu trữ vật lý chia cho hệ số quy mô 214,56
Hệ số tỷ lệ chia cho bộ nhớ vật lý 0,12
Chế độ dự phòng dữ liệu chính Bản sao 3, RAID 1
Số lượng máy chủ 11
Tổng số bộ xử lý, lõi và luồng 22/704/1.344
Số lượng luồng 4

 Các số liệu trong Bảng 3 phải được báo cáo và công bố trong Báo cáo công bố đầy đủ (FDR) và Tóm tắt điều hành (ES). Ngoại trừ tổng chi phí hệ thống, các số liệu khác này không được sử dụng để tính toán các số liệu chính nhưng cung cấp thông tin bổ sung về hệ thống đã được thử nghiệm. Ví dụ: tổng chi phí hệ thống là tổng chi phí sở hữu (TCO) trong một năm. Các chế độ dự phòng cung cấp các cơ chế bảo vệ dữ liệu được sử dụng trong cấu hình theo yêu cầu của tiêu chuẩn chuẩn. Số lượng luồng đề cập đến số lượng thử nghiệm phân phối đồng thời trong giai đoạn Thông lượng.

Đại lượng bằng số

Thời gian chạy điểm chuẩn

 Bảng 4 Thời gian chạy điểm chuẩn

Chạy chuẩn Thời gian
Điểm chuẩn bắt đầu 07-06-2023 21:35:25
Điểm chuẩn kết thúc 06-08-2023 3:20:10 Sáng
Thời lượng điểm chuẩn                    5:44:45.193

Thời gian giai đoạn chuẩn

Bảng 5 Số liệu giai đoạn chuẩn

Giai đoạn chuẩn tên_chỉ số Giá trị số liệu
Tạo dữ liệu DỮ LIỆU 2419.613
Đang tải dữ liệu TẢI 927,45
Kiểm tra tải TLD 927,45
Luyện tập sức mạnh  TPTT 492.143
Cung cấp điện 1 TPST1 56,998
Cung cấp điện 2 TPST2 57.357
Phục vụ điện TPST 57.357
Thông lượng TTT 43.934
AIUCpm@1000.0 3258.066

Bảy giai đoạn điểm chuẩn và số liệu của chúng được giải thích trong  phần Diễn giải kết quả của Điểm chuẩn TPCx-AI và được thực hiện tuần tự từ quá trình tạo dữ liệu đến kiểm tra thông lượng. Trong đào tạo về năng lượng, các mô hình được tạo và huấn luyện cho từng trường hợp sử dụng một cách tuần tự từ UC1 đến UC10. Trong phân phối điện, các mô hình thu được trong giai đoạn huấn luyện được sử dụng để tiến hành giai đoạn phân phối một cách tuần tự, mỗi lần một trường hợp sử dụng. Có hai bài kiểm tra cung cấp năng lượng. Bài kiểm tra đăng ký thời gian dài hơn sẽ cung cấp số liệu TPST. Giai đoạn thông lượng chạy đồng thời nhiều luồng thử nghiệm phân phát. Số lượng luồng càng nhiều thì tài nguyên hệ thống càng bị đánh thuế. Thông thường, số lượng luồng được tăng lên cho đến khi  TTT n+1  > TTT n  (trong đó  n+1  đề cập đến lần kiểm tra thông lượng tiếp theo). Thời lượng của luồng chạy dài nhất ( TPUT ) được sử dụng để tính toán chỉ số kiểm tra thông lượng TTT. 

Thời gian sử dụng và độ chính xác

Bảng 6 Số lần sử dụng và độ chính xác

Trường hợp sử dụng ĐÀO TẠO PHỤC VỤ_1 PHỤC VỤ_2 Thông lượng
  (trung bình)
Sự chính xác Ngưỡng
1 523.703 51.215 49.736 56.083 -1,00000 -1,0 >= -1
2 1813.764 85.354 88.783 129.274 0,43830 tỷ lệ lỗi từ <= 0,5
3 95,795 12.443 12.811 13,84 4.57451 trung bình_bình phương_log_error <= 5,4
4 59,08 25.475 25.489 31.016 0,71189 f1_score >= 0,65
5 943.023 76.289 78.351 91.615 0,03347 trung bình_bình phương_log_error <= 5,4 <= 0,5
6 435.865 33.135 33.071 37.12 0,21355 matthews_corrcoef >= 0,19
7 43.585 15.317 15.3 17.143 1.65306 lỗi trung bình_tuyệt đối <= 1,8
số 8 1940.283 338.579 341.811 372.418 0,74996 độ chính xác_score >= 0,65
9 5448.735 703.291 699.631 745.458 1,00000 độ chính xác_score >= 0,9
10 818.635 28.326 28.19 31.162 0.81691 độ chính xác_score >= 0,7

 

Bảng 6 cho thấy thời gian chạy ca sử dụng (tính bằng giây) cho từng giai đoạn chuẩn và độ chính xác của mô hình được sử dụng. Ví dụ: mô hình RNN được tạo và huấn luyện cho UC2 ​​có tỷ lệ word_error là 0,4383, thấp hơn (tốt hơn) so với ngưỡng error_rate là 0,5. Mô hình XGBoost được đào tạo cho UC8 có độ chính xác 74,99%, cao hơn và tốt hơn yêu cầu ngưỡng độ chính xác tối thiểu 65%.

Hình 2 Thời gian sử dụng theo giai đoạn chuẩn

Bảng kết quả TPCx-AI SF1000

Bảng 7 hiển thị các bảng TPCx-AI SF1000 hàng đầu kể từ khi blog này xuất bản.

Bảng 7 Bảng hiệu suất hàng đầu của SF1000

Bảng 8 Bảng giá/hiệu suất hàng đầu

Bảng 7 và Bảng 8 tương tự nhau. Trong số 4 kết quả được công bố tại SF1000, nền tảng phần cứng của Dell Technologies giữ vị trí số 1, số 2 và số 3 trên cả bảng hiệu năng và giá/hiệu năng. Sự khác biệt chính giữa ba kết quả hàng đầu là thế hệ bộ xử lý:

  • Kết quả số 1 sử dụng vi xử lý AMD Genoa thế hệ thứ 4
  • Kết quả số 2 sử dụng bộ vi xử lý Intel Ice Lake thế hệ thứ 3
  • Kết quả số 3 sử dụng bộ xử lý Intel Cascade Lake thế hệ thứ 2

Bài học chính

  1. Dell thống trị các bảng hiệu suất và giá/hiệu suất hàng đầu của TPCx-AI ở SF3, SF100, SF300 và SF1000.
  2. Hiệu suất TPCx-AI được cải thiện đáng kể trên nền tảng phần cứng Dell thế hệ mới hơn có bộ xử lý thế hệ mới hơn:
    1. Có sự cải thiện hiệu suất 60,71% giữa các nền tảng phần cứng được cung cấp bởi bộ xử lý thế hệ thứ 2 (14G)  (15G) thế hệ thứ 3 .
    2. Có sự cải thiện 37,13% giữa bộ xử lý thế hệ thứ 3 và thế hệ thứ 4 (16G ) .
  3. Giá/hiệu năng TPCx-AI được cải thiện đáng kể giữa các thế hệ bộ xử lý của nền tảng phần cứng Dell 14G, 15G và 16G:
    1. Giá/hiệu suất giảm 14,80% so với các nền tảng phần cứng được cung cấp bởi bộ xử lý thế hệ thứ 2 xuống thế hệ thứ 3 .
    2. Giá/hiệu suất giảm 27,08% từ bộ xử lý thế hệ thứ 3 xuống thế hệ thứ 4 .
  4. Yếu tố hình thức của nền tảng phần cứng đã giảm:
    1. Kết quả Dell 14G TPCx-AI SF1000 sử dụng server 2U
    2. Kết quả 15G và 16G sử dụng máy chủ 1U và đạt hiệu suất cũng như giá/hiệu suất tốt hơn
  5. Việc sử dụng bộ lưu trữ dữ liệu NVMe đạt được các chỉ số về giá/hiệu suất tốt hơn:
    1. Kết quả 14G sử dụng ổ cứng
    2. Kết quả 15G và 16G sử dụng ổ dữ liệu NVMe đắt tiền hơn nhưng vẫn đạt được các chỉ số về giá/hiệu suất tốt hơn

Phần kết luận

Blog này đã xem xét chi tiết kết quả hiệu suất TPCx-AI của nền tảng phần cứng Dell 16G PE R6625. Kết quả này đã củng cố vị trí dẫn đầu của Dell Technologies trên bảng hiệu suất TPCx-AI và giá/hiệu suất tại SF1000, bên cạnh các vị trí dẫn đầu tại SF3, SF100 và SF300. Những kết quả này chứng tỏ sự dẫn đầu của Dell Technologies với tư cách là nhà cung cấp các giải pháp AI, ML và DL hiệu suất cao dựa trên dữ liệu hiệu suất có thể kiểm chứng được hỗ trợ bởi một tập đoàn hiệu suất có uy tín, đạt tiêu chuẩn ngành.