Hiệu suất suy luận siêu tốc ở biên sử dụng Dell EMC PowerEdge XE2420 (Bản sửa đổi tháng 6 năm 2021)

Việc triển khai điện toán tại Edge cho phép hiểu biết sâu sắc theo thời gian thực giúp đưa ra quyết định cạnh tranh. Dữ liệu ứng dụng ngày càng đến từ bên ngoài trung tâm dữ liệu cốt lõi (“the Edge”) và việc khai thác tất cả thông tin đó đòi hỏi khả năng tính toán bên ngoài trung tâm dữ liệu cốt lõi. Người ta ước tính rằng 75% dữ liệu do doanh nghiệp tạo ra sẽ được tạo và xử lý bên ngoài trung tâm dữ liệu truyền thống hoặc đám mây vào năm 2025. [1]

Blog này thể hiện tiềm năng hiệu suất năng lượng cao của Dell EMC PowerEdge XE2420, một máy chủ có độ sâu ngắn, thân thiện với biên. Bằng cách sử dụng tối đa bốn GPU NVIDIA T4, XE2420 có thể thực hiện các hoạt động suy luận AI nhanh hơn đồng thời quản lý việc tiêu thụ điện năng một cách hiệu quả. XE2420 có khả năng phân loại hình ảnh ở tốc độ 23.309 hình ảnh/giây trong khi tiêu thụ trung bình 794 watt, đồng thời duy trì hiệu suất tương đương với các máy chủ rack thông thường khác.

Tính năng và khả năng của XE2420

Dell EMC PowerEdge XE2420 là máy chủ hiệu suất cao, sâu 16 inch (400mm) được thiết kế dành riêng cho Edge. XE2420 có các tính năng cung cấp khả năng tính toán dày đặc, quản lý đơn giản hóa và bảo mật mạnh mẽ cho các môi trường biên khắc nghiệt. 

  • Được xây dựng để mang lại hiệu suất: 2U mạnh mẽ, hiệu suất hai ổ cắm với khả năng linh hoạt thêm tối đa bốn bộ tăng tốc cho mỗi máy chủ và bộ nhớ cục bộ tối đa là 132TB. 
  • Được thiết kế cho các môi trường khắc nghiệt : Đã được thử nghiệm theo hướng dẫn của Hệ thống xây dựng thiết bị mạng (NEBS3), với khả năng chịu nhiệt độ hoạt động mở rộng từ 5˚-45˚C và khung viền được lọc tùy chọn để bảo vệ chống bụi. Độ sâu ngắn để thuận tiện cho cạnh và độ trễ thấp hơn.
  • Bảo mật tích hợp và quản lý nhất quán : Bảo mật tích hợp, mạnh mẽ với kiến ​​trúc có khả năng phục hồi không gian mạng và iDRAC9 mới với trải nghiệm quản lý Trung tâm dữ liệu. Có lối đi phía trước và lối đi lạnh có thể sử dụng được để bảo trì dễ dàng.
  • Hiệu suất năng lượng:  Công suất cao cấp hỗ trợ 2x PSU AC 2000W hoặc 2x PSU DC 1100W để hỗ trợ các cấu hình đòi hỏi khắt khe, đồng thời duy trì hoạt động hiệu quả, giảm thiểu tiêu thụ điện năng

XE2420 cho phép bạn sử dụng loại GPU linh hoạt để tăng tốc nhiều khối lượng công việc khác nhau, bao gồm điện toán hiệu năng cao, đào tạo và suy luận deep learning, machine learning, phân tích dữ liệu và đồ họa. Nó có thể hỗ trợ lên đến 2x NVIDIA V100/S PCIe, 2x NVIDIA RTX6000 hoặc lên đến 4x NVIDIA T4. 

Suy luận biên với GPU T4

NVIDIA T4 được tối ưu hóa cho môi trường điện toán phổ thông và đặc biệt phù hợp cho suy luận Edge. Được đóng gói trong hệ số dạng PCIe nhỏ, 70 watt tiết kiệm năng lượng, nó có Lõi Turing Tensor và Lõi RT đa độ chính xác để mang lại hiệu năng suy luận tiết kiệm điện. Kết hợp với các ngăn xếp phần mềm được đóng gói được tăng tốc từ NGC, XE2420 kết hợp với NVIDIA T4 là một giải pháp mạnh mẽ để triển khai ứng dụng AI ở quy mô lớn ở biên. 

Hình 1:  Thông số kỹ thuật của NVIDIA T4

Hình 2: Dell EMC PowerEdge XE2420 w/ 4x T4 & 2x 2.5” SSD

 

Cấu hình đã được thử nghiệm Dell EMC PowerEdge XE2420 MLPerf™ Inference v1.0

Bộ xử lý 2x CPU Intel Xeon Gold 6252 @ 2.10GHz
Kho

 

1 x 2,5″SATA 250GB
1×2,5″NVMe 4TB
Ký ức 12x 32GB 2666MT/giây DDR4 DIMM
GPU 4x NVIDIA T4
hệ điều hành Ubuntu 18.04.4
 

 

Phần mềm

 

 

TenorRT 7.2.3
CUDA 11.1
cuDNN 8.1.1
Trình điều khiển 460.32.03
ĐẠI LÝ 0.30.0
Cài đặt phần cứng ECC bật

 

Các trường hợp sử dụng suy luận ở biên

Khi điện toán tiếp tục mở rộng sang Edge, hiệu suất cao hơn và độ trễ thấp hơn trở nên quan trọng hơn rất nhiều nhằm tăng thông lượng, đồng thời giảm thời gian phản hồi và tiêu thụ điện năng. Một bộ tiêu chuẩn khối lượng công việc suy luận đa dạng và hữu ích là bộ MLPerf™ của  MLCommons™ . Suy luận MLPerf™ thể hiện hiệu suất của hệ thống trong nhiều tình huống triển khai khác nhau, nhằm cung cấp bộ thử nghiệm để cho phép so sánh cân bằng giữa các hệ thống cạnh tranh cùng với kết quả đáng tin cậy, có thể lặp lại. 

Bộ MLPerf™ Inference v1.0 bao gồm nhiều khối lượng công việc khác nhau, bao gồm phân loại hình ảnh, phát hiện đối tượng, xử lý ngôn ngữ tự nhiên, chuyển giọng nói thành văn bản, đề xuất và phân đoạn hình ảnh y tế. Các kịch bản trung tâm dữ liệu cụ thể được đề cập bao gồm “ngoại tuyến”, đại diện cho các ứng dụng xử lý hàng loạt như phân loại hình ảnh hàng loạt trên các ảnh hiện có và “Máy chủ”, đại diện cho một ứng dụng trong đó truy vấn đến là ngẫu nhiên và độ trễ là quan trọng. Một ví dụ về máy chủ là bất kỳ trang web nào hướng tới người tiêu dùng nơi người tiêu dùng đang chờ câu trả lời cho một câu hỏi. Đối với MLPerf™ Inference v1.0, chúng tôi cũng đã gửi bằng cách sử dụng kịch bản biên của “SingleStream”, đại diện cho một ứng dụng cung cấp các truy vấn đơn lẻ liên tiếp, chỉ chờ phân phối truy vấn tiếp theo khi truy vấn đầu tiên kết thúc; độ trễ rất quan trọng đối với kịch bản này. Một ví dụ về SingleStream là phiên âm giọng nói trên điện thoại thông minh: Mỗi từ được hiển thị khi được nói và từ thứ hai không hiển thị từ tiếp theo cho đến khi từ đầu tiên được thực hiện. Nhiều khối lượng công việc trong số này có liên quan trực tiếp đến khách hàng của Telco & Retail, cũng như các trường hợp sử dụng Edge khác trong đó AI đang trở nên phổ biến hơn. 

MLPerf™ Inference v1.0 hiện bao gồm tính năng đo điểm chuẩn sức mạnh. Sự bổ sung này cho phép đo mức tiêu thụ điện năng trong quá trình thử nghiệm đang hoạt động đối với bất kỳ điểm chuẩn nào, cung cấp số liệu công suất chính xác và chính xác trong nhiều tình huống và được thực hiện bằng cách sử dụng công cụ đo lường độc quyền của SPECPower – PTDaemon®. SPECPower là một chuẩn mực tiêu chuẩn công nghiệp được xây dựng để đo lường đặc tính hiệu suất và sức mạnh của các máy chủ điện toán đơn hoặc đa nút. Dell EMC thường xuyên gửi hệ thống PowerEdge cho SPECPower để cung cấp cho khách hàng dữ liệu họ cần nhằm lập kế hoạch triển khai máy chủ một cách hiệu quả. Việc đưa tiêu chuẩn sức mạnh tương đương vào MLPerf™ Inference càng nhấn mạnh thêm cam kết của Dell đối với nhu cầu của khách hàng. 

Đo lường hiệu suất suy luận bằng MLPerf™

Chúng tôi chứng minh hiệu năng suy luận của bộ tăng tốc XE2420 + 4x NVIDIA T4 qua 6 điểm chuẩn của MLPerf™ Inference v1.0 với Power v1.0 để thể hiện tính linh hoạt của khối lượng công việc của hệ thống. Dell đã điều chỉnh XE2420 để có hiệu suất tốt nhất và đo công suất theo kịch bản đó để giới thiệu các thuật toán làm mát nguồn NVIDIA T4 được tối ưu hóa. Việc so sánh suy luận được thực hiện trên:

  • Các kịch bản ngoại tuyến, Máy chủ và SingleStream với độ chính xác 99% cho ResNet50 (phân loại hình ảnh), RNNT (chuyển giọng nói thành văn bản) và SSD-ResNet34 (phát hiện đối tượng), bao gồm cả nguồn điện
  • Kịch bản ngoại tuyến và máy chủ ở mức 99% và 99,9% cho DLRM (khuyến nghị), bao gồm cả nguồn điện
  • Kịch bản ngoại tuyến và SingleStream với độ chính xác 99% và 99,9% cho 3D-Unet (phân đoạn hình ảnh y tế)

Những kết quả này và mã tương ứng có sẵn trên trang web MLPerf™. Chúng tôi đã gửi kết quả tới cả bộ Datacenter [2] & Edge [3] .

Điểm nổi bật chính

Tại Dell, chúng tôi hiểu rằng hiệu suất là rất quan trọng nhưng khách hàng không muốn đánh đổi chất lượng và độ tin cậy để đạt được hiệu suất tối đa. Khách hàng có thể tự tin triển khai khối lượng công việc suy luận và các ứng dụng phần mềm khác với mức sử dụng năng lượng hiệu quả trong khi vẫn duy trì hiệu suất cao, như minh họa bên dưới. 

XE2420 là một máy chủ nhỏ gọn hỗ trợ GPU NVIDIA T4 4x 70W một cách hiệu quả, giảm mức tiêu thụ điện năng tổng thể mà không làm giảm hiệu suất. Việc tiêu thụ năng lượng hiệu quả và mật độ cao này giúp tăng hiệu suất trên mỗi đô la, đặc biệt là khi nói đến cơ sở hiệu suất trên mỗi GPU. 

 

Dell là công ty đi đầu trong việc bổ sung mới các phép đo Công suất MLPerf™ Inference v1.0. Do tính chất tiên tiến của phép đo, nên có sẵn các bộ dữ liệu hạn chế để so sánh. Dell cũng có các phép đo công suất cho trung tâm dữ liệu lõi R7525, được cấu hình với 3x NVIDIA A100-PCIe-40GB. Khi so sánh chi phí trên mỗi thông lượng trên mỗi watt, XE2420 được định cấu hình với NVIDIA T4 gấp 4 lần sẽ có hiệu suất điện năng tốt hơn trong một diện tích nhỏ hơn và ở mức giá thấp hơn, tất cả các yếu tố đều quan trọng cho việc triển khai ở biên.

Điểm chuẩn suy luận có xu hướng mở rộng tuyến tính trong máy chủ vì loại khối lượng công việc này không yêu cầu giao tiếp GPU P2P. Tuy nhiên, chất lượng của hệ thống có thể ảnh hưởng đến việc mở rộng quy mô đó. XE2420 có tỷ lệ trên mức trung bình; 4 GPU giúp tăng hiệu suất gấp 4 lần! Điều này chứng tỏ rằng khả năng vận hành và hiệu suất không bị hy sinh để hỗ trợ 4 GPU ở độ sâu và kiểu dáng nhỏ hơn.  

 Dell đã gửi tới bộ điểm chuẩn Edge của MLPerf™ Inference v1.0 cho vòng thử nghiệm suy luận MLPerf thứ ba. Kịch bản duy nhất trong bộ phần mềm này là “SingleStream”, đã thảo luận ở trên. Với SingleStream, độ trễ của hệ thống là điều tối quan trọng vì máy chủ không thể chuyển sang truy vấn thứ hai cho đến khi truy vấn đầu tiên kết thúc. Càng ít mili giây, hệ thống càng nhanh và càng phù hợp với Edge! Kiến trúc hệ thống ảnh hưởng đến độ trễ, do đó tùy thuộc vào vị trí đặt GPU mà độ trễ có thể tăng hoặc giảm. Con số này có thể được coi là trường hợp tốt nhất và xấu nhất; tức là XE2420 sẽ trả về kết quả trung bình trong khoảng từ 6,8 đến 8,73 mili giây, dưới phạm vi độ trễ mà con người có thể nhận ra đối với điểm chuẩn SSD-ResNet34. Không phải mọi máy chủ đều đáp ứng được tiêu chuẩn này trên mọi điểm chuẩn và XE2420 đạt điểm dưới phạm vi này trong nhiều lần gửi. 

So sánh với kết quả MLPerf™ Inference v0.7 XE2420 sẽ cho thấy kết quả v1.0 hơi khác một chút về tổng thông lượng hệ thống và mỗi GPU. Điều này là do yêu cầu đã thay đổi giữa hai bộ thử nghiệm. Trong phiên bản 0.7, ECC có thể bị tắt, điều này thường được thực hiện để cải thiện hiệu suất của GPU dựa trên GDDR6. Trong phiên bản 1.0, ECC được bật. Điều này phản ánh tốt hơn hầu hết các môi trường và trường hợp sử dụng của khách hàng, vì quản trị viên thường sẽ được cảnh báo về bất kỳ lỗi bộ nhớ nào có thể ảnh hưởng đến độ chính xác của kết quả.  

Kết luận: Hiệu suất trên mỗi đô la tốt hơn và tính linh hoạt ở mức biên mà không làm giảm hiệu suất

Kết quả điểm chuẩn suy luận MLPerf™ chứng minh rõ ràng rằng XE2420 thực sự là một máy chủ nửa chiều sâu, hiệu suất cao, hiệu quả, lý tưởng cho các trường hợp và ứng dụng sử dụng điện toán ranh giới. Khả năng hỗ trợ bốn GPU NVIDIA T4 ở độ sâu ngắn, hệ số dạng tối ưu hóa biên, trong khi vẫn giữ chúng đủ mát cho phép khách hàng thực hiện các hoạt động suy luận AI tại Edge ngang bằng với các máy chủ rack 2U chính thống truyền thống được triển khai trong các trung tâm dữ liệu lõi. Thiết kế nhỏ gọn mang đến cho khách hàng những khả năng mới, mạnh mẽ vượt trội để thực hiện nhiều việc nhanh hơn mà không phải trả thêm chi phí hoặc tăng yêu cầu về điện năng. XE2420 có khả năng linh hoạt thực sự ở biên, thể hiện hiệu suất mạnh mẽ không chỉ đối với khối lượng công việc thông thường mà còn cho nhiều khối lượng công việc được thử nghiệm, áp dụng trong một số ngành Edge từ Bán lẻ, Sản xuất đến Lái xe tự động. Dell EMC cung cấp một danh mục đầy đủ các giải pháp công nghệ đáng tin cậy để tổng hợp, phân tích và quản lý dữ liệu từ biên đến lõi cho đến đám mây và XE2420 là thành phần chính của danh mục này nhằm đáp ứng nhu cầu tính toán của bạn ở biên. 

Kết quả đầy đủ của XE2420 MLPerf™ Inference v1.0

Các kết quả thô từ điểm chuẩn được công bố MLPerf™ Inference v1.0 được hiển thị bên dưới, trong đó số liệu hiệu suất là thông lượng (mục mỗi giây) cho Ngoại tuyến và Máy chủ và độ trễ (khoảng thời gian để trả về kết quả, tính bằng mili giây) cho SingleStream. Chỉ số công suất là Watts cho Ngoại tuyến và Máy chủ và Năng lượng (Joules) trên mỗi Luồng cho SingleStream.

    3d-unet-99 3d-unet-99.9
    Ngoại tuyến Luồng đơn Ngoại tuyến Luồng đơn
XE2420_T4x1_TRT Hiệu suất
Năng lượng điện
XE2420_T4x4_TRT Hiệu suất 31,22 (hình ảnh/giây) 171,73 (ms) 31,22 (hình ảnh/giây) 171,73 (ms)
Năng lượng điện

 

    dlrm-99.9 dlm-99
    Ngoại tuyến Máy chủ Ngoại tuyến Máy chủ
XE2420_T4x1_TRT Hiệu suất
Năng lượng điện
XE2420_T4x4_TRT Hiệu suất 135.149,00 (hình ảnh/giây) 126.531,00 (hình ảnh/giây) 135.189,00 (hình ảnh/giây) 126.531,00 (hình ảnh/giây)
Năng lượng điện 829.09 (T) 835,52 (W) 830,13 (W) 835,91 (W)

 

    resnet50
    Ngoại tuyến Máy chủ Luồng đơn
XE2420_T4x1_TRT Hiệu suất 5.596,34 (hình ảnh/giây) 0,83 (ms)
Năng lượng điện
XE2420_T4x4_TRT Hiệu suất 23.309,30 (hình ảnh/giây) 21.691,30 (hình ảnh/giây) 0,91 (ms)
Năng lượng điện 794,46 (W) 792,69 (T) 0,59 (Joules/Luồng)

 

    không
    Ngoại tuyến Máy chủ Luồng đơn
XE2420_T4x1_TRT Hiệu suất
Năng lượng điện
XE2420_T4x4_TRT Hiệu suất 5.704,60 (hình ảnh/giây) 4.202,02 (hình ảnh/giây) 71,75 (ms)
Năng lượng điện 856,80 (W) 862,46 (W) 31,77 (Joules/Luồng)

 

    ssd-resnet34
    Ngoại tuyến Máy chủ Luồng đơn
XE2420_T4x1_TRT Hiệu suất 129,28 (hình ảnh/giây) 8,73 (ms)
Năng lượng điện
XE2420_T4x4_TRT Hiệu suất 557,43 (hình ảnh/giây) 500,96 (hình ảnh/giây) 6,80 (ms)
Năng lượng điện 792,85 (W) 790,83 (W) 4,81 (Joules/Luồng)