Tăng tốc GPU cho Dell Azure Stack HCI: Khối lượng công việc AI/ML nhất quán và hiệu quả

Cuối năm 2022 mang đến cho chúng ta một tin tuyệt vời: Hệ thống tích hợp Dell dành cho Azure Stack HCI đã giới thiệu hỗ trợ đầy đủ cho việc cài đặt GPU tại nhà máy.

Xin nhắc lại, Hệ thống tích hợp Dell dành cho Microsoft Azure Stack HCI là hệ thống HCI được tích hợp đầy đủ cho môi trường đám mây lai mang lại trải nghiệm vận hành hiện đại, giống như đám mây tại chỗ. Nó được cấu hình thông minh và có chủ ý với nhiều tùy chọn thành phần phần cứng và phần mềm (nút AX) để đáp ứng yêu cầu của hầu hết mọi trường hợp sử dụng, từ văn phòng chi nhánh hoặc từ xa nhỏ nhất đến khối lượng công việc kinh doanh đòi hỏi khắt khe nhất.

Với việc giới thiệu các nút AX có khả năng GPU, giờ đây chúng tôi cũng có thể hỗ trợ khối lượng công việc AI/ML phức tạp và đòi hỏi khắt khe hơn.

Tùy chọn phần cứng GPU mới

Không phải tất cả các nút AX đều hỗ trợ GPU. Như bạn có thể thấy trong bảng bên dưới, các nút AX-750, AX-650 và AX-7525 chạy AS HCI 21H2 trở lên là nền tảng nút AX duy nhất hỗ trợ bộ điều hợp GPU.

Bảng 1: Danh mục nút AX được thiết kế thông minh

Lưu ý : Nền tảng AX-640, AX-740xd và AX-6515 không hỗ trợ GPU.

Câu hỏi rõ ràng tiếp theo là loại GPU và số lượng bộ điều hợp được mỗi nền tảng hỗ trợ.

Chúng tôi đã chọn hai bộ điều hợp NVIDIA sau để bắt đầu:

  • NVIDIA Ampere A2, PCIe, 60W, 16GB GDDR6, Thụ động, Single Wide
  • NVIDIA Ampere A30, PCIe, 165W, 24GB HBM2, Thụ động, Rộng gấp đôi

Bảng sau đây nêu chi tiết số lượng thẻ bộ điều hợp GPU thuộc từng loại được phép trong mỗi nút AX:

Bảng 2: Hỗ trợ nút AX cho thẻ bộ điều hợp GPU

AX-750 AX-650 AX-7525
NVIDIA A2 Lên đến 2 Lên đến 2 Lên đến 3
NVIDIA A30 Lên đến 2 Lên đến 3
Số GPU tối đa 
(phải cùng model)
2 2 3

Trường hợp sử dụng

NVIDIA A2 là tùy chọn cấp cơ bản cho bất kỳ máy chủ nào có được các khả năng AI cơ bản. Nó mang lại khả năng tăng tốc suy luận linh hoạt cho việc học sâu, xử lý đồ họa và video trong thẻ PCIe Gen 4 cấu hình thấp, mức tiêu thụ điện năng thấp.

A2 là ứng cử viên hoàn hảo cho khối lượng công việc đòi hỏi khả năng AI nhẹ trong trung tâm dữ liệu. Nó đặc biệt tỏa sáng trong môi trường biên do sự cân bằng tuyệt vời giữa kiểu dáng, hiệu suất và mức tiêu thụ điện năng, dẫn đến chi phí thấp hơn.

NVIDIA A30 là một tùy chọn phổ thông mạnh mẽ hơn dành cho trung tâm dữ liệu, thường đáp ứng các tình huống đòi hỏi hiệu năng AI được tăng tốc đòi hỏi khắt khe hơn và khối lượng công việc đa dạng:

  • Suy luận AI ở quy mô lớn
  • Đào tạo học sâu
  • Ứng dụng điện toán hiệu năng cao (HPC)
  • Phân tích dữ liệu hiệu suất cao

Tùy chọn ảo hóa GPU

Có hai công nghệ ảo hóa GPU trong Azure Stack HCI: Phân công thiết bị rời rạc (còn được gọi là truyền qua GPU) và phân vùng GPU.

Phân công thiết bị rời rạc (DDA)

Hỗ trợ DDA cho Hệ thống tích hợp Dell dành cho Azure Stack HCI đã được giới thiệu cùng với Azure Stack HCI OS 21H2. Khi tận dụng DDA, GPU về cơ bản là dành riêng (không chia sẻ) và DDA chuyển toàn bộ thiết bị PCIe vào VM để cung cấp quyền truy cập hiệu suất cao vào thiết bị trong khi vẫn có thể sử dụng trình điều khiển gốc của thiết bị. Hình dưới đây cho thấy cách DDA trực tiếp gán lại toàn bộ GPU từ máy chủ sang VM:

Hình 1: Hoạt động phân công thiết bị rời rạc

Để tìm hiểu thêm về cách sử dụng và định cấu hình GPU với các máy ảo được phân cụm với Azure Stack HCI OS 21H2, bạn có thể kiểm tra Microsoft Learn và Dell Info Hub .

Phân vùng GPU (GPU-P)

Phân vùng GPU cho phép bạn chia sẻ thiết bị GPU vật lý giữa một số máy ảo. Bằng cách tận dụng ảo hóa I/O gốc đơn (SR-IOV), GPU-P cung cấp cho máy ảo một phần riêng biệt và riêng biệt của GPU vật lý. Hình dưới đây giải thích điều này một cách trực quan hơn:

Hình 2: Phân vùng GPU ảo hóa 2 GPU vật lý thành 4 vGPU ảo

Ưu điểm rõ ràng của GPU-P là nó cho phép sử dụng toàn bộ tài nguyên GPU có giá trị cao và hạn chế.

Lưu ý những cân nhắc quan trọng sau khi sử dụng GPU-P:

  • Cần có Azure Stack HCI OS 22H2 trở lên.
  • Cần có trình điều khiển VM máy chủ và máy khách cho GPU (yêu cầu giấy phép riêng từ NVIDIA ).
  • Không phải tất cả GPU đều hỗ trợ GPU-P; hiện tại Dell chỉ hỗ trợ A2 (sắp có A16).
  • Chúng tôi đặc biệt khuyên bạn nên sử dụng Trung tâm quản trị Windows dành cho GPU-P để tránh mắc lỗi.

 Có lẽ bạn đang thắc mắc về Azure Virtual Desktop trên Azure Stack HCI (vẫn ở bản xem trước) và GPU-P. Hôm nay, chúng tôi có Thiết kế được xác thực của Dell và sẽ làm mới nó để bao gồm GPU-P trong năm dương lịch này.  

Để tìm hiểu thêm về cách sử dụng và định cấu hình GPU-P với các máy ảo được phân cụm với Azure Stack HCI OS 22H2, bạn có thể kiểm tra Microsoft Learn và Dell Info Hub (Sắp có tài liệu của Dell).

Mốc thời gian

Tính đến hôm nay, Hệ thống tích hợp Dell dành cho Microsoft Azure Stack HCI chỉ cung cấp hỗ trợ cho Azure Stack HCI OS 21H2 và DDA.

Sắp có hỗ trợ đầy đủ cho Azure Stack HCI OS 22H2 và GPU-P vào cuối quý 1 năm 2023.

Phần kết luận

Cuối cùng, thời gian chờ đợi đã kết thúc, giờ đây chúng tôi có thể tận dụng sức mạnh GPU cần thiết trong môi trường Azure Stack HCI của mình cho khối lượng công việc có yêu cầu cao về AI/ML.

Ngày nay, DDA cung cấp khả năng sử dụng truyền qua GPU hoàn toàn chuyên dụng, trong khi với GPU-P, chúng tôi sẽ sớm có lựa chọn cung cấp mô hình tiêu thụ GPU chi tiết hơn.