Ảo hóa GPU cho AI với VMware và NVIDIA dựa trên cơ sở hạ tầng của Dell (2)

Tổng quan về giải pháp

Bản tóm tắt

Dell Technologies, NVIDIA và VMware đang mang đến cho các doanh nghiệp một hướng đi mới bằng việc ra mắt giải pháp tích hợp nhằm dân chủ hóa và mở khóa AI trên toàn doanh nghiệp. Thiết kế đã được xác thực này được thiết kế và xác nhận chung để giúp các tổ chức tận dụng lợi ích của việc ảo hóa cho khối lượng công việc AI. Thiết kế bao gồm phiên bản mới nhất của VMware vSphere và Tanzu kết hợp với bộ NVIDIA AI Enterprise trên máy chủ Dell PowerEdge. Thiết kế này cũng bao gồm Dell PowerScale, cung cấp hiệu suất phân tích cần thiết và tính đồng thời trên quy mô lớn để cung cấp nhất quán các thuật toán AI ngốn nhiều dữ liệu nhất.

Hình dưới đây cho thấy các thành phần giải pháp:

Hình 1.   Tổng quan về các thành phần giải pháp

Lợi ích của thiết kế đã được xác thực cho AI

Sự kết hợp giữa các công nghệ tiên tiến này giúp có thể áp dụng GPU NVIDIA Ampere mới nhất bằng cách sử dụng khả năng dự đoán và bảo mật của vSphere để ảo hóa với cơ sở hạ tầng được tối ưu hóa cho VMware. Thiết kế được xác nhận này cung cấp những lợi ích chính sau:

  • Không có cơ sở hạ tầng riêng biệt cho AI —Khách hàng có thể sử dụng cùng các công cụ và quy trình trung tâm dữ liệu mà họ quen thuộc để xây dựng và vận hành cơ sở hạ tầng AI. Với việc tích hợp vào hệ sinh thái VMware, khách hàng có thể tránh được các hệ thống dành riêng cho AI khó quản lý và bảo mật. Họ cũng có thể giảm thiểu rủi ro khi triển khai Shadow AI , nơi các nhà khoa học dữ liệu và kỹ sư máy học mua tài nguyên bên ngoài hệ sinh thái CNTT.
  • Các công cụ nhất quán để quản lý và vận hành —Tài nguyên GPU giờ đây có thể được ảo hóa tương tự như tài nguyên CPU, bộ nhớ, mạng và lưu trữ. Quá trình ảo hóa và điều phối vùng chứa này cho phép quản trị viên CNTT sử dụng cùng một công cụ để quản lý và vận hành cho cả khối lượng công việc AI và khối lượng công việc khác của trung tâm dữ liệu.
  • Điều phối khối lượng công việc AI —Thông qua việc tích hợp với NVIDIA AI Enterprise và VMware Tanzu, thiết kế đã được xác thực này cho phép tự động hóa vòng đời của khối lượng công việc AI, bao gồm cung cấp, triển khai, mở rộng quy mô, kết nối mạng và cân bằng tải. Giờ đây, quản trị viên có thể đơn giản hóa việc triển khai AI phức tạp của mình thông qua việc điều phối vùng chứa Kubernetes cấp sản xuất.
  • Phần mềm AI end-to-end được tuyển chọn với sự hỗ trợ cấp Doanh nghiệp —Bộ phần mềm NVIDIA AI Enterprise bao gồm các khung và công cụ AI và khoa học dữ liệu được đóng gói dưới dạng bộ chứa để triển khai dễ dàng và nhanh chóng. Các thùng chứa này hỗ trợ phát triển AI từ đầu đến cuối và được xác thực trên VMware vSphere. Dịch vụ Hỗ trợ NVIDIA dành cho bộ phần mềm NVIDIA AI Enterprise cung cấp quyền truy cập vào các bản vá, cập nhật, nâng cấp và hỗ trợ kỹ thuật phần mềm toàn diện. Những dịch vụ này giúp khách hàng một cách dễ dàng và đáng tin cậy để cải thiện năng suất và giảm thời gian ngừng hoạt động của cơ sở hạ tầng AI của họ.
  • Khả năng mở rộng và hiệu suất gần như bình thường —Khối lượng công việc AI có thể chạy ở hiệu suất gần như bình thường trên GPU ảo hóa. Những khối lượng công việc này có thể mở rộng trên nhiều GPU và nhiều nút, cho phép đào tạo ngay cả những mô hình deep learning lớn nhất.

Các tính năng chính

Một số tính năng chính của thiết kế được xác nhận này bao gồm:

  • Phân bổ và ảo hóa GPU —VMware vSphere 7 trở lên hỗ trợ ảo hóa cho GPU NVIDIA Ampere. GPU ảo hóa có thể được gán cho các máy ảo (VM) và vùng chứa thông qua ảo hóa đầu vào/đầu ra một gốc (SR-IOV). Ngoài ra, vSphere hỗ trợ:
  • Phân vùng GPU sử dụng công nghệ NVIDIA Multi-Instance GPU (MIG), giúp tăng cường sử dụng GPU. Các phiên bản GPU ảo (vGPU) được phân vùng MIG được cách ly hoàn toàn bằng cách phân bổ độc quyền bộ nhớ, bộ nhớ đệm và điện toán băng thông cao. Trường hợp sử dụng phổ biến là quản trị viên phân vùng GPU có sẵn thành nhiều đơn vị để phân bổ cho từng nhà khoa học dữ liệu thông qua máy ảo hoặc vùng chứa. Mỗi nhà khoa học dữ liệu có thể yên tâm về hiệu suất có thể dự đoán được do tính cách ly và đảm bảo Chất lượng dịch vụ của công nghệ phân vùng vGPU.
  • Tính năng tổng hợp GPU cho phép gán nhiều GPU ảo cho máy ảo và bộ chứa để hỗ trợ các công việc deep learning đòi hỏi tính toán chuyên sâu. GPUDirect RDMA của NVIDIA cung cấp khả năng trao đổi dữ liệu hiệu quả hơn giữa các GPU thực hiện đào tạo đa nút trên quy mô lớn. Nó cho phép đường dẫn dữ liệu ngang hàng trực tiếp giữa các tài nguyên bộ nhớ của hai hoặc nhiều GPU sử dụng cổng bộ điều hợp mạng ConnectX trên máy chủ.
  • Hỗ trợ ảo hóa GPU với điều phối vùng chứa Tanzu —GPU ảo hóa hiện có thể được cung cấp cho việc điều phối vùng chứa Kubernetes cấp doanh nghiệp thông qua Tanzu. Quản trị viên có thể cung cấp khối lượng công việc AI dưới dạng nhóm Kubernetes hoặc thông qua triển khai Helm sử dụng GPU ảo hóa.
  • Tính khả dụng và bảo trì liên tục bằng VMware vSphere vMotion —vSphere cho phép di chuyển trực tiếp (sử dụng vSphere vMotion) cho các máy ảo hỗ trợ NVIDIA vGPU, đơn giản hóa việc bảo trì cơ sở hạ tầng như hợp nhất, mở rộng hoặc nâng cấp và cho phép các hoạt động không bị gián đoạn.

Với Bộ lập lịch tài nguyên phân tán (DRS), vSphere cung cấp vị trí khối lượng công việc ban đầu tự động cho cơ sở hạ tầng AI trên quy mô lớn để tiêu thụ tài nguyên tối ưu và tránh tắc nghẽn hiệu suất.

  • Hỗ trợ VM tạm dừng và tiếp tục hoạt động với đào tạo đa nút GPU ảo —GPUDirect RDMA của NVIDIA cho phép đường dẫn dữ liệu ngang hàng trực tiếp giữa bộ nhớ GPU và bộ điều hợp mạng ConnectX. Đường dẫn này giúp giảm đáng kể độ trễ giao tiếp giữa GPU với GPU và giảm tải hoàn toàn cho CPU, loại bỏ CPU khỏi tất cả các giao tiếp giữa GPU với GPU trên mạng. GPUDirect RDMA của NVIDIA mang lại hiệu suất gần như bình thường khi đào tạo đa nút.

Thu hút Trung tâm Giải pháp Khách hàng của Dell Technologies

Trung tâm Giải pháp Khách hàng của Dell Technologies giúp bạn lập kế hoạch và đạt được các mục tiêu kinh doanh của mình để thúc đẩy tương lai kỹ thuật số của bạn:

  • Bằng chứng về Khái niệm —Xác nhận rằng giải pháp ưa thích của bạn đáp ứng nhu cầu của bạn bằng Bằng chứng về Khái niệm tùy chỉnh. Các kiến ​​trúc sư giải pháp của Dell Technologies cho phép triển khai thực tế, thực tế dựa trên các trường hợp thử nghiệm của bạn.
  • Phiên thiết kế —Cộng tác với các chuyên gia của Dell Technologies để thiết kế khung giải pháp. Hãy cùng các chuyên gia của chúng tôi động não để khám phá môi trường CNTT hiện tại, các mục tiêu trong tương lai và giải pháp kinh doanh của bạn.
  • Tìm hiểu sâu về kỹ thuật —Đi sâu vào chi tiết giải pháp kỹ thuật mà bạn đang cân nhắc cho doanh nghiệp của mình. Học hỏi từ các buổi trình diễn sản phẩm trực tiếp và các cuộc thảo luận tập trung vào giải pháp với các chuyên gia về chủ đề của Dell Technologies.

Hãy liên hệ với Đại diện bán hàng Dell Technologies của bạn ngay hôm nay để lên lịch giới thiệu tùy chỉnh hoặc tham gia giải pháp cho thiết bị này hoặc bất kỳ Thiết kế được xác thực nào khác của Dell cho AI.