Ảo hóa GPU cho AI với VMware và NVIDIA Dựa trên Cơ sở hạ tầng Dell

Tóm tắt

Dell Technologies, VMware và NVIDIA đang hợp tác làm việc để phát triển các giải pháp nhằm cải thiện các phương pháp tiên tiến nhất để triển khai AI trong doanh nghiệp. Tính linh hoạt và dễ sử dụng tiếp tục là nguyên lý chính và đặc điểm mong muốn đối với các nền tảng trí tuệ nhân tạo (AI) được sử dụng để đào tạo và lưu trữ các mô hình cho AI. Sách trắng này mô tả Thiết kế đã được xác thực của Dell để ảo hóa GPU cho AI với VMware và NVIDIA, một giải phápmà ba công ty cùng nhau thiết kế và xác nhận. Chúng tôi cung cấp thông tin cơ bản và đề xuất về cách triển khai nhiều sản phẩm tăng tốc đơn vị xử lý đồ họa (GPU) NVIDIA bằng cách sử dụng một số loại máy chủ của Dell Technologies cùng với công nghệ VMware vSphere và Tanzu. Giải pháp này có thể đáp ứng nhu cầu của hầu hết mọi yêu cầu ứng dụng AI dành cho khách hàng doanh nghiệp muốn tiêu chuẩn hóa trên VMware để triển khai và vận hành hệ thống. Thiết kế được xác thực cũng cho thấy cách kết hợp NVIDIA AI Enterprise, bộ phần mềm toàn diện gồm các công cụ và khung AI, cho phép các tổ chức chạy VMware vSphere ảo hóa và chứa khối lượng công việc AI trên Hệ thống được NVIDIA chứng nhận.

Một bài học rút ra trong thập kỷ qua là các nền tảng AI có kiến ​​trúc tùy chỉnh—dù tại chỗ hay trong một nhà cung cấp dịch vụ đám mây—đặt ra những thách thức về tích hợp và vận hành dẫn đến chi phí cao hơn. Với thiết kế đã được xác thực này, các chuyên gia VMware có thể sử dụng bộ kỹ năng hiện có của họ để triển khai và vận hành nền tảng AI ảo hóa này. Khả năng một tổ chức duy trì và phát triển các trung tâm hoạt động xuất sắc hiện có của mình cho phép tổng chi phí sở hữu thấp hơn và tính liên tục kinh doanh tổng thể tốt hơn.

Các doanh nghiệp đang nắm bắt AI trong mọi khía cạnh kinh doanh của họ. Nguồn nhân lực đang sử dụng AI để thu hút nhân tài, tiếp thị đang sử dụng AI để định giá và dự báo nhu cầu, CNTT đang sử dụng AI cho an ninh mạng và dịch vụ khách hàng đang sử dụng AI cho chatbot. Việc áp dụng rộng rãi AI như vậy trong toàn doanh nghiệp đòi hỏi phải tích hợp liền mạch các khả năng của AI vào các hoạt động của trung tâm dữ liệu. Thông qua NVIDIA AI Enterprise trên VMware vSphere, thiết kế đã được xác thực này cho phép các doanh nghiệp triển khai, hiện đại hóa, quản lý và vận hành khối lượng công việc AI cùng với các ứng dụng hiện có của họ bằng cách sử dụng cùng các công cụ mà họ quen thuộc.

Mục đích tài liệu

Sử dụng thông tin trong sách trắng này, các chuyên gia VMware có thể nhanh chóng triển khai và vận hành một nền tảng đầy đủ tính năng để hỗ trợ các trường hợp sử dụng AI nâng cao tận dụng GPU được NVIDIA tăng tốc và phần mềm AI được quản lý dành cho các nhà nghiên cứu AI, nhà khoa học dữ liệu và nhà phát triển trên Dell Technologies cơ sở hạ tầng .

Bảng sửa đổi

Bảng 1.     Lịch sử sửa đổi

Ngày

Phiên bản

Tóm tắt thay đổi

tháng 5 năm 2021

1.0

phát hành lần đầu

tháng 10 năm 2021

1.1

Đã cập nhật để thêm hỗ trợ cho NVIDIA AI Enterprise

tháng 3 năm 2022

2.0

Đã cập nhật để thêm hỗ trợ cho VMware Tanzu

tháng 5 năm 2023

3.0

Đã cập nhật để thêm hỗ trợ cho VMware vSphere 8, NVIDIA AI Enterprise 3.1 và các máy chủ PowerEdge mới nhất

Thử thách AI trong bóng tối

Phát triển các kỹ năng để thành công khi tích hợp AI, phát triển phần mềm và vận hành CNTT đã thách thức tất cả mọi người. Các yêu cầu đặt ra cho bộ phận CNTT nhằm cung cấp các hệ thống sản xuất mạnh mẽ cho khối lượng công việc AI quan trọng trong kinh doanh đồng thời quản lý các môi trường bổ sung để phát triển các sáng kiến ​​mới đã đánh thuế nghiêm trọng các nguồn lực vốn đã hạn chế. Áp lực phát triển từ khái niệm, thông qua thử nghiệm và sản xuất thường dẫn đến việc các nhà khoa học dữ liệu và nhà phát triển từ bỏ sự cộng tác với CNTT. Thay vào đó, họ cố gắng tiến hành một mình nhanh hơn. Tình trạng này, xuất hiện trong những năm có sự thay đổi nhanh chóng trong thời đại phát triển ứng dụng theo định hướng kinh doanh thông minh và dịch vụ vi mô, càng làm căng thẳng thêm mối quan hệ vốn đã bị thách thức giữa CNTT, cộng đồng nhà phát triển và cộng đồng quản lý doanh nghiệp.

Bản chất thử nghiệm của công việc khoa học dữ liệu khiến việc hợp tác và lập kế hoạch trở nên khó khăn. Việc phân bổ tài nguyên CNTT trong một môi trường mà tài nguyên được yêu cầu cho “phòng thí nghiệm phát triển” rất khó dự đoán. Sự không chắc chắn về thời gian để định giá khiến việc lập ngân sách và quản lý khối lượng công việc gần như không thể thực hiện được. Bộ phận CNTT có thể cảm thấy rằng họ thiếu thông tin đầy đủ để phân bổ nguồn lực một cách hiệu quả và các nhà phát triển thường cảm thấy rằng thiếu ưu tiên để đáp ứng với những thay đổi trong kế hoạch đã thống nhất trước đó.

Những yếu tố này đã tạo ra động lực cho các nhóm tham gia vào việc gấp rút triển khai khối lượng công việc AI để hành xử theo cách không hiệu quả về chi phí cho tổ chức của họ. Các cách phổ biến nhất mà các nhóm cố gắng “đi nhanh hơn” là sử dụng việc sử dụng đám mây công cộng không được giám sát, tái sử dụng thiết bị cho nỗ lực ngoài ý muốn hoặc mua tài trợ của đơn vị kinh doanh cho các sáng kiến ​​phát triển riêng lẻ nằm ngoài quy trình lập ngân sách vốn CNTT chính thức. Những loại hệ thống thông tin này, tồn tại phần lớn bị che giấu khỏi các nhà quản lý và các đơn vị CNTT chính thức, tạo ra vấn đề ”CNTT bóng tối” mà tất cả các tổ chức lớn hơn phải giải quyết. Các trường hợp thúc đẩy các nhóm chọn con đường CNTT ngoài luồng đặc biệt gay gắt trong các lĩnh vực nghiên cứu ứng dụng trí tuệ nhân tạo và trí tuệ máy móc.

Sự tập trung vào AI này, từng là mối quan tâm của chỉ một cộng đồng nhỏ gồm các nhà nghiên cứu và nhà khoa học máy tính, giờ đây trở nên gay gắt đến mức nhiều tổ chức cảm thấy rằng mặc dù đã đầu tư đáng kể nhưng họ vẫn đang tụt hậu xa hơn so với các đối thủ cạnh tranh. Tốc độ quản lý dữ liệu mới và AI được đưa ra thị trường làm tăng chi phí lập kế hoạch hệ thống và tăng nguy cơ phải thay đổi hướng đi thường xuyên hơn.

Tổng quan về giải  pháp

Bản tóm tắt

Dell Technologies, NVIDIA và VMware đang cung cấp cho các doanh nghiệp một con đường phía trước với việc tung ra một giải pháp tích hợp để dân chủ hóa và mở khóa AI trong toàn doanh nghiệp. Thiết kế đã được xác thực này được cùng thiết kế và xác thực để giúp các tổ chức tận dụng lợi ích của ảo hóa cho khối lượng công việc AI. Thiết kế bao gồm phiên bản mới nhất của VMware vSphere và Tanzu kết hợp với bộ NVIDIA AI Enterprise trên máy chủ Dell PowerEdge. Thiết kế này cũng bao gồm Dell PowerScale, cung cấp hiệu suất phân tích cần thiết và đồng thời trên quy mô lớn để cung cấp một cách nhất quán các thuật toán AI đói dữ liệu nhất.

Hình dưới đây cho thấy các thành phần giải pháp:

Hình 1.   Tổng quan về các thành phần giải pháp

Lợi ích của thiết kế đã được xác thực cho AI

Sự kết hợp các công nghệ hàng đầu này giúp có thể áp dụng GPU NVIDIA Ampere mới nhất bằng cách sử dụng khả năng dự đoán và bảo mật của vSphere để ảo hóa với cơ sở hạ tầng được tối ưu hóa cho VMware. Thiết kế đã được xác thực này cung cấp các lợi ích chính sau:

  • Không có cơ sở hạ tầng riêng biệt cho AI —Khách hàng có thể sử dụng cùng các công cụ và quy trình của trung tâm dữ liệu mà họ quen thuộc để xây dựng và vận hành cơ sở hạ tầng AI. Với việc tích hợp vào hệ sinh thái VMware, khách hàng có thể tránh được các hệ thống dành riêng cho AI khó quản lý và bảo mật. Họ cũng có thể giảm thiểu rủi ro khi triển khai Shadow AI , nơi các nhà khoa học dữ liệu và kỹ sư máy học thu thập tài nguyên bên ngoài hệ sinh thái CNTT.
  • Các công cụ nhất quán để quản lý và vận hành —Tài nguyên GPU hiện có thể được ảo hóa tương tự như tài nguyên CPU, bộ nhớ, mạng và lưu trữ. Việc điều phối bộ chứa và ảo hóa này cho phép quản trị viên CNTT sử dụng cùng một công cụ để quản lý và vận hành cho cả khối lượng công việc AI của họ và khối lượng công việc khác của trung tâm dữ liệu.
  • Điều phối khối lượng công việc AI —Thông qua tích hợp với NVIDIA AI Enterprise và VMware Tanzu, thiết kế đã được kiểm chứng này cho phép tự động hóa vòng đời của khối lượng công việc AI, bao gồm cung cấp, triển khai, thay đổi quy mô, kết nối mạng và cân bằng tải. Giờ đây, quản trị viên có thể đơn giản hóa việc triển khai AI phức tạp của họ thông qua điều phối bộ chứa Kubernetes cấp sản xuất.
  • Phần mềm AI toàn diện được tuyển chọn với hỗ trợ cấp Doanh nghiệp —Bộ phần mềm NVIDIA AI Enterprise bao gồm các công cụ và khung AI và khoa học dữ liệu được đóng gói dưới dạng bộ chứa để triển khai dễ dàng và nhanh chóng. Các bộ chứa này hỗ trợ phát triển AI từ đầu đến cuối và được xác thực trên VMware vSphere. Dịch vụ hỗ trợ NVIDIA cho bộ phần mềm NVIDIA AI Enterprise cung cấp quyền truy cập vào các bản vá phần mềm, cập nhật, nâng cấp và hỗ trợ kỹ thuật toàn diện. Các dịch vụ này giúp khách hàng một cách dễ dàng và đáng tin cậy để cải thiện năng suất và giảm thời gian ngừng hoạt động cho cơ sở hạ tầng AI của họ.
  • Hiệu suất và khả năng mở rộng gần như kim loại trần —Khối lượng công việc AI có thể chạy ở hiệu suất gần như kim loại trần trên GPU ảo hóa. Những khối lượng công việc này có thể thay đổi quy mô trên nhiều GPU và nhiều nút, cho phép đào tạo ngay cả những mô hình deep learning lớn nhất.

Các tính năng chính

Một số tính năng chính của thiết kế đã được xác thực này bao gồm:

  • Phân bổ và ảo hóa GPU —VMware vSphere 7 trở lên hỗ trợ ảo hóa cho GPU NVIDIA Ampere. GPU ảo hóa có thể được gán cho các máy ảo (VM) và bộ chứa thông qua Ảo hóa đầu vào/đầu ra một gốc (SR-IOV). Ngoài ra, vSphere hỗ trợ:
  • Phân vùng GPU bằng công nghệ NVIDIA Multi-Instance GPU (MIG), giúp tăng mức sử dụng GPU. Các phiên bản GPU ảo (vGPU) được phân vùng MIG được cách ly hoàn toàn với sự phân bổ độc quyền bộ nhớ băng thông cao, bộ nhớ đệm và điện toán. Một trường hợp sử dụng phổ biến là dành cho quản trị viên phân vùng các GPU có sẵn thành nhiều đơn vị để phân bổ cho các nhà khoa học dữ liệu riêng lẻ thông qua máy ảo hoặc bộ chứa. Mỗi nhà khoa học dữ liệu có thể yên tâm về hiệu suất có thể dự đoán được do sự cô lập và đảm bảo Chất lượng dịch vụ của công nghệ phân vùng vGPU.
  • Tính năng tổng hợp GPU cho phép gán nhiều GPU ảo cho máy ảo và vùng chứa để thực hiện các công việc học sâu đòi hỏi cường độ tính toán cao. GPUDirect RDMA của NVIDIA cung cấp khả năng trao đổi dữ liệu hiệu quả hơn giữa các GPU thực hiện đào tạo đa nút trên quy mô lớn. Nó cho phép đường dẫn dữ liệu ngang hàng trực tiếp giữa tài nguyên bộ nhớ của hai hoặc nhiều GPU sử dụng cổng bộ điều hợp mạng ConnectX trên máy chủ.
  • Hỗ trợ ảo hóa GPU với dàn xếp bộ chứa Tanzu —GPU ảo hóa hiện có thể được cung cấp cho dàn xếp bộ chứa Kubernetes cấp doanh nghiệp thông qua Tanzu. Quản trị viên có thể cung cấp khối lượng công việc AI dưới dạng nhóm Kubernetes hoặc thông qua triển khai Helm, sử dụng GPU ảo hóa.
  • Tính khả dụng và bảo trì liên tục bằng cách sử dụng VMware vSphere vMotion —vSphere cho phép di chuyển trực tiếp (sử dụng vSphere vMotion) cho các máy ảo hỗ trợ NVIDIA vGPU, đơn giản hóa việc bảo trì cơ sở hạ tầng như hợp nhất, mở rộng hoặc nâng cấp và cho phép các hoạt động không gián đoạn.

Với Bộ lập lịch tài nguyên phân tán (DRS), vSphere cung cấp khả năng sắp xếp khối lượng công việc ban đầu tự động cho cơ sở hạ tầng AI trên quy mô lớn để tiêu thụ tài nguyên tối ưu và tránh tắc nghẽn hiệu suất.

  • Hỗ trợ cho VM tạm dừng và tiếp tục hoạt động với đào tạo đa nút GPU ảo —GPUDirect RDMA từ NVIDIA cho phép đường dẫn dữ liệu ngang hàng trực tiếp giữa bộ nhớ GPU và bộ điều hợp mạng ConnectX. Đường dẫn này giúp giảm đáng kể độ trễ giao tiếp giữa GPU với GPU và giảm tải hoàn toàn cho CPU, loại bỏ nó khỏi tất cả các giao tiếp giữa GPU với GPU trên toàn mạng. GPUDirect RDMA của NVIDIA mang lại hiệu suất gần như nguyên bản khi đào tạo đa nút.

Thu hút Trung tâm Giải pháp Khách hàng của Dell Technologies

Trung tâm Giải pháp Khách hàng của Dell Technologies giúp bạn lập kế hoạch và đạt được các mục tiêu kinh doanh để thúc đẩy tương lai kỹ thuật số của bạn:

  • Proof of Concept —Xác thực rằng giải pháp ưa thích của bạn đáp ứng nhu cầu của bạn bằng Proof of Concept tùy chỉnh. Các kiến ​​trúc sư giải pháp của Dell Technologies cho phép triển khai thực tế, thực hành dựa trên các trường hợp thử nghiệm của bạn.
  • Phiên thiết kế —Cộng tác với các chuyên gia của Dell Technologies để thiết kế khung giải pháp. Cùng các chuyên gia của chúng tôi động não để khám phá môi trường CNTT hiện tại, các mục tiêu trong tương lai và các giải pháp kinh doanh của bạn.
  • Tìm hiểu sâu về kỹ thuật —Đi sâu vào chi tiết giải pháp kỹ thuật mà bạn đang xem xét cho doanh nghiệp của mình. Học hỏi từ các cuộc trình diễn sản phẩm trực tiếp và các cuộc thảo luận tập trung vào giải pháp với các chuyên gia về chủ đề của Dell Technologies.

Hãy liên hệ với Đại diện Bán hàng Dell Technologies của bạn ngay hôm nay để lên lịch họp báo tùy chỉnh hoặc tham gia các giải pháp cho thiết kế này hoặc bất kỳ Thiết kế Trí tuệ nhân tạo nào khác của Dell.