Ảo hóa GPU cho AI với VMware và NVIDIA Dựa trên Cơ sở hạ tầng Dell (2)

Tổng quan về công nghệ

VMware vSphere 8

VMware vSphere 8 bao gồm các tính năng sau để hỗ trợ AI và khối lượng công việc máy học:

  • Hỗ trợ cho thế hệ GPU mới nhất của NVIDIA, bao gồm hỗ trợ cho MIG NVIDIA dựa trên phân vùng không gian.
  • Nâng cao hiệu suất giao tiếp giữa thiết bị với thiết bị, dựa trên chức năng NVIDIA GPUDirect hiện có bằng cách bật Dịch vụ dịch địa chỉ (ATS) và Dịch vụ kiểm soát truy cập (ACS) ở lớp bus PCIe trong nhân ESXi.
  • Hỗ trợ cho các nhóm thiết bị để đào tạo đa GPU và đa nút. Các nhóm thiết bị cho phép các máy ảo sử dụng các thiết bị phần cứng bổ sung dễ dàng hơn. Các thiết bị GPU và NIC thông minh NVIDIA được hỗ trợ trong vSphere 8. Các nhóm thiết bị được thêm vào máy ảo bằng cách sử dụng quy trình công việc Thêm thiết bị PCI mới hiện có . Các nhóm thiết bị hỗ trợ cấu hình tự động máy ảo và tạo các nút công nhân trong Tanzu. vSphere DRS và vSphere HA nhận thức được các nhóm thiết bị và đặt VM một cách thích hợp để đáp ứng nhóm thiết bị.
  • Cấp phép VMware vSphere cho mỗi ổ cắm CPU. Cấp phép có sẵn cho các phiên bản sau:
  • tiêu chuẩn vSphere
  •  vSphere Enterprise Plus
  • vSphere Essentials
  •  vSphere Essentials Plus

Thiết kế đã được xác thực này yêu cầu phiên bản vSphere Enterprise Plus. NVIDIA vGPU và các công tắc ảo phân tán (cần thiết để cân bằng tải trong Tanzu) yêu cầu phiên bản Enterprise Plus.

VMware vSphere với Tanzu

vSphere với Tanzu cho phép quản trị viên chuyển đổi vSphere thành một nền tảng để chạy khối lượng công việc Kubernetes nguyên bản trên lớp ảo hóa. Khi được bật trên cụm vSphere, vSphere with Tanzu cung cấp khả năng chạy khối lượng công việc Kubernetes trực tiếp trên máy chủ ESXi và tạo cụm Kubernetes ngược dòng trong nhóm tài nguyên chuyên dụng.

Quản trị viên vSphere có thể kích hoạt các cụm vSphere hiện có cho Quản lý khối lượng công việc, để tạo cụm Tanzu Kubernetes trong các máy chủ ESXi là một phần của cụm. Cụm Tanzu Kubernetes là một bản phân phối đầy đủ của nền tảng điều phối bộ chứa Kubernetes mã nguồn mở được VMware xây dựng, ký kết và hỗ trợ. Tanzu Kubernetes Grid (TKG) Cung cấp dịch vụ và vận hành cụm Tanzu Kubernetes trên vSphere.

Tanzu Kubernetes Grid (TKG), khả dụng với VMware vSphere 8, hỗ trợ ảo hóa GPU NVIDIA thông qua NVIDIA AI Enterprise. Với TKG, các GPU ảo được tự động cung cấp và định cấu hình trên các nút công nhân Tanzu Kubernetes Cluster và được cung cấp cho các bộ chứa khối lượng công việc AI.

VMware vSphere with Tanzu có thể được cấp phép thông qua vSphere+ hoặc Tanzu Kubernetes Operations. Để biết thêm thông tin, hãy xem So sánh dòng sản phẩm VMware vSphere và VMware Tanzu for Kubernetes Operations Documentation .

Hệ sinh thái VMware Kubernetes

VMware cung cấp một số sản phẩm trong danh mục Tanzu để nâng cao khả năng của vSphere trên Tanzu. Các sản phẩm này cho phép quản trị viên xây dựng, chạy và quản lý khối lượng công việc AI cùng với các ứng dụng hiện đại và liên tục mang lại giá trị cho khách hàng. Tùy thuộc vào phiên bản Tanzu , các sản phẩm phần mềm này đi kèm với VMware vSphere with Tanzu và được VMware hỗ trợ đầy đủ. Một số sản phẩm chính được áp dụng cho thiết kế đã được thẩm định này bao gồm:

  • Harbor —Một cơ quan đăng ký vùng chứa gốc trên đám mây, nguồn mở, đáng tin cậy giúp lưu trữ, ký và quét nội dung. Harbor mở rộng phân phối Docker mã nguồn mở bằng cách thêm các chức năng như bảo mật, kiểm soát danh tính và quản lý.
  • Lưới Tanzu Kubernetes —Bao gồm các tệp nhị phân đã ký cho Harbor mà bạn có thể triển khai trên cụm dịch vụ dùng chung để cung cấp dịch vụ đăng ký vùng chứa cho các cụm Tanzu Kubernetes khác.
  • Prometheus —Một bộ công cụ giám sát và cảnh báo hệ thống mã nguồn mở. Prometheus thu thập và lưu trữ các chỉ số dưới dạng dữ liệu chuỗi thời gian, nghĩa là thông tin chỉ số được lưu trữ với dấu thời gian mà tại đó nó được ghi lại, cùng với các cặp khóa-giá trị tùy chọn. Tanzu Kubernetes Grid bao gồm các tệp nhị phân đã ký cho Prometheus mà bạn có thể triển khai trên các cụm Tanzu Kubernetes để theo dõi tình trạng và dịch vụ của cụm.
  • Grafana —Phần mềm mã nguồn mở cho phép bạn trực quan hóa và phân tích dữ liệu chỉ số do Prometheus thu thập trên các cụm Tanzu Kubernetes. Tanzu Kubernetes Grid bao gồm gói Grafana mà bạn có thể triển khai trên các cụm.
  • VMware NSX Advanced Load Balancer —NSX Advanced Load Balancer (trước đây gọi là Avi Networks) với Dịch vụ đám mây có tính năng cân bằng tải nhiều đám mây, tường lửa ứng dụng web và các dịch vụ truy cập bộ chứa. Kiến trúc mở rộng, được xác định bằng phần mềm của NSX Advanced Load Balancer cung cấp tính năng tự động thay đổi quy mô theo yêu cầu của các bộ cân bằng tải đàn hồi. Bộ cân bằng tải phần mềm phân tán và các ứng dụng phụ trợ có thể tăng hoặc giảm quy mô để đáp ứng với giám sát lưu lượng thời gian thực.

NSX Advanced Load Balancer cung cấp khả năng truy cập mạng và cân bằng tải cho các cụm Tanzu Kubernetes. Bạn có thể sử dụng nó để cân bằng tải các trường hợp sử dụng AI, chẳng hạn như các ứng dụng Vận hành máy học hoặc khối lượng công việc suy luận.

  • Tanzu Mission Control —Một trung tâm tập trung để quản lý Kubernetes đơn giản hóa, đa đám mây, đa cụm. Tanzu Mission Control cung cấp khả năng quản lý chính sách tập trung cho phép quản trị viên áp dụng các chính sách nhất quán, chẳng hạn như quyền truy cập và bảo mật, cho một nhóm các cụm và không gian tên trên quy mô lớn. Nó cung cấp khả năng quản lý vòng đời cho các cụm Kubernetes cho phép quản trị viên cung cấp, thay đổi quy mô, nâng cấp và xóa các cụm Tanzu Kubernetes Grid.

Phần mềm bổ sung sau đây có sẵn từ VMware để quản lý và sắp xếp khối lượng công việc bộ chứa. Các công cụ phần mềm này đề cập đến việc phát triển ứng dụng cho mục đích chung và không được xác thực như một phần của thiết kế đã được xác thực này.

  • Nền tảng ứng dụng VMware Tanzu là một nền tảng mô-đun, nhận biết ứng dụng, cung cấp một bộ công cụ dành cho nhà phát triển phong phú và một lộ trình sản xuất để xây dựng và triển khai phần mềm một cách nhanh chóng và an toàn trên mọi đám mây công cộng tuân thủ hoặc cụm Kubernetes tại chỗ.
  • Khả năng quan sát Tanzu cho phép giám sát Kubernetes với khả năng hiển thị toàn bộ ngăn xếp của các nút, nhóm và vùng chứa. Nó cung cấp cái nhìn sâu sắc tức thì về sức khỏe của nền tảng Dịch vụ ứng dụng Tanzu trên các nền tảng và tác động của mã trong quá trình sản xuất.
  • Tanzu Service Mesh cung cấp khả năng kết nối, bảo mật và thông tin chuyên sâu tiên tiến, đầu cuối cho các ứng dụng hiện đại—cho người dùng cuối của ứng dụng, vi dịch vụ, API và dữ liệu—cho phép tuân thủ Mục tiêu cấp độ dịch vụ cũng như các quy định về quyền riêng tư và bảo vệ dữ liệu.
  • Danh mục ứng dụng VMware là một lựa chọn có thể tùy chỉnh của các thành phần ứng dụng mã nguồn mở được đóng gói sẵn, đáng tin cậy, được duy trì liên tục và kiểm tra có thể kiểm chứng để sử dụng trong môi trường sản xuất.
  • Dịch vụ Tanzu Build tự động hóa việc tạo, quản lý và quản trị vùng chứa ở quy mô doanh nghiệp đồng thời tăng cường bảo mật và giảm thiểu rủi ro do Tiếp xúc với lỗ hổng bảo mật thông thường.

Dịch vụ dữ liệu Tanzu là một danh mục phần mềm bộ nhớ đệm, nhắn tin và cơ sở dữ liệu theo yêu cầu trên VMware Tanzu dành cho các nhóm phát triển đang xây dựng các ứng dụng hiện đại.

VMware vSAN 8

vSAN là một giải pháp lưu trữ do VMware xác định bằng phần mềm, được xây dựng từ đầu cho các máy ảo vSphere. Nó tóm tắt và tổng hợp các đĩa được gắn cục bộ trong một cụm vSphere để tạo ra một giải pháp lưu trữ mà bạn có thể cung cấp và quản lý từ vCenter và ứng dụng khách vSphere. vSAN được nhúng trong trình ảo hóa, do đó, việc lưu trữ và tính toán cho các máy ảo được phân phối từ cùng một nền tảng máy chủ x86 chạy trình ảo hóa.

vSAN là công ty dẫn đầu thị trường về cơ sở hạ tầng HCI. Các ứng dụng truyền thống như Microsoft SQL Server và SAP HANA cũng như các ứng dụng thế hệ tiếp theo như khối lượng công việc AI có thể chạy trên vSAN. Các mô hình liên quan đến việc triển khai, vận hành và bảo trì cơ sở hạ tầng truyền thống bao gồm nhiều công cụ được phân tách khác nhau và thường là các bộ kỹ năng chuyên biệt. Cách tiếp cận siêu hội tụ của vSphere và vSAN đơn giản hóa các tác vụ này bằng cách sử dụng các công cụ quen thuộc để triển khai, vận hành và quản lý cơ sở hạ tầng đám mây riêng.

vSAN 8 Express Storage Architecture (ESA) là cải tiến lớn mới nhất dành cho các cụm vSphere 8. vSAN 8 ESA sử dụng một hệ thống tệp được tối ưu hóa để tận dụng tối đa các thiết bị lưu trữ NVMe được chứng nhận và kết nối mạng 25 Gbps+ để cải thiện đáng kể hiệu suất và dung lượng so với các phiên bản trước. vSAN 7 hiện được gọi là Kiến trúc lưu trữ gốc (OSA).

VMware vSAN được cấp phép cho mỗi ổ cắm CPU. Nó có sẵn trong các phiên bản sau: Standard, Advanced, Enterprise và Enterprise Plus. Đối với thiết kế đã được xác thực này, chúng tôi khuyên dùng giấy phép vSAN Enterprise. Cần có vSphere Enterprise Plus và VMware Tanzu Standard để sử dụng nền tảng Data Persistence. Nền tảng Data Persistence chỉ khả dụng trong vSAN Enterprise và Enterprise Plus.

NVIDIA

Doanh nghiệp AI của NVIDIA

NVIDIA AI Enterprise là bộ phần mềm phân tích dữ liệu và AI toàn diện, dựa trên đám mây. Nó được NVIDIA tối ưu hóa, chứng nhận và hỗ trợ để chạy độc quyền trên VMware vSphere với Hệ thống được NVIDIA chứng nhận, như minh họa trong hình sau:

Hình 2.   NVIDIA AI Enterprise—bộ AI toàn diện

 

NVIDIA AI Enterprise bao gồm các công nghệ và phần mềm hỗ trợ chính của NVIDIA để triển khai, quản lý và mở rộng nhanh chóng khối lượng công việc AI trong đám mây lai hiện đại. Giấy phép NVIDIA và hỗ trợ NVIDIA AI Enterprise.

Phần mềm trong bộ NVIDIA AI Enterprise được tổ chức thành các lớp sau:

  • Phần mềm tối ưu hóa cơ sở hạ tầng:
  • NVIDIA vGPU —Phần mềm NVIDIA vGPU tạo GPU ảo có thể được chia sẻ trên nhiều máy ảo cho phép bộ phận CNTT sử dụng các lợi ích quản lý và bảo mật của ảo hóa cũng như hiệu suất của GPU NVIDIA.
  • Bộ công cụ NVIDIA CUDA —Bộ công cụ CUDA bao gồm các thư viện được tăng tốc GPU, công cụ gỡ lỗi và tối ưu hóa, trình biên dịch C/C++ và thư viện thời gian chạy để xây dựng và triển khai ứng dụng AI của bạn.
  • NVIDIA Magnum IO — Ngăn xếp Magnum IO chứa các thư viện mà các nhà phát triển cần để tạo và tối ưu hóa ứng dụng IO trên toàn bộ ngăn xếp, bao gồm:
    • Kết nối mạng trên NVIDIA NVLink
    • Ethernet
    • InfinBand
    • API lưu trữ
    • Điện toán trong mạng để tăng tốc hoạt động đa nút
    • Quản lý IO của phần cứng mạng
  • Phần mềm Cloud-Native Deployment, cần thiết để hỗ trợ VMware Tanzu:
  • NVIDIA GPU Operator  sử dụng khung toán tử trong Kubernetes để tự động hóa việc quản lý tất cả các thành phần phần mềm NVIDIA cần thiết để cung cấp GPU. Các thành phần này bao gồm trình điều khiển NVIDIA (để kích hoạt CUDA), trình cắm thiết bị Kubernetes dành cho GPU, Thời gian chạy bộ chứa NVIDIA, gắn nhãn nút tự động, giám sát dựa trên DCGM và các thành phần khác.
  • NVIDIA Network Operator  sử dụng khung toán tử trong Kubernetes để quản lý các thành phần liên quan đến mạng nhằm kích hoạt kết nối mạng nhanh, RDMA và GPUDirect cho khối lượng công việc trong cụm Kubernetes. Nhà điều hành mạng làm việc với Nhà điều hành GPU để kích hoạt GPU-Direct RDMA trên các hệ thống tương thích.
  • AI và khung khoa học dữ liệu bao gồm các vùng chứa được xác thực sau trên VMware vSphere:
  • NVIDIA RAPIDS  là một khung máy học mã nguồn mở. RAPIDS mang đến khả năng tối ưu hóa GPU cho các vấn đề được giải quyết theo cách truyền thống bằng cách sử dụng các công cụ như Hadoop hoặc Scikit-learning và pandas. RAPIDS là một công cụ hữu ích để làm việc với các định dạng dữ liệu dạng bảng và dữ liệu khác; nó cũng là một công cụ thiết yếu để chuẩn bị dữ liệu, định dạng dữ liệu và ghi nhãn dữ liệu. RAPIDS là một thành phần quan trọng để bắt đầu bất kỳ quy trình AI nào yêu cầu tiền xử lý dữ liệu.
  • TensorFlow  là một khung mã nguồn mở dành cho máy học được triển khai bằng sự kết hợp giữa các công cụ C++ và NVIDIA CUDA. Lần đầu tiên được Google phát triển, nó đã trở thành một công cụ chính cho deep learning kể từ khi ra mắt vào năm 2015. Bộ chứa TensorFlow được cung cấp có hỗ trợ đầy đủ cho GPU, cũng như các khả năng đa GPU và đa nút cùng với các tối ưu hóa GPU đã được NVIDIA thử nghiệm.
  • PyTorch  là một Khung học sâu Python mã nguồn mở. Facebook đã tạo PyTorch, giống như Tensorflow, là một khung AI hàng đầu. Bộ chứa PyTorch được xuất bản thông qua NVIDIA AI Enterprise bao gồm phần mềm cần thiết để chạy các khối lượng công việc GPU đơn, đa GPU hoặc đa nút.
  • NVIDIA TensorRT  chuyển đổi các mô hình được phát triển trong các khung như TensorFlow và PyTorch bằng cách biên dịch chúng thành một định dạng được tối ưu hóa để suy luận trên một nền tảng thời gian chạy cụ thể. Khi biên dịch một mô hình với TensorRT, các tính năng bao gồm tối ưu hóa độ chính xác bit, tối ưu hóa biểu đồ mạng thần kinh và điều chỉnh tự động dẫn đến một mô hình hiệu quả hơn để suy luận. Lợi ích hiệu suất có thể là đáng kể tùy thuộc vào loại mô hình đang được phát triển. Nói chung, các mô hình được biên dịch bằng TensorRT chiếm ít bộ nhớ hơn và thực hiện các tác vụ suy luận nhanh hơn định dạng gốc.
  • NVIDIA Triton Inference Server  là một mô hình mã nguồn mở phục vụ phần mềm giúp đơn giản hóa việc triển khai các mô hình AI sản xuất trên quy mô lớn. Nó cho phép các nhóm triển khai các mô hình AI được đào tạo từ bất kỳ khung nào, bao gồm các mô hình TensorRT được tối ưu hóa trên bất kỳ cơ sở hạ tầng dựa trên GPU, đa GPU hoặc CPU nào. Khi các mô hình được đào tạo lại, nhân viên CNTT có thể dễ dàng triển khai các bản cập nhật mà không cần khởi động lại máy chủ suy luận hoặc làm gián đoạn ứng dụng gọi điện. Triton hỗ trợ nhiều loại suy luận bao gồm thời gian thực, hàng loạt và phát trực tuyến. Nó cũng hỗ trợ các tập hợp mô hình hiệu quả nếu quy trình của bạn có nhiều mô hình chia sẻ đầu vào và đầu ra, chẳng hạn như trong AI đàm thoại.

Cấp phép và hỗ trợ doanh nghiệp

NVIDIA AI Enterprise được cấp phép cho mỗi ổ cắm CPU và có thể được mua thông qua Phần mềm & Thiết bị ngoại vi của Dell. Bạn có thể mua các sản phẩm NVIDIA AI Enterprise dưới dạng giấy phép vĩnh viễn với các dịch vụ hỗ trợ hoặc dưới dạng đăng ký hàng năm hoặc nhiều năm. Giấy phép vĩnh viễn cung cấp quyền sử dụng phần mềm NVIDIA AI Enterprise vô thời hạn, không hết hạn. Bạn phải mua NVIDIA AI Enterprise với giấy phép vĩnh viễn với các dịch vụ hỗ trợ một năm, ba năm hoặc năm năm. Dịch vụ hỗ trợ một năm cũng có sẵn để gia hạn. Để biết thêm thông tin, hãy xem  Hướng dẫn đóng gói, định giá và cấp phép doanh nghiệp AI của NVIDIA .

Dịch vụ hỗ trợ NVIDIA  cho bộ phần mềm NVIDIA AI Enterprise cung cấp khả năng truy cập liền mạch vào các bản vá lỗi, cập nhật, nâng cấp và hỗ trợ kỹ thuật phần mềm toàn diện.

GPU NVIDIA Ampere

Công nghệ Tensor Core trong kiến ​​trúc Ampere đã mang lại hiệu suất đáng kể cho khối lượng công việc AI. Thử nghiệm quy mô lớn và nghiên cứu trường hợp khách hàng chứng minh rằng GPU Ampere dựa trên Tensor Core có thể giảm đáng kể thời gian đào tạo. Hai loại GPU Ampere có sẵn cho khối lượng công việc tính toán:

  • GPU NVIDIA A100 —GPU Tensor Core này có thể đạt được khả năng tăng tốc lớn cho khối lượng công việc đào tạo. Các chuyên gia CNTT được hưởng lợi từ việc giảm độ phức tạp trong vận hành bằng cách sử dụng một công nghệ duy nhất dễ dàng tích hợp và quản lý cho các trường hợp sử dụng này. GPU A100 là thẻ PCI Express (PCIe) Gen4 10,5 inch hai khe cắm dựa trên GPU NVIDIA Ampere A100. Nó sử dụng một tản nhiệt thụ động để làm mát. A100 PCIe hỗ trợ các tác vụ điện toán có độ chính xác kép (FP64), độ chính xác đơn (FP32) và độ chính xác một nửa (FP16). Nó cũng hỗ trợ bộ nhớ ảo hợp nhất và một công cụ di chuyển trang.
  • GPU NVIDIA A30 —GPU Tensor Core này là GPU điện toán chính linh hoạt nhất dành cho suy luận AI và khối lượng công việc chính của doanh nghiệp. Nó hỗ trợ một loạt các phép toán chính xác, cung cấp một máy gia tốc duy nhất để đẩy nhanh mọi khối lượng công việc. Được xây dựng để suy luận AI trên quy mô lớn, cùng một tài nguyên điện toán có thể nhanh chóng đào tạo lại các mô hình AI với TF32, cũng như tăng tốc các ứng dụng điện toán hiệu năng cao (HPC) bằng cách sử dụng Lõi FP64 Tensor. MIG và FP64 Tensor Cores kết hợp với băng thông bộ nhớ nhanh 933 GB/giây trong vỏ bọc công suất thấp 165 W, tất cả đều chạy trên thẻ PCIe tối ưu cho các máy chủ phổ thông.

GPU A100 và A30 hỗ trợ tính năng MIG, cho phép quản trị viên phân vùng một GPU thành nhiều phiên bản, mỗi phiên bản được cách ly hoàn toàn với bộ nhớ, bộ đệm và điện toán băng thông cao riêng. Thẻ A100 PCIe hỗ trợ cấu hình MIG với tối đa bảy phiên bản GPU cho mỗi GPU A100, trong khi GPU A30 hỗ trợ tối đa bốn phiên bản GPU. Để biết thêm thông tin, hãy xem phần về GPU ảo trong  Virtualizing GPUs for AI with VMware and NVIDIA  design guide. 

ConnectX SmartNIC

ConnectX-6 Dx SmartNIC là thẻ giao diện mạng đám mây tiên tiến và an toàn giúp tăng tốc các ứng dụng trung tâm dữ liệu quan trọng, chẳng hạn như ảo hóa, SDN/NFV, dữ liệu lớn, học máy, bảo mật mạng và lưu trữ. ConnectX-6 hỗ trợ Truy cập bộ nhớ trực tiếp từ xa (RDMA) qua Ethernet hội tụ (RoCE), giao thức mạng cần thiết cho đào tạo đa nút với GPUDirect RDMA. Trong thiết kế đã được kiểm chứng này, chúng tôi sử dụng ConnectX-6 Lx cho kết nối Ethernet 25 Gb/giây và tùy chọn ConnectX-6 Dx cho kết nối Ethernet 100 Gb/giây.

Hệ thống được NVIDIA chứng nhận 

Để thành công với các sáng kiến ​​trí tuệ nhân tạo và máy học, các doanh nghiệp cần có cơ sở hạ tầng điện toán nhất quán hiện đại cung cấp chức năng, hiệu suất, bảo mật và khả năng mở rộng. Các tổ chức cũng được hưởng lợi khi họ có thể chạy cả khối lượng công việc phát triển và sản xuất bằng công nghệ chung. Với Hệ thống được chứng nhận NVIDIA của Dell Technologies, doanh nghiệp có thể tự tin lựa chọn phần cứng được tối ưu hóa hiệu suất để chạy các giải pháp phần mềm VMware và NVIDIA—tất cả đều được hỗ trợ ở cấp độ doanh nghiệp.

Dell Technologies sản xuất nhiều loại máy chủ PowerEdge đủ điều kiện là Hệ thống được NVIDIA chứng nhận. Các Hệ thống được NVIDIA chứng nhận đi kèm với GPU A100 và A30 Tensor Core kiến ​​trúc NVIDIA Ampere và bộ điều hợp mạng NVIDIA Mellanox ConnectX-6 mới nhất.

Một nhóm nhỏ Hệ thống được NVIDIA chứng nhận sẽ trải qua chứng nhận bổ sung, bao gồm chứng nhận GPU VMware, để đảm bảo khả năng tương thích với NVIDIA AI Enterprise. Hệ thống được NVIDIA chứng nhận tương thích với NVIDIA AI Enterprise tuân thủ các phương pháp hay nhất về thiết kế của NVIDIA và đã vượt qua các bài kiểm tra chứng nhận giải quyết nhiều trường hợp sử dụng trên cơ sở hạ tầng VMware vSphere. Các trường hợp sử dụng này bao gồm đào tạo học sâu, suy luận AI, thuật toán khoa học dữ liệu, phân tích video thông minh, bảo mật cũng như giảm tải mạng và lưu trữ cho cả cụm một nút và nhiều nút.

Công nghệ Dell

Máy chủ Dell PowerEdge 

Các máy chủ Dell PowerEdge mới nhất được chứng nhận cho VMware vSphere 8 và vSAN 8. Các máy chủ PowerEdge dựa trên Intel sử dụng bộ xử lý Intel Xeon Scalable thế hệ thứ 4 mới nhất. Các tính năng chính khác bao gồm:

  • Intel Advanced Vector Extensions 512 (Intel AVX-512), có thể tăng tốc quá trình học máy cổ điển và các khối lượng công việc khác trong quy trình làm việc AI từ đầu đến cuối, chẳng hạn như chuẩn bị dữ liệu. Nó có thể tăng tốc khối lượng công việc trong bộ nhớ với tối đa 32 DDR5 RDIMMS với tốc độ lên tới 4800 MT/giây, sử dụng tám kênh bộ nhớ trên mỗi CPU
  • Hỗ trợ hai GPU hai chiều hoặc sáu GPU đơn cho khối lượng công việc cần tăng tốc
  • Các tùy chọn lưu trữ bao gồm các tùy chọn SAS3/SAS4/SATA và NVMe Gen4/NVME Gen5
  • Nhiều cấu hình riser Gen4 và Gen5

PowerEdge Máy chủ dựa trên AMD sử dụng bộ xử lý EPYC thế hệ thứ 4 mới nhất Bộ xử lý AMD EPYC thế hệ thứ 4. Các tính năng chính khác bao gồm:

  • Nâng cao hiệu suất thế hệ mạnh mẽ trên nhiều khối lượng công việc và thể hiện hiệu suất điểm chuẩn TPCx-AI dẫn đầu. 
  • Tăng tốc khối lượng công việc trong bộ nhớ với tối đa 24 DDR5 RDIMMS với tốc độ lên tới 4800 MT/giây, sử dụng tối đa 12 kênh bộ nhớ trên mỗi CPU
  • Hỗ trợ GPU bao gồm 2 x chiều rộng gấp đôi hoặc 6 x chiều rộng đơn cho khối lượng công việc yêu cầu tăng tốc
  • Các tùy chọn lưu trữ bao gồm SAS3/SAS4/SATA, NVMe Gen4/NVME Gen5
  • Nhiều cấu hình riser Gen4 và Gen5

Bảng sau đây liệt kê các máy chủ PowerEdge được hỗ trợ với NVIDIA AI Enterprise và số lượng GPU Ampere được hỗ trợ với từng mẫu máy chủ:  
Bảng 2.      Các máy chủ PowerEdge được hỗ trợ

Máy chủ

GPU A100 tối đa và GPU A30

PowerEdge R760

2

PowerEdge R7625

2

Các máy chủ PowerEdge này là Hệ thống được NVIDIA chứng nhận và đã được chứng minh thông qua một bộ kiểm tra hiệu suất và chức năng nghiêm ngặt. Kết quả kiểm tra xác nhận rằng các máy chủ này có thể mang lại hiệu suất cao cả trong các tiêu chuẩn suy luận và huấn luyện cụm đa nút được nối mạng và một nút. Ngoài ra, các máy chủ này được chứng nhận tương thích với NVIDIA AI Enterprise thông qua thử nghiệm và xác thực bổ sung.

Bộ lưu trữ Dell PowerScale

Lưu trữ PowerScale giúp mở khóa cấu trúc trong dữ liệu và giải quyết các thách thức của việc quản lý dữ liệu phi cấu trúc. PowerScale là sự phát triển tiếp theo của OneFS—hệ điều hành cung cấp năng lượng cho nền tảng NAS mở rộng quy mô. Dòng PowerScale bao gồm các nút Dell Isilon và nút PowerScale, với PowerScale OneFS chạy trên tất cả chúng. Kiến trúc do phần mềm xác định của OneFS mang đến sự đơn giản ở quy mô lớn, thông tin chi tiết thông minh và khả năng có dữ liệu ở mọi nơi cần đến. Cho dù lưu trữ chia sẻ tệp hoặc thư mục chính hay cung cấp quyền truy cập dữ liệu hiệu suất cao cho các ứng dụng như phân tích, kết xuất video và khoa học đời sống, PowerScale có thể mở rộng liền mạch hiệu suất, dung lượng và hiệu quả để xử lý mọi khối lượng công việc dữ liệu phi cấu trúc.

Trong thiết kế đã được kiểm chứng này, chúng tôi sử dụng PowerScale làm kho lưu trữ cho hồ dữ liệu—kho lưu trữ dữ liệu dành cho dữ liệu phi cấu trúc mà bạn có thể sử dụng để đào tạo mạng thần kinh. Bộ lưu trữ NAS PowerScale All-Flash Scale-out là lý tưởng, mang lại hiệu suất phân tích và tính đồng thời cực cao trên quy mô lớn để cung cấp một cách nhất quán các thuật toán deep learning ngốn nhiều dữ liệu nhất.

GPUDirect Storage,  một công nghệ NVIDIA, cho phép đường dẫn dữ liệu trực tiếp giữa bộ nhớ cục bộ hoặc bộ nhớ từ xa, như NVMe hoặc NVMe over Fabric (NVMe-oF) và bộ nhớ GPU. GPUDirect Storage tránh các bản sao bổ sung thông qua bộ đệm bị trả lại trong bộ nhớ của CPU. Nó cho phép một công cụ truy cập bộ nhớ trực tiếp (DMA) gần bộ lưu trữ di chuyển dữ liệu trên một đường dẫn trực tiếp vào hoặc ra khỏi bộ nhớ GPU – tất cả đều không gây gánh nặng cho CPU hoặc GPU. PowerScale hỗ trợ Lưu trữ GPUDirect.

Bộ lưu trữ Dell PowerStore

PowerStore là một thiết bị lưu trữ hiện đại được thiết kế cho kỷ nguyên dữ liệu. Kiến trúc duy nhất của PowerStore cho khối, tệp và VMware vVols sử dụng các công nghệ mới nhất để hỗ trợ nhiều loại khối lượng công việc truyền thống và hiện đại cấp doanh nghiệp – từ cơ sở dữ liệu quan hệ, đến ứng dụng ERP và EMR, ứng dụng gốc trên đám mây và khối lượng công việc dựa trên tệp như như kho lưu trữ nội dung và thư mục chính. Khả năng cung cấp ứng dụng, mạng đa giao thức và đa dạng lưu trữ đa định dạng (khối lượng vật lý và ảo, bộ chứa và tệp truyền thống) trong một thiết bị 2U duy nhất mang lại sự linh hoạt cho doanh nghiệp, đồng thời giúp bộ phận CNTT đơn giản hóa và củng cố cơ sở hạ tầng của họ.

Quản trị viên có thể chọn triển khai PowerStoreOS trong cấu hình kim loại trần trực tiếp trên phần cứng PowerStore hoặc trong máy ảo chạy trên trình ảo hóa VMware tích hợp tùy chọn của PowerStore, cung cấp thêm một lớp cách ly, thông minh và trừu tượng.

Công tắc Dell PowerSwitch

Trong thiết kế đã được kiểm chứng này, chúng tôi sử dụng các công tắc Dell sau:

  • Công tắc PowerSwitch S5232F-ON để kết nối mạng 100 GbE. Sử dụng bộ chuyển mạch S5332F-ON, bạn có thể xây dựng kết cấu lá/cột trung tâm dữ liệu hiệu suất cao, tiết kiệm chi phí với các cổng 32 x 100 GbE QSFP28. Nó hỗ trợ Môi trường cài đặt mạng mở (ONIE) để cài đặt hệ điều hành mạng mà không cần chạm.
  • Công tắc PowerSwitch S5248F-ON để kết nối mạng 25 GbE. Nó có các cổng 48 x 25 GbE SFP28, 4 cổng 100 GbE QSFP28 và 2 cổng 100 GbE QFSP28-DD. Nó hỗ trợ ONIE để cài đặt hệ điều hành mạng mà không cần chạm.
  • Công tắc PowerSwitch N3248TE-ON hoặc PowerSwitch S4148T dành cho kết nối ngoài băng tần (OOB) 1 GbE.