Tối ưu hóa GPU với Run:ai Atlas (3)

Cân nhắc triển khai

Tổng quan

Phần này cung cấp một cái nhìn tổng quan về việc triển khai giải pháp. Để biết hướng dẫn chi tiết hơn, hãy xem hướng dẫn cài đặt của từng thành phần.

Cài đặt nền tảng Symcloud

Nền tảng Symcloud phiên bản 5.4 cung cấp tiện ích GoRobin để cài đặt Nền tảng Symcloud nhanh chóng và đơn giản. Tiện ích đơn giản hóa quy trình cài đặt, gỡ cài đặt và cập nhật. Xem hướng dẫn triển khai Nền tảng Symcloud để biết thêm thông tin, bao gồm các điều kiện tiên quyết . Cân nhắc những điều sau đây khi triển khai Nền tảng Symcloud:

  • Để nhà điều hành GPU NVIDIA hoạt động trên Nền tảng Symcloud, Giao diện thời gian chạy vùng chứa (CRI) phải là docker . CRI mặc định là robin . Để thay đổi CRI mặc định, tham số sau phải có trong tệp YAML cấu hình worker:

  –cri=dockershim

Ngoài ra, hãy sử dụng tùy chọn sau trong tệp YAML:

–storage-driver=overlay2

Để xác minh rằng CRI chính xác đã được cài đặt, hãy chạy lệnh kubectl get nodes -o wide sau khi cài đặt. Cột cuối cùng trong hình dưới đây hiển thị CRI:

  • Cài đặt tự lưu trữ trên nền tảng Run:ai Atlas yêu cầu bộ cân bằng tải MetalLB có sẵn như một phần của gói cài đặt. Xem phần Hỗ trợ cân bằng tải qua MetalLB trong hướng dẫn triển khai của họ để triển khai MetalLB.

Cài đặt toán tử GPU

Chúng tôi đã cài đặt trình điều khiển GPU theo cách thủ công trên mỗi nút công nhân. Để cài đặt toán tử GPU:

  1. Trước khi cài đặt trình điều khiển GPU NVIDIA, hãy cài đặt các tiêu đề hạt nhân và trình biên dịch gcc:

$ dnf nhóm cài đặt “Công cụ phát triển”

$ dnf cài đặt kernel-devel-$(uname -r) kernel-headers-$(uname -r)

  1. Tải xuống và cài đặt trình điều khiển NVIDIA phiên bản 525 bằng cách chạy tệp NVIDIA-Linux-x86_64-525.65.run và làm theo lời nhắc.
  2. Xác minh cài đặt trình điều khiển bằng cách chạy lệnh nvdia-smi .
  3. Đảm bảo rằng MIG đã tắt.
  4. Khởi động lại máy chủ nếu cần
  5. Cài đặt toán tử GPU bằng cách sử dụng các lệnh helm sau:

$ helm repo thêm nvidia https://helm.ngc.nvidia.com/nvidia

cập nhật repo $ helm

$ helm cài đặt –wait –generate-name -n robinio nvidia/gpu-operator –set driver.enabled=false,toolkit.version=v1.11.0-ubi8 –version v22.9.2

  1. Xác minh cài đặt GPU bằng cách sử dụng kubectl get pods -n robinio | lệnh grep nvidia :

 

Tại sao lại là công nghệ DELL

Bản tóm tắt

Công nghệ đằng sau AI đang phát triển nhanh chóng và các công ty có thể không có chuyên gia AI trong đội ngũ nhân viên hoặc không có thời gian để thiết kế, triển khai và quản lý các nhóm giải pháp với tốc độ cần thiết. Dell Technologies đã dẫn đầu trong không gian điện toán tiên tiến trong hơn một thập kỷ qua, với các sản phẩm, giải pháp và kiến ​​thức chuyên môn đã được chứng minh. Dell Technologies có các nhóm chuyên gia AI, phân tích dữ liệu và điện toán hiệu năng cao (HPC) chuyên đi đầu, thử nghiệm các công nghệ mới và điều chỉnh các giải pháp cho các ứng dụng của bạn để giúp bạn bắt kịp với bối cảnh không ngừng phát triển.

Đi đầu trong các lĩnh vực này, Dell Technologies đã đầu tư vào việc tạo danh mục Thiết kế được xác thực cho AI và Phân tích, đơn giản hóa cơ sở hạ tầng CNTT để cung cấp thông tin chi tiết nhanh hơn, sâu hơn. Bằng cách hợp tác với các nhà lãnh đạo công nghệ khác trong các lĩnh vực cụ thể, chẳng hạn như Run:ai, chúng tôi tạo ra các thiết kế được xác thực và tối ưu hóa, chẳng hạn như các giải pháp cho AI đàm thoại và AI sáng tạo .

Dell Technologies cung cấp một cách độc đáo danh mục công nghệ phong phú để cung cấp các giải pháp điện toán tiên tiến làm nền tảng cho việc triển khai AI thành công. Với nhiều năm kinh nghiệm và hệ sinh thái gồm các đối tác công nghệ và dịch vụ được quản lý, Dell Technologies cung cấp các giải pháp sáng tạo, máy chủ, kết nối mạng, lưu trữ, máy trạm và dịch vụ giúp giảm thiểu sự phức tạp. Chúng cho phép bạn tận dụng một lượng dữ liệu vô hạn. Các phần sau đây cung cấp thông tin bổ sung về các dịch vụ và hỗ trợ của Dell Technologies cũng như Trung tâm Giải pháp Khách hàng của chúng tôi.

Bản tóm tắt

Dell Technologies sẵn sàng hỗ trợ giải pháp chung này ở mọi bước, liên kết con người, quy trình và công nghệ để tăng tốc đổi mới và mang lại kết quả kinh doanh tối ưu.

  • Dịch vụ Tư vấn giúp bạn tạo lợi thế cạnh tranh cho doanh nghiệp của mình. Chuyên gia tư vấn của chúng tôi làm việc với các công ty ở tất cả các giai đoạn phân tích dữ liệu để giúp bạn lập kế hoạch, triển khai và tối ưu hóa các giải pháp cho phép bạn mở khóa vốn dữ liệu của mình và hỗ trợ các kỹ thuật nâng cao, chẳng hạn như AI.
  • Dịch vụ triển khai giúp bạn hợp lý hóa sự phức tạp và đưa các khoản đầu tư CNTT mới vào trực tuyến nhanh nhất có thể. Tận dụng hơn 30 năm kinh nghiệm của chúng tôi để triển khai giải pháp hiệu quả và đáng tin cậy nhằm tăng tốc độ áp dụng và ROI đồng thời giải phóng nhân viên CNTT cho công việc mang tính chiến lược hơn.
  • Dịch vụ hỗ trợ do AI và học sâu điều khiển sẽ thay đổi cách bạn nghĩ về hỗ trợ với công nghệ thông minh, đột phá được hỗ trợ bởi các chuyên gia để giúp bạn tối đa hóa năng suất, thời gian hoạt động và sự tiện lợi. Trải nghiệm nhiều hơn là giải quyết vấn đề nhanh chóng—công cụ AI của chúng tôi chủ động phát hiện và ngăn chặn các sự cố trước khi chúng ảnh hưởng đến hiệu suất. Chọn ProSupport Plus cho một đầu mối liên hệ duy nhất để hỗ trợ phần mềm và phần cứng.
  • Các Giải pháp Thanh toán từ Dịch vụ Tài chính của Dell giúp bạn tối đa hóa ngân sách CNTT của mình và có được công nghệ bạn cần ngay hôm nay. Danh mục đầu tư của chúng tôi bao gồm các phương án cho thuê và tài chính truyền thống, cũng như các sản phẩm tiêu dùng linh hoạt tiên tiến.
  • Dịch vụ được quản lý có thể giúp giảm chi phí, độ phức tạp và rủi ro trong việc quản lý CNTT để bạn có thể tập trung nguồn lực của mình vào đổi mới và chuyển đổi kỹ thuật số trong khi các chuyên gia của chúng tôi giúp tối ưu hóa hoạt động và đầu tư CNTT của bạn.
  • Dịch vụ lưu trú cung cấp kiến ​​thức chuyên môn cần thiết để thúc đẩy quá trình chuyển đổi CNTT hiệu quả và duy trì cơ sở hạ tầng CNTT hoạt động ở mức cao nhất. Các chuyên gia thường trú làm việc không mệt mỏi để giải quyết các thách thức và yêu cầu, với khả năng điều chỉnh khi các ưu tiên thay đổi.

Trung tâm giải pháp khách hàng của DELL

Bản tóm tắt

Trung tâm Giải pháp Khách hàng của Dell Technologies giúp bạn lập kế hoạch và đạt được các mục tiêu kinh doanh để thúc đẩy tương lai kỹ thuật số của bạn:

  • Proof of Concept —Xác thực rằng giải pháp ưa thích của bạn đáp ứng nhu cầu của bạn bằng Proof of Concept tùy chỉnh. Các kiến ​​trúc sư giải pháp của Dell Technologies cho phép triển khai thực tế, thực hành dựa trên các trường hợp thử nghiệm của bạn.
  • Phiên thiết kế —Cộng tác với các chuyên gia của Dell Technologies để thiết kế khung giải pháp. Cùng các chuyên gia của chúng tôi động não để khám phá môi trường CNTT hiện tại, các mục tiêu trong tương lai và các giải pháp tiềm năng của bạn.
  • Tìm hiểu sâu về kỹ thuật —Đi sâu vào chi tiết giải pháp kỹ thuật mà bạn đang xem xét cho tổ chức của mình. Học hỏi từ các cuộc trình diễn sản phẩm trực tiếp và các cuộc thảo luận tập trung vào giải pháp với các chuyên gia về chủ đề của Dell Technologies.

Phần kết

Bằng cách tích hợp sức mạnh xử lý của máy chủ Dell PowerEdge và hỗ trợ GPU NVIDIA mới nhất với nền tảng điều phối GPU mạnh mẽ từ Run:ai, các tổ chức có thể tối ưu hóa việc sử dụng cơ sở hạ tầng AI của họ. Sự tích hợp này đảm bảo trải nghiệm liền mạch với cơ sở hạ tầng Dell và mức tiêu thụ tài nguyên giống như đám mây, cho phép các tổ chức chạy hiệu quả khối lượng công việc không đồng nhất bao gồm xây dựng và đào tạo các mô hình AI, cũng như chạy suy luận với tốc độ và hiệu quả cao hơn. Kết quả là một giải pháp cơ sở hạ tầng AI hiệu quả cho phép các tổ chức vận hành các sáng kiến ​​AI của họ một cách hiệu quả.

Dell Technologies và Run:ai đã hợp tác để cung cấp giải pháp điều phối AI có khả năng mở rộng cao, linh hoạt và được tối ưu hóa để sử dụng tại chỗ, mang lại trải nghiệm giống như đám mây. Giải pháp này cho phép các doanh nghiệp tập trung vào việc nâng cao năng suất bằng những hiểu biết sâu sắc về doanh nghiệp của họ, thay vì đầu tư thời gian và nguồn lực vào việc xây dựng cơ sở hạ tầng cho các dự án AI của họ. Các tính năng độc đáo của Run:ai Atlas cho phép các doanh nghiệp có toàn quyền kiểm soát tài nguyên điện toán của họ, cho phép họ phân bổ lượng tài nguyên cụ thể để thúc đẩy các sáng kiến ​​AI hiệu quả hơn và nhanh hơn. Phương pháp này đảm bảo rằng GPUtài nguyên không bị bỏ hoang, dẫn đến tiết kiệm chi phí và cải thiện hiệu suất. Nhìn chung, thiết kế đã được xác thực này cung cấp cho các doanh nghiệp một giải pháp hợp lý cho các sáng kiến ​​AI của họ, cho phép họ tập trung vào việc đạt được các mục tiêu của mình với hiệu suất và hiệu suất cao hơn. Nền tảng Dell Data Lakehouse cho phép môi trường đám mây lai trong đó các doanh nghiệp có toàn quyền kiểm soát việc cân bằng phân tích giữa tại chỗ và đám mây để giảm thiểu chi phí liên quan đến đám mây và tránh gửi dữ liệu nhạy cảm lên đám mây. Run:ai Atlas trên cơ sở hạ tầng Dell là giải pháp tối ưu để tối ưu hóa nhu cầu khối lượng công việc AI/ML của bạn.