Hướng dẫn thiết kế—Trí thông minh nhân tạo trong doanh nghiệp – Inferencing (6)

Suy luận

Triển khai mô hình

Máy chủ suy luận NVIDIA Triton là một máy chủ suy luận học sâu hiệu suất cao mã nguồn mở do NVIDIA phát triển. Nó được thiết kế để phục vụ các mô hình AI trong môi trường sản xuất, cho phép triển khai hiệu quả và có thể mở rộng các mô hình máy học để suy luận thời gian thực. Triton hỗ trợ nhiều nền tảng deep learning khác nhau như TensorFlow, PyTorch, ONNX, v.v. Nó cho phép bạn phục vụ đồng thời nhiều mô hình, giúp triển khai các ứng dụng AI khác nhau một cách linh hoạt. Triton được xây dựng để có khả năng mở rộng, cho phép bạn triển khai và cung cấp các mô hình trên nhiều GPU và trên nhiều nút theo cách phân tán. Khả năng mở rộng này làm cho nó phù hợp để xử lý khối lượng công việc suy luận quy mô lớn.

 

Vòng đời

Máy chủ suy luận NVIDIA Triton hoạt động bằng cách phục vụ các mô hình từ một hoặc nhiều kho lưu trữ mô hình được chỉ định trong quá trình khởi động máy chủ. Việc sử dụng kho lưu trữ này cho phép người dùng quản lý các phiên bản mô hình khác nhau một cách hiệu quả, tương tự như các hệ thống kiểm soát phiên bản, cung cấp vòng đời cho các mô hình AI trong sản xuất. Mỗi phiên bản mô hình có thể được duy trì như một thực thể riêng biệt trong kho lưu trữ, tạo điều kiện truy xuất phiên bản mong muốn khi cần thiết. Hơn nữa, một số người dùng sử dụng các công cụ quản lý cấu hình bên ngoài như Ansible để hợp lý hóa việc quản lý các phiên bản mô hình. Những công cụ như vậy cung cấp khả năng tự động hóa, giúp dễ dàng chuyển đổi liền mạch giữa các phiên bản kiểu xe khác nhau trong Triton.

 

Sao lưu và khôi phục

Các mô hình AI có thể được sao lưu để đảm bảo tính bảo toàn và tính khả dụng của chúng nếu xảy ra mất dữ liệu, lỗi hệ thống hoặc thay đổi ngẫu nhiên. NVIDIA Triton Inference Server vốn không hỗ trợ các chức năng sao lưu và khôi phục dữ liệu mô hình và trạng thái suy luận. Triton Inference Server chủ yếu tập trung vào việc phục vụ hiệu quả các mô hình AI để suy luận và không bao gồm các cơ chế tích hợp để sao lưu và phục hồi dữ liệu. Các mô hình thường được lưu trữ trong kho lưu trữ trong Persistent Volumes do Kubernetes cung cấp. Khách hàng có thể tận dụng các giải pháp sao lưu cho Kubernetes để sao lưu và khôi phục các mô hình AI và dữ liệu suy luận.

 

Phục vụ mô hình an toàn

Bảo mật các mô hình AI trong quá trình sản xuất là rất quan trọng để bảo vệ dữ liệu nhạy cảm, duy trì tính toàn vẹn của hệ thống và ngăn chặn truy cập trái phép. Cân nhắc bảo mật quan trọng cho các mô hình AI trong sản xuất bao gồm:

  • Phục vụ mô hình an toàn —Khi triển khai mô hình AI, hãy sử dụng các kỹ thuật hộp cát và hộp chứa an toàn để cách ly mô hình khỏi cơ sở hạ tầng bên dưới và ngăn chặn các cuộc tấn công tiềm ẩn. Docker và Kubernetes cung cấp các cơ chế này.
  • Xác thực và ủy quyền —Triển khai các cơ chế xác thực mạnh mẽ để xác minh danh tính của người dùng và ứng dụng truy cập vào mô hình AI. Sử dụng danh sách kiểm soát truy cập (ACL) hoặc kiểm soát truy cập dựa trên vai trò (RBAC) để thực thi các quyền thích hợp cho các vai trò người dùng khác nhau. Kubernetes được triển khai thông qua trình quản lý cụm của NVIDIA hỗ trợ cả ACL và RBAC để cung cấp quyền kiểm soát và ủy quyền chi tiết đối với tài nguyên GPU và các mô hình AI trong cụm. Các cơ chế này giúp thực thi các chính sách bảo mật và đảm bảo rằng chỉ những người dùng và quy trình được ủy quyền mới có quyền truy cập để thực hiện các thao tác suy luận trên tài nguyên Kubernetes.
  • API bảo mật —Máy chủ suy luận Triton hiển thị các mô hình AI thông qua API. Các API này có thể được bảo mật bằng cơ chế xác thực và ủy quyền. Sử dụng mã thông báo hoặc khóa API để xác thực yêu cầu và ngăn truy cập trái phép.
  • Giao tiếp an toàn —Máy chủ suy luận Triton hỗ trợ các giao thức giao tiếp an toàn, chẳng hạn như HTTPS, để bảo vệ việc truyền dữ liệu giữa các máy khách và mô hình AI theo suy luận.

Giám sát mô hình

Triton Inference Server cung cấp các chỉ số mô hình giúp cung cấp thông tin chi tiết có giá trị về hiệu suất và hành vi của các mô hình được triển khai trong quá trình suy luận. Các số liệu này giúp theo dõi và tối ưu hóa quy trình suy luận trong môi trường sản xuất. Một số chỉ số mô hình chính do Triton Inference Server cung cấp bao gồm:

  • Độ trễ —Triton báo cáo thời gian trung bình cần để xử lý một yêu cầu suy luận đơn lẻ (tính bằng mili giây).
  • Thông lượng —Triton đo số lượng yêu cầu suy luận được xử lý mỗi giây.
  • Sử dụng GPU —Đối với các kiểu máy chạy trên GPU, Triton cung cấp các số liệu về việc sử dụng GPU, cho biết lượng sức mạnh xử lý của GPU đang được sử dụng.
  • Sử dụng bộ nhớ —Triton báo cáo bộ nhớ GPU được sử dụng bởi từng phiên bản kiểu máy, đảm bảo rằng bộ nhớ GPU được sử dụng hiệu quả và tránh các sự cố liên quan đến bộ nhớ.
  • Số lần suy luận —Triton theo dõi số lần suy luận được thực hiện bởi mỗi phiên bản mô hình.

Các số liệu này có thể được truy cập và giám sát thông qua các điểm cuối giám sát tích hợp của Triton, Prometheus hoặc các công cụ giám sát và trực quan hóa khác như Grafana. Bằng cách phân tích các chỉ số mô hình này, nhà phát triển và quản trị viên hệ thống có thể hiểu toàn diện về hiệu suất, sử dụng tài nguyên và tình trạng tổng thể của mô hình, cho phép họ tối ưu hóa việc triển khai và đảm bảo mô hình hoạt động hiệu quả trong sản xuất.

 

Dịch vụ Chuyên nghiệp của Dell dành cho AI Sáng tạo

Giới thiệu

Các Dịch vụ Chuyên nghiệp của Dell dành cho AI Sáng tạo khai thác sức mạnh của công nghệ đang phát triển nhanh chóng này theo cách có ý nghĩa và an toàn để mang lại kết quả mà doanh nghiệp của bạn mong đợi. Bằng cách hợp tác với Dell Technologies, doanh nghiệp của bạn có thể tự tin thúc đẩy các sáng kiến ​​AI cải tiến, biết rằng bạn có thể tin tưởng vào chúng tôi trên mọi bước đường, với các dịch vụ về chiến lược, triển khai, áp dụng và nhân rộng các giải pháp AI cải tiến trong toàn tổ chức của bạn, bao gồm cả Thiết kế được xác thực của Dell cho Generative AI Inferences với NVIDIA.

Dịch vụ tư vấn cho AI sáng tạo

Tạo một chiến lược và lộ trình để đạt được tầm nhìn AI tổng thể của bạn:

  • Các chuyên gia của Dell đánh giá môi trường hiện tại của bạn, bao gồm các trình điều khiển kinh doanh AI tổng quát, mục tiêu, thách thức và hạn chế.
  • Ưu tiên các trường hợp sử dụng kinh doanh của bạn, các chuyên gia của chúng tôi xác định trạng thái tương lai lý tưởng của bạn, thiết kế kiến ​​trúc giải pháp AI tổng quát mới tận dụng thiết kế này và xác định các kỹ năng mà tổ chức CNTT của bạn cần để thành công.
  • Sau đó, chúng tôi tạo và xác thực lộ trình AI tổng quát để doanh nghiệp của bạn nhận ra giá trị của AI tổng quát, xác định cơ sở kinh doanh định tính của bạn, phát triển các đề xuất và các bước tiếp theo, đồng thời trình bày lộ trình cho giám đốc điều hành của bạn.

Dịch vụ triển khai cho AI sáng tạo

Thiết lập nền tảng suy luận AI sáng tạo của bạn bằng cách sử dụng Thiết kế được xác thực của Dell dành cho suy luận AI sáng tạo với NVIDIA:

  • Dell Technologies tổ chức hội thảo với các bên liên quan trong dự án của bạn, xem xét cách tiếp cận cần thiết để triển khai kiến ​​trúc nền tảng bằng cách sử dụng Dell Validated Design for Generative AI với NVIDIA
  • Sau đó, chúng tôi triển khai các công cụ và khuôn khổ cần thiết để thiết lập một nền tảng AI tổng quát hoạt động, được hướng dẫn bởi thiết kế đã được xác thực này.
  • Trước khi bàn giao các hoạt động cho nhóm của bạn, chúng tôi tiến hành chuyển giao kiến ​​thức nền tảng AI tổng quát tập trung vào các giải pháp đã triển khai để mang lại thành công cho AI tổng quát của nhóm bạn

Dịch vụ áp dụng cho AI sáng tạo

Đạt được các trường hợp sử dụng suy luận độc đáo của bạn bằng cách sử dụng mô hình được đào tạo trước với nền tảng AI thế hệ mới được triển khai bằng Thiết kế đã được xác thực của Dell dành cho AI thế hệ mới với NVIDIA:

  • Thông qua nhiều hội thảo, các chuyên gia của Dell liên kết với các bên liên quan của dự án để xem xét các trường hợp sử dụng của bạn và xác định mô hình tốt nhất để đáp ứng nhu cầu của bạn.
  • Lưu ý đến các trường hợp sử dụng riêng của bạn, các chuyên gia AI tổng quát của Dell sẽ triển khai và định cấu hình mô hình được đào tạo trước cho doanh nghiệp của bạn.
  • Sau đó, chúng tôi tiến hành các phiên chuyển giao kiến ​​thức bao gồm việc sử dụng ngăn xếp phần mềm, kiến ​​trúc và các phương pháp hay nhất để áp dụng mô hình suy luận mới của bạn.

Dịch vụ quy mô cho AI sáng tạo

Tối ưu hóa các quy trình và nâng cao tư duy AI sáng tạo trong toàn tổ chức của bạn:

  • Giải quyết các lỗ hổng kỹ năng CNTT quan trọng với Dịch vụ giáo dục cho AI; chúng tôi làm việc trực tiếp với nhóm của bạn và đảm bảo rằng bạn luôn bắt kịp tốc độ.
  • Các chuyên gia thường trú của Dell cung cấp kiến ​​thức chuyên môn cần thiết để thúc đẩy sáng kiến ​​AI sáng tạo của bạn và duy trì cơ sở hạ tầng AI sáng tạo của bạn bằng cách sử dụng Thiết kế đã được xác thực của Dell cho Trí tuệ nhân tạo sáng tạo với NVIDIA hoạt động ở mức cao nhất.
  • Cho phép Dell Technologies quản lý môi trường AI tổng quát của bạn và liên tục tối ưu hóa các nền tảng hướng đến kết quả kinh doanh mong muốn của bạn.

Bản tóm tắt

Thiết kế được xác thực của Dell dành cho suy luận AI sáng tạo với NVIDIA đã được phát triển để đáp ứng nhu cầu của các doanh nghiệp cần phát triển và chạy các LLM AI tùy chỉnh bằng cách sử dụng dữ liệu dành riêng cho miền có liên quan đến tổ chức của chính họ.

Dell Technologies và NVIDIA đã thiết kế một kiến ​​trúc có thể mở rộng, theo mô-đun và hiệu suất cao cho phép các doanh nghiệp thiết kế và triển khai nhanh hơn một giải pháp suy luận đã được xác thực và kiểm tra hiệu suất để đẩy nhanh thời gian đạt được giá trị cũng như giảm rủi ro và sự không chắc chắn bằng cách sử dụng một thiết kế đã được chứng minh.

Hướng dẫn này cung cấp hướng dẫn thiết kế và kiến ​​trúc tham chiếu được xác thực đầy đủ cho suy luận AI tổng quát. Các chủ đề đã được thảo luận bao gồm:

  • Định nghĩa về suy luận và cách nó phù hợp với vòng đời phát triển mô hình AI
  • Các trường hợp sử dụng để suy luận, bao gồm một số thách thức khi triển khai
  • Giải thích về các đặc điểm và ví dụ về LLM
  • Chi tiết về máy chủ Dell PowerEdge và GPU NVIDIA được sử dụng trong thiết kế, bao gồm cấu hình GPU, kết nối GPU và phương thức kết nối mạng.
  • Mô tả về các thành phần phần mềm chính được sử dụng để suy luận, bao gồm NVDIA AI Enterprise, Máy chủ suy luận Triton, khung NeMo cho các mô hình AI tổng quát và trình quản lý cụm NVIDIA
  • Mô tả chi tiết về kiến ​​trúc tham chiếu dành cho suy luận AI tổng quát, bao gồm cả phần cứng vật lý và kiến ​​trúc phần mềm
  • Bản trình bày kết quả xác thực, bao gồm nhiều mô hình được sử dụng để xác thực và nhiều tình huống xác thực
  • Danh sách các kết quả kiểm tra hiệu suất và cách chúng ảnh hưởng đến các khuyến nghị về quy mô cơ sở hạ tầng
  • Hướng dẫn cho các hoạt động suy luận khi giải pháp được triển khai và vận hành
  • Mô tả về các dịch vụ tư vấn chuyên nghiệp của Dell đã được thiết kế dành riêng cho thiết kế đã được kiểm chứng này dành cho AI tổng quát, bao gồm các dịch vụ tư vấn, triển khai, áp dụng và mở rộng quy mô

Mặc dù thiết kế này tập trung vào khả năng suy luận AI của các mô hình được đào tạo trước, nhưng đây là thiết kế đầu tiên trong loạt thiết kế đã được xác thực dành cho AI tổng quát tập trung vào tất cả các khía cạnh của vòng đời AI tổng quát, bao gồm suy luận, tùy chỉnh mô hình và đào tạo mô hình. Mặc dù các thiết kế này tập trung vào các trường hợp sử dụng AI tổng quát, nhưng kiến ​​trúc này cũng có thể áp dụng rộng rãi hơn cho các trường hợp sử dụng AI tổng quát hơn.

Với dự án này, Dell Technologies và NVIDIA cho phép các tổ chức cung cấp các giải pháp AI tổng hợp toàn ngăn xếp được xây dựng trên cơ sở hạ tầng và phần mềm tốt nhất của Dell, kết hợp với bộ tăng tốc NVIDIA, phần mềm AI và chuyên môn AI mới nhất. Sự kết hợp các thành phần này cho phép các doanh nghiệp sử dụng trí tuệ nhân tạo tại chỗ được xây dựng có mục đích để giải quyết các thách thức kinh doanh của họ. Cùng nhau, chúng ta đang dẫn đầu trong việc thúc đẩy làn sóng đổi mới tiếp theo trong bối cảnh AI của doanh nghiệp.