Hướng dẫn thiết kế—Trí thông minh nhân tạo trong doanh nghiệp – Inferencing (3)

Giải pháp xây dựng

Tổng quan về kiến ​​trúc

Dell Validated Design for Generative AI Inferencing là một kiến ​​trúc tham chiếu được thiết kế để giải quyết những thách thức khi triển khai LLM trong môi trường sản xuất. LLM đã cho thấy tiềm năng to lớn trong các nhiệm vụ xử lý ngôn ngữ tự nhiên nhưng yêu cầu cơ sở hạ tầng chuyên biệt để triển khai và suy luận hiệu quả.

Kiến trúc tham chiếu này đóng vai trò như một kế hoạch chi tiết, cung cấp các nguyên tắc và phương pháp hay nhất cho các tổ chức để thiết kế và triển khai các hệ thống suy luận AI có thể mở rộng, hiệu quả và đáng tin cậy, được thiết kế riêng cho các mô hình AI tổng quát. Mặc dù trọng tâm chính của nó là suy luận AI tổng quát, nhưng kiến ​​trúc này có thể được điều chỉnh cho các mô hình AI phân biệt hoặc dự đoán, như được giải thích thêm trong phần này.

Hinh 4.  Kiến trúc tham khảo

Các phần sau đây mô tả các thành phần chính của kiến ​​trúc tham chiếu.

Cơ sở hạ tầng điện toán

Cơ sở hạ tầng điện toán là một thành phần quan trọng của thiết kế, chịu trách nhiệm thực hiện hiệu quả các mô hình AI. Dell Technologies cung cấp một loạt máy chủ được tối ưu hóa về khả năng tăng tốc, được trang bị GPU NVIDIA, để xử lý nhu cầu điện toán cường độ cao của LLM. Các mô hình máy chủ sau đây có sẵn dưới dạng tài nguyên điện toán để triển khai các mô hình LLM trong sản xuất:

  • Máy chủ PowerEdge XE9680 được trang bị tám GPU NVIDIA H100 SXM với NVSwitch
  • Máy chủ PowerEdge XE8640 được trang bị bốn GPU NVIDIA H100 SXM với NVLink
  • Máy chủ PowerEdge R760xa hỗ trợ tối đa bốn GPU NVIDIA H100 PCIe với NVLink Bridge.

Ngoài ra, máy chủ PowerEdge R760xa được định cấu hình với GPU NVIDIA L40 có thể được sử dụng để suy luận AI không phát sinh, chẳng hạn như các hệ thống đề xuất.

Hạ tầng mạng

Các tổ chức có thể chọn giữa cơ sở hạ tầng mạng 25 Gb hoặc 100 Gb dựa trên các yêu cầu cụ thể của họ. Đối với các tác vụ suy luận LLM sử dụng dữ liệu văn bản, chúng tôi khuyên bạn nên sử dụng cơ sở hạ tầng mạng hiện có với Ethernet 25 Gb, đáp ứng đầy đủ nhu cầu băng thông của dữ liệu văn bản. Để đảm bảo cơ sở hạ tầng trong tương lai, có thể sử dụng thiết lập Ethernet 100 Gb. PowerSwitch S5232F-ON hoặc PowerSwitch S5248F-ON có thể được sử dụng làm bộ chuyển đổi mạng. PowerSwitch S5232F-ON hỗ trợ cả Ethernet 25 Gb và 100 Gb, trong khi PowerSwitch S5248F-On là bộ chuyển mạch Ethernet 25 Gb. Bộ điều hợp mạng ConnectX-6 được sử dụng để kết nối mạng. Chúng có sẵn ở cả hai tùy chọn 25 Gb và 100 Gb.

Phạm vi của kiến ​​trúc tham chiếu chỉ bao gồm các mô hình AI trong sản xuất có thể phù hợp với một máy chủ PowerEdge duy nhất. Nó không bao gồm các mô hình trải rộng trên nhiều nút và yêu cầu kết nối tốc độ cao.

Cơ sở hạ tầng quản lý

Cơ sở hạ tầng quản lý đảm bảo triển khai và điều phối liền mạch hệ thống suy luận AI. Phần mềm quản lý cụm của NVIDIA, một giải pháp quản lý cụm mạnh mẽ, thực hiện các nhiệm vụ cung cấp kim loại trần, triển khai cụm và quản lý liên tục. Được triển khai trên máy chủ PowerEdge R660 đóng vai trò là nút đầu, phần mềm quản lý cụm đơn giản hóa việc quản trị toàn bộ cụm.

Để cho phép điều phối vùng chứa hiệu quả, cụm Kubernetes được triển khai trong cơ sở hạ tầng điện toán, dưới sự quản lý của trình quản lý cụm. Tùy thuộc vào yêu cầu dự phòng và khả năng mở rộng, mặt phẳng điều khiển Kubernetes có thể được triển khai trên một hoặc ba máy chủ PowerEdge R660. Đối với một máy chủ điện toán cụm nhỏ (ít hơn tám nút), một nút điều khiển duy nhất là đủ. Đối với các cụm lớn hơn và có tính dự phòng cao, kế hoạch kiểm soát có thể được triển khai trên ba nút.

cơ sở hạ tầng lưu trữ

Lưu trữ cục bộ có sẵn trong máy chủ PowerEdge được sử dụng cho hệ điều hành và lưu trữ vùng chứa. Kubernetes, được triển khai bởi phần mềm quản lý cụm của NVIDIA, triển khai Lớp lưu trữ đường dẫn cục bộ Rancher, cung cấp bộ nhớ cục bộ để cung cấp các nhóm.

Nhu cầu lưu trữ bên ngoài để suy luận mô hình AI phụ thuộc vào các yêu cầu và đặc điểm cụ thể của mô hình AI và môi trường triển khai. Trong nhiều trường hợp, bộ nhớ ngoài không bắt buộc phải có để suy luận mô hình AI, vì các mô hình nằm trong bộ nhớ GPU. Trong thiết kế đã được xác thực này, chúng tôi không đưa bộ nhớ ngoài vào như một phần của kiến ​​trúc.

Tuy nhiên, bộ lưu trữ PowerScale có thể được sử dụng làm kho lưu trữ cho các mô hình, lập phiên bản và quản lý mô hình, nhóm mô hình cũng như để lưu trữ và lưu trữ dữ liệu suy luận. Khả năng lưu trữ bên ngoài mạnh mẽ của nó cung cấp quy mô và tốc độ cần thiết để vận hành các mô hình AI, cung cấp thành phần nền tảng cho quy trình làm việc AI. Khả năng xử lý các yêu cầu dữ liệu khổng lồ của AI, kết hợp với độ tin cậy và hiệu suất cao, củng cố vai trò quan trọng của bộ nhớ ngoài trong việc đưa các mô hình AI thành công từ ý tưởng đến ứng dụng.

Máy chủ suy luận

Trung tâm của hệ thống suy luận AI là Máy chủ suy luận Triton, xử lý các mô hình AI và xử lý các yêu cầu suy luận. Triton là một phần mềm máy chủ suy luận mạnh mẽ phục vụ hiệu quả các mô hình AI với độ trễ thấp và thông lượng cao. Sự tích hợp của nó với cơ sở hạ tầng điện toán, bộ tăng tốc GPU và kết nối mạng đảm bảo các hoạt động suy luận được tối ưu hóa và trơn tru.

Công cụ và khuôn khổ AI

Để cho phép triển khai các mô hình AI tổng quát trong sản xuất, khung NeMo, kết hợp với Triton Inference Server, cung cấp các công cụ AI mạnh mẽ và tối ưu hóa. Cụ thể, khung NeMo, kết hợp với FasterTransformer, mở khóa độ chính xác hiện đại, độ trễ thấp và hiệu suất suy luận thông lượng cao trên cả cấu hình một GPU và nhiều GPU. Sự kết hợp này trao quyền cho các tổ chức giải phóng toàn bộ tiềm năng của các mô hình AI tổng quát của họ.

Kiến trúc tham chiếu cũng có thể được sử dụng cho AI dự đoán hoặc phân biệt đối xử. Ví dụ: các hệ thống khuyến nghị có thể được xây dựng trên kiến ​​trúc tham chiếu này. Hệ thống đề xuất là các mô hình AI phân tích sở thích, hành vi và dữ liệu lịch sử của người dùng để đề xuất các mục hoặc nội dung có liên quan và được cá nhân hóa. NVIDIA Merlin là một khung giúp tăng tốc và hợp lý hóa quá trình phát triển và triển khai các hệ thống đề xuất dựa trên học sâu quy mô lớn. Nó nhằm mục đích tối ưu hóa toàn bộ quy trình đề xuất, từ tiền xử lý dữ liệu và kỹ thuật tính năng đến đào tạo và triển khai mô hình, tập trung vào hiệu suất và khả năng mở rộng.

mô hình AI

Kiến trúc tham chiếu được hưởng lợi từ bộ sưu tập phong phú các mô hình được đào tạo trước do khung NeMo cung cấp. Các mô hình này giải quyết các danh mục khác nhau, bao gồm Nhận dạng giọng nói tự động (ASR), NLP và Chuyển văn bản thành giọng nói (TTS). Ngoài ra, các mô hình GPT có sẵn để tải xuống từ các vị trí như kho lưu trữ mô hình Hugging Face, cung cấp nhiều lựa chọn khả năng AI tổng quát.

MLOps

Các tổ chức đang tìm cách quản lý vòng đời mô hình toàn diện có thể tùy chọn triển khai các nền tảng MLOps, như cnvrg, Kubeflow, MLflow và Domino Data. Các nền tảng này hợp lý hóa việc triển khai, giám sát và bảo trì các mô hình AI, đảm bảo quản lý và tối ưu hóa hiệu quả trong suốt vòng đời của chúng. Chúng tôi đã xác thực cnvrg.io như một phần của thiết kế đã được xác thực này.

Bằng cách tuân thủ Thiết kế đã được Xác thực của Dell dành cho Suy luận Trí tuệ Nhân tạo Sáng tạo này, các tổ chức có thể tự tin triển khai các hệ thống suy luận Trí tuệ nhân tạo hiệu suất cao, hiệu quả và đáng tin cậy. Tính mô-đun và khả năng mở rộng của kiến ​​trúc mang lại sự linh hoạt, giúp nó phù hợp với nhiều quy trình công việc AI khác nhau, trong khi trọng tâm chính của nó là suy luận AI tổng quát giúp tối đa hóa tiềm năng của các LLM nâng cao.

 

Kiến trúc vật lý

Cấu hình máy chủ

Việc chọn cấu hình máy chủ phù hợp cho suy luận AI tổng quát là rất quan trọng để đảm bảo phân bổ đủ tài nguyên cho cả nhiệm vụ quản lý và suy luận. Các bảng sau đây cung cấp các cấu hình ví dụ cho cả khối lượng công việc quản lý và tính toán:

Bảng 3. Cấu hình nút đầu PowerEdge R660 và mặt phẳng điều khiển Kubernetes

Thành phần

nút đầu

Mặt phẳng điều khiển Kubernetes

Mô hình máy chủ

1 x PowerEdge R660

1 x PowerEdge R660

CPU

1x Intel Xeon Vàng 5416S 2G, 16C/32T

1x Intel Xeon Vàng 5416S 2G, 16C/32T

Ký ức

8x 16 GB DDR5 4800 MT/giây RDIMM

8x 16 GB DDR5 4800 MT/giây RDIMM

Bộ điều khiển RAID

PERC H755 với Giá đỡ tải phía sau

PERC H755 với Giá đỡ tải phía sau

Kho

4 x 960 GB SSD SATA Đọc chuyên sâu 6 Gbps 512 Ổ đĩa AG cắm nóng 2,5 inch, 1 DWPD (RAID 10)

2 x 960 GB SSD SATA Đọc chuyên sâu 6 Gbps 512 Ổ đĩa AG cắm nóng 2,5in, 1 DWPD (RAID 10)

Mạng PXE

Broadcom 5720 Cổng kép 1 GbE LOM tùy chọn

Broadcom 5720 Cổng kép 1 GbE LOM tùy chọn

Mạng PXE/K8S

Cổng kép NVIDIA ConnectX-6 Lx 10/25GbE SFP28, OCP NIC 3.0

Cổng kép NVIDIA ConnectX-6 Lx 10/25GbE SFP28, OCP NIC 3.0

K8S/Mạng lưu trữ

1 x Bộ điều hợp NVIDIA ConnectX-6 Lx Cổng kép 10/25GbE SFP28, PCIe (tùy chọn)

1 x Bộ điều hợp NVIDIA ConnectX-6 Lx Cổng kép 10/25GbE SFP28, PCIe (tùy chọn)

Bởi vì cả nút đầu và nút mặt phẳng điều khiển đều không yêu cầu tính toán nặng nề, nên một máy chủ bộ xử lý đơn là đủ. Đối với nút đầu, chúng tôi khuyên bạn nên chọn cấu hình nhiều dung lượng lưu trữ, vì cấu hình này sẽ hỗ trợ lưu trữ hình ảnh và các công cụ cần thiết khác một cách thuận tiện.

Bảng 4. Nút nhân viên GPU PowerEdge R760xa

Thành phần

Chi tiết

nút đầu

Khung gầm R760xa 2.5″ với tối đa 8 Ổ đĩa SAS/SATA, PERC 11 phía trước

CPU

2 x Intel Xeon Vàng 6430 2.1G, 32C/64T

Ký ức

16 x 32 GB DDR5 4800 MT/giây RDIMM

Bộ điều khiển RAID

PERC H755 với Giá đỡ tải phía sau

Kho

2 x 960 GB SSD SATA Đọc chuyên sâu 6 Gbps 512 Ổ đĩa AG cắm nóng 2,5in, 1 DWPD (RAID 1)

Mạng PXE

Broadcom 5720 Cổng kép 1 GbE LOM tùy chọn

K8S/Mạng lưu trữ

1 x Bộ điều hợp mạng Mellanox ConnectX-6 DX Dual Port 100 GbE QSFP56 (tùy chọn)

GPU

2 x hoặc 4 x NVIDIA L40, GPU PCIe 48 GB

hoặc

2 x hoặc 4 x NVIDIA Hopper H100, 80 GB, GPU PCIe với Bo mạch cầu

thiết kế mạng

Hình dưới đây cho thấy kiến ​​trúc mạng. Nó hiển thị kết nối mạng cho một máy chủ điện toán. Cụm điện toán có thể bao gồm nhiều máy chủ PowerEdge và tất cả các máy chủ sẽ có kết nối mạng tương tự nhau. Hình này cũng hiển thị một nút đầu PowerEdge, kết hợp với trình quản lý cụm của NVIDIA. Kết nối mạng cho mặt phẳng điều khiển Kubernetes có thể được triển khai trên máy chủ PowerEdge R660 cũng được hiển thị.

Hình 5.   Kiến trúc mạng 

Thiết kế đã được xác thực này yêu cầu các mạng sau đây quản lý cụm và tạo điều kiện liên lạc cũng như phối hợp giữa các thành phần và nút khác nhau trong cụm:

  • Quản lý cụm và Mạng PXE —Mạng này được sử dụng để liên lạc giữa máy chủ quản lý và các nút cụm. Nó cho phép máy chủ quản lý gửi lệnh, cấu hình và cập nhật cho các nút. Nó cũng cho phép các nút báo cáo trạng thái, mức sử dụng tài nguyên và các thông tin khác trở lại máy chủ quản lý. Mạng này cũng được sử dụng cho PXE để tự động hóa việc cung cấp và triển khai các hệ điều hành.
  • Mạng Kubernetes —Mạng Kubernetes là một mạng riêng được sử dụng để liên lạc giữa các nút trong cụm. Nó cho phép các nút, nhóm Kubernetes và dịch vụ trao đổi dữ liệu, đồng bộ hóa tác vụ và cộng tác hiệu quả trong các hoạt động của cụm.
  • Mạng bên ngoài —Mạng bên ngoài kết nối cụm với Internet, cho phép các nút của cụm giao tiếp với các hệ thống, dịch vụ bên ngoài và Internet. Mạng này cần thiết để truy cập các tài nguyên bên ngoài, tải xuống các bản cập nhật phần mềm và tương tác với người dùng hoặc ứng dụng bên ngoài cụm.
  • Mạng lưu trữ —(Tùy chọn và không được hiển thị trong hình trước) Trong một số cấu hình, mạng lưu trữ chuyên dụng có thể được sử dụng để tạo điều kiện truyền dữ liệu giữa các nút cụm và thiết bị lưu trữ. Mạng này giúp tối ưu hóa việc truy cập dữ liệu và giảm độ trễ cho hoạt động lưu trữ.
  • Mạng OOB —Mạng ngoài băng tần (OOB) là cơ sở hạ tầng mạng chuyên dụng và riêng biệt được sử dụng để quản lý và giám sát máy chủ. Đó là mạng Ethernet 1Gb kết nối với Bộ điều khiển truy cập từ xa Dell tích hợp (iDRAC) của các máy chủ PowerEdge trong cụm.

 

Kiến trúc phần mềm

Trong thiết kế đã được xác thực của mình, chúng tôi sử dụng trình quản lý cụm của NVIDIA để cung cấp kim loại trần, trong đó hệ điều hành (thông qua PXE), trình điều khiển và cấu hình lưu trữ cục bộ được triển khai trong các nút điện toán PowerEdge. Trình quản lý cụm của NVIDIA triển khai Kubernetes, định cấu hình mặt phẳng điều khiển và các nút worker, kiểm soát truy cập và cung cấp các khung và bộ công cụ quản lý Kubernetes thiết yếu như Prometheus. Trình quản lý cụm của NVIDIA cũng xử lý cấu hình mạng, bao gồm mạng cụm, mạng POD và mạng lưu trữ. Cuối cùng, trình quản lý cụm của NVIDIA được sử dụng để triển khai phần mềm NVIDIA, bao gồm trình vận hành GPU NVIDIA và Trình quản lý vải, những thành phần thiết yếu để tối ưu hóa hiệu suất và quản lý GPU.

Khi cơ sở hạ tầng đã sẵn sàng để triển khai các mô hình AI trong sản xuất, quy trình làm việc sau đây sẽ giải thích kiến ​​trúc phần mềm của một mô hình AI trong sản xuất.

Quy trình suy luận để tối ưu hóa hiệu suất

Các mô hình AI thường được tối ưu hóa cho hiệu suất trước khi triển khai vào sản xuất. Các mô hình được tối ưu hóa cung cấp tốc độ suy luận nhanh hơn, cải thiện hiệu quả sử dụng tài nguyên và giảm độ trễ, giúp tiết kiệm chi phí và khả năng mở rộng tốt hơn. Chúng có thể xử lý khối lượng công việc tăng lên, yêu cầu ít tài nguyên tính toán hơn và cung cấp trải nghiệm người dùng tốt hơn với phản hồi nhanh.

Hình dưới đây cho thấy một ví dụ về tối ưu hóa và triển khai mô hình LLM bằng cách sử dụng các thành phần phần mềm được mô tả trong kiến ​​trúc tham chiếu:

Hình 6.   Quy trình làm việc để tối ưu hóa các mô hình NeMo LLM để suy luận bằng bộ công cụ NVIDIA

NVIDIA cung cấp một số mô hình được đào tạo trước ở định dạng NeMo. Để tối ưu hóa thông lượng và độ trễ của mô hình, nó có thể được chuyển đổi sang định dạng FasterTransformer, bao gồm các sửa đổi hiệu suất đối với các lớp mã hóa và giải mã trong kiến ​​trúc máy biến áp. FasterTransformer cho phép mô hình phục vụ các yêu cầu suy luận với độ trễ nhanh hơn ba lần hoặc hơn so với các đối tác không phải FasterTransformer của chúng. Bộ chứa đào tạo khung NeMo bao gồm khung FasterTransformer và các tập lệnh để chuyển đổi  tệp .nemo  sang định dạng FasterTransformer.

Lưu ý : Các mẫu NeMo có tại Ôm Mặt là mẫu nền. Mặc dù các mô hình này cung cấp một điểm khởi đầu mạnh mẽ với các khả năng chung, nhưng chúng thường được tùy chỉnh cho mục đích sử dụng cụ thể. Hướng dẫn thiết kế này không giải quyết hoặc hiển thị tùy chỉnh mô hình.

Khi mô hình được chuyển đổi, nó có thể được tối ưu hóa bằng công cụ Trình phân tích mô hình. Model Analyzer giúp hiểu rõ hơn về các yêu cầu điện toán và bộ nhớ của các mô hình Triton Inference Server bằng cách phân tích các cài đặt cấu hình khác nhau và tạo báo cáo hiệu suất. Các báo cáo này tóm tắt các số liệu như độ trễ, thông lượng, mức sử dụng tài nguyên GPU, mức tiêu thụ năng lượng, v.v., cho phép dễ dàng so sánh hiệu suất giữa các thiết lập khác nhau và xác định cấu hình tối ưu cho vùng chứa suy luận.

Mô hình được tối ưu hóa cuối cùng đã sẵn sàng để triển khai sản xuất trên máy chủ PowerEdge được trang bị GPU NVIDIA bằng Máy chủ Triton Inference. Nó có thể được truy cập thông qua một điểm cuối API hoặc sử dụng các giao thức HTTPS/GPRC. Triton Inference Server cũng cung cấp các số liệu về sức khỏe và hiệu suất của mô hình trong sản xuất, có thể được tiêu thụ và hiển thị thông qua Prometheus và Grafana. Các công cụ giám sát này cung cấp thông tin chi tiết có giá trị về hiệu suất của mô hình và tình trạng hệ thống tổng thể trong quá trình triển khai.

Quy trình công việc tương tự được áp dụng cho AI dự đoán hoặc phân biệt đối xử. Điểm khởi đầu cho trường hợp sử dụng hệ thống đề xuất là một mô hình được phát triển bằng cách sử dụng khung Merlin (trái ngược với mô hình NeMo).