Hướng dẫn thiết kế—Trí thông minh nhân tạo trong doanh nghiệp – Inferencing (2)

Các khái niệm và thành phần kiến trúc

Giới thiệu

Trong chương này, chúng tôi giải thích một số khái niệm kiến ​​trúc chính là một phần của thiết kế này dành cho suy luận AI tổng quát, bao gồm các đặc điểm và ví dụ về LLM. Chúng tôi liệt kê các máy chủ Dell PowerEdge và GPU NVIDIA được sử dụng trong thiết kế, bao gồm cấu hình GPU, kết nối GPU và các phương thức kết nối mạng.

Chúng tôi cũng mô tả các thành phần phần mềm chính được sử dụng để suy luận, bao gồm NVDIA AI Enterprise, Máy chủ suy luận Triton, khung NeMo cho các mô hình AI tổng quát và trình quản lý cụm NVIDIA.

 

Mô hình ngôn ngữ lớn

LLM là các mô hình xử lý ngôn ngữ tự nhiên tiên tiến sử dụng các kỹ thuật học sâu để hiểu và tạo ra ngôn ngữ của con người. LLM có thể bao gồm một loạt các kiến ​​trúc và cách tiếp cận, chẳng hạn như mạng thần kinh hồi quy (RNN), máy biến áp hoặc thậm chí các hệ thống dựa trên quy tắc. Generative Pre-training Transformer (GPT) là một ví dụ phổ biến và có ảnh hưởng về LLM dựa trên kiến ​​trúc máy biến áp, là một kiến ​​trúc mạng thần kinh sâu được thiết kế để xử lý dữ liệu tuần tự một cách hiệu quả. Máy biến áp sử dụng cơ chế tự chú ý để xử lý chuỗi đầu vào và tìm hiểu mối quan hệ theo ngữ cảnh giữa các từ, cho phép chúng tạo ra ngôn ngữ mạch lạc và phù hợp với ngữ cảnh.

Thông số

Các tham số trong LLM đề cập đến các thành phần hoặc trọng số có thể học được của mạng thần kinh tạo nên mô hình. Các tham số này xác định cách mô hình xử lý dữ liệu đầu vào và đưa ra dự đoán hoặc tạo đầu ra. Thông thường, GPT có hàng triệu  (M) đến hàng tỷ (B) tham số. Các tham số này được học trong quá trình đào tạo, trong đó mô hình tiếp xúc với lượng dữ liệu khổng lồ và điều chỉnh các tham số của nó để tạo ra ngôn ngữ. Giả sử kiến ​​trúc mô hình và dữ liệu đào tạo có thể so sánh được, các tham số trong mô hình càng cao thì độ chính xác và khả năng của các mô hình càng cao. Các mô hình có thông số cao hơn cũng yêu cầu nhiều tài nguyên điện toán hơn, đặc biệt là tài nguyên GPU.

Sự chính xác

Độ chính xác của LLM thường được đo lường dựa trên hiệu suất của chúng đối với các tác vụ xử lý ngôn ngữ tự nhiên (NLP) cụ thể. Các số liệu đánh giá được sử dụng phụ thuộc vào bản chất của nhiệm vụ. Một số công cụ thường được sử dụng để đánh giá LLM bao gồm ARC, HellaSwag và Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD). HuggingFace duy trì một ban lãnh đạo cho các mô hình LLM mở.

Các mẫu NVIDIA NeMo, BLOOM và Llama có sẵn công khai là các mẫu nền tảng. Mặc dù các mô hình này cung cấp một điểm khởi đầu mạnh mẽ với các khả năng chung, nhưng chúng thường được tùy chỉnh cho mục đích sử dụng cụ thể. Hướng dẫn thiết kế này không đề cập đến việc tùy chỉnh mô hình.

Các phần sau đây cung cấp các ví dụ về một số LLM mà chúng tôi đã xác thực trong thiết kế này. Để biết thêm chi tiết về xác nhận mô hình, xem  Bảng 6 .

Các mẫu NVIDIA NeMo GPT

Các mô hình kiểu GPT là các mô hình máy biến áp chỉ có bộ giải mã. Các mô hình NVIDIA NeMo GPT được đào tạo bằng khung NeMo. Có một số mẫu NeMo GPT với các kích thước tham số khác nhau, bao gồm 34 tham số 5M, 1,3 B, 2 B, 5 B và 20 B. Các mô hình này đã được đào tạo trên tập dữ liệu “The Piles”, một kho văn bản tiếng Anh 825 GiB do Eleuther.AI tuyển chọn đặc biệt để đào tạo LLM. Ví dụ: mô hình tham số 2B đã được đào tạo trên mã thông báo 1,1 T bao gồm 53 ngôn ngữ và mã.

BLOOM

BigScience Mô hình Ngôn ngữ Đa ngôn ngữ Truy cập Mở Khoa học Mở Lớn (BLOOM) là một LLM tự hồi quy được phát triển với sự hợp tác của hơn 1000 nhà nghiên cứu. Nó dựa trên kiến ​​trúc máy biến áp chỉ dành cho bộ giải mã. Mô hình được đào tạo trên kho văn bản ROOTS, bao gồm các nguồn từ 46 ngôn ngữ tự nhiên và 13 ngôn ngữ lập trình, với tổng dung lượng 1,61 terabyte văn bản. BLOOM cung cấp nhiều kiểu máy với các kích thước tham số khác nhau, bao gồm 560 M, 1 B, 3 B, 7 B và 176 B.

Llama 2

Llama 2, do Meta và Microsoft cùng phát triển, được cung cấp miễn phí cho nghiên cứu và sử dụng thương mại. Nó cung cấp một tập hợp các mô hình được đào tạo trước cho văn bản tổng quát và các mô hình tinh chỉnh được tối ưu hóa cho các trường hợp sử dụng trò chuyện. Các mô hình Llama 2 được đào tạo trên bộ dữ liệu mã thông báo 2 T mở rộng, có độ dài ngữ cảnh gấp đôi so với Llama 1. Ngoài ra, các mô hình trò chuyện Llama 2 đã được làm phong phú thêm thông qua hơn 1 triệu chú thích mới của con người. Các mô hình này được xây dựng trên kiến ​​trúc máy biến áp được tối ưu hóa và có nhiều kích cỡ tham số khác nhau, bao gồm 7 B, 13 B và 70 B.

 

Máy chủ Dell PowerEdge và GPU NVIDIA

Dell Technologies cung cấp nhiều lựa chọn máy chủ được tối ưu hóa về khả năng tăng tốc với danh mục máy gia tốc mở rộng có GPU NVIDIA. Trong thiết kế này, chúng tôi giới thiệu ba máy chủ Dell PowerEdge được thiết kế đặc biệt cho các mục đích AI tổng quát:

  • Máy chủ PowerEdge R760xa, có khả năng hỗ trợ tối đa bốn GPU NVIDIA H100 hoặc bốn GPU NVIDIA L40
  • Máy chủ PowerEdge XE8640, hỗ trợ bốn GPU NVIDIA H100
  • Máy chủ PowerEdge XE9680, hỗ trợ tám GPU NVIDIA H100

Trong phần này, chúng tôi mô tả các tùy chọn cấu hình và kết nối cho GPU NVIDIA cũng như cách các kết hợp máy chủ-GPU này có thể được áp dụng cho các trường hợp sử dụng LLM khác nhau.

Cấu hình GPU NVIDIA

Thiết kế dành cho suy luận này hỗ trợ một số tùy chọn cho các thành phần tăng tốc GPU NVIDIA. Bảng sau đây cung cấp tóm tắt về GPU được sử dụng trong thiết kế này:

Bảng 1. GPU NVIDIA – Thông số kỹ thuật và trường hợp sử dụng

GPU NVIDIA H100 SXM

GPU NVIDIA H100 PCIe

GPU NVIDIA L40 PCIe

Các máy chủ PowerEdge mới nhất được hỗ trợ (và số lượng GPU tối đa)

PowerEdge XE9680 (8)

PowerEdge R760xa (4)

PowerEdge R760xa (4)

PowerEdge R760 (2)

PowerEdge R760xa (4)

PowerEdge R760 (2)

Bộ nhớ GPU

80 GB

80 GB

48 GB

Yếu tố hình thức

SXM

PCIe (chiều rộng kép, khe cắm kép)

PCIe (chiều rộng kép, khe cắm kép)

kết nối GPU

900 GB/giây PCIe

Cầu NVLink 600 GB/giây được hỗ trợ trong PowerEdge R760xa

128 GB/giây PCIe Gen5

Không có

Hỗ trợ GPU đa phiên bản

Lên đến 7 MIG

Lên đến 7 MIG

Không có

Bộ giải mã

7 NVDEC

7 JPEG

7 NVDEC

7 JPEG

3 NVDEC

3 NVENC

Công suất thiết kế nhiệt tối đa (TDP)

700W

350W

300 W

Doanh nghiệp AI của NVIDIA

Thêm vào

Đi kèm với H100 PCIe

Thêm vào

Trường hợp sử dụng

Đào tạo AI sáng tạo

Đào tạo phân tán quy mô lớn

Đào tạo và suy luận AI phân biệt/dự đoán

 Suy luận AI sáng tạo

AI quy mô nhỏ

điện toán trực quan

 Suy luận AI phân biệt/dự đoán

kết nối GPU

GPU NVIDIA hỗ trợ nhiều tùy chọn khác nhau để kết nối hai hoặc nhiều GPU, cung cấp nhiều băng thông khác nhau. Kết nối GPU thường được yêu cầu đối với một số ứng dụng đa GPU nhất định, đặc biệt khi hiệu suất cao hơn và độ trễ thấp hơn là rất quan trọng. LLM thường không vừa với bộ nhớ của một GPU và thường được triển khai trên nhiều GPU. Do đó, các GPU này yêu cầu kết nối tốc độ cao giữa chúng.

NVIDIA NVLink là công nghệ kết nối tốc độ cao do NVIDIA phát triển để kết nối nhiều GPU NVIDIA hoạt động song song. Nó cho phép giao tiếp trực tiếp giữa các GPU với băng thông cao và độ trễ thấp, cho phép chúng chia sẻ dữ liệu và cộng tác làm việc trên các tác vụ điện toán chuyên sâu.

Hình dưới đây minh họa các tùy chọn kết nối GPU NVIDIA cho máy chủ PowerEdge được sử dụng trong thiết kế này:

Hình 2.   Kết nối GPU NVIDIA trong máy chủ PowerEdge

Máy chủ PowerEdge hỗ trợ một số tùy chọn NVLink khác nhau:

  1. Máy chủ PowerEdge R760xa với GPU NVIDIA H100 và Cầu nối NVLink —NVIDIA NVLink là kết nối truyền ngang hàng điểm-điểm (P2P) tốc độ cao. Cầu nối NVLink là một thành phần vật lý hỗ trợ kết nối giữa các GPU hỗ trợ NVLink. Nó hoạt động như một kết nối giữa các GPU, cho phép chúng trao đổi dữ liệu với tốc độ cực cao.

Máy chủ PowerEdge R760xa hỗ trợ bốn GPU NVIDIA H100; Cầu nối NVLink có thể kết nối từng cặp GPU. GPU NVIDIA H100 hỗ trợ kết nối cầu nối NVLink với một GPU NVIDIA H100 liền kề. Mỗi cầu nối trong số ba cầu nối nối với hai khe cắm PCIe để có tổng băng thông tối đa của Cầu nối NVLink là 600 Gbyte mỗi giây.

  1. Máy chủ PowerEdge XE8640 với GPU NVIDIA H100 SXM và NVLink —Máy chủ PowerEdge XE8640 kết hợp bốn GPU H100 với công nghệ NVIDIA SXM5. NVIDIA SXM là giải pháp ổ cắm băng thông cao để kết nối Bộ tăng tốc điện toán NVIDIA với hệ thống. Yếu tố hình thức NVIDIA SXM cho phép nhiều GPU được kết nối chặt chẽ với nhau trong một máy chủ, mang lại khả năng giao tiếp băng thông cao và độ trễ thấp giữa các GPU. Công nghệ NVLink của NVIDIA, cho phép truyền dữ liệu nhanh hơn so với kết nối PCIe truyền thống, hỗ trợ quá trình giao tiếp trực tiếp giữa GPU với GPU này. Công nghệ NVLink cung cấp băng thông 900 GB/giây giữa hai GPU bất kỳ.
  2. Máy chủ PowerEdge XE9680 với GPU NVIDIA H100 và NVSwitch —Máy chủ PowerEdge XE9680 kết hợp tám GPU NVIDIA H100 với công nghệ NVIDIA SXM5. Máy chủ bao gồm công nghệ NVIDIA NVSwitch, đây là công nghệ chuyển đổi hiệu suất cao, được kết nối đầy đủ và có thể mở rộng. Nó được thiết kế để cho phép giao tiếp cực nhanh giữa nhiều GPU NVIDIA trong một máy chủ hoặc trên nhiều máy chủ trong một cụm. NVIDIA NVSwitch hỗ trợ truyền dữ liệu băng thông cao và độ trễ thấp, lý tưởng cho các ứng dụng AI và điện toán hiệu năng cao (HPC) quy mô lớn. Công nghệ NVSwitch cung cấp băng thông 900 GB/giây giữa hai GPU bất kỳ.

Trong quá trình suy luận, các tham số của mô hình AI được lưu trữ trong bộ nhớ GPU. LLM có thể yêu cầu nhiều đơn vị bộ nhớ GPU để chứa toàn bộ cấu trúc mạng thần kinh của chúng. Trong những trường hợp như vậy, cần phải kết nối các GPU bằng công nghệ NVLInk để hỗ trợ hiệu quả hoạt động của mô hình và đảm bảo giao tiếp thông suốt giữa các GPU. Do đó, kích thước của mô hình LLM mà doanh nghiệp yêu cầu sẽ quyết định chọn mô hình máy chủ PowerEdge nào cho cơ sở hạ tầng suy luận. Bảng sau đây cung cấp các mô hình LLM mẫu có thể được triển khai trong các máy chủ PowerEdge.

Bảng 2. Các mẫu ví dụ được hỗ trợ trong máy chủ PowerEdge

đặc điểm mô hình

PowerEdge R760xa với H100 PCIe sử dụng NVLink Bridge

PowerEdge XE8640 với H100 SXM

PowerEdge XE9680 với H100 SXM

Tổng bộ nhớ khả dụng

320 GB

320 GB

640GB

Dung lượng bộ nhớ tối đa của một mô hình có thể chạy

160GB

320 GB

640GB

Ví dụ LLM mã nguồn mở

NeMo GPT 345M, 1.3B, 2B, 5B và 20B

Lạc đà không bướu 2B và 13B

Tất cả các mẫu được liệt kê trong R760xa

Tất cả các mẫu được liệt kê trong XE8640 +

Llama 2 70B (có sẵn cho 8 GPU) và BLOOM 175B

Để biết thêm thông tin về các mô hình AI tổng quát đã được xác nhận là một phần của thiết kế này, hãy xem Bảng 6 .

Lưu ý : Bảng trước không xem xét vị trí một mô hình có thể trải rộng trên nhiều nút (nhiều máy chủ) và liệu các nút có được kết nối với nhau bằng mạng tốc độ cao như InfiniBand hay không.

 

Các thành phần phần mềm suy luận

Doanh nghiệp AI của NVIDIA

NVIDIA AI Enterprise là bộ phần mềm AI và phân tích dữ liệu dựa trên nền tảng đám mây toàn diện giúp tăng tốc quy trình khoa học dữ liệu, đồng thời hợp lý hóa quá trình phát triển và triển khai AI sản xuất bao gồm AI tổng quát, thị giác máy tính, AI lời nói, v.v. Nền tảng ổn định, an toàn này bao gồm hơn 100 khung, mô hình được đào tạo trước và các công cụ giúp tăng tốc quá trình xử lý dữ liệu, đơn giản hóa việc đào tạo và tối ưu hóa mô hình cũng như triển khai hợp lý.

  • Chuẩn bị dữ liệu —Tăng thời gian xử lý dữ liệu lên đến năm lần trong khi giảm chi phí vận hành xuống bốn lần với Trình tăng tốc NVIDIA RAPIDS cho Apache Spark.
  • Đào tạo AI —Tạo các mô hình tùy chỉnh, chính xác trong vài giờ, thay vì vài tháng, sử dụng Bộ công cụ NVIDIA TAO và các mô hình được đào tạo trước.
  • Tối ưu hóa cho suy luận —Tăng tốc hiệu suất ứng dụng lên tới 40 lần so với các nền tảng chỉ sử dụng CPU trong quá trình suy luận với NVIDIA TensorRT.
  • Triển khai trên quy mô lớn —Đơn giản hóa và tối ưu hóa việc triển khai các mô hình AI trên quy mô lớn và trong sản xuất với NVIDIA Triton Inference Server.

NVIDIA AI Enterprise cung cấp hỗ trợ doanh nghiệp cho nhiều khung phần mềm, bộ công cụ, quy trình công việc và mô hình khác nhau. Xem tài liệu NVIDIA AI Enterprise để biết thêm thông tin về tất cả các thành phần có sẵn với NVIDIA AI Enterprise. Các thành phần sau đây được tích hợp trong thiết kế đã được xác thực này có sẵn như một phần của NVIDIA AI Enterprise:

  • Triton Inference Server với FasterTransformer và Model Analyzer
  • Khung NVIDIA NeMo
  • Quản lý cụm

Máy chủ suy luận Triton

NVIDIA Triton Inference Server (còn được gọi là Triton) là phần mềm phục vụ suy luận tiêu chuẩn hóa việc triển khai và thực thi mô hình AI, đồng thời cung cấp AI nhanh và có thể mở rộng trong sản xuất. Hỗ trợ doanh nghiệp cho Triton có sẵn thông qua NVIDIA AI Enterprise. Nó cũng có sẵn như là một phần mềm mã nguồn mở.

Triton hợp lý hóa và tiêu chuẩn hóa suy luận AI bằng cách cho phép các nhóm triển khai, chạy và mở rộng quy mô các mô hình máy học hoặc máy học sâu được đào tạo từ bất kỳ khuôn khổ nào trên bất kỳ cơ sở hạ tầng dựa trên GPU hoặc CPU nào. Nó cung cấp cho các nhà nghiên cứu AI và nhà khoa học dữ liệu quyền tự do lựa chọn khung phù hợp cho các dự án của họ mà không ảnh hưởng đến việc triển khai sản xuất. Nó cũng giúp các nhà phát triển cung cấp khả năng suy luận hiệu suất cao trên các thiết bị đám mây, tại chỗ, biên và thiết bị nhúng.

Những lợi ích

Những lợi ích của Triton đối với suy luận AI bao gồm:

  • Hỗ trợ nhiều khung —Triton hỗ trợ tất cả các khung đào tạo và suy luận chính, chẳng hạn như TensorFlow, NVIDIA TensorRT, NVIDIA FasterTransformer, PyTorch, Python, ONNX, RAPIDS cuML, XGBoost, scikit-learning RandomForest, OpenVINO, C++ tùy chỉnh, v.v.
  • Suy luận AI hiệu suất cao —Triton hỗ trợ tất cả suy luận dựa trên NVIDIA GPU-, x86-, Arm CPU- và AWS Inferentia. Nó cung cấp tính năng tạo khối động, thực thi đồng thời, cấu hình mô hình tối ưu, nhóm mô hình và đầu vào âm thanh/video trực tuyến để tối đa hóa thông lượng và mức sử dụng.
  • Được thiết kế cho DevOps và MLOps —Triton tích hợp với Kubernetes để điều phối và mở rộng quy mô, xuất các số liệu Prometheus để theo dõi, hỗ trợ cập nhật mô hình trực tiếp và có thể được sử dụng trong tất cả các nền tảng AI và Kubernetes trên đám mây công cộng chính. Nó cũng được tích hợp vào nhiều giải pháp phần mềm MLOps.
  • Hỗ trợ cho các tập hợp mô hình —Bởi vì hầu hết suy luận hiện đại yêu cầu nhiều mô hình với tiền xử lý và hậu xử lý để chạy cho một truy vấn duy nhất, Triton hỗ trợ các tập hợp mô hình và đường ống. Triton có thể chạy các phần của nhóm trên CPU hoặc GPU và cho phép nhiều khung bên trong nhóm.
  • Tính ổn định API và bảo mật cấp doanh nghiệp —NVIDIA AI Enterprise bao gồm NVIDIA Triton cho khả năng suy luận sản xuất, đẩy doanh nghiệp lên vị trí dẫn đầu về AI với khả năng hỗ trợ doanh nghiệp, bảo mật và tính ổn định của API đồng thời giảm thiểu các rủi ro tiềm ẩn của phần mềm nguồn mở.

Triton Inference Server là cốt lõi của thiết kế đã được kiểm chứng này. Đây là phần mềm lưu trữ các mô hình AI tổng quát. Triton Inference Server, cùng với khả năng tích hợp với Model Analyzer, Fast Transformer và khung NeMo cung cấp một phần mềm lý tưởng để triển khai các mô hình AI tổng quát.

Máy biến áp nhanh hơn 

Trong NLP, bộ mã hóa và bộ giải mã là những thành phần quan trọng và lớp biến áp đã trở nên phổ biến như một kiến ​​trúc cho cả hai. FasterTransformer của NVIDIA cung cấp lớp biến áp được tối ưu hóa cao cho cả bộ mã hóa và bộ giải mã, được thiết kế đặc biệt để suy luận hiệu quả.

Khi chạy trên GPU NVIDIA, FasterTransformer tự động sử dụng sức mạnh tính toán của Tensor Cores, đặc biệt là khi dữ liệu và trọng số được thể hiện ở độ chính xác FP16, cho phép tính toán nhanh hơn.

FasterTransformer được xây dựng bằng CUDA, cuBLAS, cuBLASLt và C++. Nó cung cấp các API thuận tiện cho các khung học sâu phổ biến như phụ trợ TensorFlow, PyTorch và Triton. Các API này cho phép người dùng tích hợp liền mạch FasterTransformer vào quy trình công việc hiện tại của họ bằng cách sử dụng các khung này.

Trong thiết kế đã được kiểm chứng này, chúng tôi sử dụng FasterTransformer để suy luận các mẫu NVIDIA NeMo.

Máy phân tích mô hình Triton

Triton Inference Server cung cấp một giải pháp mạnh mẽ để triển khai các mô hình AI. Tuy nhiên, mỗi triển khai đều có những thách thức riêng, chẳng hạn như đáp ứng các mục tiêu về độ trễ, làm việc với tài nguyên phần cứng hạn chế và đáp ứng các yêu cầu mô hình khác nhau. Để giải quyết những vấn đề phức tạp này, Trình phân tích mô hình cung cấp thông tin chi tiết để lập kế hoạch và ra quyết định. 

Trình phân tích mô hình cho phép người dùng gửi yêu cầu đến các mô hình của họ trong khi giám sát bộ nhớ GPU và sử dụng điện toán. Công cụ này cung cấp một cơ chế để hiểu sâu về các yêu cầu bộ nhớ GPU của mô hình AI theo các kích thước lô và cấu hình phiên bản khác nhau. Sử dụng thông tin này, người dùng có thể đưa ra quyết định sáng suốt về việc kết hợp hiệu quả nhiều kiểu máy trên một GPU duy nhất, đảm bảo sử dụng bộ nhớ tối ưu mà không vượt quá dung lượng.

Model Analyzer là một giao diện dòng lệnh (CLI) giúp nâng cao đáng kể khả năng hiểu các yêu cầu bộ nhớ và điện toán mô hình Máy chủ suy luận Triton. Nó cung cấp nhận thức này bằng cách tiến hành “quét” cấu hình có thể tùy chỉnh và tạo các báo cáo toàn diện tóm tắt các chỉ số hiệu suất.

Với Trình phân tích mô hình, bạn có thể:

  • Tiến hành quét cấu hình phù hợp để xác định thiết lập phù hợp nhất cho khối lượng công việc và phần cứng cụ thể của bạn.
  • Nhận các báo cáo, số liệu và biểu đồ chi tiết, tóm tắt các phát hiện liên quan đến độ trễ, thông lượng, mức sử dụng tài nguyên GPU, mức tiêu thụ điện năng, v.v. Thông tin này tạo điều kiện so sánh hiệu suất giữa các cấu hình khác nhau.
  • Tinh chỉnh việc triển khai mô hình để đáp ứng các yêu cầu về Chất lượng dịch vụ, chẳng hạn như các yêu cầu về độ trễ cụ thể, mức sử dụng bộ nhớ GPU và thông lượng tối thiểu.

Bằng cách sử dụng thông tin chi tiết do Trình phân tích mô hình cung cấp, bạn có thể đưa ra quyết định sáng suốt hơn và tối ưu hóa việc triển khai mô hình AI của họ để đạt được hiệu suất và hiệu suất cao nhất.

Trong thiết kế đã được xác thực này, chúng tôi sử dụng Trình phân tích mô hình để tạo tải và theo dõi hiệu suất của suy luận mô hình LLM. Chúng tôi đã sử dụng Prometheus và Grafana để thu thập và trực quan hóa các chỉ số hiệu suất. Đối với kết quả xác nhận của chúng tôi. sử dụng Model Analyzer, xem  Chương 5 . Để biết hướng dẫn định cỡ của chúng tôi dựa trên các báo cáo của Trình phân tích mô hình, hãy xem  Chương 6 .

Khung NVIDIA NeMo

NVIDIA NeMo là một khung để xây dựng, tùy chỉnh và triển khai các mô hình AI tổng quát với hàng tỷ tham số. Khung NeMo cung cấp quy trình làm việc tăng tốc để đào tạo với các kỹ thuật xử lý song song 3D. Nó cung cấp một số lựa chọn kỹ thuật tùy chỉnh và được tối ưu hóa để suy luận ở quy mô lớn của các mô hình quy mô lớn cho các ứng dụng ngôn ngữ và hình ảnh, với cấu hình đa GPU và đa nút. Khung NeMo giúp việc phát triển mô hình AI tổng quát trở nên dễ dàng, tiết kiệm chi phí và nhanh chóng cho các doanh nghiệp.

Hình 3.   Khung NVIDIA NeMo

Có sẵn nhiều mô hình AI tổng quát khác nhau có thể được sử dụng để suy luận hoặc dựa vào đó để thực hiện tùy chỉnh mô hình học chuyển đổi. 

Trong thiết kế đã được xác thực này, chúng tôi đã sử dụng các mô hình NeMo GPT mã nguồn mở để chứng minh khả năng suy luận của các mô hình LLM trong các giải pháp của chúng tôi. Ngoài ra, chúng tôi đã sử dụng bộ công cụ NeMo có sẵn trong Danh mục NGC để triển khai các mô hình đó. Các nỗ lực xác thực của chúng tôi đã được thực hiện với bộ chứa NVIDIA NeMo Docker đó.

Quản lí Cụm

NVIDIA cung cấp phần mềm quản lý cụm cho cơ sở hạ tầng AI, tạo điều kiện vận hành liền mạch quá trình phát triển AI trên quy mô lớn bằng cách cung cấp các tính năng như cung cấp hệ điều hành, nâng cấp chương trình cơ sở, cấu hình mạng và lưu trữ, lập lịch tác vụ đa GPU và đa nút cũng như giám sát hệ thống. Nó tối đa hóa việc sử dụng và hiệu suất của kiến ​​trúc phần cứng cơ bản. 

Trong thiết kế đã được kiểm chứng này, chúng tôi sử dụng các khả năng của trình quản lý cụm NVIDIA cho:

  • Cung cấp kim loại trần, bao gồm triển khai hệ điều hành và trình điều khiển cũng như định cấu hình bộ nhớ cục bộ trong các nút điện toán PowerEdge
  • Cấu hình mạng, bao gồm cấu hình mạng để khởi động PXE, truy cập nút nội bộ, mạng POD và mạng lưu trữ
  • Triển khai Kubernetes, bao gồm định cấu hình nút mặt phẳng điều khiển và nút worker, kiểm soát truy cập và cung cấp bộ công cụ và khung quản lý Kubernetes như Prometheus
  • Triển khai phần mềm NVIDIA, bao gồm triển khai nhà điều hành GPU NVIDIA và Trình quản lý vải 
  • Giám sát và quản lý cụm, bao gồm giám sát tình trạng, khả năng chịu lỗi, giám sát sử dụng tài nguyên, quản lý gói và phần mềm, kiểm soát truy cập và bảo mật cũng như mở rộng quy mô