Cấu hình hệ thống
Giới thiệu
Dựa trên kiến trúc mô-đun, có thể mở rộng cho AI tổng quát được mô tả trước đó và được cung cấp bởi các thành phần của Dell và NVIDIA, ban đầu có ba cấu hình hệ thống trong dòng thiết kế này, mỗi cấu hình tập trung vào một trường hợp sử dụng cụ thể. Ba cấu hình hệ thống được tối ưu hóa được thiết kế cho các trường hợp sử dụng suy luận, tùy chỉnh và đào tạo.
Các phần sau đây mô tả các cấu hình hệ thống cho từng lĩnh vực trọng tâm ở cấp độ cao. Lưu ý rằng mặt phẳng điều khiển, lưu trữ dữ liệu và kết nối mạng Ethernet cho từng trường hợp là tương tự nhau. Do đó, nếu bạn đang xây dựng Cơ sở hạ tầng AI giải quyết hai trường hợp trở lên, thì những tài nguyên cốt lõi này có thể được chia sẻ.
Suy luận mô hình lớn
Nhiều doanh nghiệp chọn bắt đầu với một mô hình được đào tạo trước và sử dụng nó mà không cần sửa đổi hoặc tiến hành một số kỹ thuật nhanh chóng hoặc điều chỉnh P để sử dụng mô hình tốt hơn cho một chức năng cụ thể. Bắt đầu với việc triển khai sản xuất là rất quan trọng trong trường hợp LLM vì có nhu cầu lớn về sức mạnh tính toán. Tùy thuộc vào kích thước của mô hình, nhiều mô hình lớn hơn yêu cầu nhiều hệ thống GPU 8x để đạt được thông lượng ở mức thứ hai hoặc thứ hai. Cấu hình tối thiểu cho các mô hình được đào tạo trước bắt đầu với một máy chủ PowerEdge R760XA duy nhất có tối đa bốn GPU NVIDIA H100 hoặc một máy chủ PowerEdge XE9680 với tám GPU NVIDIA H100 dựa trên kích thước và số lượng phiên bản của mô hình. Sau đó, số lượng nút có thể mở rộng khi cần thiết cho hiệu suất hoặc dung lượng, mặc dù hai nút được khuyến nghị cho mục đích độ tin cậy.
Cân nhắc thiết kế để suy luận các mô hình lớn bao gồm:
- Các mô hình lớn có xu hướng có dung lượng bộ nhớ lớn. Mặc dù có thể không có ranh giới rõ ràng xác định một mô hình lớn, nhưng để đơn giản, bất kỳ thông số nào trên 10B đều có thể được coi là một mô hình lớn.
- Khi mô hình được phân chia giữa các GPU, giao tiếp giữa các GPU đóng một vai trò quan trọng trong việc mang lại hiệu suất tối ưu. Do đó, phần mềm Máy chủ suy luận NVIDIA Triton với triển khai đa GPU sử dụng công nghệ biến áp nhanh có thể được sử dụng.
- Đối với các mô hình lớn có thông số trên 40B, chúng tôi khuyên dùng máy chủ PowerEdge XE9680. Đối với các kích thước mô hình có tham số nhỏ hơn 40B, máy chủ PowerEdge R760xa mang lại hiệu suất tuyệt vời.
- PowerSwitch Z9432F hỗ trợ 32 cổng 400 (bộ thu phát quang QSFP56-DD) hoặc tối đa 128 cổng 100 GbE. Inference không có mô-đun InfiniBand hoặc yêu cầu thông lượng cao; do đó, nó chia tỷ lệ tuyến tính cho nhu cầu đồng thời lên tới 32 nút.
- Các yêu cầu về thông lượng (suy luận trên giây) yêu cầu triển khai nhiều GPU tùy thuộc vào nhu cầu khối lượng công việc.
Tùy chỉnh mô hình lớn
Nhiều doanh nghiệp bỏ qua đào tạo ban đầu và chọn sử dụng và tùy chỉnh một mô hình được đào tạo trước làm cơ sở cho giải pháp của họ. Bằng cách sử dụng tinh chỉnh và P-tuning, có thể áp dụng dữ liệu dành riêng cho doanh nghiệp để đào tạo lại một phần của mô hình hiện có hoặc xây dựng giao diện nhanh hơn cho mô hình đó. Phương pháp này yêu cầu sức mạnh tính toán ít hơn đáng kể so với đào tạo một mô hình ban đầu, với khả năng bắt đầu với cấu hình tương tự như cấu hình chỉ suy luận. Điểm khác biệt chính là việc bổ sung kết nối mạng InfiniBand giữa các hệ thống điện toán.
Cân nhắc thiết kế để tùy chỉnh mô hình lớn với tinh chỉnh hoặc đào tạo P bằng cách sử dụng các mô hình lớn được đào tạo trước bao gồm:
- Mặc dù nhiệm vụ này tương đối ít đòi hỏi tính toán cao hơn so với đào tạo mô hình lớn, nhưng cần có một lượng lớn trao đổi thông tin (ví dụ: trọng số) giữa các GPU của các nút khác nhau. Do đó, cần có InfiniBand để tối ưu hóa hiệu suất và thông lượng với GPU tám chiều và kết nối NVLInk toàn diện. Trong một số trường hợp, khi kích thước mô hình nhỏ hơn 40 tham số B và dựa trên các yêu cầu về độ trễ của ứng dụng, mô-đun InfiniBand có thể là tùy chọn.
- P-tuning sử dụng một mô hình nhỏ có thể đào tạo trước khi sử dụng LLM. Mô hình nhỏ được sử dụng để mã hóa lời nhắc văn bản và tạo mã thông báo ảo dành riêng cho tác vụ. Điều chỉnh lời nhắc và điều chỉnh tiền tố, chỉ điều chỉnh các lời nhắc liên tục với mô hình ngôn ngữ cố định, giảm đáng kể dung lượng lưu trữ cho mỗi tác vụ và mức sử dụng bộ nhớ khi đào tạo.
- Đối với các kiểu máy có thông số nhỏ hơn 40B, bạn có thể sử dụng máy chủ PowerEdge XE8640. Đối với các kiểu máy lớn hơn, chúng tôi khuyên dùng máy chủ PowerEdgeXE9680.
- Mô-đun Dữ liệu là tùy chọn vì không có yêu cầu chụp nhanh. Một số kỹ thuật kỹ thuật nhanh nhất định có thể yêu cầu tập dữ liệu lớn và yêu cầu mô-đun dữ liệu hiệu suất cao.
Đào tạo
Đào tạo mô hình lớn là khối lượng công việc đòi hỏi tính toán cao nhất trong ba trường hợp sử dụng, với các mô hình lớn nhất yêu cầu trung tâm dữ liệu có số lượng lớn GPU để đào tạo một mô hình trong vài tháng. Cấu hình tối thiểu để đào tạo yêu cầu tám máy chủ PowerEdge XE9680 với tám GPU NVIDIA H100 mỗi máy chủ. Quá trình đào tạo mô hình lớn nhất yêu cầu mở rộng sang các kích thước cụm lớn hơn với cấu hình 16 lần, 32 lần hoặc thậm chí lớn hơn.
Cân nhắc thiết kế cho đào tạo mô hình lớn bao gồm:
- Các mô hình AI tổng quát lớn có yêu cầu tính toán đáng kể để đào tạo. Theo OpenAI, đối với Chat GPT-3 có tham số 175B, kích thước mô hình xấp xỉ 350 GB và sẽ mất 355 năm để đào tạo GPT-3 trên một GPU NVIDIA Tesla V100. Ngoài ra, sẽ mất 34 ngày để đào tạo với 1.024 GPU NVIDIA A100.
- Mô hình đào tạo có dung lượng bộ nhớ đáng kể không phù hợp với một GPU duy nhất; do đó, bạn phải chia mô hình thành nhiều GPU (N-GPU).
- Sự kết hợp giữa kích thước mô hình, kỹ thuật xử lý song song cho hiệu suất và kích thước của tập dữ liệu làm việc đòi hỏi thông lượng giao tiếp cao giữa các GPU, do đó được hưởng lợi từ các máy chủ PowerEdge XE9680 với tám GPU NVIDIA được kết nối hoàn toàn với nhau bằng NVIDIA NVLink và NVIDIA NVSwitch.
- Trong giai đoạn đào tạo, cũng có một lượng đáng kể trao đổi thông tin (ví dụ: trọng số) giữa các GPU của các nút khác nhau; Cần có InfiniBand để tối ưu hóa hiệu suất và thông lượng.
- Bộ chuyển mạch QM9700 InfiniBand có 64 cổng phát hiện và phản hồi mạng (NDR). Do đó, 24 nút của máy chủ PowerEdge XE9680 trong cụm này sẽ lấp đầy các cổng trên QM9700 trong mô-đun InfiniBand. Thêm các mô-đun InfiniBand bổ sung trong cấu trúc liên kết mạng dạng cây béo.
- Khi bạn thêm các nút máy chủ PowerEdgeXE9680 bổ sung vào cụm của mình, hãy mở rộng các công tắc PowerScale một cách thích hợp để đáp ứng các yêu cầu về hiệu suất đầu vào/đầu ra.
- Điểm kiểm tra là một kỹ thuật tiêu chuẩn được sử dụng trong đào tạo mô hình lớn. Kích thước của các điểm kiểm tra phụ thuộc vào kích thước và kích thước của mô hình và tính song song của đường ống được sử dụng trong đào tạo.
- Bốn nền tảng lưu trữ Dell PowerScale F600 Prime cung cấp hiệu suất ghi 8 GBS và hiệu suất đọc 40 GBS với tỷ lệ tuyến tính.
Bản tóm tắt
Thông tin có trong phần này là tổng quan cấp cao về các đặc điểm và cân nhắc thiết kế chính của các cấu hình được đề xuất để suy luận, tùy chỉnh và đào tạo các mô hình AI sinh ngôn ngữ lớn. Như đã đề cập trước đó, các thông tin chi tiết khác về từng trường hợp sử dụng sẽ theo sau sách trắng này trong một loạt hướng dẫn thiết kế cho các thiết kế AI được Dell xác thực này.
Lợi thế AI sáng tạo
Tài liệu này đã khám phá các khái niệm, lợi ích, trường hợp sử dụng và thách thức của AI tổng quát, đồng thời trình bày kiến trúc giải pháp mô-đun và có thể mở rộng do Dell Technologies và NVIDIA thiết kế.
Project Helix là sự hợp tác độc đáo giữa Dell Technologies và NVIDIA nhằm biến lời hứa về trí tuệ nhân tạo sáng tạo thành hiện thực cho doanh nghiệp. Cùng nhau, chúng tôi cung cấp giải pháp toàn diện, được xây dựng trên cơ sở hạ tầng và phần mềm của Dell, đồng thời sử dụng công nghệ tăng tốc và ngăn xếp phần mềm đã giành giải thưởng của NVIDIA. Kết hợp kiến thức sâu rộng và sự sáng tạo của NVIDIA với kiến thức khách hàng toàn cầu và chuyên môn công nghệ của Dell Technologies, Project Helix:
- Cung cấp các giải pháp AI tổng hợp toàn diện được xây dựng trên cơ sở hạ tầng và phần mềm tốt nhất của Dell, kết hợp với bộ tăng tốc NVIDIA, phần mềm AI và chuyên môn AI mới nhất.
- Cho phép các doanh nghiệp sử dụng AI tại chỗ tạo ra theo mục đích để giải quyết các thách thức kinh doanh cụ thể.
- Hỗ trợ các doanh nghiệp trong toàn bộ vòng đời AI tổng quát, từ cung cấp cơ sở hạ tầng, đào tạo và phát triển mô hình lớn, tinh chỉnh mô hình được đào tạo trước, triển khai mô hình nhiều trang và suy luận mô hình lớn.
- Đảm bảo sự tin cậy, bảo mật và quyền riêng tư của dữ liệu nhạy cảm và độc quyền của công ty, cũng như tuân thủ các quy định của chính phủ.
Với Project Helix, Dell Technologies và NVIDIA cho phép các tổ chức tự động hóa các quy trình phức tạp, cải thiện tương tác với khách hàng và mở ra những khả năng mới với trí thông minh máy móc tốt hơn. Cùng nhau, chúng ta đang dẫn đầu trong việc thúc đẩy làn sóng đổi mới tiếp theo trong bối cảnh AI của doanh nghiệp.
Bài viết mới cập nhật
Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)
Trong quy trình làm việc NDU, các nút được khởi động ...
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...