Kiểm tra các giải pháp AI: Dell PowerEdge, PowerScale và NVIDIA đang hoạt động

Tìm hiểu cách Dell và NVIDIA hỗ trợ đào tạo GenAI với hiệu suất và tính linh hoạt vô song.

Khi GenAI bận rộn cách mạng hóa hoạt động kinh doanh, sự phụ thuộc của nó vào sức mạnh tính toán và GPU khổng lồ để tùy chỉnh, đào tạo và suy luận đang ngày càng tăng. Nhu cầu ngày nay đối với hoạt động AI đòi hỏi phải có bộ nhớ mạnh mẽ và kiến ​​trúc có thể mở rộng để cho phép số lượng kết nối đồng thời ngày càng tăng.

Dell Technologies và NVIDIA đã hợp tác để cung cấp giải pháp tích hợp, kết hợp các nền tảng AI hàng đầu, hệ thống tệp mở rộng và máy chủ đạt giải thưởng để đáp ứng quy trình làm việc AI ngày càng khắt khe hiện nay.

Hãy cùng xem GenAI được hưởng lợi như thế nào từ giải pháp kết hợp lưu trữ PowerScale, máy chủ PowerEdge và mạng PowerSwitch, cùng với NVIDIA AI Enterprise và NEMO.

Kiến trúc được tối ưu hóa cho hiệu suất, tính đồng thời và quy mô

Kiến trúc PowerScale của Dell là nền tảng NAS mở rộng hàng đầu, nhóm tối đa 252 nút thành một hệ thống lưu trữ duy nhất, được thiết kế để tăng tốc quá trình đào tạo và suy luận mô hình AI trên các môi trường tại chỗ, biên và đám mây. Nền tảng toàn flash của nó sử dụng đĩa OneFS và NVMe, cho phép khả năng và hiệu suất cụm đầy đủ thông qua một không gian tên duy nhất, hỗ trợ đồng thời cực độ và truyền dữ liệu có độ trễ thấp.

Bằng cách cung cấp khả năng lưu trữ có thể mở rộng, PowerScale cho phép các doanh nghiệp mở rộng theo nhu cầu. Các cụm có thể tăng lên đến 186PB dung lượng và hơn 2,5TB thông lượng đọc/ghi trong một không gian tên duy nhất. Điều này đảm bảo hỗ trợ quy trình làm việc AI mạnh mẽ.

Được tối ưu hóa cho IO đồng thời cao trong quá trình đào tạo AI, PowerScale hỗ trợ NFSoRDMA và GPU Direct Storage (GDS) của NVIDIA để truyền dữ liệu có độ trễ thấp. PowerScale OneFS cũng hỗ trợ RDMA qua Ethernet hội tụ (RoCEv2), bỏ qua CPU và hệ điều hành để nâng cao hiệu quả truyền dữ liệu, kết hợp với MagnumIO để di chuyển dữ liệu hiệu quả giữa bộ nhớ GPU NVIDIA và bộ lưu trữ PowerScale để thúc đẩy các cải tiến AI nhanh hơn.

Máy chủ PowerEdge XE9680, được trang bị tám GPU NVIDIA H100 và phần mềm NVIDIA AI, được thiết kế để có thông lượng cao và khả năng mở rộng. Nó có hiệu suất và mạng được cải tiến thông qua NVIDIA ConnectX-7 SmartNIC, hỗ trợ các ứng dụng tiên tiến như NLP. GPU NVIDIA H100, với Hệ thống chuyển mạch NVLink, tăng tốc khối lượng công việc AI với Transformer Engine chuyên dụng, cung cấp LLM nhanh hơn 30 lần.

Kiểm tra PowerEdge cho khối lượng công việc đào tạo AI

Để đánh giá hiệu suất GPU và khả năng mở rộng lưu trữ của kiến ​​trúc này, chúng tôi đã đào tạo một LLM phổ biến — sử dụng hai cấu hình khác nhau trên kiến ​​trúc mô hình LLAMA 2: Một mô hình tham số 7B với một máy chủ PowerEdge XE9680 được trang bị 8 GPU NVIDIA H100 và một mô hình tham số 70B với sáu máy chủ PowerEdge XE9680 được trang bị 48 GPU NVIDIA H100.

Sử dụng các kích thước mô hình LLAMA 2 sẵn có này để sử dụng, đánh giá này sẽ giúp chúng ta hiểu rõ hơn về việc sử dụng tài nguyên cơ sở hạ tầng và các yêu cầu cho nhiều khối lượng công việc đào tạo khác nhau.

Cả hai cấu hình đều bao gồm NVIDIA AI Enterprise. Lớp phần mềm này của nền tảng NVIDIA AI là trung tâm của thiết kế giải pháp và đẩy nhanh quy trình khoa học dữ liệu và hợp lý hóa quá trình phát triển và triển khai AI. Nền tảng đám mây an toàn này bao gồm hơn 100 khuôn khổ, mô hình được đào tạo trước và các công cụ để xử lý dữ liệu, đào tạo mô hình, tối ưu hóa và triển khai.

Tải dữ liệu ban đầu cho cả hai ví dụ mô hình đều có tác động tối thiểu đến hiệu suất lưu trữ, vì các mô hình dựa trên ngôn ngữ và văn bản có các tập dữ liệu nhỏ hơn. Điều này dẫn đến hoạt động đọc thấp trên hệ thống tệp. Tuy nhiên, dữ liệu điểm kiểm tra có tác động lớn hơn. Mô hình tham số 70B yêu cầu thông lượng ghi lớn hơn đáng kể so với mô hình tham số 7B trong các hoạt động điểm kiểm tra, ảnh hưởng đến hệ thống tệp OneFS.

Kết quả chuẩn phụ thuộc vào khối lượng công việc, yêu cầu ứng dụng và thiết kế hệ thống. Hiệu suất tương đối sẽ khác nhau, do đó khối lượng công việc này không nên thay thế chuẩn ứng dụng cụ thể của khách hàng để lập kế hoạch năng lực quan trọng hoặc đánh giá sản phẩm. Đối với chuẩn máy chủ Dell PowerEdge, hãy tham khảo trang chuẩn MLPerf .

Kiểm tra PowerScale để đào tạo mô hình hình ảnh

Xác thực này nhằm mục đích hiểu những thay đổi về hiệu suất lưu trữ khi đào tạo một tập dữ liệu hình ảnh. Hai cấu hình đã được đánh giá: một với hai máy chủ 8 chiều được cung cấp năng lượng bởi GPU 16xH100 trong cụm PowerScale F600P bốn nút và một với cùng thiết lập máy chủ trong cụm PowerScale F600P tám nút. Chúng tôi đã sử dụng kiến ​​trúc mô hình ResNet-50, một chuẩn mực chuẩn để phân loại hình ảnh trên nền tảng lưu trữ và tính toán GPU.

Thiết lập xác thực được thiết kế để đo tác động của hệ thống tệp Dell PowerScale trong quá trình đào tạo và kiểm tra sự thay đổi về hiệu suất hệ thống tệp và hiệu suất đào tạo sau khi thêm các nút PowerScale.

Khi cụm PowerScale mở rộng từ 4 đến 8 nút, có sự giảm 41% chu kỳ CPU và giảm 50% hoạt động NFS trên các nút cụm. Hiệu suất đào tạo vẫn nhất quán đối với cả hình ảnh/giây trên mỗi GPU (khoảng 5.370) và mức sử dụng GPU (99%).

Hiệu suất và khả năng mở rộng đã được chứng minh cho khối lượng công việc GenAI

Dell Reference Design for Generative AI Model Training với PowerScale cung cấp kiến ​​trúc có khả năng mở rộng, hiệu suất cao để đào tạo LLM. Nó tận dụng NVIDIA AI Enterprise và NVIDIA NeMo để hợp lý hóa quá trình phát triển và đào tạo mô hình GenAI — được hỗ trợ bởi cơ sở hạ tầng Dell mạnh mẽ.

Xác thực với kiến ​​trúc mô hình LLAMA 2 cung cấp các giải pháp đáng tin cậy, linh hoạt cho đào tạo GenAI, giải quyết kiến ​​trúc mạng, thiết kế phần mềm và hiệu suất lưu trữ. Thiết kế này đóng vai trò là hướng dẫn để hiểu các yêu cầu lưu trữ và tác động đến hiệu suất, dựa trên sự khác biệt giữa mô hình và tập dữ liệu trong các giai đoạn đào tạo, giúp nó có thể thích ứng với nhiều trường hợp sử dụng doanh nghiệp khác nhau.