Chuẩn bị cơ sở hạ tầng mạng trung tâm dữ liệu cho khối lượng công việc AI đặt ra nhiều thách thức. Có tới 33% thời gian trôi qua trong các tác vụ AI/ML thường bị lãng phí khi chờ mạng khả dụng, dẫn đến tài nguyên GPU tốn kém vẫn nằm im¹. Hơn nữa, lưu lượng ứng dụng AI đang tăng trưởng theo cấp số nhân, tăng gấp đôi sau mỗi hai năm, trong khi quy mô cụm đang mở rộng gấp bốn lần, đặt ra nhu cầu to lớn đối với cơ sở hạ tầng mạng².
Các tổ chức phải vật lộn với rủi ro cung cấp quá mức hoặc thiếu hụt cơ sở hạ tầng AI do thiếu các công cụ và phương pháp dự đoán cho nhu cầu khối lượng công việc AI trong tương lai. Ngoài ra, họ có thể không có đủ chuyên môn nội bộ về các công nghệ mạng tiên tiến như NVLink, InfiniBand, Ethernet 400/800 Gb và SONiC .
Chúng tôi đã phát triển một phương pháp tiếp cận toàn diện để thiết kế mạng AI xung quanh các trường hợp sử dụng của bạn: Dell Design Services for AI Networking. Sự bổ sung này vào dịch vụ Dell AI Factory của chúng tôi giúp bạn thiết kế mạng AI của mình để đảm bảo hiệu suất mạng tối ưu. Hãy cùng khám phá một số yếu tố chính mà chúng tôi tập trung vào khi thiết kế mạng cho khối lượng công việc AI của bạn.
Nhu cầu: Tăng băng thông, giảm thiểu độ trễ và truyền tải không mất dữ liệu
Các trường hợp sử dụng doanh nghiệp bao gồm sự kết hợp giữa suy luận AI và các hoạt động đào tạo. Trong quá trình suy luận, một mô hình AI được đào tạo sẽ áp dụng các tham số, trọng số hoặc quy tắc đã học của mình để chuyển đổi dữ liệu đầu vào thành thông tin hoặc hành động có ý nghĩa. Một mạng lưới mang lưu lượng suy luận yêu cầu độ trễ thấp để phản hồi theo thời gian thực và băng thông cao khi sử dụng các mô hình lớn hơn.
Khối lượng công việc đào tạo AI phức tạp đòi hỏi băng thông cực lớn và xử lý song song để đồng bộ hóa các phép tính giữa nhiều GPU trong một cụm. ‘Luồng voi’ được tạo ra bởi đồng bộ hóa GPU đang thúc đẩy quá trình chuyển đổi trong mạng lưới trung tâm dữ liệu, tạo ra nhu cầu tăng băng thông chưa từng có, giảm thiểu độ trễ và truyền dữ liệu không mất dữ liệu.
Thuộc tính của AI Network Fabrics
Các nền tảng AI back-end cần được thiết kế để giải quyết những thách thức do đào tạo mô hình AI đặt ra. Các nền tảng này yêu cầu dung lượng cao và độ trễ thấp. Các nhà thiết kế mạng cần xem xét độ trễ đuôi, xảy ra khi một vài yêu cầu bất thường làm chậm quá trình xử lý.
Để đạt được các yêu cầu này, AI fabric sử dụng kiến trúc không chặn và backplane chuyển mạch 800 Gb/giây với các breakout tùy chọn 400 Gb/giây. Các tính năng nâng cao như Remote Direct Memory Access (RDMA) Over Converged Ethernet (RoCEv2) được sử dụng. RDMA cũng là một thành phần chính của InfiniBand, một công nghệ mạng tốc độ cao, độ trễ thấp. InfiniBand và 400/800 Gb Ethernet là hai giải pháp thay thế chính cho AI training fabric.
Xử lý tình trạng tắc nghẽn mạng là rất quan trọng trong các mạng AI. Explicit Congestion Notification (ECN) đưa ra cảnh báo sớm về tình trạng tắc nghẽn mạng, trong khi Priority-based Flow Control (PFC) cho phép phần mềm mạng tạm dừng truyền cho đến khi mạng có thể ‘bắt kịp’. Các kỹ thuật tiên tiến khác có thể được áp dụng bao gồm định tuyến thích ứng, cân bằng tải động, chế độ băm nâng cao và phun gói/tế bào.
Quản lý và điều phối hiệu quả các mạng này bắt đầu bằng việc cung cấp không cần chạm và triển khai tự động, cho phép khả năng mở rộng liền mạch. Các công cụ giám sát mạng tiên tiến cung cấp khả năng hiển thị sớm các vấn đề hoặc bất thường tiềm ẩn, đảm bảo mạng vẫn mạnh mẽ và đáng tin cậy khi có khối lượng công việc AI lớn.
Lập kế hoạch chiến lược cho mạng lưới AI sẵn sàng cho tương lai
Như thường lệ đối với những thay đổi công nghệ lớn, thành công đòi hỏi sự phân tích và lập kế hoạch cẩn thận, kỹ lưỡng.
Bước đầu tiên là kiểm toán kỹ lưỡng cơ sở hạ tầng mạng hiện tại của bạn . Quá trình này bao gồm việc đánh giá khả năng, hạn chế, trường hợp sử dụng AI, loại khối lượng công việc, quỹ đạo tăng trưởng và dấu chân địa lý. Xác định các điểm tích hợp cho các thành phần mạng AI mới là rất quan trọng trong quá trình đánh giá này.
Bước tiếp theo bao gồm việc tạo ra tầm nhìn về mạng lưới tương lai mong muốn của bạn . Điều này đòi hỏi phải phân tích sâu về các mô hình sử dụng AI, loại khối lượng công việc và các cân nhắc về hiệu suất. Thiết kế mạng GPU toàn diện cùng với hướng dẫn tích hợp là điều cần thiết để mở rộng mạng lưới liền mạch khi nhu cầu tăng cao.
Cuối cùng, hãy phát triển một chiến lược mạng AI mạnh mẽ bao gồm thiết kế mạng, các tùy chọn kết nối và lựa chọn công nghệ. Chiến lược này sẽ giải quyết nhu cầu mở rộng quy mô và quản lý tăng trưởng, đảm bảo một khuôn khổ mạng linh hoạt và thích ứng có khả năng đáp ứng các nhu cầu trong tương lai.
Truy cập trải nghiệm và chuyên môn về mạng AI mở rộng với dịch vụ Dell
Hợp tác với các chuyên gia tư vấn có thể cung cấp kiến thức chuyên môn và chuyên môn kỹ thuật cần thiết để giúp bạn tối ưu hóa hiệu suất mạng AI, tích hợp các công nghệ tiên tiến và duy trì các biện pháp bảo mật mạnh mẽ để cung cấp hiệu suất cơ sở hạ tầng và độ tin cậy mà các trường hợp sử dụng AI của bạn mong đợi. Tối ưu hóa cơ sở hạ tầng mạng AI là rất quan trọng để xây dựng một Nhà máy AI cung cấp các trường hợp sử dụng được AI hỗ trợ một cách có hệ thống và tạo ra các quy trình làm việc hiệu quả hơn và cải thiện kết quả kinh doanh. Các chuyên gia AI của Dell Technologies có thể giúp đẩy nhanh tiến độ của bạn hướng tới kết quả AI ở mọi giai đoạn, từ chiến lược đến kiến trúc công nghệ, quản lý dữ liệu, triển khai trường hợp sử dụng và quản lý áp dụng và thay đổi. Để đảm bảo tính hoàn chỉnh của các giải pháp AI của bạn, chúng tôi tận dụng hệ sinh thái đối tác mạnh mẽ của Dell.
Hãy xem những cách Dell Services có thể cộng tác với nhóm của bạn để đưa hành trình kết nối mạng của bạn tiến tới tương lai do AI thúc đẩy.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...