Chuẩn bị trung tâm dữ liệu của bạn cho thế giới GenAI

“Chúng ta không còn ở Kansas nữa” – Dorothy Gale, ‘Phù thủy xứ Oz’

Bước vào thế giới AI tạo sinh (GenAI) giống như bước vào một thế giới mới, chứa đầy những thách thức và cơ hội độc đáo. Cũng giống như Dorothy cần hướng dẫn để khám phá Oz, các tổ chức phải chuẩn bị trung tâm dữ liệu của mình để xử lý các yêu cầu của cơ sở hạ tầng AI.

Yêu cầu tính toán của Thành phố Ngọc lục bảo

Việc triển khai cơ sở hạ tầng AI đặt ra những thách thức đáng kể, bắt đầu với các yêu cầu tính toán, trong đó nặng nhất là để đào tạo mô hình. Ngay cả khi một tổ chức không đào tạo mô hình từ đầu, các yêu cầu tính toán cho suy luận mô hình ngôn ngữ lớn—cộng với nhúng vectơ để truy xuất thế hệ tăng cường , hay RAG, và tinh chỉnh—vượt xa những yêu cầu được sử dụng cho các ứng dụng ngày nay.

Để đáp ứng các yêu cầu này, kích thước vật lý, trọng lượng, cáp, mạng, nguồn điện và đặc điểm làm mát của máy chủ AI tạo ra chạy bằng GPU cao gấp nhiều lần so với thông số kỹ thuật tương ứng của máy chủ tiêu chuẩn. Các tổ chức cần lập kế hoạch cẩn thận để đưa cơ sở hạ tầng AI này vào hoạt động trong các trung tâm dữ liệu của họ.

Ví dụ, máy chủ Dell PowerEdge XE9680 , được Dell xác thực cho các trường hợp sử dụng suy luận, là máy chủ 6U với tám GPU NVIDIA H100. Do cấu trúc chắc chắn và khả năng làm mát, máy chủ này nặng hơn 200 pound. Một giá đỡ có bốn máy chủ XE9680 tiêu thụ 20 đến 40 kW điện, chứa hơn 100 cáp và nặng hơn 1000 pound.

Tùy thuộc vào nhu cầu và quy mô triển khai AI, bạn có thể chọn áp dụng các khuyến nghị được mô tả trong bài đăng trên blog này cho toàn bộ trung tâm dữ liệu hoặc cho một phần AI chuyên dụng của trung tâm dữ liệu.

Bộ não của Scarecrow: Năng lực của trung tâm dữ liệu

Trong câu chuyện kinh điển, Scarecrow nói rằng anh ta cần một bộ não, và kế hoạch của anh ta là đi theo Dorothy để tìm Wizard. Trong thế giới cơ sở hạ tầng AI, điều quan trọng là phải có kế hoạch về quy mô trung tâm dữ liệu và phân bổ không gian để lắp đặt máy chủ và giá đỡ, tối ưu hóa luồng không khí và bảo trì.

Các chuyên gia triển khai Dịch vụ của Dell có thể làm việc với nhóm của bạn để thiết kế không gian nhằm xử lý hiệu quả số lượng lớn giá đỡ cơ sở hạ tầng AI và cung cấp thêm năng lực cho việc mở rộng trong tương lai.

Sắp xếp các giá đỡ để hỗ trợ việc truy cập bảo trì dễ dàng vào máy chủ và cơ sở hạ tầng là chìa khóa để thiết kế trung tâm dữ liệu tốt và cũng áp dụng cho cơ sở hạ tầng AI. Các nhóm nên thiết lập lịch bảo trì thường xuyên, bao gồm kiểm tra thường xuyên và thay thế bộ lọc không khí, quạt và bộ phận làm mát khi cần thiết.

Lòng dũng cảm của Sư tử: Quản lý luồng không khí hiệu quả

Luồng khí rất quan trọng trong việc quản lý nhiệt do máy chủ và hệ thống cơ sở hạ tầng tạo ra. Cơ sở hạ tầng AI tiêu thụ nhiều điện năng hơn nhiều so với máy chủ truyền thống, tạo ra nhiều nhiệt hơn và khiến luồng khí và làm mát trở nên quan trọng hơn.

Các tổ chức nên sử dụng các chiến lược quản lý luồng không khí có cấu trúc như ngăn cách lối đi nóng và lạnh và hướng luồng không khí mát trực tiếp vào các cửa vào của máy chủ và luồng không khí nóng thoát ra khỏi thiết bị. Điều này sẽ làm tăng hiệu quả làm mát và giảm chi phí năng lượng.

Trái tim của Người thiếc: Sức mạnh và khả năng làm mát tiên tiến

Để hỗ trợ các máy chủ GPU mật độ cao, điều quan trọng là phải đánh giá nhu cầu về điện năng và làm mát. Việc lập kế hoạch nên bao gồm đánh giá tổng nhu cầu về điện năng hiện tại và trong tương lai, đảm bảo có đủ tài nguyên và hệ thống sao lưu để hỗ trợ hoạt động mà không bị gián đoạn. Các trung tâm dữ liệu chưa được thiết kế cho nhu cầu cao hơn của cơ sở hạ tầng AI có thể không được trang bị để xử lý các máy chủ GPU dày đặc.

Hãy cân nhắc đầu tư vào các công nghệ nguồn điện và máy biến áp mới nhất có xếp hạng hiệu suất cao hơn. Chúng không chỉ giúp giảm mức tiêu thụ năng lượng mà còn giảm thiểu tác động đến môi trường của hoạt động trung tâm dữ liệu. Sử dụng bộ nguồn không bị gián đoạn (UPS) cho nguồn điện khẩn cấp và các đơn vị phân phối điện tiết kiệm năng lượng (PDU) để quản lý và phân phối điện hiệu quả trong trung tâm dữ liệu.

Nhóm Dell sẽ giúp bạn đánh giá các yêu cầu làm mát để quản lý nhiệt do khối lượng công việc AI dày đặc tạo ra. Khi khối lượng công việc AI tăng lên, làm mát bằng không khí thông thường có thể không đủ. Việc triển khai các giải pháp làm mát bằng chất lỏng có thể giảm đáng kể dấu chân nhiệt, cho phép loại bỏ nhiệt hiệu quả hơn và cho phép ổn định và tuổi thọ cao hơn với các cấu hình mật độ cao hơn.

Con đường của Toto: Độ phức tạp của cáp, Bố cục và Tổ chức

Chúng tôi không thể quên Toto! Giống như Toto điều hướng qua sự phức tạp của Oz, cách tiếp cận triển khai AI của chúng tôi bao gồm các giải pháp quản lý cáp tỉ mỉ hỗ trợ định tuyến trên cao và quản lý nhiệt. Hệ thống truyền tải nên được thiết kế để tách biệt cáp nguồn và cáp dữ liệu, giảm thiểu nhiễu và tăng cường cả tính an toàn và độ tin cậy của hệ thống.

Trong tủ rack, điều quan trọng là phải giảm bớt sự lộn xộn để tránh tắc nghẽn không khí và giúp các kỹ thuật viên dễ dàng định vị đúng cáp. Cáp được định tuyến kém có thể gây ra nhiệt tích tụ và gây ra sự cố với cơ sở hạ tầng chuyển mạch.

Ngoài ra, việc cấu hình một “pod” Gen AI thường có nghĩa là một giá mạng phục vụ nhiều giá máy chủ GPU, dẫn đến nhiều cáp liên giá hơn và dài hơn. Để sắp xếp có hệ thống khối lượng cáp và kết nối lớn hơn này, các biện pháp tốt nhất bao gồm thiết kế và triển khai hệ thống cáp có cấu trúc và gắn nhãn.

Để đáp ứng nhu cầu tăng trưởng trong tương lai, hãy triển khai các hệ thống quản lý cáp có thể điều chỉnh như bảng điều khiển mô-đun và giá đỡ có thể điều chỉnh. Bộ dịch vụ chuyên nghiệp AI của Dell AI bao gồm các dịch vụ triển khai cơ sở hạ tầng để hỗ trợ bố trí và quản lý cáp.

Để đơn giản hóa hơn nữa việc triển khai tại chỗ, Dell có thể xây dựng, cấu hình, đi dây và thử nghiệm cơ sở hạ tầng AI tại nhà máy, giúp giảm đáng kể khối lượng công việc cần thực hiện tại trung tâm dữ liệu của bạn.

Trí tuệ của Dorothy: Những cân nhắc khi xử lý bao bì

Dell nhận thức được những tác động về mặt môi trường và hậu cần liên quan đến việc xử lý bao bì. Chọn vật liệu có thể tái chế hoặc phân hủy sinh học cho bao bì cáp và triển khai các giao thức xử lý ưu tiên tính bền vững, giúp đáp ứng các yêu cầu theo quy định và cải thiện hồ sơ môi trường của trung tâm dữ liệu.

Các tổ chức cũng nên đánh giá các trung tâm dữ liệu của mình để tìm ra các lĩnh vực có cơ hội giảm mức tiêu thụ điện năng (và các yêu cầu làm mát tiếp theo) của cơ sở hạ tầng hiện có. Điều này có thể giúp bù đắp một số nhu cầu của cơ sở hạ tầng AI và giảm tác động của dấu chân carbon.

Các giải pháp của Dell hướng đến mục tiêu giảm thiểu chất thải và quản lý chi phí xử lý hiệu quả, đảm bảo việc triển khai cơ sở hạ tầng AI thân thiện với môi trường cũng như tiên tiến về mặt công nghệ.

Đi trên con đường gạch vàng đến một trung tâm dữ liệu sẵn sàng cho AI

Khi các nhân vật chính trong “Phù thủy xứ Oz” vượt qua thử thách của mình với một chút giúp đỡ từ bạn bè, Dell Technologies có thể giúp tổ chức của bạn thành công trong hành trình hướng đến trung tâm dữ liệu sẵn sàng cho GenAI với sự hỗ trợ và lập kế hoạch của chuyên gia.

Để tìm hiểu thêm về việc chuẩn bị trung tâm dữ liệu của bạn cho thế giới AI mới, hãy xem Dịch vụ chuyên nghiệp của Dell dành cho GenAI hoặc liên hệ với đại diện Dell của bạn.