Đột phá AI bằng dữ liệu

Bên trong sự kiện Nền tảng dữ liệu AI của Dell

Tham vọng AI rất rõ ràng: xây dựng các sản phẩm thông minh hơn, khám phá hiệu quả mới và mang lại kết quả tốt hơn. Nhưng tiến độ thường bị đình trệ. GPU thiếu năng lượng gây lãng phí ngân sách và kéo dài chu kỳ đào tạo. Dữ liệu phân mảnh dẫn đến kết quả không đáng tin cậy. Và việc phụ thuộc vào nhà cung cấp làm chậm khả năng áp dụng làn sóng đổi mới tiếp theo. Con đường nhanh nhất để đạt được kết quả là loại bỏ những điểm nghẽn dữ liệu này.

Tại Sự kiện Nền tảng Dữ liệu AI của Dell, chúng tôi đã công bố những cải tiến quan trọng được thiết kế để giúp bạn chuyển đổi từ giai đoạn thí điểm AI sang giai đoạn sản xuất với tốc độ và sự tự tin cao hơn, đồng thời làm việc với dữ liệu tốt nhất ở quy mô petabyte. Bằng cách kết hợp lưu trữ thông lượng cao với các công cụ dữ liệu mở, bạn có thể rút ngắn thời gian xây dựng mô hình và giảm tổng chi phí sở hữu cho cơ sở hạ tầng AI của mình.

Nền tảng dữ liệu mở, mô-đun và an toàn

Hình 1: Kiến trúc Nền tảng dữ liệu AI của Dell

Nền tảng Dữ liệu AI của Dell là một giải pháp toàn diện được xây dựng để biến dữ liệu phân tán thành một tài sản chiến lược. Nền tảng này dựa trên bốn khối xây dựng cốt lõi, cung cấp nền tảng linh hoạt và hiệu suất cao cho các khối lượng công việc AI khắt khe nhất của bạn.

- Công cụ lưu trữ: Dell PowerScale và Dell ObjectScale cung cấp khả năng truy cập dữ liệu thông lượng cao, có thể mở rộng, thiết yếu cho các quy trình đào tạo, tinh chỉnh, suy luận và tạo dữ liệu tăng cường truy xuất (RAG). Chúng đảm bảo dữ liệu của bạn luôn sẵn sàng khi và ở nơi mà khối lượng công việc AI của bạn cần.
- Công cụ Dữ liệu: Dell Data Analytics Engine, Dell Data Processing Engine và Dell Data Search Engine là những công cụ chuyên dụng giúp bạn sắp xếp, làm giàu siêu dữ liệu, truy vấn dữ liệu tại chỗ và kích hoạt thông tin hữu cơ của tổ chức cùng với IoT, dữ liệu máy móc và dữ liệu phi cấu trúc được tạo ra bên ngoài doanh nghiệp. Chúng chuyển đổi dữ liệu thô thành các sản phẩm dữ liệu có thể truy vấn, dễ dàng khám phá, sẵn sàng hỗ trợ AI thông minh hơn.
- Khả năng phục hồi mạng: Với khả năng phát hiện mối đe dọa theo thời gian thực, quản trị mạnh mẽ và bảo mật nội tại, chúng tôi giúp bảo vệ tính toàn vẹn của các đường ống dữ liệu AI của bạn. Bạn chỉ có thể tin tưởng vào kết quả AI nếu bạn có thể tin tưởng vào dữ liệu của mình.
- Dịch vụ chuyên nghiệp: Chúng tôi cung cấp nền tảng vững chắc để giúp dữ liệu sẵn sàng cho AI và duy trì như vậy trong suốt vòng đời của dữ liệu, từ khi thu thập đến khi lưu trữ.

PowerScale: Cung cấp năng lượng cho khối lượng công việc AI với hiệu quả vô song

Để đẩy nhanh quá trình AI từ giai đoạn thử nghiệm đến giai đoạn sản xuất, hệ thống lưu trữ của bạn phải bắt kịp với những GPU mạnh nhất thế giới. Dell PowerScale tiếp tục nâng cao tiêu chuẩn cho hệ thống lưu trữ hỗ trợ AI, giờ đây với chứng nhận NVIDIA Cloud Partner Program (NCP) cho nền tảng NVIDIA GB200 và GB300 NVL72. Chứng nhận này cung cấp một nền tảng lưu trữ đã được chứng minh và tối ưu hóa cho các doanh nghiệp và nhà cung cấp dịch vụ đám mây đang xây dựng mọi thứ, từ cụm GPU quy mô nhỏ đến nhà máy AI quy mô lớn.

Hệ thống PowerScale F710 mang lại hiệu suất vượt trội với hiệu suất đáng kinh ngạc. Trong môi trường tham chiếu hỗ trợ hơn 16.000 GPU, PowerScale đạt được mật độ này chỉ trong 168 tủ rack. ¹ Điều này cho phép bạn mở rộng quy mô AI trong điều kiện hạn chế về điện năng và không gian, sử dụng ít hơn tới 88% số bộ chuyển mạch backend và tiêu thụ ít hơn tới 72% điện năng so với các giải pháp thay thế. ¹ Kết quả là cơ sở hạ tầng được đơn giản hóa, chi phí vận hành thấp hơn và một cách thông minh hơn để tối đa hóa từng đô la chi cho tài nguyên GPU.

Với PowerScale, bạn có thể khai thác toàn bộ tiềm năng của GPU, đẩy nhanh quá trình đổi mới AI và đạt được kết quả tốt hơn, đồng thời giảm chi phí và độ phức tạp.

ObjectScale: Hiệu suất cực cao cho khối lượng công việc AI hiện đại

Khi các tập dữ liệu phi cấu trúc ngày càng phát triển, bạn cần một nền tảng lưu trữ đối tượng được xây dựng để đáp ứng tốc độ và quy mô của AI hiện đại. Phiên bản phần mềm Dell ObjectScale sắp ra mắt đặt ra một chuẩn mực mới cho lưu trữ đối tượng hỗ trợ AI. Công nghệ S3-over-RDMA đột phá của Dell (ban đầu có sẵn trong bản Tech Preview) giúp tăng tốc AI và khối lượng công việc lớn với thông lượng cao hơn tới 230%, độ trễ thấp hơn 80% và mức sử dụng CPU thấp hơn 98% so với S3 truyền thống. ² Điều này giúp tăng tốc lập chỉ mục RAG và cắt giảm đáng kể chi phí tính toán.

Được xây dựng trên kiến trúc thế hệ tiếp theo, ObjectScale duy trì tốc độ tiếp nhận lên đến 40 GiB/giây cho mỗi nút, ^đảm bảo cơ sở hạ tầng của bạn luôn sẵn sàng cho các tập dữ liệu lớn như mô hình huấn luyện AI và kho lưu trữ đa phương tiện. Hiệu suất cho khối lượng công việc đối tượng nhỏ hơn cũng được cải thiện, đảm bảo truy cập nhanh chóng và ổn định ở quy mô lớn. Với kế hoạch hỗ trợ các ổ đĩa thế hệ tiếp theo có khả năng mở rộng lên đến 122 TB, ObjectScale cho phép dung lượng lên đến hàng petabyte trong một kích thước nhỏ hơn, giúp giảm chi phí vận hành.

Công cụ dữ liệu: Từ dữ liệu thô đến trí tuệ thời gian thực

Dell Data Engines được thiết kế để chuyển đổi dữ liệu thô, phân tán thành kết quả AI theo thời gian thực. Thông qua hợp tác kỹ thuật chuyên sâu, chúng tôi đang đơn giản hóa cách các tổ chức chuẩn bị, tìm kiếm và kích hoạt dữ liệu cho các ứng dụng tạo dữ liệu tăng cường truy xuất (RAG), phân tích và AI tạo sinh.

Để việc khám phá trở nên trực quan, Dell Data Search Engine mới, được phát triển với Elastic, giúp tăng tốc quá trình ra quyết định bằng cách cho phép các nhóm tương tác với dữ liệu một cách tự nhiên như đặt câu hỏi. Được xây dựng cho RAG và tìm kiếm ngữ nghĩa, công cụ này tích hợp với MetadataIQ để tìm kiếm hàng tỷ tệp trên PowerScale và ObjectScale. Các nhà phát triển có thể xây dựng các ứng dụng RAG thông minh hơn trong các nền tảng như LangChain, tiết kiệm thời gian tính toán bằng cách chỉ nhập các tệp đã cập nhật để duy trì tính cập nhật của cơ sở dữ liệu vector.

Dựa trên nền tảng đó, việc tích hợp NVIDIA cuVS trên Nền tảng Dữ liệu AI của Dell mang đến bước tiến vượt bậc về hiệu suất tìm kiếm vector. Điều này mang đến khả năng tìm kiếm lai được tăng tốc bằng GPU cho Công cụ Tìm kiếm Dữ liệu, cho phép thu thập thông tin chi tiết nhanh hơn với khả năng kiểm soát toàn diện tại chỗ. Đội ngũ CNTT sẽ có được một giải pháp tích hợp đầy đủ, sẵn sàng triển khai để mở rộng quy mô tìm kiếm dựa trên GPU ngay khi cài đặt.

Bổ sung cho tìm kiếm, Dell Data Analytics Engine—được hỗ trợ bởi Starburst—cho phép phân tích liên kết trên khắp cơ sở dữ liệu, kho dữ liệu và kho dữ liệu mà không cần di chuyển dữ liệu. Công cụ này hợp nhất dữ liệu ở các định dạng mở như Apache Iceberg và Delta Lake, đảm bảo quản trị nhất quán từ khâu chuẩn bị đến suy luận. Để vận hành toàn diện, MCP Server cho phép các tác nhân AI và quy trình làm việc truy cập an toàn vào các sản phẩm dữ liệu chất lượng cao từ các nguồn phân tán, đẩy nhanh quá trình từ khâu thu thập dữ liệu đến thông tin chi tiết hữu ích.

Tại sao cách tiếp cận của Dell lại khác biệt

- Mở và Mô-đun: Kiến trúc tách rời của chúng tôi cho phép bạn mở rộng quy mô lưu trữ và công cụ dữ liệu một cách độc lập, áp dụng công nghệ mới nhanh hơn và tránh bị phụ thuộc vào nhà cung cấp.
- Hiệu suất GPU hiệu quả: Chúng tôi tập trung vào việc cung cấp hiệu suất tốc độ đường truyền từ bộ lưu trữ đến GPU, loại bỏ tình trạng tắc nghẽn I/O gây lãng phí các chu kỳ tính toán tốn kém.
- Truy cập liên bang mà không cần sao chép dữ liệu: Truy vấn và phân tích dữ liệu tại nơi lưu trữ, giảm thiểu độ phức tạp, chi phí và rủi ro quản trị liên quan đến việc sao chép dữ liệu.
- Khả năng phục hồi cấp doanh nghiệp: Với tính năng bảo mật và bảo vệ dữ liệu tích hợp, bạn có thể tự tin triển khai các ứng dụng AI quan trọng trên nền tảng được thiết kế để đảm bảo tính toàn vẹn và khả dụng.

Một số nền tảng tích hợp các dịch vụ AI trực tiếp vào phần cứng lưu trữ. Thoạt đầu, điều này có vẻ đơn giản, nhưng thường dẫn đến xung đột CPU, lộ trình bị giới hạn bởi firmware và sự chậm trễ trong quá trình chờ nâng cấp đồng bộ. Chúng tôi tin rằng một phương pháp tiếp cận tách biệt, mở và tối ưu là chìa khóa để mở rộng quy mô AI một cách nhanh chóng.