Đối tượng nhỏ, tác động lớn: Cách ObjectScale nâng cao hiệu quả lưu trữ dữ liệu

Tăng cường lưu trữ dữ liệu AI với Dell ObjectScale: hiệu quả, độ bền và độ tin cậy vô song, phù hợp với hàng tỷ tệp nhỏ.

Hiệu suất lưu trữ đối tượng cho các tệp nhỏ rất quan trọng. Và lưu trữ khối (chunk store) chính là chìa khóa. Đây là chi tiết kỹ thuật ở mức độ cơ bản, nhưng điều quan trọng là phải hiểu khái niệm và lợi ích của nó khi các đường truyền dữ liệu AI quan trọng chuyển sang lưu trữ đối tượng hoàn toàn bằng flash.

Chúng ta đang nói về bao nhiêu tệp nhỏ trong các đường ống dữ liệu ngày nay? Xét về quy mô, có hàng tỷ tệp. Những tệp này có thể là siêu dữ liệu được tạo ra khi dữ liệu phi cấu trúc được xử lý thành dữ liệu bán cấu trúc để tinh chỉnh Mô hình Ngôn ngữ Lớn (LLM). Hoặc các tệp có thể đến từ kiến trúc hồ dữ liệu với cơ sở dữ liệu bảng mở khổng lồ.

Dell ObjectScale là giải pháp lưu trữ đối tượng được thiết kế riêng cho các doanh nghiệp đang vật lộn với nhu cầu dữ liệu hiện đại trong kỷ nguyên AI. ObjectScale nổi bật so với các đối thủ cạnh tranh về hiệu suất, khả năng phục hồi và độ bền đối với tệp nhỏ — cải thiện đáng kể hiệu quả lưu trữ dữ liệu. Dưới đây là một số lý do.

Tận dụng các khối

ObjectScale đóng gói các tệp thành từng khối 128MB. Những khối này mang lại cho hệ thống những lợi thế lớn khi xử lý số lượng lớn các đối tượng nhỏ.

Ví dụ, hãy lấy một hệ thống với hàng trăm triệu hoặc hàng tỷ tệp siêu dữ liệu 10K rất nhỏ. ObjectScale có thể lưu trữ hơn 10.000 tệp đó thành một khối duy nhất. Khối đó sau đó được mã hóa xóa, và các mảnh kết quả được phân phối giữa các rack và nút để đảm bảo khả năng chịu lỗi. Khối được đặt một cách có thể dự đoán được trên đĩa với chi phí lưu trữ sạch là 25% (với mã hóa xóa 10+2).

Hãy so sánh kịch bản này với một hệ thống không sử dụng lưu trữ khối. Với những đối tượng nhỏ như vậy, mã hóa xóa riêng lẻ là một lựa chọn tồi (nó có thể dẫn đến chi phí vượt quá 600%). Các hệ thống đó thường sử dụng phản chiếu kép hoặc ba (chi phí vượt quá 200% hoặc 300%). Hãy thử nhân con số đó với hàng trăm triệu hoặc hàng tỷ.

Xây dựng lại nhanh hơn, với chi phí lưu trữ thấp hơn

Tiếp theo, hãy xem xét cách phân đoạn có thể xác định kết quả trong tình huống lỗi.

Trên một hệ thống đối tượng không dựa trên cơ chế lưu trữ khối, sự cố của ổ NVMe 61TB đồng nghĩa với việc hệ thống phải tạo lại hàng tỷ mảnh đối tượng. Chúng ta đang nói về thời gian xây dựng lại từ vài tuần đến vài tháng cho một lỗi ổ đĩa đơn lẻ. Điều gì sẽ xảy ra nếu toàn bộ một nút lưu trữ với 24 ổ đĩa bị sập? Việc xây dựng lại sẽ là một gánh nặng liên tục cho hệ thống.

Kho lưu trữ khối ObjectScale giúp giảm tổng số phân mảnh cần được tạo lại trong trường hợp lỗi theo cấp số nhân (từ hàng tỷ xuống còn hàng triệu). Thời gian xây dựng lại trên các ổ NVMe lớn có thể giảm từ vài tuần và vài tháng xuống chỉ còn vài giờ, đồng thời vẫn giữ chi phí lưu trữ ở mức thấp. Đây thực sự là giải pháp duy nhất khả thi cho việc hỗ trợ NVMe lớn.

Tối đa hóa độ bền, giải phóng chu kỳ CPU

Cũng cần cân nhắc tác động của độ bền dữ liệu khi quản lý lưu trữ đối tượng cho các khối lượng công việc hiện đại như AI. Để ngăn chặn tình trạng dữ liệu bị hỏng ngầm, lưu trữ đối tượng sẽ chủ động quét các đối tượng, xác minh tổng kiểm tra và sửa lỗi.

Nếu từng đối tượng riêng lẻ trong hệ thống cần được kiểm tra tổng kiểm tra, hệ thống đang hoạt động có thể dễ dàng rơi vào trạng thái không thể hoàn tất việc quét. Một số hệ thống đối tượng sẽ giới hạn tốc độ tiếp nhận nếu chúng rơi vào tình huống không thể hoàn tất việc quét tổng kiểm tra.

Ngược lại, ObjectScale kiểm tra tổng kiểm tra từng đối tượng trực tuyến trước khi đưa chúng vào một khối. Nó không cần phải kiểm tra điều đó ở chế độ nền, vì tổng kiểm tra được kiểm tra ở cấp độ phân đoạn/sọc.

Bằng cách giảm số lượng tổng kiểm tra cần được xác thực liên tục, ObjectScale giảm đáng kể chi phí xử lý liên quan. Điều này giải phóng chu kỳ CPU để các nút lưu trữ có thể thực hiện công việc chính của chúng, đọc và ghi dữ liệu.

Nâng cao hiệu quả lưu trữ AI với ObjectScale

Cơ chế lưu trữ khối dữ liệu mạnh mẽ của Dell ObjectScale trực tiếp giải quyết những thách thức trong việc quản lý hàng tỷ đối tượng nhỏ. Thực tế, một số khách hàng của chúng tôi đang chạy môi trường ObjectScale bao gồm hơn 100 tỷ đối tượng trong một thùng dữ liệu duy nhất. Chúng tôi trân trọng mời bạn liên hệ và tìm hiểu thêm về cách ObjectScale mang lại hiệu quả lưu trữ, độ bền và khả năng phục hồi vượt trội, biến nó thành nền tảng không thể thiếu cho các quy trình làm việc AI và phân tích hiệu suất cao.