Dell Data Lakehouse tạo ra dữ liệu lớn với Apache Spark

Dell Data Lakehouse + Apache Spark: Con đường hướng tới một nền tảng thống nhất để đơn giản hóa quá trình xử lý dữ liệu lớn và đẩy nhanh quá trình thu thập thông tin chi tiết.

Trí tuệ nhân tạo tạo ra đang định hình lại các ngành công nghiệp với tốc độ chưa từng có, nhưng tính sẵn sàng của dữ liệu là một thách thức thường nổi lên như một trong những rào cản quan trọng nhất đối với việc triển khai và mở rộng quy mô GenAI. Trên thực tế, một nghiên cứu gần đây cho thấy 53% các tổ chức phải đối mặt với các thách thức về chất lượng dữ liệu và tính kịp thời khi triển khai AI ở quy mô lớn và 48% cũng phải đối mặt với các thách thức về silo dữ liệu hoặc tích hợp dữ liệu¹ . Những thách thức này không phải là mới, nhưng với nhu cầu ngày càng mở rộng của AI, tính phức tạp và quy mô của việc chuẩn bị dữ liệu đã tăng lên đáng kể. 

  • Độ phức tạp, tính nhất quán và khối lượng dữ liệu: AI đòi hỏi các tập dữ liệu lớn, đa dạng cần chuyển đổi từ định dạng thô sang định dạng có cấu trúc, có thể tốn nhiều tài nguyên. Những thách thức như lược đồ không nhất quán, giá trị bị thiếu và kiểu dữ liệu phức tạp làm phức tạp thêm điều này, đặc biệt là khi nguồn dữ liệu mở rộng. 
  • Quản trị và bảo mật: Xử lý dữ liệu nhạy cảm, chẳng hạn như PII và hồ sơ tài chính, đòi hỏi phải tuân thủ quản trị và bảo mật nghiêm ngặt. Việc triển khai kiểm soát truy cập và mã hóa trong môi trường đám mây lai hoặc đa đám mây làm phức tạp việc chuẩn bị dữ liệu.  
  • Điều phối CNTT: Quản lý vòng đời của các công cụ xử lý — tối ưu hóa phân bổ tài nguyên, quản lý các phụ thuộc công việc và nâng cấp lên phiên bản phần mềm mới nhất, an toàn hơn — đòi hỏi phải được quản trị viên CNTT điều phối cẩn thận để ngăn ngừa tình trạng chậm lại, đặc biệt là khi khối lượng công việc tăng lên. 

Để giúp giải quyết những thách thức này, chúng tôi đã công bố Dell Data Lakehouse vào đầu năm nay. Một nền tảng dữ liệu trọn gói kết hợp phần cứng được tối ưu hóa AI của Dell với bộ phần mềm đầy đủ và được hỗ trợ bởi Starburst và công cụ truy vấn dựa trên Trino nâng cao, giờ đây bạn có thể loại bỏ các kho dữ liệu, giải phóng hiệu suất ở quy mô lớn và phổ biến thông tin chi tiết. 

Hợp tác với Starburst, chúng tôi tiếp tục thúc đẩy các giải pháp sáng tạo để giúp bạn vượt trội với AI, thông qua phương pháp Dell AI Factory của chúng tôi. Ngoài những cải tiến đó, chúng tôi đang cải tiến Dell Data Lakehouse bằng một tích hợp định nghĩa lại việc chuẩn bị dữ liệu và phân tích với việc giới thiệu một công cụ Apache Spark được quản lý hoàn toàn, tích hợp sâu trong Dell Data Lakehouse. Sự bổ sung này đánh dấu một cải tiến lớn, nhúng các khả năng xử lý dữ liệu hàng đầu trong ngành của Spark trực tiếp vào nền tảng. Với Spark và Trino hoạt động cùng nhau, Dell Data Lakehouse cung cấp hỗ trợ vô song cho các khối lượng công việc phân tích đa dạng và do AI thúc đẩy, mang lại tốc độ, quy mô và sự đổi mới — tất cả đều nằm trong một mái nhà và cho phép bạn triển khai đúng công cụ cho đúng khối lượng công việc, đồng thời vẫn quản lý tất cả một cách liền mạch thông qua cùng một bảng điều khiển quản lý. 

Spark trở thành một phần của Dell Data Lakehouse: Phân tích hợp nhất trong một nền tảng 

Sau đây là cách công cụ Spark tích hợp đưa Dell Data Lakehouse lên một tầm cao hoàn toàn mới: 

  1. Chuẩn bị dữ liệu sẵn sàng cho AI: Retrieval Augmented Generation (RAG) và tinh chỉnh yêu cầu các tập dữ liệu chất lượng cao để tăng cường các mô hình ngôn ngữ lớn. Với Spark trong Dell Data Lakehouse, người dùng có thể tạo cả đường ống hàng loạt và luồng để trích xuất, làm sạch và chuẩn hóa dữ liệu từ các nguồn có cấu trúc, bán cấu trúc và không có cấu trúc—đặc biệt có giá trị đối với dữ liệu doanh nghiệp, riêng tư. Kết hợp với siêu dữ liệu hệ thống tệp từ Dell PowerScale, bạn có thể chọn đúng tập dữ liệu để tạo nhúng hoặc sử dụng trong tinh chỉnh mô hình. Trong tương lai, các chức năng AI gốc sẽ tự động xử lý các loại dữ liệu phức tạp, như tài liệu, hình ảnh và âm thanh. 
  2. Được quản lý và bảo mật hoàn toàn: Spark chạy trực tiếp bên trong Lakehouse, được tích hợp vào trải nghiệm trọn gói của Dell Data Lakehouse với tính năng bảo mật tích hợp. Người quản trị sẽ không cần phải quản lý từng phần của ngăn xếp riêng biệt, giải phóng thời gian cho sự đổi mới. 
  3. Quản lý tài nguyên thông minh: Với tính năng cô lập tài nguyên và tự động mở rộng tích hợp, quản trị viên có thể tùy chỉnh tài nguyên dựa trên nhu cầu khối lượng công việc, đảm bảo quản lý giữa các nhóm. SparkConnect cũng cho phép làm việc tương tác thông qua sổ ghi chép. 
  4. Kiểm soát truy cập một cửa cho tất cả dữ liệu: Dell Data Lakehouse cho phép kiểm soát truy cập thống nhất trên Trino và Spark, cho phép người dùng thiết lập chính sách cho dữ liệu có cấu trúc và không có cấu trúc. 
  5. Sẵn sàng cho các định dạng mở: Spark sẽ hoạt động liền mạch với các định dạng mở như Iceberg thông qua metastore tích hợp. Điều này không chỉ giúp hiện đại hóa dữ liệu từ các định dạng cũ sang các định dạng mở mà còn đảm bảo khách hàng có thể sử dụng các công cụ tốt nhất để thu thập, xử lý và truy vấn. 
  6. Hỗ trợ và nâng cấp doanh nghiệp: Hỗ trợ doanh nghiệp và cập nhật phần mềm sẽ mở rộng sang Spark, giúp đơn giản hóa quá trình mua sắm và cung cấp trải nghiệm hỗ trợ duy nhất cho toàn bộ ngăn xếp. 
  7. Thiết lập dễ dàng: Với việc triển khai chuyên nghiệp, các chuyên gia của Dell đảm bảo thiết lập và cấu hình trơn tru để Spark và Dell Data Lakehouse mang lại giá trị ngay lập tức. 

Trino và Spark: Tại sao sự kết hợp lại quan trọng 

Với Spark và Trino trong cùng một nền tảng, bạn có thể linh hoạt sử dụng đúng công cụ dựa trên loại khối lượng công việc—cho dù đó là Spark để xử lý dữ liệu phức tạp hay Trino để truy vấn SQL nhanh, trên một hồ dữ liệu hoặc thậm chí trên các nguồn dữ liệu phân tán mà không cần phải di chuyển dữ liệu.  

Bất kể bạn đang chuẩn bị dữ liệu cho khối lượng công việc AI hay ML, chuyển đổi các tập dữ liệu quy mô TB/PB để cung cấp năng lượng cho phân tích như Customer 360 hay cung cấp báo cáo và bảng thông tin, bạn đều có thể thực hiện tất cả mà không cần điều hướng giữa các hệ thống khác nhau. 

Tóm lại: Thúc đẩy sự đổi mới với Trino và Spark 

Cột mốc này không chỉ nâng cao nền tảng của chúng tôi mà còn đặt nền tảng cho những đổi mới trong tương lai giúp bạn luôn đi đầu trong những tiến bộ về AI. Khi các doanh nghiệp tiếp tục hoạt động với tốc độ dữ liệu, Dell Data Lakehouse có thể trang bị cho nhóm dữ liệu của bạn khả năng quản lý ngay cả những khối lượng công việc đòi hỏi khắt khe nhất. 

Nhóm của chúng tôi đang nỗ lực hết mình để cung cấp khả năng này vào đầu năm 2025. Hãy liên hệ với giám đốc tài khoản Dell của bạn để khám phá Dell Data Lakehouse cho nhu cầu dữ liệu của bạn. Và hãy xem  blog  này để tìm hiểu thêm về bản phát hành mới nhất của Dell Data Lakehouse. 

1 MIT Technology Review Insights. Chiến lược dữ liệu cho các nhà lãnh đạo AI. 2024. Chiến lược dữ liệu cho các nhà lãnh đạo AI | MIT Technology Review.