Thiết kế được xác thực của Dell cho phân tích—Data Lakehouse

Lịch sử sửa đổi tài liệu

Sửa đổi

Bảng 1. Lịch sử sửa đổi tài liệu
Số phần Ngày phát hành Mô tả các thay đổi
H19233.1 tháng 6 năm 2023 Đã cập nhật:

  • Cơ sở hạ tầng máy chủ cho thế hệ máy chủ Dell PowerEdge mới
  • Cơ sở hạ tầng lưu trữ
  • Phiên bản phần mềm và phần sụn
  • Thẩm định
H19233 tháng 10 năm 2022 phát hành lần đầu

Giới thiệu giải pháp

Tổng quan

Khái niệm về kho dữ liệu là một kiến ​​trúc quản lý dữ liệu mở kết hợp các khía cạnh tốt nhất của hồ dữ liệu và kho dữ liệu trong một nền tảng duy nhất.

Hồ dữ liệu truyền thống có xu hướng linh hoạt và tiết kiệm chi phí bằng cách lưu trữ dữ liệu ở dạng thô hoặc tự nhiên, thường là không có cấu trúc hoặc bán cấu trúc. Kho dữ liệu là kho lưu trữ dữ liệu nâng cao hơn để báo cáo và phân tích có xu hướng lưu trữ dữ liệu có cấu trúc chặt chẽ hơn. Dữ liệu thường được làm sạch hoặc vận hành để có chất lượng dữ liệu tốt hơn, thường là kết quả của các hoạt động trích xuất-chuyển đổi-tải (ETL) hoặc trích xuất-tải-chuyển đổi (ELT).

Việc sử dụng phân tích dữ liệu ngày càng phổ biến và thay đổi về bản chất. Những xu hướng đó, cùng với nhu cầu truy cập lượng lớn dữ liệu khác nhau của nhiều người dùng khác nhau, có nghĩa là các tổ chức cần một cách tiếp cận mới, tích hợp hơn để truy cập dữ liệu. Kho dữ liệu kết hợp những gì tốt nhất của hồ dữ liệu và kho dữ liệu, hỗ trợ công nghệ trí tuệ kinh doanh và máy học trong một nền tảng. Nền tảng này có thể lưu trữ tất cả các loại dữ liệu và cung cấp giao diện giống như đám mây, đa nguồn và tự phục vụ cho các nhà khoa học dữ liệu và những người dùng khác.

Thiết kế được xác thực của Dell dành cho phân tích – Data Lakehouse đã được phát triển để giải quyết nhu cầu của các tổ chức triển khai phân tích nâng cao. Nó kết hợp các khái niệm về kiến ​​trúc nhà hồ cùng với nền tảng container sử dụng tính toán và lưu trữ tách rời.

Tài liệu này cung cấp hướng dẫn thiết kế cho các nhà quản lý và kiến ​​trúc sư cơ sở hạ tầng phân tích dữ liệu bằng cách mô tả kiến ​​trúc được thiết kế trước, xác thực và có thể mở rộng để phân tích nâng cao trên cơ sở hạ tầng phần cứng của Dell .

Mục đích của tài liệu

Tài liệu này mô tả thiết kế đã được xác thực và kiến ​​trúc tham chiếu cho nền tảng data lakehouse được tích hợp với nền tảng container dựa trên Kubernetes . Họ cùng nhau giải quyết nhu cầu của các tổ chức triển khai khối lượng công việc phân tích nâng cao và AI.

Bạn có thể đọc hướng dẫn thiết kế này cùng với sách trắng liên quan, Thiết kế được xác thực của Dell cho phân tích – Data Lakehouse . Sách trắng thảo luận về lợi ích của kho lưu trữ dữ liệu so với các hồ dữ liệu và kho dữ liệu truyền thống. Nó cũng cung cấp một cái nhìn tổng quan hơn về khái niệm data lakehouse và các công nghệ thành phần của nó.

Lưu ý: Nội dung của tài liệu này hợp lệ cho các phiên bản phần mềm và phần cứng được mô tả. Để biết thông tin về cấu hình cập nhật cho các phiên bản phần mềm và phần cứng mới hơn, hãy liên hệ với đại diện bán hàng Dell Technologies của bạn.

Khán giả

Tài liệu này dành cho các doanh nghiệp có hồ dữ liệu hoặc chiến lược hồ dữ liệu quan tâm đến việc trao quyền cho tổ chức của họ hành động nhanh hơn, hiệu quả hơn và hiệu quả hơn trên dữ liệu của họ. Vai trò của khán giả bao gồm:

  • Quản trị viên dữ liệu và ứng dụng
  • Kỹ sư dữ liệu
  • Nhà khoa học dữ liệu
  • Quản trị viên Hadoop
  • Người ra quyết định CNTT

Kho dữ liệu có thể hỗ trợ nhiều khách hàng phân tích truyền thống hơn đang tìm cách hiện đại hóa việc thu thập dữ liệu của họ. Nó cũng có thể giúp các hệ thống phân tích nhận được nhiều giá trị hơn từ dữ liệu của họ hoặc chuẩn hóa dữ liệu của họ cho khối lượng công việc phân tích hiện đại.

Giới thiệu Hướng dẫn thiết kế

Tài liệu này trình bày các khái niệm chính của giải pháp, cụ thể là kiến ​​trúc nhà hồ, nền tảng container cũng như cách sử dụng tính toán và lưu trữ tách rời. Nó mô tả kiến ​​trúc và các thành phần của giải pháp, bao gồm cơ sở hạ tầng của Dell và cấu hình nút hỗ trợ các chức năng của kho lưu trữ dữ liệu . Các tùy chọn cấu hình lưu trữ Dell cho Lakehouse được mô tả, bao gồm cả PowerScale và ECS .

Ngoài nhà hồ, kiến ​​trúc và các thành phần của nền tảng container cũng được mô tả. Nền tảng container trong kiến ​​trúc này là Nền tảng Symcloud , dựa trên Kubernetes . Một số ví dụ về gói ứng dụng có thể được triển khai được hiển thị, bao gồm Spark và Kafka .

Ngoài cơ sở hạ tầng phần cứng của Dell , các thành phần cơ sở hạ tầng phần mềm đã được xác thực cũng được mô tả, bao gồm cả Nền tảng Symcloud .

Cuối cùng, các hướng dẫn được trình bày để định cỡ và mở rộng giải pháp dựa trên các yêu cầu khối lượng công việc khác nhau.

Lưu ý: Tài liệu này có thể chứa các tham chiếu đến Robin.io và Robin Cloud Native Platform (CNP), bao gồm cả sơ đồ và ảnh chụp màn hình. Công ty Robin.io hiện là một phần của Rakuten Symphony và sản phẩm Robin CNP đã được đổi tên thành Nền tảng Symcloud .

Khái niệm

Thiết kế được xác thực của Dell dành cho phân tích – Data Lakehouse kết hợp các khái niệm về kiến ​​trúc nhà hồ cùng với nền tảng vùng chứa sử dụng tính toán và lưu trữ tách rời.

 

Các khái niệm

Kiến trúc nhà hồ

Kiến trúc Lakehouse đã trở nên phổ biến vào cuối những năm 2010 như một sự phát triển của kiến ​​trúc kho dữ liệu và hồ dữ liệu đã được thiết lập tốt. Kiến trúc cung cấp các khả năng quan trọng nhất của cả kho dữ liệu và hồ dữ liệu trong một hệ thống duy nhất, giảm chi phí và độ phức tạp mà không ảnh hưởng đến chức năng.

Không có định nghĩa chính thức về kiến ​​trúc nhà hồ. Nó chủ yếu mô tả một hệ thống kết hợp các định dạng tệp mở và khả năng mở rộng lưu trữ dữ liệu có hiệu quả về mặt chi phí với các giao dịch ACID và định nghĩa lược đồ hướng bảng của kho dữ liệu.

Kiến trúc Lakehouse thường dựa trên định dạng bảng hiện đại như Delta Lake hoặc Apache Iceberg . Định dạng này cung cấp sự trừu tượng hóa bảng phía trên lớp lưu trữ cơ bản trong nhà hồ. Các tính năng chính khác của một ngôi nhà bên hồ là:

  • Hỗ trợ giao dịch ACID để chèn, cập nhật và xóa
  • Siêu dữ liệu có thể mở rộng
  • Thực thi và phát triển lược đồ
  • Hỗ trợ các kiểu dữ liệu đa dạng từ dữ liệu phi cấu trúc đến dữ liệu có cấu trúc
  • Phiên bản dữ liệu hoặc khả năng du hành thời gian
  • Hỗ trợ truy cập SQL
  • Hỗ trợ truy cập bảng trực tiếp thông qua các API như DataFrames
  • Hỗ trợ lưu trữ có thể mở rộng bằng các định dạng tệp mở

Nền tảng container

Thiết kế được xác thực của Dell dành cho phân tích – Data Lakehouse được xây dựng trên nền tảng container. Cách tiếp cận này mang lại sự linh hoạt, linh hoạt và khả năng mở rộng đồng thời hỗ trợ khối lượng công việc phân tích đa dạng.

Nền tảng container trừu tượng hóa các chi tiết ở cấp độ máy và các phần phụ thuộc của hệ điều hành máy chủ, hiển thị chúng dưới dạng một nhóm tài nguyên điện toán, lưu trữ và truyền thông. Nền tảng này cũng cung cấp khả năng điều phối ứng dụng để hợp lý hóa việc triển khai và quản lý khối lượng công việc phân tích.

Các ứng dụng trên nền tảng sử dụng định dạng hình ảnh Sáng kiến ​​Container mở (OCI) tiêu chuẩn ngành. Các hình ảnh bao gồm tất cả các thành phần phần mềm cần thiết, tách biệt chúng khỏi các phần phụ thuộc của hệ điều hành. Những hình ảnh này được chạy trong các vùng chứa, mang lại mức độ cách ly cao trong thời gian chạy với các ứng dụng khác.

Khối lượng công việc phân tích được đóng gói thành các gói ứng dụng kết hợp hình ảnh ứng dụng và thông số kỹ thuật triển khai. Các gói đơn giản hóa việc khởi chạy ứng dụng và đặc tả các yêu cầu tài nguyên.

Nền tảng container là Nền tảng Symcloud , dựa trên Kubernetes .

Tính toán và lưu trữ tách rời

Thiết kế đã được xác thực này dành cho phân tích dữ liệu tách riêng các tài nguyên điện toán và lưu trữ. Cách tiếp cận này giúp tăng cường sử dụng tài nguyên, tăng tính linh hoạt và giảm chi phí.

Hệ thống này hỗ trợ việc cung cấp bộ lưu trữ và tính toán độc lập, đồng thời cho phép sử dụng các tài nguyên tính toán và lưu trữ không đồng nhất. Thiết kế này mang lại sự cân bằng tốt hơn giữa lưu trữ và điện toán cho các khối lượng công việc khác nhau.

Việc tách rời cũng đơn giản hóa vòng đời và việc quản lý hệ thống bằng cách cho phép quản lý, mở rộng quy mô và nâng cấp độc lập các tài nguyên lưu trữ và điện toán.

Thiết kế này cũng tách biệt bộ lưu trữ thời gian chạy khỏi bộ lưu trữ hồ dữ liệu. Symcloud Storage cung cấp khả năng lưu trữ thời gian chạy. PowerScale với giao thức HDFS hoặc ECS với giao thức S3, cung cấp khả năng lưu trữ hồ dữ liệu.