Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên cơ sở hạ tầng Dell (2)

Nền tảng dữ liệu Cloudera

Tổng quan

CDP là một nền tảng dữ liệu tích hợp, dễ triển khai, quản lý và sử dụng cho nhiều khả năng Phân tích dữ liệu. Bằng cách đơn giản hóa các hoạt động, CDP giảm thời gian triển khai các trường hợp sử dụng mới trong toàn tổ chức. CDP có thể được triển khai trên đám mây công cộng, trong trung tâm dữ liệu tại chỗ và dưới dạng đám mây riêng tại chỗ.

Trọng tâm của tài liệu này là CDP Private Cloud Base , đây là bản phát hành tại chỗ đầu tiên kết hợp CDH , gần đây nhất được gọi là Cloudera Enterprise Data Hub và HDP .

Lưu ý: Tài liệu này thường sử dụng ” CDH” và ” HDP” khi tham chiếu các phiên bản trước tương ứng từ Cloudera và  Hortonworks .

Đám mây riêng CDP

Việc cung cấp Đám mây riêng CDP hoàn chỉnh là bước tiếp theo trong hành trình CDP . CDP Private Cloud Base là thành phần bắt buộc và là nền tảng cho CDP Private Cloud . Đây là cụm hồ lưu trữ và dữ liệu, đồng thời chứa lớp Trải nghiệm dữ liệu chia sẻ (SDX) của Cloudera , cung cấp một bộ công nghệ quản trị và bảo mật tích hợp. Do đó, điều quan trọng là phải hiểu biết đầy đủ về CDP Private Cloud khi bạn lập kế hoạch triển khai mới hoặc nâng cấp lên CDP Private Cloud Base .

Tổng quan về đám mây riêng CDP

Việc cung cấp Đám mây riêng CDP hoàn chỉnh mang lại trải nghiệm giống như đám mây trong môi trường trung tâm dữ liệu của khách hàng. CDP Private Cloud là một cách tiếp cận mới để quản lý và phân tích dữ liệu, mang lại khả năng phân tích tự phục vụ mạnh mẽ trên các môi trường kết hợp và đa đám mây. Dịch vụ dữ liệu đám mây riêng của CDP tận dụng các mô hình lưu trữ và tính toán phân tách để cung cấp:

  • Đa thuê và cách ly đơn giản hơn
  • Sử dụng cơ sở hạ tầng tốt hơn
  • Container hóa
  • Kiến trúc bản địa của đám mây

Như được trình bày trong kiến ​​trúc cấp cao của CDP Private Cloud , CDP Private Cloud xây dựng trên bộ lưu trữ và các dịch vụ được thiết lập trong CDP Private Cloud Base và cung cấp những gì được gọi là Dịch vụ dữ liệu , dưới dạng khối lượng công việc được đóng gói. Những khối lượng công việc này theo thời gian sẽ bao gồm:

  • Luồng dữ liệu và truyền phát
  • Kỹ thuật dữ liệu
  • Kho dữ liệu
  • Cơ sở dữ liệu hoạt động
  • Học máy

Lưu ý: Kỹ thuật dữ liệu, Kho dữ liệu và Học máy là ba khối lượng công việc đầu tiên được phân phối trong bản phát hành này.

Trải nghiệm dữ liệu chia sẻ Cloudera hỗ trợ CDP Private Cloud và CDP Private Cloud Base với tất cả các khả năng bảo mật, siêu dữ liệu và quản trị.

Trải dài trên nền tảng là bảng điều khiển quản lý cung cấp một mặt phẳng điều khiển thống nhất hoạt động trên nhiều hoạt động triển khai.

Hình 2. Kiến trúc cấp cao của CDP Private Cloud
Kiến trúc cấp cao của CDP Private Cloud hiển thị, từ dưới lên, Cloudera Runtime hỗ trợ các Trải nghiệm khác nhau do Cloudera SDX điều hành. Các lớp này được chạy trên đám mây riêng, đám mây lai hoặc đám mây công cộng, tất cả đều được điều khiển bởi Control Plane. Mặt phẳng điều khiển bao gồm Danh mục dữ liệu, Trình quản lý sao chép, Trình quản lý khối lượng công việc và Bảng điều khiển quản lý.

Kiến trúc đám mây riêng CDP

Hai cụm được triển khai với CDP Private Cloud :

  • Cụm CDP Private Cloud Base , chạy trên Red Hat Enterprise Linux Server
  • Cụm Dịch vụ dữ liệu đám mây riêng CDP , chạy trên nền tảng container

Hai cụm này tách biệt và là các tuyến đường độc lập từ góc độ lập kế hoạch triển khai và kiến ​​trúc. Các cụm Dịch vụ dữ liệu đám mây riêng CDP và Cơ sở đám mây riêng CDP minh họa các thành phần chính này trong quá trình triển khai hoàn chỉnh Đám mây riêng CDP .

Hình 3. Các cụm Dịch vụ dữ liệu đám mây riêng CDP và CDP Private Cloud Base
Các cụm dịch vụ dữ liệu đám mây riêng CDP và CDP Private Cloud Base

Một phiên bản của CDP Private Cloud Base vẫn là cụm hồ dữ liệu cơ sở khi bạn nâng cấp lên CDP Private Cloud . Khi lập kế hoạch cài đặt CDP Private Cloud Base và làm mới phần cứng tiềm năng, bạn nên xem lại:

  • Quản lý dữ liệu với Nền tảng dữ liệu Cloudera được liệt kê trên Hướng dẫn thiết kế cơ sở hạ tầng của Dell
  • Tài liệu về Dịch vụ dữ liệu đám mây riêng của CDP trên trang web tài liệu Cloudera

Cơ sở đám mây riêng CDP

CDP Private Cloud Base là một nền tảng toàn diện, tại chỗ để phân tích dữ liệu tích hợp. CDP Private Cloud Base bao gồm việc thu thập, xử lý, phân tích, thử nghiệm và triển khai để cung cấp các công nghệ phân tích và quản lý dữ liệu nguồn mở mới nhất và tốt nhất. CDP Private Cloud Base được tối ưu hóa để triển khai trong trung tâm dữ liệu và sẵn sàng cho đám mây riêng.

Lớp cốt lõi của CDP Private Cloud Base là Trải nghiệm dữ liệu chia sẻ Cloudera (SDX), với các khả năng thống nhất về Dữ liệu, Lược đồ, Sao chép, Bảo mật và Quản trị. Trải nghiệm dữ liệu chia sẻ Cloudera SDX bao gồm các khả năng sau:

Lược đồ
Tự động thu thập và lưu trữ tất cả các định nghĩa lược đồ và siêu dữ liệu khi khối lượng công việc nền tảng sử dụng và tạo chúng.
Nhân rộng
Cung cấp các bản sao dữ liệu và chính sách dữ liệu mà doanh nghiệp yêu cầu để hoạt động với tính nhất quán và bảo mật hoàn toàn.
Bảo vệ
Kiểm soát truy cập dựa trên vai trò được áp dụng nhất quán trên nền tảng, bao gồm mã hóa toàn bộ ngăn xếp và quản lý khóa.
Quản trị
Khả năng kiểm tra, dòng dõi và quản trị cấp doanh nghiệp được áp dụng trên nền tảng với khả năng mở rộng phong phú để tích hợp đối tác.

Các thành phần Đám mây riêng của CDP hiển thị chế độ xem cấp cao về Cơ sở đám mây riêng của CDP liên quan đến Dịch vụ dữ liệu đám mây riêng của CDP . Cloudera Runtime bao gồm một tập hợp lớn các thành phần phần mềm bao gồm Apache Hadoop , Apache Hive, Apache HBase và Apache Impala cũng như nhiều thành phần khác dành cho khối lượng công việc chuyên biệt. Danh sách đầy đủ được hiển thị trong các thành phần phần mềm CDP Private Cloud Base .

Một số gói dịch vụ được cấu hình sẵn, đôi khi được gọi là hình dạng cụm, có sẵn cho các khối lượng công việc phổ biến trên CDP Private Cloud Base . Những dịch vụ này bao gồm:

Kỹ thuật dữ liệu
Cung cấp khả năng nhập, chuyển đổi và phân tích dữ liệu. Các dịch vụ bao gồm: HDFS, YARN, Trình quản lý hàng đợi YARN, Ranger, Atlas, Hive, Hive trên Tez, Spark , Oozie, Hue và Data Analytics Studio.
Dữ liệu Mart
Cho phép bạn duyệt, truy vấn và khám phá dữ liệu của mình theo cách tương tác. Các dịch vụ bao gồm: HDFS, Ranger, Atlas, Hive, Impala và Hue.
Cơ sở dữ liệu hoạt động
Cung cấp khả năng ghi, đọc có độ trễ thấp và quyền truy cập liên tục vào dữ liệu cho các trường hợp sử dụng Xử lý giao dịch trực tuyến (OLTP) và thông tin chi tiết theo thời gian thực. Các dịch vụ bao gồm: HDFS, Ranger, Atlas và HBase.
Hình 4. Các thành phần Đám mây riêng CDP
Các thành phần Đám mây riêng của CDP bao gồm Cơ sở đám mây riêng được triển khai trên phần cứng kim loại trần và Trải nghiệm đám mây riêng được triển khai trên OpenShift

Bạn cũng có thể tạo các dịch vụ và cụm tùy chỉnh từ Cloudera Manager , triển khai mọi kết hợp dịch vụ được hỗ trợ mà bạn chọn từ tất cả các dịch vụ có sẵn trong bản phân phối Cloudera Runtime .

Lợi ích của Cơ sở đám mây riêng CDP

Các tính năng, cải tiến và lợi ích chính của CDP Private Cloud Base 7.1.7 SP2 bao gồm:

Luồng tin nhắn
Trải nghiệm phát trực tuyến Kafka đầy đủ và toàn diện giúp cải thiện hiệu quả hoạt động, tính liên tục trong kinh doanh và khả năng mở rộng.
Kỹ thuật dữ liệu
Cải thiện hiệu suất và khả năng tương tác cho Apache Spark cũng như quản lý quy trình công việc kỹ thuật dữ liệu và tạo quy trình.
Kho dữ liệu
Phân tích SQL nhanh hơn trên các tập dữ liệu lớn hơn, hiểu sâu hơn từ các nguồn dữ liệu phi cấu trúc và trực quan hóa thông tin chi tiết về doanh nghiệp dễ dàng hơn.
Học máy
Bàn làm việc khoa học dữ liệu hiện có sẵn trên CDP Private Cloud Base với khả năng kiểm soát nâng cao đối với các thử nghiệm và triển khai mô hình.
Cơ sở dữ liệu hoạt động
Cải thiện hiệu suất, quản lý chính sách và tính khả dụng.
SDX
Tăng cường bảo mật, tuân thủ và nhất quán trên CDP .
Hỗ trợ nâng cấp và di chuyển tại chỗ
Các nâng cấp tại chỗ và quy trình khôi phục được ghi lại có sẵn cho CDH phiên bản 5 và 6 cũng như cho HDP phiên bản 2 và 3. Những cải tiến này hoàn thiện tầm nhìn nâng cấp tại chỗ từ tất cả các phiên bản CDH và HDP được hỗ trợ .

Các tính năng và khả năng mới đối với người dùng di chuyển hoặc nâng cấp từ CDH hoặc HDP được mô tả trong các thành phần Cơ sở đám mây riêng của CDP .