Nền tảng dữ liệu Cloudera
Tổng quan
CDP là một nền tảng dữ liệu tích hợp, dễ triển khai, quản lý và sử dụng cho nhiều khả năng Phân tích dữ liệu. Bằng cách đơn giản hóa các hoạt động, CDP giảm thời gian triển khai các trường hợp sử dụng mới trong toàn tổ chức. CDP có thể được triển khai trên đám mây công cộng, trong trung tâm dữ liệu tại chỗ và dưới dạng đám mây riêng tại chỗ.
Trọng tâm của tài liệu này là CDP Private Cloud Base , đây là bản phát hành tại chỗ đầu tiên kết hợp CDH , gần đây nhất được gọi là Cloudera Enterprise Data Hub và HDP .
Đám mây riêng CDP
Việc cung cấp Đám mây riêng CDP hoàn chỉnh là bước tiếp theo trong hành trình CDP . CDP Private Cloud Base là thành phần bắt buộc và là nền tảng cho CDP Private Cloud . Đây là cụm hồ lưu trữ và dữ liệu, đồng thời chứa lớp Trải nghiệm dữ liệu chia sẻ (SDX) của Cloudera , cung cấp một bộ công nghệ quản trị và bảo mật tích hợp. Do đó, điều quan trọng là phải hiểu biết đầy đủ về CDP Private Cloud khi bạn lập kế hoạch triển khai mới hoặc nâng cấp lên CDP Private Cloud Base .
Tổng quan về đám mây riêng CDP
Việc cung cấp Đám mây riêng CDP hoàn chỉnh mang lại trải nghiệm giống như đám mây trong môi trường trung tâm dữ liệu của khách hàng. CDP Private Cloud là một cách tiếp cận mới để quản lý và phân tích dữ liệu, mang lại khả năng phân tích tự phục vụ mạnh mẽ trên các môi trường kết hợp và đa đám mây. Dịch vụ dữ liệu đám mây riêng của CDP tận dụng các mô hình lưu trữ và tính toán phân tách để cung cấp:
- Đa thuê và cách ly đơn giản hơn
- Sử dụng cơ sở hạ tầng tốt hơn
- Container hóa
- Kiến trúc bản địa của đám mây
Như được trình bày trong kiến trúc cấp cao của CDP Private Cloud , CDP Private Cloud xây dựng trên bộ lưu trữ và các dịch vụ được thiết lập trong CDP Private Cloud Base và cung cấp những gì được gọi là Dịch vụ dữ liệu
, dưới dạng khối lượng công việc được đóng gói. Những khối lượng công việc này theo thời gian sẽ bao gồm:
- Luồng dữ liệu và truyền phát
- Kỹ thuật dữ liệu
- Kho dữ liệu
- Cơ sở dữ liệu hoạt động
- Học máy
Lưu ý: Kỹ thuật dữ liệu, Kho dữ liệu và Học máy là ba khối lượng công việc đầu tiên được phân phối trong bản phát hành này.
Trải nghiệm dữ liệu chia sẻ Cloudera hỗ trợ CDP Private Cloud và CDP Private Cloud Base với tất cả các khả năng bảo mật, siêu dữ liệu và quản trị.
Trải dài trên nền tảng là bảng điều khiển quản lý cung cấp một mặt phẳng điều khiển thống nhất hoạt động trên nhiều hoạt động triển khai.
Kiến trúc đám mây riêng CDP
Hai cụm được triển khai với CDP Private Cloud :
- Cụm CDP Private Cloud Base , chạy trên Red Hat Enterprise Linux Server
- Cụm Dịch vụ dữ liệu đám mây riêng CDP , chạy trên nền tảng container
Hai cụm này tách biệt và là các tuyến đường độc lập từ góc độ lập kế hoạch triển khai và kiến trúc. Các cụm Dịch vụ dữ liệu đám mây riêng CDP và Cơ sở đám mây riêng CDP minh họa các thành phần chính này trong quá trình triển khai hoàn chỉnh Đám mây riêng CDP .
Một phiên bản của CDP Private Cloud Base vẫn là cụm hồ dữ liệu cơ sở khi bạn nâng cấp lên CDP Private Cloud . Khi lập kế hoạch cài đặt CDP Private Cloud Base và làm mới phần cứng tiềm năng, bạn nên xem lại:
- Quản lý dữ liệu với Nền tảng dữ liệu Cloudera được liệt kê trên Hướng dẫn thiết kế cơ sở hạ tầng của Dell
- Tài liệu về Dịch vụ dữ liệu đám mây riêng của CDP trên trang web tài liệu Cloudera
Cơ sở đám mây riêng CDP
CDP Private Cloud Base là một nền tảng toàn diện, tại chỗ để phân tích dữ liệu tích hợp. CDP Private Cloud Base bao gồm việc thu thập, xử lý, phân tích, thử nghiệm và triển khai để cung cấp các công nghệ phân tích và quản lý dữ liệu nguồn mở mới nhất và tốt nhất. CDP Private Cloud Base được tối ưu hóa để triển khai trong trung tâm dữ liệu và sẵn sàng cho đám mây riêng.
Lớp cốt lõi của CDP Private Cloud Base là Trải nghiệm dữ liệu chia sẻ Cloudera (SDX), với các khả năng thống nhất về Dữ liệu, Lược đồ, Sao chép, Bảo mật và Quản trị. Trải nghiệm dữ liệu chia sẻ Cloudera SDX bao gồm các khả năng sau:
- Lược đồ
- Tự động thu thập và lưu trữ tất cả các định nghĩa lược đồ và siêu dữ liệu khi khối lượng công việc nền tảng sử dụng và tạo chúng.
- Nhân rộng
- Cung cấp các bản sao dữ liệu và chính sách dữ liệu mà doanh nghiệp yêu cầu để hoạt động với tính nhất quán và bảo mật hoàn toàn.
- Bảo vệ
- Kiểm soát truy cập dựa trên vai trò được áp dụng nhất quán trên nền tảng, bao gồm mã hóa toàn bộ ngăn xếp và quản lý khóa.
- Quản trị
- Khả năng kiểm tra, dòng dõi và quản trị cấp doanh nghiệp được áp dụng trên nền tảng với khả năng mở rộng phong phú để tích hợp đối tác.
Các thành phần Đám mây riêng của CDP hiển thị chế độ xem cấp cao về Cơ sở đám mây riêng của CDP liên quan đến Dịch vụ dữ liệu đám mây riêng của CDP . Cloudera Runtime bao gồm một tập hợp lớn các thành phần phần mềm bao gồm Apache Hadoop , Apache Hive, Apache HBase và Apache Impala cũng như nhiều thành phần khác dành cho khối lượng công việc chuyên biệt. Danh sách đầy đủ được hiển thị trong các thành phần phần mềm CDP Private Cloud Base .
Một số gói dịch vụ được cấu hình sẵn, đôi khi được gọi là hình dạng cụm, có sẵn cho các khối lượng công việc phổ biến trên CDP Private Cloud Base . Những dịch vụ này bao gồm:
- Kỹ thuật dữ liệu
- Cung cấp khả năng nhập, chuyển đổi và phân tích dữ liệu. Các dịch vụ bao gồm: HDFS, YARN, Trình quản lý hàng đợi YARN, Ranger, Atlas, Hive, Hive trên Tez, Spark , Oozie, Hue và Data Analytics Studio.
- Dữ liệu Mart
- Cho phép bạn duyệt, truy vấn và khám phá dữ liệu của mình theo cách tương tác. Các dịch vụ bao gồm: HDFS, Ranger, Atlas, Hive, Impala và Hue.
- Cơ sở dữ liệu hoạt động
- Cung cấp khả năng ghi, đọc có độ trễ thấp và quyền truy cập liên tục vào dữ liệu cho các trường hợp sử dụng Xử lý giao dịch trực tuyến (OLTP) và thông tin chi tiết theo thời gian thực. Các dịch vụ bao gồm: HDFS, Ranger, Atlas và HBase.
Bạn cũng có thể tạo các dịch vụ và cụm tùy chỉnh từ Cloudera Manager , triển khai mọi kết hợp dịch vụ được hỗ trợ mà bạn chọn từ tất cả các dịch vụ có sẵn trong bản phân phối Cloudera Runtime .
Lợi ích của Cơ sở đám mây riêng CDP
Các tính năng, cải tiến và lợi ích chính của CDP Private Cloud Base 7.1.7 SP2 bao gồm:
- Luồng tin nhắn
- Trải nghiệm phát trực tuyến Kafka đầy đủ và toàn diện giúp cải thiện hiệu quả hoạt động, tính liên tục trong kinh doanh và khả năng mở rộng.
- Kỹ thuật dữ liệu
- Cải thiện hiệu suất và khả năng tương tác cho Apache Spark cũng như quản lý quy trình công việc kỹ thuật dữ liệu và tạo quy trình.
- Kho dữ liệu
- Phân tích SQL nhanh hơn trên các tập dữ liệu lớn hơn, hiểu sâu hơn từ các nguồn dữ liệu phi cấu trúc và trực quan hóa thông tin chi tiết về doanh nghiệp dễ dàng hơn.
- Học máy
- Bàn làm việc khoa học dữ liệu hiện có sẵn trên CDP Private Cloud Base với khả năng kiểm soát nâng cao đối với các thử nghiệm và triển khai mô hình.
- Cơ sở dữ liệu hoạt động
- Cải thiện hiệu suất, quản lý chính sách và tính khả dụng.
- SDX
- Tăng cường bảo mật, tuân thủ và nhất quán trên CDP .
- Hỗ trợ nâng cấp và di chuyển tại chỗ
- Các nâng cấp tại chỗ và quy trình khôi phục được ghi lại có sẵn cho CDH phiên bản 5 và 6 cũng như cho HDP phiên bản 2 và 3. Những cải tiến này hoàn thiện tầm nhìn nâng cấp tại chỗ từ tất cả các phiên bản CDH và HDP được hỗ trợ .
Các tính năng và khả năng mới đối với người dùng di chuyển hoặc nâng cấp từ CDH hoặc HDP được mô tả trong các thành phần Cơ sở đám mây riêng của CDP .
Bài viết mới cập nhật
Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell
Sự cố CNTT nghiêm trọng ảnh hưởng đến 8,5 triệu hệ ...
Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu
Hiện đang ở thế hệ thứ 9, giải pháp lưu trữ Dell ...
Bảo mật PowerScale OneFS SyncIQ
Trong thế giới sao chép dữ liệu, việc đảm bảo tính ...
Danh sách kiểm tra cơ sở bảo mật PowerScale
Là một biện pháp bảo mật tốt nhất, chúng tôi khuyến ...