Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên Cơ sở hạ tầng Dell EMC do Intel cung cấp

Lịch sử sửa đổi

Tổng quan

Bảng 1. Lịch sử sửa đổi tài liệu
Số phần Ngày phát hành Mô tả các thay đổi
H18340.4 tháng 5 năm 2023 Đã cập nhật:

  • Phiên bản phần mềm Cloudera CDP Private Cloud Base từ 7.1.7 đến 7.1.7 SP2
  • Cơ sở hạ tầng máy chủ cho thế hệ máy chủ Dell PowerEdge mới
  • Cơ sở hạ tầng lưu trữ
  • Phiên bản phần mềm và phần sụn
  • Thẩm định
H18340.3 tháng 3 năm 2022 Đã cập nhật:

  • Nội dung được sắp xếp lại để phù hợp với các mẫu mới
  • Tổng hợp thiết bị mạng 25 GbE
  • Kiểm tra HBase

Thêm:

  • Thuật ngữ
H18340.2 Tháng 10 năm 2021 Đã cập nhật:

  • Phiên bản phần mềm Cloudera CDP Private Cloud Base từ 7.1.5 đến 7.1.7
  • Giới thiệu
  • khái niệm kiến ​​trúc
  • Cơ sở hạ tầng mạng
  • Cơ sở hạ tầng máy chủ
  • Phiên bản phần mềm và phần sụn
  • Người giới thiệu

Thêm:

  • Thẩm định
H18340.1 tháng 3 năm 2021 Đã cập nhật:

  • Thay đổi tên từ Trung tâm dữ liệu CDP thành Cơ sở đám mây riêng CDP
  • Mô hình định giá cụm
  • Kiến trúc phần cứng
H18340 tháng 7 năm 2020 phát hành lần đầu

Giới thiệu

Giới thiệu giải pháp

Tổng quan

Nền tảng dữ liệu Cloudera ( CDP ) Private Cloud Base là phiên bản tại chỗ của Cloudera Data Platform , một nền tảng quản lý dữ liệu tích hợp được xây dựng cho doanh nghiệp. Với CDP , các doanh nghiệp quản lý và bảo mật vòng đời dữ liệu từ đầu đến cuối – thu thập, làm phong phú, phân tích, thử nghiệm và dự đoán dữ liệu của họ – để thúc đẩy những hiểu biết sâu sắc có thể hành động và đưa ra quyết định dựa trên dữ liệu. Các trường hợp sử dụng kinh doanh có giá trị và mang tính biến đổi nhất đòi hỏi các quy trình phân tích nhiều tầng để xử lý bộ dữ liệu doanh nghiệp. CDP trao quyền cho các doanh nghiệp khai thác giá trị từ dữ liệu quy mô lớn, phức tạp, phân tán và thay đổi nhanh chóng cũng như cạnh tranh trong thời đại chuyển đổi kỹ thuật số.

CDP Private Cloud cung cấp khối lượng công việc phân tích, giao dịch và học máy mạnh mẽ trong nền tảng dữ liệu kết hợp. Nó kết hợp sự nhanh nhẹn và linh hoạt của đám mây công cộng với khả năng kiểm soát trung tâm dữ liệu. Với phân tích linh hoạt và lưu trữ đối tượng có thể mở rộng, CDP Private Cloud hiện đại hóa việc triển khai cụm đơn truyền thống thành nền tảng dữ liệu đầu cuối hiệu quả và có thể mở rộng.

CDP Private Cloud Base tạo thành một nền tảng dữ liệu toàn diện bao gồm toàn bộ vòng đời dữ liệu. CDP Private Cloud Base là sự hợp nhất của Phân phối Cloudera cho Apache Hadoop ( CDH ) và Nền tảng dữ liệu Hortonworks ( HDP ), mang đến cho khách hàng những điều tốt nhất của cả hai thế giới. Sản phẩm này kết hợp các công nghệ tốt nhất từ ​​các công ty Cloudera và Hortonworks trước đây với các tính năng và cải tiến mới trên toàn bộ hệ thống. Cơ sở đám mây riêng CDPtạo thành một nền tảng dữ liệu toàn diện bao gồm toàn bộ vòng đời dữ liệu. Bản phân phối hợp nhất này là một nền tảng có thể mở rộng và tùy chỉnh, nơi bạn có thể chạy nhiều loại khối lượng công việc phân tích dữ liệu một cách an toàn.

CDP Private Cloud Base có thể được triển khai như một nền tảng phân tích dữ liệu độc lập. Nó cũng có thể được sử dụng với Dịch vụ dữ liệu đám mây riêng CDP để tạo thành giải pháp Đám mây riêng CDP hoàn chỉnh . CDP Private Cloud hỗ trợ giải pháp kết hợp hoặc đa cụm, trong đó các tác vụ điện toán có thể được tách biệt khỏi bộ lưu trữ dữ liệu và có thể truy cập dữ liệu từ các cụm từ xa. Cách tiếp cận này cung cấp nền tảng cho các ứng dụng được đóng gói bằng cách quản lý lưu trữ, lược đồ bảng, xác thực, ủy quyền và quản trị trong CDP Private Cloud Base. Nó bao gồm nhiều thành phần khác nhau như Apache HDFS, Apache Hive, Apache HBase, Apache Impala và nhiều thành phần khác dành cho khối lượng công việc chuyên biệt. Bạn có thể chọn bất kỳ sự kết hợp nào của các dịch vụ này để tạo các cụm giải quyết các yêu cầu kinh doanh và khối lượng công việc của bạn.

Hướng dẫn thiết kế này cung cấp thông tin về kiến ​​trúc và thiết kế cho Thiết kế được xác thực của Dell để quản lý dữ liệu với Cơ sở đám mây riêng của nền tảng dữ liệu Cloudera . Giải pháp này được thiết kế để triển khai trong trung tâm dữ liệu tại chỗ với máy chủ Dell PowerEdge thế hệ mới do Intel cung cấp , mạng PowerSwitch và bộ lưu trữ PowerScale .

Khán giả

Tài liệu này dành cho các nhà quản lý trung tâm dữ liệu và kiến ​​trúc sư CNTT có liên quan đến việc thiết kế, lập kế hoạch hoặc vận hành cơ sở hạ tầng phần cứng và phần mềm cho CDP Private Cloud cho:

  • Triển khai mới
  • Nâng cấp hoặc di chuyển từ các phiên bản trước

Tài liệu này giả định bạn đã quen thuộc với các khả năng và chức năng của CDP .

 

Có gì mới

Thiết kế được xác thực của Dell này bao gồm hỗ trợ cho thế hệ máy chủ PowerEdge mới nhất , bao gồm máy chủ PowerEdge R660 và PowerEdge R760 .

Từ Cloudera , CDP Private Cloud Base 7.1.7 là bản phát hành được hỗ trợ dài hạn (LTS). Nó bao gồm các tính năng mới để cải thiện khả năng quản lý, bảo mật và phân tích của nền tảng và cung cấp hỗ trợ nền tảng bổ sung. Đây là bản phát hành bảo trì tích lũy tiếp nối các cải tiến từ CDP Private Cloud Base 7.1.6 và các bản phát hành trước đó.

CDP Private Cloud Base 7.1.7 SP2 là bản phát hành Gói dịch vụ mang lại sự ổn định và bảo mật nền tảng liên tục cho bản phát hành 7.1.7 nhưng không chứa các tính năng mới hoặc thay đổi API.

Ngoài các tính năng mới và hỗ trợ nền tảng, mục tiêu quan trọng của một số bản phát hành gần đây nhất là giúp việc chuyển đổi sang CDP dễ dàng hơn bằng cách thêm nhiều tùy chọn nâng cấp hơn. Dưới đây là tổng quan ngắn gọn về các tính năng và cải tiến mới đã được thêm vào trong phiên bản này.

Nâng cấp cải tiến

Để giúp khách hàng chuyển sang CDP Private Cloud Base , bản phát hành 7.1.7 có các cải tiến nâng cấp sau:

  • Các nâng cấp tại chỗ và quy trình khôi phục được ghi lại có sẵn cho CDH phiên bản 5 và 6 cũng như cho HDP phiên bản 2 và 3. Những cải tiến này hoàn thiện tầm nhìn nâng cấp tại chỗ từ tất cả các phiên bản CDH và HDP được hỗ trợ .

Bản nâng cấp đồng hành bổ sung cho tài liệu nâng cấp hiện có hướng dẫn bạn trong suốt hành trình nâng cấp của mình.

Cải tiến tính năng chung

Để cải thiện hơn nữa khả năng quản lý, bảo mật và phân tích của nền tảng, các bản cập nhật sau sẽ có trong bản phát hành 7.1.7:

  • Một số cải tiến đã được thực hiện cho Cloudera Manager bao gồm các bản sửa lỗi bảo mật và xóa tất cả CVE trên hơn 20 thư viện nhúng. Những cải tiến này làm cho phiên bản 7.1.7 SP2 trở thành bản phát hành CDP Private Cloud Base an toàn nhất . Ngoài ra còn có thêm các tính năng và công cụ mới để cải thiện hiệu quả nền tảng và dễ sử dụng.
  • Nhiều bản cập nhật đã được thực hiện cho SDX để cải thiện nền tảng và quản trị dữ liệu. Những cải tiến này bao gồm một phương pháp an toàn hơn để cho phép tạo bảng Hive, kiểm tra các hành động của siêu người dùng HDFS trong tích hợp Ranger, Atlas và Kafka, Lọc hàng Impala và nhiều tính năng khác.
  • Các cải tiến của Kho dữ liệu bao gồm hỗ trợ các chính sách lọc cấp hàng dựa trên Ranger trong Impala. Bộ lọc cấp hàng tương tự như các chính sách truy cập khác của Ranger và có thể được đặt cho người dùng, nhóm và điều kiện cụ thể.

Những cập nhật này là một số điểm nổi bật của phiên bản này và không phải là danh sách đầy đủ các tính năng mới. Xem Tóm tắt phát hành CDP Private Cloud Base 7.1.7 để biết danh sách đầy đủ và chi tiết về các tính năng này.

Giới thiệu Hướng dẫn thiết kế

Tài liệu này là hướng dẫn thiết kế cho Dell Validated Design (DVD) để quản lý dữ liệu với Cloudera CDP Private Cloud Base . Nó có thể được đọc cùng với sách trắng liên quan trên Trung tâm thông tin Dell Technologies cho phân tích dữ liệu . Sách trắng cung cấp thông tin tổng quan về nền tảng dữ liệu doanh nghiệp là gì, lợi ích và các trường hợp sử dụng điển hình. Nó cũng cung cấp mô tả về CDP , bao gồm các cụm thành phần của CDP Private Cloud Base và CDP Private Cloud Data Services , đồng thời thảo luận về hành trình đến CDP , bao gồm:

  • Nâng cấp và di chuyển sang CDP Private Cloud Base
  • Mối quan hệ của CDP Private Cloud Base làm nền tảng cho CDP Private Cloud

Hướng dẫn thiết kế này cung cấp hướng dẫn cơ sở hạ tầng và kiến ​​trúc tham chiếu đã được xác thực, được thiết kế để có tính sẵn sàng cao và bao gồm:

  • Cơ sở hạ tầng phần mềm và kiến ​​trúc cụm
  • Cấu hình máy chủ PowerEdge
  • Cấu hình nút lưu trữ PowerScale
  • Kiến trúc và cấu hình mạng PowerSwitch

Khi CDP Private Cloud Base đang được sử dụng với Dịch vụ dữ liệu đám mây riêng của CDP để tạo thành Đám mây riêng của CDP , tài liệu này nên được sử dụng cùng với tài liệu về Dịch vụ dữ liệu đám mây riêng của CDP trên trang web tài liệu Cloudera .

Dell Technologies và Cloudera đã cộng tác trong gần mười năm để cung cấp cho khách hàng hướng dẫn về phần cứng tối ưu nhằm hợp lý hóa việc thiết kế, lập kế hoạch và cấu hình cho quá trình triển khai Cloudera của họ . Tài liệu này dựa trên kinh nghiệm chung của cả hai công ty trong việc triển khai và vận hành môi trường sản xuất doanh nghiệp.

Thuật ngữ

Bảng sau đây cung cấp định nghĩa cho một số thuật ngữ được sử dụng trong tài liệu này.

Bảng 2. Thuật ngữ
Thuật ngữ Sự định nghĩa
ÔNG CHỦ Giải pháp lưu trữ tối ưu hóa khởi động
CDH Phân phối Cloudera cho Apache Hadoop
CDP Nền tảng dữ liệu Cloudera
BĂNG ĐĨA Cloudera phân phối Spark
Bộ giải mã Bộ mã hóa/giải mã luồng dữ liệu
CSI Giao diện lưu trữ vùng chứa
CVE Các lỗ hổng và nguy cơ phơi nhiễm phổ biến
DAG Đồ thị tuần hoàn có hướng
DWPD Ổ ghi mỗi ngày
GbE mạng Ethernet tốc độ cao
Tính sẵn sàng cao
HBA Bộ điều hợp bus máy chủ
HDFS Hệ thống tệp phân tán Hadoop
HDP Nền tảng dữ liệu Hortonworks
HiveQL Ngôn ngữ truy vấn Hive
iDRAC Bộ điều khiển truy cập từ xa Dell tích hợp
IoT Internet vạn vật
LACP Giao thức kiểm soát tập hợp liên kết
LỖI Nhóm tổng hợp liên kết
LLAP Sống lâu và xử lý
LOM Quản lý tắt đèn
LVM Quản lý khối lượng hợp lý
NVMe Bộ nhớ không bay hơi nhanh
OCP Dự án điện toán mở
PCIe Thành phần ngoại vi kết nối nhanh
PERC Bộ điều khiển RAID PowerEdge
PGDATA Thư mục dữ liệu PostgreSQL
PoC Bằng chứng của khái niệm
QDR Tốc độ dữ liệu bốn
QSFP Bộ thu phát có thể cắm được hệ số dạng nhỏ Quad
đột kích Mảng đĩa độc lập dự phòng (hoặc không đắt tiền)
RDIMM Mô-đun bộ nhớ nội tuyến kép đã đăng ký
RHEL Máy chủ Linux doanh nghiệp Red Hat
SAS SCSI đính kèm nối tiếp
SATA Đính kèm công nghệ tiên tiến nối tiếp
SDX Trải nghiệm dữ liệu chia sẻ của Cloudera
SED Ổ đĩa tự mã hóa
SFP Bộ thu phát có thể cắm được dạng nhỏ
SLA Thỏa thuận cấp độ dịch vụ
SQL Structured Query Language
SSD Ổ đĩa thể rắn
Điều khoản Đầu giá
Vlan Mạng cục bộ ảo
VLT Liên kết ảo
SỢI Một nhà đàm phán tài nguyên khác