Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên cơ sở hạ tầng Dell (3)

Các thành phần cơ sở đám mây riêng của CDP

Cloudera Runtime là bản phân phối phần mềm nguồn mở cốt lõi trong CDP mà Cloudera duy trì, hỗ trợ, phiên bản và gói dưới dạng một thực thể duy nhất. Cloudera Runtime bao gồm nhiều dự án nguồn mở, bao gồm các thành phần Apache, trình kết nối và thành phần mã hóa cũng như các thành phần khác từ Cloudera . Các thành phần này tạo thành sự phân phối cốt lõi của các công cụ quản lý dữ liệu trong CDP .

Cloudera Manager là một ứng dụng web mà quản trị viên và những người khác có thể sử dụng để định cấu hình, quản lý và giám sát các cụm CDP và dịch vụ Cloudera Runtime . Bạn cũng có thể sử dụng API Cloudera Manager để thực hiện các tác vụ quản lý theo chương trình.

Các thành phần phần mềm CDP Private Cloud Base hiển thị các thành phần phần mềm Apache chính cấu thành Cloudera Runtime 7.1.7 SP2 cho CDP Private Cloud Base , cùng với mô tả ngắn gọn về từng thành phần. Để biết thêm thông tin về tất cả các thành phần được bao gồm, bao gồm cả các phiên bản, hãy xem Phiên bản thành phần thời gian chạy Cloudera trên trang web tài liệu Cloudera .

Quản lý dữ liệu liên quan với Hướng dẫn thiết kế cơ sở đám mây riêng của nền tảng dữ liệu Cloudera mô tả nơi các thành phần này được triển khai trên các nút khác nhau.

Bảng 2. Các thành phần phần mềm CDP Private Cloud Base
Thành phần Sự miêu tả
Mũi tên Apache Arrow là một nền tảng phát triển đa ngôn ngữ cho dữ liệu trong bộ nhớ.
Tập bản đồ Apache Atlas cung cấp khả năng quản trị dữ liệu cho Hadoop . Atlas cũng là một kho lưu trữ siêu dữ liệu phổ biến, được thiết kế để trao đổi siêu dữ liệu trong và ngoài ngăn xếp Hadoop .
Apache Avro Avro là một khung tuần tự hóa dữ liệu và lệnh gọi thủ tục từ xa theo định hướng hàng dành cho Apache Hadoop .
Canxit Apache Canxit là một khuôn khổ để xây dựng cơ sở dữ liệu và hệ thống quản lý dữ liệu. Nó bao gồm một trình phân tích cú pháp SQL, một API để xây dựng các biểu thức trong đại số quan hệ và một công cụ lập kế hoạch truy vấn.
Apache Hadoop Apache Hadoop là một khung cho phép xử lý phân tán các bộ dữ liệu lớn trên các cụm hệ thống bằng cách sử dụng các mô hình lập trình đơn giản. Apache Hadoop được thiết kế để mở rộng quy mô từ các máy chủ đơn lẻ đến hàng nghìn máy chủ. Hadoop cũng bao gồm YARN để quản lý tài nguyên và lập kế hoạch công việc và HDFS, Hệ thống tệp phân tán Hadoop .
Apache HBase HBase cung cấp quyền truy cập ngẫu nhiên, liên tục vào dữ liệu dưới dạng cơ sở dữ liệu phi quan hệ. HBase lý tưởng cho các tình huống yêu cầu phân tích thời gian thực và dữ liệu dạng bảng cho các ứng dụng của người dùng cuối.
Tổ ong Apache Hive là một hệ thống kho dữ liệu để tóm tắt, truy vấn và phân tích các tập dữ liệu khổng lồ, khác nhau.
Apache Impala Impala cung cấp các truy vấn SQL hiệu suất cao, độ trễ thấp trên dữ liệu được lưu trữ ở định dạng tệp Apache Hadoop .
Apache Kafka Kafka là một nền tảng phát trực tuyến sự kiện được phân phối và có tính sẵn sàng cao. Nó được sử dụng cho các đường dẫn dữ liệu hiệu suất cao, phân tích phát trực tuyến, tích hợp dữ liệu và các ứng dụng quan trọng.
Apache Knox Knox là một cổng ứng dụng để tương tác an toàn với API REST và giao diện người dùng của một hoặc nhiều cụm Hadoop .
Apache Kudu Kudu kết hợp các tính năng chèn và cập nhật nhanh cũng như quét cột hiệu quả để hỗ trợ nhiều khối lượng công việc phân tích theo thời gian thực trên một lớp lưu trữ. Kudu cung cấp phân tích nhanh về dữ liệu nhanh.
Apache Livy Livy là một dịch vụ cho phép tương tác dễ dàng với cụm Spark qua giao diện REST.
Bản đồ ApacheGiảm MapReduce là một khung phần mềm để viết các ứng dụng xử lý lượng lớn dữ liệu song song trên các cụm lớn theo cách đáng tin cậy và có khả năng chịu lỗi.
Apache Oozie Oozie là một dịch vụ điều phối và xử lý công việc để quản lý các công việc của Apache Hadoop .
ORC của Apache Cột hàng được tối ưu hóa (ORC) là định dạng tệp cột tự mô tả, nhận biết loại được thiết kế cho khối lượng công việc của Hadoop .
Ôzôn Apache Ozone là kho lưu trữ đối tượng phân tán, dự phòng và có thể mở rộng được tối ưu hóa cho khối lượng công việc dữ liệu lớn.
Sàn gỗ Apache Parquet là định dạng lưu trữ dạng cột có sẵn cho bất kỳ dự án nào trong hệ sinh thái Hadoop , bất kể khung xử lý dữ liệu, mô hình dữ liệu hay ngôn ngữ lập trình.
Phượng hoàng Apache Phoenix là một tiện ích bổ sung dành cho Apache HBase cung cấp giao diện ANSI SQL có lập trình.
Kiểm lâm Apache Ranger là thành phần bảo mật CDP cho phép bạn kiểm soát quyền truy cập vào các dịch vụ CDP . Ranger cũng cung cấp khả năng kiểm tra và báo cáo quyền truy cập.
Apache Solr Solr cung cấp quyền truy cập ngôn ngữ tự nhiên vào dữ liệu được lưu trữ trong hoặc đưa vào bộ lưu trữ đám mây Hadoop , HBase hoặc đám mây.
Apache Spark Spark là một công cụ xử lý dữ liệu trong bộ nhớ phân tán được thiết kế để xử lý và phân tích dữ liệu quy mô lớn.
Apache Sqoop Sqoop là một công cụ dựa trên CLI để truyền dữ liệu hàng loạt giữa cơ sở dữ liệu quan hệ và HDFS hoặc kho lưu trữ đối tượng trên đám mây.
Apache Tez Tez là một khung có thể mở rộng để xây dựng các ứng dụng xử lý dữ liệu tương tác và hàng loạt hiệu suất cao, được YARN điều phối trong Apache Hadoop .
SỢI Apache YARN là lớp xử lý để quản lý các ứng dụng phân tán chạy trên nhiều máy trong mạng.
Khí cầu Apache Zeppelin là một máy tính xách tay dựa trên web, đa năng, cho phép phân tích dữ liệu tương tác, dựa trên dữ liệu và các tài liệu cộng tác với SQL, Scala, Python, R, v.v.
Người quản lý vườn thú Apache ZooKeeper là một dịch vụ tập trung cho phép phối hợp phân tán, có độ tin cậy cao, bao gồm duy trì thông tin cấu hình, đặt tên và cung cấp các dịch vụ nhóm và đồng bộ hóa phân tán.

Các tính năng mới

Sẽ rất hữu ích khi hiểu những tính năng và thành phần nào là mới trong CDP Private Cloud Base . Cũng rất hữu ích nếu biết những gì mới và đã thay đổi khi đến từ các bản phát hành CDH hoặc HDP cũ .

Mặc dù chủ đề này mô tả những gì có trong bản phát hành, nhưng thông tin thêm về hành trình đến CDP Private Cloud Base , bao gồm cả lộ trình nâng cấp và di chuyển, được mô tả trong Hành trình đến CDP Private Cloud Base.

Các tính năng mới

Có một số tính năng và khả năng mới lần đầu tiên được đưa vào CDP so với các sản phẩm CDH và HDP trước đây . Các tính năng này vượt trội so với những tính năng có trong các bản phát hành CDH và HDP trước đó và do đó, mới đối với tất cả người dùng triển khai CDP Private Cloud Base . Những tính năng mới này bao gồm:

Bản đồ 2.0
Bao gồm khám phá dữ liệu nâng cao, danh mục và tìm kiếm siêu dữ liệu, dòng dữ liệu và chuỗi hành trình sản phẩm, kiểm tra siêu dữ liệu và hỗ trợ để cải thiện bảo mật. Cũng bao gồm hỗ trợ cho Spark .
Khả năng bảo mật nâng cao
Bao gồm mã hóa với tích hợp Ranger KMS-Key Trustee và Navigator Encrypt (Navencrypt) để bảo mật dữ liệu khi lưu trữ.
Dịch vụ phát trực tuyến
Được giới thiệu cùng với việc bổ sung Kafka và các thành phần liên quan, bao gồm quản lý và sao chép cụm cho các cụm Kafka , lưu trữ và lược đồ thông qua dịch vụ đăng ký lược đồ cũng như khả năng cân bằng lại các cụm bằng Cruise Control. Cũng bao gồm hỗ trợ cho Kafka Connect, cho phép bạn kết nối các luồng HDFS, Amazon S3 và Kafka .
Lưu trữ đối tượng ozone
Ozone là hệ thống tệp thế hệ tiếp theo kết nối kho đối tượng và HDFS, đồng thời hỗ trợ hàng tỷ đối tượng.

Thay đổi cơ sở đám mây riêng từ CDH sang CDP

Các khả năng mới đối với người dùng CDH trước đây bao gồm:

Kiểm lâm an ninh
Cung cấp khả năng động đầy đủ để thiết lập các chính sách và ủy quyền, với kiểm soát truy cập chi tiết, lọc hàng động, che cột động và kiểm soát truy cập dựa trên thuộc tính. Với Impala là một phần của bản phân phối, tích hợp Impala-Ranger có sẵn, do đó, mọi chính sách đều có thể được phổ biến tới Impala, Hive và Kudu.
Phần mềm kho dữ liệu Hive 3
Bao gồm hỗ trợ Nguyên tử, Tính nhất quán, Cách ly và Độ bền (ACID) để có hiệu suất ETL tốt hơn và phạm vi bảo hiểm toàn diện của ANSI SQL 2016.
Tổ ong trên Tez
Tích hợp Hive với Tez, một khung mở rộng để xây dựng các ứng dụng xử lý dữ liệu tương tác và hàng loạt hiệu suất cao, cung cấp hiệu suất ETL tốt hơn ở quy mô petabyte.

Thay đổi cơ sở đám mây riêng HDP sang CDP

Các khả năng mới đối với người dùng HDP trước đây bao gồm:

Cụm riêng ảo
Cụm riêng ảo đơn giản hóa việc triển khai ứng dụng và cho phép khối lượng công việc chạy trong các cụm khác nhau chia sẻ dữ liệu một cách an toàn và linh hoạt.
Huế
Hue là trình soạn thảo truy vấn tương tác dựa trên web để tương tác với cơ sở dữ liệu và kho dữ liệu. Nó cung cấp trình soạn thảo SQL tích hợp với tính năng tự động hoàn thành, trực quan hóa và kết nối với Hive và Impala để chạy các truy vấn SQL một cách liền mạch.
Kudu
Kudu là trình quản lý lưu trữ dạng cột để phân tích nhanh trên dữ liệu nhanh. Nó hỗ trợ trường ký tự biến đổi (varchar) và cột kiểu dữ liệu, tích hợp Ranger Authz và thay đổi nhanh chóng dữ liệu có thể cập nhật để có hiệu suất tốt hơn.
Impala
Impala là một công cụ truy vấn SQL dành cho các truy vấn xử lý song song hàng loạt (MPP). Nó lý tưởng cho việc di chuyển Data Mart, truy vấn kiểu SQL tương tác và Business Intelligence (BI) như báo cáo truy cập hoặc bảng thông tin, thông qua Tableau hoặc các công cụ BI khác.
Quản lý Cloudera
Cloudera Manager là một ứng dụng web để quản lý nhiều cụm. Đó là một thay đổi so với Apache Ambari trong HDP và bao gồm thiết lập mã hóa dây tự động, kiểm soát truy cập dựa trên vai trò chi tiết (RBAC) dành cho quản trị viên và quy trình bảo trì hợp lý.

Hành trình đến với CDP Private Cloud Base

Môi trường kế thừa có thể phức tạp và đa dạng. Để giảm rủi ro trong quá trình nâng cấp hoặc di chuyển, có nhiều yếu tố bạn nên xem xét trong quá trình lập kế hoạch.

Việc nâng cấp rất phức tạp và có nhiều điều kiện tiên quyết. Những ví dụ bao gồm:

  • Nâng cấp các phiên bản hiện có của các thành phần riêng lẻ lên phiên bản được hỗ trợ, có thể nâng cấp
  • Chuyển đổi sang các thành phần khác nhau trước khi nâng cấp nền tảng tổng thể

Cũng có những khác biệt cho dù bạn đang nâng cấp từ CDH hay HDP . Quá trình HDP yêu cầu các bước trung gian, chẳng hạn như nâng cấp và sử dụng Apache Ambari với HDP trước khi chuyển đổi sang Cloudera Manager cho CDP .

Lưu ý: Việc lập kế hoạch là cần thiết. Để được hỗ trợ, bạn có thể tham gia Hội thảo Hành trình với Cloudera để hỗ trợ lập kế hoạch.

Để giảm thiểu rủi ro trong quá trình nâng cấp hoặc di chuyển, bạn phải xem xét việc sao chép và bảo vệ dữ liệu trước khi bắt đầu quá trình. Lập kế hoạch kiểm tra và xác thực khối lượng công việc cũng rất quan trọng để giảm thiểu rủi ro khi chuyển sang Cơ sở đám mây riêng CDP . Nếu chưa có sẵn kế hoạch, bạn có thể thiết lập kịch bản sao chép nhiều cụm cho cụm cũ trước khi nâng cấp và cho cụm mới.

Giai đoạn lập kế hoạch nâng cấp hoặc di chuyển là thời điểm lý tưởng để cân nhắc xem bạn có cần hoặc có thể hưởng lợi từ việc nâng cấp phần cứng máy chủ hoặc bộ lưu trữ về hiệu suất, dung lượng hay cả hai hay không.

Nâng cấp tài nguyên

Để biết chi tiết đầy đủ về việc nâng cấp và di chuyển sang CDP Private Cloud Base , Dell Technologies khuyên bạn nên duyệt tài liệu của Cloudera . 

Giải pháp xây dựng

Giới thiệu kiến ​​trúc

CDP Private Cloud Base cung cấp các công cụ quản lý dữ liệu, phân tích doanh nghiệp và quản lý dữ liệu lớn. Các dịch vụ quản lý dữ liệu bao gồm lưu trữ tệp HDFS và lưu trữ đối tượng Ozone. Cloudera Runtime cung cấp các dịch vụ phân tích, bao gồm các thành phần như Hive, HBase, MapReduce và Spark . Các công cụ quản lý bao gồm:

  • Cloudera Manager để quản lý, giám sát và cấu hình cụm
  • Cloudera SDX dành cho bảo mật, quản trị và siêu dữ liệu

Việc triển khai và vận hành thành công Cloudera CDP Private Cloud Base phụ thuộc vào cơ sở hạ tầng được thiết kế tốt, với kiến ​​trúc mang lại hiệu suất, khả năng mở rộng, độ tin cậy và khả năng quản lý cao. Thiết kế được xác thực của Dell thực hiện chính xác điều đó.

 

Thiết kế kiến ​​trúc

CDP Private Cloud Base được triển khai trên một cụm gồm nhiều nút máy chủ vật lý. Mỗi nút có một cấu hình cụ thể được thiết kế cho vai trò của nó trong cụm. Các nút này được chuyên môn hóa hơn nữa thông qua các dịch vụ phần mềm được chỉ định cho chúng.

Có hai loại nút cơ bản: Nút cơ sở hạ tầng và nút Công nhân . Các nút cơ sở hạ tầng chạy trên cấu hình máy chủ phổ biến dựa trên máy chủ PowerEdge .

Các nút cơ sở hạ tầng bao gồm ba loại nút cụ thể: Nút chính , nút Tiện ích và nút Cổng . Mặc dù các nút này sử dụng cùng một cấu hình vật lý nhưng chúng đảm nhận các vai trò khác nhau dựa trên các dịch vụ phần mềm được triển khai trên mỗi nút. Có ba nút Chính và chúng cùng nhau chạy tất cả các dịch vụ cần thiết để quản lý các dịch vụ điện toán và lưu trữ cụm. Nút Tiện ích chạy Trình quản lý Cloudera và Dịch vụ quản lý Cloudera . Nút Cổng chứa các cấu hình và dịch vụ hướng tới máy khách.

Bảng dưới đây xác định các nút cụm khác nhau và cấu hình vật lý của chúng.

Bảng 3. Định nghĩa nút
Nút Sự định nghĩa Cấu hình vật lý
Nút chính Nút này chạy tất cả các dịch vụ được yêu cầu để quản lý các dịch vụ điện toán và lưu trữ cụm. Nút cơ sở hạ tầng
Nút tiện ích Nút này chạy Cloudera Manager và Dịch vụ quản lý Cloudera . Nút cơ sở hạ tầng
Nút cổng Nút này chứa tất cả các cấu hình và dịch vụ hướng tới máy khách, bao gồm cả cấu hình cổng. Nút cơ sở hạ tầng
Nút công nhân Nút này chạy tất cả các dịch vụ được yêu cầu để lưu trữ các khối dữ liệu trên ổ cứng cục bộ và chạy các tác vụ xử lý đối với dữ liệu đó. Nút công nhân mục đích chung
Nút Worker được tăng tốc GPU
Nút PowerScale Worker

Cấu hình được hỗ trợ tối thiểu cho CDP Private Cloud Base là tám nút cụm, bao gồm ba nút Chính , một nút Tiện ích , một nút Cổng và ba nút Công nhân . Dell Technologies đề xuất cụm mười nút với năm nút Worker làm điểm bắt đầu.

Sơ đồ kiến ​​trúc cấp nút bên dưới hiển thị các loại nút và nhiệm vụ cũng như các dịch vụ phần mềm chính được triển khai trên mỗi nút.

Hình 5. Kiến trúc nút
Kiến trúc nút cấp cao bao gồm một Nút tiện ích, một Nút biên, ba Nút chính và ba Nút công nhân.

Thiết kế mạng

Cấu trúc mạng hiệu suất cao kết nối các nút cụm trong mạng Dữ liệu cụm. Mạng Edge bổ sung cung cấp giao diện giữa cụm và các hệ thống và ứng dụng bên ngoài. Ngoài ra còn có Mạng quản lý kết nối các cổng quản lý iDRAC của máy chủ PowerEdge để cung cấp và quản lý phần cứng.

Mạng được thiết kế để đáp ứng nhu cầu về một cụm có hiệu suất cao và có thể mở rộng, đồng thời cung cấp khả năng dự phòng và quyền truy cập vào các khả năng quản lý. Kiến trúc là mô hình lá và cột sống dựa trên công nghệ mạng 25 GbE. Nó sử dụng công tắc PowerSwitch S5248F-ON cho các lá và công tắc PowerSwitch Z9432F-ON cho cột sống.

Lưu trữ PowerScale

Là một tùy chọn, kiến ​​trúc này hỗ trợ việc sử dụng bộ lưu trữ Dell PowerScale , một giải pháp lưu trữ gắn mạng có quy mô rất linh hoạt, có thể được sử dụng làm bộ lưu trữ HDFS chính.

Tính toán và lưu trữ có thể được mở rộng quy mô một cách độc lập bằng cách sử dụng kiến ​​trúc thay thế này. Các nút lưu trữ PowerScale cung cấp các dịch vụ HDFS NameNode và DataNode thay vì các dịch vụ được gán cho các nút Master và nút Worker . Các nút Worker chỉ bao gồm đủ dung lượng lưu trữ cho các hoạt động trong thời gian chạy như tệp tràn và bộ đệm sắp xếp ngẫu nhiên.

Kiến trúc thay thế này giúp giảm yêu cầu băng thông HDFS cho mạng Dữ liệu cụm. PowerScale OneFS triển khai độ bền dữ liệu trong nội bộ và sử dụng mạng phụ trợ riêng cho các hoạt động nội bộ. Một bản sao dữ liệu duy nhất được chuyển đến các nút lưu trữ PowerScale khi các nút Worker ghi vào HDFS. Không có lưu lượng sao chép nào xảy ra trên mạng Dữ liệu cụm. Ngoài ra, lưu lượng khôi phục HDFS cho các ổ đĩa hoặc nút bị lỗi không xảy ra trên mạng Dữ liệu cụm.

Trong kiến ​​trúc này, Dell Technologies khuyến nghị cấu hình kết hợp PowerScale H7000 để lưu trữ theo cụm sử dụng bộ lưu trữ PowerScale cho bộ lưu trữ HDFS chính của họ.

Tóm tắt kiến ​​trúc

Chương này cung cấp thông tin tổng quan về kiến ​​trúc giải pháp cho CDP Private Cloud Base trên cơ sở hạ tầng của Dell . Để biết chi tiết đầy đủ về kiến ​​trúc, bao gồm cấu hình nút máy chủ cũng như thiết kế mạng và lưu trữ, hãy xem Hướng dẫn thiết kế liên quan.

Bản tóm tắt

CDP Private Cloud Base là phiên bản tại chỗ của Cloudera Data Platform , một nền tảng quản lý dữ liệu tích hợp được xây dựng cho doanh nghiệp.

Tài liệu này cung cấp nền tảng và thông tin quan trọng cho các nhà quản lý và kiến ​​trúc sư cơ sở hạ tầng phân tích dữ liệu muốn chạy CDP Private Cloud Base trên cơ sở hạ tầng phần cứng của Dell . Các chủ đề đã được thảo luận bao gồm:

  • Nền tảng dữ liệu là gì
  • Nhiều trường hợp sử dụng cho nền tảng dữ liệu
  • Thông tin chi tiết về CDP Private Cloud Base
  • Mối quan hệ của Cơ sở đám mây riêng CDP với Dịch vụ dữ liệu đám mây riêng của CDP
  • Mô tả cấp cao về kiến ​​trúc giải pháp cho CDP trên Cơ sở hạ tầng Dell
  • Hành trình đến CDP Private Cloud Base , bao gồm các chiến lược nâng cấp và di chuyển

Dell Technologies và Cloudera đã cộng tác trong gần mười năm để cung cấp cho khách hàng hướng dẫn về phần cứng tối ưu nhằm hợp lý hóa việc thiết kế, lập kế hoạch và cấu hình cho quá trình triển khai Cloudera của họ . Dell Technologies là thành viên Bạch kim của Chương trình Cloudera IHV, mức độ hợp tác cao nhất thể hiện các cam kết liên tục đối với cả Cloudera và khách hàng. Tài liệu này dựa trên kinh nghiệm chung của cả hai công ty trong việc triển khai và vận hành môi trường sản xuất doanh nghiệp cho phần mềm Cloudera trên cơ sở hạ tầng phần cứng của Dell .