Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên Cơ sở hạ tầng Dell EMC do Intel cung cấp (5)

Hạ tầng phần mềm

Giới thiệu

Thiết kế được xác thực của Dell cho Cloudera CDP Private Cloud Base yêu cầu các phiên bản cụ thể của Dell và phần mềm của bên thứ ba.

 

Thành phần phần mềm

Các thành phần và phiên bản phần mềm được xác thực cho Cloudera CDP Private Cloud Base được liệt kê trong bảng bên dưới. Các thành phần được xác thực có thể không khớp chính xác với cấu hình được Dell Technologies khuyến nghị. Để biết thêm thông tin, hãy gửi email tới ai.assist@dell.com hoặc liên hệ với đại diện bán hàng Dell Technologies của bạn .

Bảng 24. Các thành phần phần mềm được kiểm tra
Loại Thành phần Phiên bản
Hệ điều hành máy chủ Máy chủ Linux doanh nghiệp Red Hat 8,6
nền tảng Linux 4.18.0-425.10.1.el8_7.x86_64
Hệ thống tập tin máy chủ XFS không áp dụng
Hệ điều hành PowerScale OneFS 9.4.0.12
Máy ảo Java Mở JDK 1.8.0_232
Nền tảng dữ liệu Cloudera Cơ sở đám mây riêng CDP 7.1.7 SP2
Quản lý Cloudera 7.6.7
Phần sụn iDRAC 6.10.05.00
NVIDIA Ampe A40 94.02.5C.00.0F
Trình điều khiển đồ họa Linux tăng tốc NVIDIA 470.161.03
Intel E810-XXV 21.5.9
NVIDIA ConnectX-6 Lx 20.34.10.02
Dell PERC H965i 8.0.0.0.18-74
Nền tảng tính toán GPU NVIDIA CUDA 11.4
Cơ sở dữ liệu PostgreSQL 16-10-1

 

Thẩm định

Giới thiệu

Chương này mô tả các thử nghiệm chức năng mà Dell Technologies đã thực hiện để xác thực rằng Cloudera CDP Private Cloud Base 7.1.7 SP2 đã được triển khai chính xác trên các cấu hình được đề xuất.

Thử nghiệm chức năng bao gồm chạy khối lượng công việc mẫu trên nhiều thành phần Cloudera CDP Private Cloud Base được hỗ trợ , bao gồm:

  • Atlas
  • HDFS
  • Hive on Tez
  • HBase
  • Spark
  • Spark 3
  • MapReduce
  • Spark and Hive integration
  • Hue
  • Spark GPU test
  • Ozone
  • Ranger
  • YARN
  • ZooKeeper

Trước và sau mỗi lần kiểm tra, các trạng thái sức khỏe sau đây đã được kiểm tra bằng Cloudera Manager để đảm bảo rằng không có vấn đề sức khỏe nào được chỉ ra:

  • Tất cả máy chủ
  • Tất cả các thành phần
  • Dịch vụ quản lý Cloudera

Tất cả thử nghiệm thành phần đã được thực hiện khi bật xác thực Kerberos.

Ngoài ra, Dell Technologies đã đánh giá khả năng tương thích của các thành phần này với việc tích hợp mảng lưu trữ Dell PowerScale . OneFS trên nền tảng PowerScale cung cấp giao diện HDFS gốc cho phép truy cập trực tiếp từ các máy khách Hadoop . Với chức năng Hadoop NameNode được tích hợp trong OneFS , các máy chủ NameNode chuyên dụng sẽ bị loại bỏ, giúp đơn giản hóa việc triển khai và mở rộng quy mô của Cloudera CDP Private Cloud Base .

 

Xác thực thành phần

Dell Technologies đã tiến hành và ghi lại các bài kiểm tra khối lượng công việc mẫu cho từng thành phần. Các thử nghiệm này đã xác minh khả năng tương thích của thành phần và chức năng cơ bản với cấu hình phần cứng và phần mềm được đề xuất trong  Cloudera CDP Private Cloud Base .

Thử nghiệm TeraSuite

Về nhiệm vụ này

TeraSuite  là một bộ chương trình tạo, sắp xếp và xác thực một tập dữ liệu lớn để đánh giá hiệu suất của  cụm Hadoop  . Nó bao gồm  TeraGen ,  TeraSort và  TeraValidate , là một phần của  gói ví dụ Apache Hadoop  . Dell Technologies  đã chạy  các chương trình TeraSuite  để xác thực các lớp HDFS và MapReduce của  cụm Hadoop  .

bước

  1. Lệnh teragen ví dụ này tạo dữ liệu: 
    yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\
    hadoop-mapreduce-examples.jar teragen 10000000000 teragen
  2. Lệnh terasort ví dụ này sắp xếp dữ liệu được tạo: 
    yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\
    hadoop-mapreduce-examples.jar teragen terasort
  3. Lệnh teravalidate ví dụ này xác nhận rằng dữ liệu được tạo đã được sắp xếp: 
    yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\
    hadoop-mapreduce-examples.jar terasort teravalidate
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của các lớp HDFS và MapReduce của cụm.

Kiểm tra DSFIO

Về nhiệm vụ này

TestDFSIO là một công cụ đo điểm chuẩn để đo hiệu suất I/O của HDFS bằng cách đọc và ghi nhiều tệp song song.

bước

  1. Lệnh TestDSFIO ví dụ này thực hiện kiểm tra ghi TestDFSIO: 
    yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\
    hadoop-mapreduce-client-jobclient-tests.jar TestDFSIO -write -nrFiles 5000 \
    -size 128MB
  2. Lệnh TestDSFIO ví dụ này thực hiện kiểm tra đọc TestDSFIO: 
    yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-client \
    -jobclient-3.1.1.7.1.7.0-551-tests.jar TestDFSIO -read -nrFiles 5000 \
    -size 128MB
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của việc đọc và ghi HDFS.

Kiểm tra MapReduce

Về nhiệm vụ này

Hadoop  MapReduce là một mô hình lập trình được sử dụng để xử lý song song dữ liệu quy mô lớn trên  cụm Hadoop  .

bước

Một  chương trình đếm từ python tùy chỉnh  đã được sử dụng để xác thực chức năng của dịch vụ MapReduce:

yarn jar /opt/cloudera/parcels/CDH-7.1.7-1.cdh7.1.7.p2000.37147774/jars/\
hadoop-streaming-3.1.1.7.1.7.2000-305.jar -file /root/final_test/mapper.py -mapper \
/root/final_test/mapper.py -file /root/final_test/reducer.py -reducer \
/root/final_test/reducer.py -input /user/root/words.txt -output /user/root/mp_reduce
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của dịch vụ MapReduce.

Kiểm tra tia lửa

Về nhiệm vụ này

Apache Spark  là một hệ thống xử lý phân tán dành cho khối lượng công việc phân tích dữ liệu lớn. Nó mang lại hiệu suất cao cho cả dữ liệu hàng loạt và dữ liệu truyền phát bằng cách tận dụng:

  • Bộ lập lịch biểu đồ tuần hoàn có hướng (DAG) tiên tiến nhất
  • Trình tối ưu hóa truy vấn
  • Một công cụ thực thi vật lý
bước

Ứng dụng sparkpi ví dụ này   kiểm tra xác thực chức năng của  dịch vụ Spark  :

spark-submit --class org.apache.spark.examples.SparkPi --master yarn \
--deploy-mode cluster /opt/cloudera/parcels/CDH/jars/\
spark-examples_2.11-2.4.7.7.1.7.2000-305.jar
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh được tính hợp lệ của  dịch vụ Spark  .

Kiểm tra GPU Spark

Về nhiệm vụ này

Cloudera  Distribution of  Spark  (CDS) 3.2.3 dành cho GPU là một dịch vụ bổ sung. Nó cho phép bạn tận dụng Bộ tăng tốc RAPIDS cho  Apache Spark  để tăng tốc  hiệu suất Spark  3 trên  các cụm  Cơ sở đám mây riêng CDP hiện có  . 
Các bước Ví dụ này

Spark kiểm tra xác thực chức năng của Spark GPU (CDS 3.2.3):

spark3-shell --master yarn --conf spark.task.resource.gpu.amount=1 --conf \
spark.rapids.sql.concurrentGpuTasks=1 --conf spark.sql.files.maxPartitionBytes=256m \
--conf spark.locality.wait=0s --conf spark.sql.adaptive.enabled=true \
--conf spark.rapids.memory.pinnedPool.size=2G --conf "spark.rapids.sql.enabled=true" \
--conf "spark.executor.memoryOverhead=5g" \
--conf spark.sql.adaptive.advisoryPartitionSizeInBytes=1
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của  dịch vụ Spark  GPU (CDS 3.2.3).

Kiểm tra tổ ong

Về nhiệm vụ này

Hive là một hệ thống kho dữ liệu cho phép truy vấn giống SQL trên các tập dữ liệu lớn được lưu trữ trên  cụm Hadoop  . Nó tận dụng Apache Tez hoặc MapReduce làm công cụ thực thi.

Việc tạo bảng đơn giản và các truy vấn chọn đã được thực hiện để xác thực dịch vụ Hive. Những ví dụ này kiểm tra xác thực chức năng của dịch vụ Hive.

bước

  1. Kết nối với Hive với ứng dụng khách bạn chọn. Ví dụ này sử dụng máy khách mỏng Beeline, là máy khách CLI mặc định trong bản cài đặt CDP : 
    hive
  2. Tạo cơ sở dữ liệu có tên TEST: 
    CREATE DATABASE TEST;
  3. Tạo một bảng: 
    CREATE TABLE TEST.Sales_Data(StoreLocation VARCHAR(30),Product VARCHAR(30),\
    OrderDate DATE,Revenue DECIMAL(10,2))
  4. Chèn dữ liệu vào bảng: 
    Insert into Sales_Data Values('Bangalore','Nutella','2023-05-16',7455.67),\
    ('Bangalore','Peanut Butter','2023-05-16',5316.89),('Bangalore','Milk','2023-05-16',\
    2433.76),('Hyderabad','Bananas','2023-05-16',9456.01),('Hyderabad','Nutella',\
    '2023-05-16',3644.33),('Hyderabad','Peanut Butter', '2023-05-16', 8988.64),\
    ('Hyderabad','Milk','2023-05-16', 1621.58)

Kết quả

Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của dịch vụ Hive.

Kiểm tra HBase

Về nhiệm vụ này

HBase là một hệ thống quản lý cơ sở dữ liệu phi quan hệ, hướng theo cột. Nó tận dụng HDFS làm lớp lưu trữ phân tán và cung cấp cơ chế chịu lỗi để lưu trữ các tập dữ liệu thưa thớt.

Các truy vấn HBase ghi và đọc các bảng được sử dụng để kiểm tra tính xác thực chức năng của dịch vụ HBase.

bước

 

  1.  Khởi động shell tương tác HBase: 
    hbase shell
    Hệ thống hiển thị dấu nhắc shell tương tác HBase:

    Vỏ HBase; nhập 'help<RETURN>' để biết danh sách các lệnh được hỗ trợ. Nhập "exit<RETURN>" để rời khỏi HBase ShellVersion 0.94.23, rf42302b28aceaab773b15f234aa8718fff7eea3c, Thứ Ba ngày 16 tháng 5: 55:22 UTC 2023hbase(main):001:0>
  2. Tạo một bảng có tên historybằng hai cột; homevà away
    create 'history', 'home', 'away'
    Hệ thống hiển thị thông báo tương tự như sau:

    0 hàng trong 1,1300 giây=> Hbase::Table - emp
  3. Chèn một hàng vào bảng: 
    put 'history','1','home data:name','jim'
    put 'history','row1','home:city','Boston'
    Hệ thống hiển thị thông báo tương tự như sau:

    1 cột=dữ liệu cá nhân:tên, dấu thời gian=1417524185058, giá trị=jim1 cột=dữ liệu cá nhân:thành phố, dấu thời gian=1417524216501, giá trị=Boston
  4. Xóa bảng: 
    drop 'history'
    Hệ thống hiển thị thông báo tương tự như sau:

    0 hàng trong 0,3060 giây
  5. Xác minh rằng bảng không còn tồn tại: 
    exists 'history'
    Hệ thống hiển thị thông báo tương tự như sau:

    Lịch sử bảng không tồn tại0 hàng trong 0,0730 giây
  6. Chỉnh sửa các dòng sau trong tệp cấu hình HBase, /conf/hbase-site.xml , với các giá trị bên dưới để chứa một tỷ hàng: 
    Maximum Number of HStoreFiles Compaction: 20
    HStore Blocking Store Files: 200
    HBase Memstore Block Multiplier: 4
    HBase Memstore Flush Size: 256
  7. Tạo một bảng staffcó tên sáu cột; idnameagecitydepartmentvà salary
    create 'staff', 'id', 'name', 'age', 'city', 'department', 'salary'
    Hệ thống hiển thị thông báo tương tự như sau:

    0 hàng trong 1,1400 giây=> Hbase::Table - emp
  8. Tạo lượng dữ liệu cần thiết trong tệp CSV bằng cách sử dụng tập lệnh python tùy chỉnh . 
  9. Tải dữ liệu từ tệp CSV bằng lệnh HBase ImportTsv : 
    /bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' \
    -Dimporttsv.columns=HBASE_ROW_KEY,<column names> i989<tablename> \
    <location of file from HDFS>
  10. Xác minh rằng bảng chứa một tỷ hàng: 
    count 'staff', INTERVAL => 1000000
    Hệ thống hiển thị thông báo tương tự như sau:

    Số lượng hiện tại: 1000000, hàng: 100899997Số lượng hiện tại: 2000000, hàng: 101799997...Số lượng hiện tại: 999000000, hàng: 999099999Số lượng hiện tại: 1000000000, hàng: id1000000000 hàng

 

Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của dịch vụ HBase.

thử nghiệm Huế

Về nhiệm vụ này

Hue cung cấp giao diện để soạn và chạy các truy vấn SQL trên nhiều dịch vụ cơ sở dữ liệu khác nhau được triển khai trong cụm. Dell Technologies đã thực hiện xác thực để đảm bảo rằng dịch vụ Hue được triển khai chính xác và hoạt động như dự kiến.

Dell Technologies  đã thực hiện các bước sau để xác thực chức năng Hue:

bước

  1. Đã truy cập giao diện người dùng web Huế. 
  2. Đã tải dữ liệu mẫu ở định dạng văn bản thuần túy lên HDFS. 
  3. Tạo bảng trong Hive bằng dữ liệu được tải lên trên HDFS. 
  4. Chạy một SELECTtruy vấn trên Trình chỉnh sửa để xác minh việc tạo và khả năng truy cập bảng. 
Kết quả
Kết thúc bài kiểm tra này,  Dell Technologies  đã chứng minh được tính đúng đắn của Hue.

kiểm tra kiểm lâm

Về nhiệm vụ này

Apache Ranger là một khung bảo mật dữ liệu cho phép quản lý chính sách kiểm soát truy cập tập trung và kiểm tra quyền truy cập dữ liệu trên nhiều  dịch vụ Hadoop khác nhau .

Dell Technologies  đã thực hiện các bước sau để xác thực chức năng Ranger:

bước

  1. Đã tạo chính sách truy cập đọc/ghi cho người dùng thử nghiệm trong HDFS. 
  2. Đã xác minh rằng chính sách truy cập được thực thi cho người dùng thử nghiệm trong HDFS. 
  3. Đã xác nhận rằng quyền truy cập của người dùng liên quan được hiển thị chính xác trong nhật ký kiểm tra. 
Kết quả
Khi kết thúc bài kiểm tra này,  Dell Technologies  đã chứng minh được tính hợp lệ của Ranger.

Kiểm tra bản đồ

Về nhiệm vụ này

Apache Atlas cung cấp danh mục dữ liệu và siêu dữ liệu cũng như các chức năng quản trị dữ liệu được tích hợp trong  Hadoop .

Dell Technologies  đã thực hiện các bước sau để xác thực chức năng của Atlas:

bước

  1.  Đã tạo bảng Hive bằng cách gửi câu lệnh HiveQL sau trong ứng dụng khách Hive: 
    CREATE TABLE employee (ssn STRING, name STRING, location STRING)
    
    ROW FORMAT DELIMITED
    
    FIELDS TERMINATED BY ','
    
    STORED AS TEXTFILE;
  2.  Đã tải bảng có dữ liệu mẫu từ tệp văn bản, sử dụng quyền truy cập HDFS: 
    printf "111-111-111,James,San Jose\\n222-222-222,Christian,Santa Clara
    \\n333-333-333,George,Fremont" > employeedata.txt
    
    hdfs dfs -copyFromLocal employeedata.txt /warehouse/tablespace/managed/hive/employee
  3.  Đã xác minh rằng Atlas đã lập danh mục bảng và lược đồ của nó thông qua giao diện người dùng web bằng cách: 
    1. Đi tới trang chủ Atlas. 
    2. Đang tìm kiếm tên bảng. 
  4.  Đã tạo bảng thứ hai với một tập hợp con các cột từ bảng đầu tiên bằng cách sử dụng câu lệnh HiveQL sau trong ứng dụng khách Hive: 
    CREATE TABLE employee_alt AS (SELECT name, location FROM employee);
  5.  Đã xác minh rằng Atlas nắm bắt chính xác mối quan hệ dòng dõi của các bảng trên giao diện người dùng web của Atlas bằng cách xem biểu đồ dòng dõi của nó. 
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh được tính hợp lệ của Atlas.

Thử nghiệm tích hợp Atlas và Ranger

Về nhiệm vụ này

Bằng cách tích hợp Atlas với Ranger, bạn có thể tận dụng siêu dữ liệu Atlas để xác định và thực thi các chính sách của Ranger trên các nguồn dữ liệu khác nhau trong  Hadoop .

Dell Technologies  đã triển khai các chính sách kiểm soát truy cập dựa trên thẻ trên dữ liệu mẫu để xác thực các chức năng được cung cấp thông qua việc tích hợp Atlas và Ranger.

Dell Technologies  đã thực hiện các bước sau để xác thực tích hợp Atlas và Ranger:

bước

  1. Đã gắn thẻ các cột cụ thể của bảng Hive mẫu với phân loại mới trong Atlas. 
  2. Đã tạo các chính sách dựa trên thẻ trong Ranger để kiểm soát quyền truy cập của người dùng thử nghiệm vào các cột được gắn thẻ. 
  3. Truy vấn các cột có phân loại. 
  4. Đã xác minh rằng quyền truy cập bị che giấu hoặc bị từ chối dựa trên các chính sách. 
  5. Đã xác minh rằng nhật ký kiểm tra Ranger đã ghi lại các sự kiện truy cập này. 
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của việc tích hợp Atlas và Ranger.

Kiểm tra ôzôn

Về nhiệm vụ này

Apache Ozone  là một hệ thống lưu trữ đối tượng phân tán có thể được cài đặt như một hệ thống độc lập hoặc cùng với HDFS. Nó hỗ trợ  giao diện Hệ thống tệp tương thích Hadoop  (HCFS) để tương thích với  các ứng dụng Hadoop và API S3 có thể truy cập được bởi bất kỳ máy khách tương thích S3 nào.

HDFS có một NameNode duy nhất quản lý không gian tên và siêu dữ liệu. Tuy nhiên,  Ozone  tách biệt việc quản lý không gian tên và quản lý không gian khối bằng  Trình quản lý Ozone  (OM) và Trình quản lý vùng chứa lưu trữ (SCM). Do đó, về  mặt lý thuyết, Ozone  có thể xử lý nhiều tệp và đối tượng hơn HDFS.

Dell Technologies  đã thực hiện các bước sau để xác thực  Ozone :

bước

  1.  Thực hiện các thao tác đọc/ghi đơn giản trên các đối tượng. 
  2. Chạy TeraSuite như một phần của quá trình xác thực. 
Kết quả
Khi kết thúc thử nghiệm này,  Dell Technologies  đã chứng minh tính hợp lệ của  Ozone .

Những phát hiện

Tất cả các dịch vụ chạy bên trong cụm Cloudera CDP Private Cloud Base phải hoạt động tốt vì chúng có các lệnh phụ thuộc.

Ví dụ: MapReduce và YARN có sự phụ thuộc vào HDFS. HDFS phải ở trạng thái ổn định để khởi động Dịch vụ MapReduce và YARN.

Bản tóm tắt

Tất cả các thử nghiệm đã được hoàn thành thành công và cho thấy việc sử dụng hiệu quả tài nguyên máy tính và bộ nhớ. Các thử nghiệm và các bước được mô tả trong chương này không được thiết kế để đo lường bất kỳ dữ liệu chỉ số hiệu suất nào. Thay vào đó, họ nhằm mục đích xác minh chức năng chính xác của tất cả các dịch vụ được triển khai trong cụm Cloudera CDP Private Cloud Base 7.1.7 SP2 .

Phần kết luận

Tài liệu này cung cấp hướng dẫn thiết kế cho các nhà quản lý và kiến ​​trúc sư cơ sở hạ tầng phân tích dữ liệu bằng cách mô tả kiến ​​trúc tham chiếu được thiết kế trước, xác thực và có thể mở rộng để chạy CDP Private Cloud Base trên cơ sở hạ tầng phần cứng của Dell . Các chủ đề mà tài liệu này thảo luận bao gồm:

  • Các thành phần và phiên bản cơ sở hạ tầng phần mềm đã được sử dụng cho CDP Private Cloud Base
  • Kiến trúc cụm được thiết kế cho ứng dụng này, bao gồm các định nghĩa, vai trò và nhiệm vụ của nút cụm
  • Các thiết kế mạng vật lý và logic cụm
  • Hướng dẫn chia tỷ lệ và định cỡ cụm
  • Cân nhắc tính sẵn sàng cao
  • Chi tiết về máy chủ PowerEdge , mạng PowerSwitch và cấu hình lưu trữ PowerScale

Dell Technologies và Cloudera đã cộng tác trong gần mười năm để cung cấp cho khách hàng hướng dẫn về phần cứng tối ưu nhằm hợp lý hóa việc thiết kế, lập kế hoạch và cấu hình cho quá trình triển khai Cloudera của họ . Dell Technologies là thành viên Bạch kim của Chương trình Cloudera IHV, mức độ hợp tác cao nhất thể hiện các cam kết liên tục đối với cả Cloudera và khách hàng. Tài liệu này dựa trên kinh nghiệm chung của cả hai công ty trong việc triển khai và vận hành môi trường sản xuất doanh nghiệp cho phần mềm Cloudera trên cơ sở hạ tầng phần cứng của Dell .