Hạ tầng phần mềm
Giới thiệu
Thiết kế được xác thực của Dell cho Cloudera CDP Private Cloud Base yêu cầu các phiên bản cụ thể của Dell và phần mềm của bên thứ ba.
Thành phần phần mềm
Các thành phần và phiên bản phần mềm được xác thực cho Cloudera CDP Private Cloud Base được liệt kê trong bảng bên dưới. Các thành phần được xác thực có thể không khớp chính xác với cấu hình được Dell Technologies khuyến nghị. Để biết thêm thông tin, hãy gửi email tới ai.assist@dell.com hoặc liên hệ với đại diện bán hàng Dell Technologies của bạn .
Loại | Thành phần | Phiên bản |
Hệ điều hành máy chủ | Máy chủ Linux doanh nghiệp Red Hat | 8,6 |
nền tảng Linux | 4.18.0-425.10.1.el8_7.x86_64 | |
Hệ thống tập tin máy chủ | XFS | không áp dụng |
Hệ điều hành PowerScale | OneFS | 9.4.0.12 |
Máy ảo Java | Mở JDK | 1.8.0_232 |
Nền tảng dữ liệu Cloudera | Cơ sở đám mây riêng CDP | 7.1.7 SP2 |
Quản lý Cloudera | 7.6.7 | |
Phần sụn | iDRAC | 6.10.05.00 |
NVIDIA Ampe A40 | 94.02.5C.00.0F | |
Trình điều khiển đồ họa Linux tăng tốc NVIDIA | 470.161.03 | |
Intel E810-XXV | 21.5.9 | |
NVIDIA ConnectX-6 Lx | 20.34.10.02 | |
Dell PERC H965i | 8.0.0.0.18-74 | |
Nền tảng tính toán GPU | NVIDIA CUDA | 11.4 |
Cơ sở dữ liệu | PostgreSQL | 16-10-1 |
Thẩm định
Giới thiệu
Chương này mô tả các thử nghiệm chức năng mà Dell Technologies đã thực hiện để xác thực rằng Cloudera CDP Private Cloud Base 7.1.7 SP2 đã được triển khai chính xác trên các cấu hình được đề xuất.
Thử nghiệm chức năng bao gồm chạy khối lượng công việc mẫu trên nhiều thành phần Cloudera CDP Private Cloud Base được hỗ trợ , bao gồm:
- Atlas
- HDFS
- Hive on Tez
- HBase
- Spark
- Spark 3
- MapReduce
- Spark and Hive integration
- Hue
- Spark GPU test
- Ozone
- Ranger
- YARN
- ZooKeeper
Trước và sau mỗi lần kiểm tra, các trạng thái sức khỏe sau đây đã được kiểm tra bằng Cloudera Manager để đảm bảo rằng không có vấn đề sức khỏe nào được chỉ ra:
- Tất cả máy chủ
- Tất cả các thành phần
- Dịch vụ quản lý Cloudera
Tất cả thử nghiệm thành phần đã được thực hiện khi bật xác thực Kerberos.
Ngoài ra, Dell Technologies đã đánh giá khả năng tương thích của các thành phần này với việc tích hợp mảng lưu trữ Dell PowerScale . OneFS trên nền tảng PowerScale cung cấp giao diện HDFS gốc cho phép truy cập trực tiếp từ các máy khách Hadoop . Với chức năng Hadoop NameNode được tích hợp trong OneFS , các máy chủ NameNode chuyên dụng sẽ bị loại bỏ, giúp đơn giản hóa việc triển khai và mở rộng quy mô của Cloudera CDP Private Cloud Base .
Xác thực thành phần
Dell Technologies đã tiến hành và ghi lại các bài kiểm tra khối lượng công việc mẫu cho từng thành phần. Các thử nghiệm này đã xác minh khả năng tương thích của thành phần và chức năng cơ bản với cấu hình phần cứng và phần mềm được đề xuất trong Cloudera CDP Private Cloud Base .
Thử nghiệm TeraSuite
Về nhiệm vụ này
TeraSuite là một bộ chương trình tạo, sắp xếp và xác thực một tập dữ liệu lớn để đánh giá hiệu suất của cụm Hadoop . Nó bao gồm TeraGen , TeraSort và TeraValidate , là một phần của gói ví dụ Apache Hadoop . Dell Technologies đã chạy các chương trình TeraSuite để xác thực các lớp HDFS và MapReduce của cụm Hadoop .
bước
- Lệnh teragen ví dụ này tạo dữ liệu:
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\ hadoop-mapreduce-examples.jar teragen 10000000000 teragen
- Lệnh terasort ví dụ này sắp xếp dữ liệu được tạo:
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\ hadoop-mapreduce-examples.jar teragen terasort
- Lệnh teravalidate ví dụ này xác nhận rằng dữ liệu được tạo đã được sắp xếp:
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\ hadoop-mapreduce-examples.jar terasort teravalidate
Kiểm tra DSFIO
Về nhiệm vụ này
bước
- Lệnh TestDSFIO ví dụ này thực hiện kiểm tra ghi TestDFSIO:
yarn jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/\ hadoop-mapreduce-client-jobclient-tests.jar TestDFSIO -write -nrFiles 5000 \ -size 128MB
- Lệnh TestDSFIO ví dụ này thực hiện kiểm tra đọc TestDSFIO:
yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-client \ -jobclient-3.1.1.7.1.7.0-551-tests.jar TestDFSIO -read -nrFiles 5000 \ -size 128MB
Kiểm tra MapReduce
Về nhiệm vụ này
bước
yarn jar /opt/cloudera/parcels/CDH-7.1.7-1.cdh7.1.7.p2000.37147774/jars/\
hadoop-streaming-3.1.1.7.1.7.2000-305.jar -file /root/final_test/mapper.py -mapper \
/root/final_test/mapper.py -file /root/final_test/reducer.py -reducer \
/root/final_test/reducer.py -input /user/root/words.txt -output /user/root/mp_reduce
Kiểm tra tia lửa
Về nhiệm vụ này
Apache Spark là một hệ thống xử lý phân tán dành cho khối lượng công việc phân tích dữ liệu lớn. Nó mang lại hiệu suất cao cho cả dữ liệu hàng loạt và dữ liệu truyền phát bằng cách tận dụng:
- Bộ lập lịch biểu đồ tuần hoàn có hướng (DAG) tiên tiến nhất
- Trình tối ưu hóa truy vấn
- Một công cụ thực thi vật lý
spark-submit --class org.apache.spark.examples.SparkPi --master yarn \
--deploy-mode cluster /opt/cloudera/parcels/CDH/jars/\
spark-examples_2.11-2.4.7.7.1.7.2000-305.jar
Kiểm tra GPU Spark
Về nhiệm vụ này
Spark kiểm tra xác thực chức năng của Spark GPU (CDS 3.2.3):
spark3-shell --master yarn --conf spark.task.resource.gpu.amount=1 --conf \
spark.rapids.sql.concurrentGpuTasks=1 --conf spark.sql.files.maxPartitionBytes=256m \
--conf spark.locality.wait=0s --conf spark.sql.adaptive.enabled=true \
--conf spark.rapids.memory.pinnedPool.size=2G --conf "spark.rapids.sql.enabled=true" \
--conf "spark.executor.memoryOverhead=5g" \
--conf spark.sql.adaptive.advisoryPartitionSizeInBytes=1
Kiểm tra tổ ong
Về nhiệm vụ này
Hive là một hệ thống kho dữ liệu cho phép truy vấn giống SQL trên các tập dữ liệu lớn được lưu trữ trên cụm Hadoop . Nó tận dụng Apache Tez hoặc MapReduce làm công cụ thực thi.
Việc tạo bảng đơn giản và các truy vấn chọn đã được thực hiện để xác thực dịch vụ Hive. Những ví dụ này kiểm tra xác thực chức năng của dịch vụ Hive.
bước
- Kết nối với Hive với ứng dụng khách bạn chọn. Ví dụ này sử dụng máy khách mỏng Beeline, là máy khách CLI mặc định trong bản cài đặt CDP :
hive
- Tạo cơ sở dữ liệu có tên TEST:
CREATE DATABASE TEST;
- Tạo một bảng:
CREATE TABLE TEST.Sales_Data(StoreLocation VARCHAR(30),Product VARCHAR(30),\ OrderDate DATE,Revenue DECIMAL(10,2))
- Chèn dữ liệu vào bảng:
Insert into Sales_Data Values('Bangalore','Nutella','2023-05-16',7455.67),\ ('Bangalore','Peanut Butter','2023-05-16',5316.89),('Bangalore','Milk','2023-05-16',\ 2433.76),('Hyderabad','Bananas','2023-05-16',9456.01),('Hyderabad','Nutella',\ '2023-05-16',3644.33),('Hyderabad','Peanut Butter', '2023-05-16', 8988.64),\ ('Hyderabad','Milk','2023-05-16', 1621.58)
Kết quả
Kiểm tra HBase
Về nhiệm vụ này
HBase là một hệ thống quản lý cơ sở dữ liệu phi quan hệ, hướng theo cột. Nó tận dụng HDFS làm lớp lưu trữ phân tán và cung cấp cơ chế chịu lỗi để lưu trữ các tập dữ liệu thưa thớt.
Các truy vấn HBase ghi và đọc các bảng được sử dụng để kiểm tra tính xác thực chức năng của dịch vụ HBase.
bước
- Khởi động shell tương tác HBase:
hbase shell
Hệ thống hiển thị dấu nhắc shell tương tác HBase:Vỏ HBase; nhập 'help<RETURN>' để biết danh sách các lệnh được hỗ trợ. Nhập "exit<RETURN>" để rời khỏi HBase ShellVersion 0.94.23, rf42302b28aceaab773b15f234aa8718fff7eea3c, Thứ Ba ngày 16 tháng 5: 55:22 UTC 2023hbase(main):001:0>
- Tạo một bảng có tên historybằng hai cột; homevà away:
create 'history', 'home', 'away'
Hệ thống hiển thị thông báo tương tự như sau:0 hàng trong 1,1300 giây=> Hbase::Table - emp
- Chèn một hàng vào bảng:
put 'history','1','home data:name','jim' put 'history','row1','home:city','Boston'
Hệ thống hiển thị thông báo tương tự như sau:1 cột=dữ liệu cá nhân:tên, dấu thời gian=1417524185058, giá trị=jim1 cột=dữ liệu cá nhân:thành phố, dấu thời gian=1417524216501, giá trị=Boston
- Xóa bảng:
drop 'history'
Hệ thống hiển thị thông báo tương tự như sau:0 hàng trong 0,3060 giây
- Xác minh rằng bảng không còn tồn tại:
exists 'history'
Hệ thống hiển thị thông báo tương tự như sau:Lịch sử bảng không tồn tại0 hàng trong 0,0730 giây
- Chỉnh sửa các dòng sau trong tệp cấu hình HBase, /conf/hbase-site.xml , với các giá trị bên dưới để chứa một tỷ hàng:
Maximum Number of HStoreFiles Compaction: 20 HStore Blocking Store Files: 200 HBase Memstore Block Multiplier: 4 HBase Memstore Flush Size: 256
- Tạo một bảng staffcó tên sáu cột; id, name, age, city, departmentvà salary:
create 'staff', 'id', 'name', 'age', 'city', 'department', 'salary'
Hệ thống hiển thị thông báo tương tự như sau:0 hàng trong 1,1400 giây=> Hbase::Table - emp
- Tạo lượng dữ liệu cần thiết trong tệp CSV bằng cách sử dụng tập lệnh python tùy chỉnh .
- Tải dữ liệu từ tệp CSV bằng lệnh HBase ImportTsv :
/bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=',' \ -Dimporttsv.columns=HBASE_ROW_KEY,<column names> i989<tablename> \ <location of file from HDFS>
- Xác minh rằng bảng chứa một tỷ hàng:
count 'staff', INTERVAL => 1000000
Hệ thống hiển thị thông báo tương tự như sau:Số lượng hiện tại: 1000000, hàng: 100899997Số lượng hiện tại: 2000000, hàng: 101799997...Số lượng hiện tại: 999000000, hàng: 999099999Số lượng hiện tại: 1000000000, hàng: id1000000000 hàng
thử nghiệm Huế
Về nhiệm vụ này
Dell Technologies đã thực hiện các bước sau để xác thực chức năng Hue:
bước
- Đã truy cập giao diện người dùng web Huế.
- Đã tải dữ liệu mẫu ở định dạng văn bản thuần túy lên HDFS.
- Tạo bảng trong Hive bằng dữ liệu được tải lên trên HDFS.
- Chạy một
SELECT
truy vấn trên Trình chỉnh sửa để xác minh việc tạo và khả năng truy cập bảng.
kiểm tra kiểm lâm
Về nhiệm vụ này
Dell Technologies đã thực hiện các bước sau để xác thực chức năng Ranger:
bước
- Đã tạo chính sách truy cập đọc/ghi cho người dùng thử nghiệm trong HDFS.
- Đã xác minh rằng chính sách truy cập được thực thi cho người dùng thử nghiệm trong HDFS.
- Đã xác nhận rằng quyền truy cập của người dùng liên quan được hiển thị chính xác trong nhật ký kiểm tra.
Kiểm tra bản đồ
Về nhiệm vụ này
Dell Technologies đã thực hiện các bước sau để xác thực chức năng của Atlas:
bước
- Đã tạo bảng Hive bằng cách gửi câu lệnh HiveQL sau trong ứng dụng khách Hive:
CREATE TABLE employee (ssn STRING, name STRING, location STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
- Đã tải bảng có dữ liệu mẫu từ tệp văn bản, sử dụng quyền truy cập HDFS:
printf "111-111-111,James,San Jose\\n222-222-222,Christian,Santa Clara \\n333-333-333,George,Fremont" > employeedata.txt hdfs dfs -copyFromLocal employeedata.txt /warehouse/tablespace/managed/hive/employee
- Đã xác minh rằng Atlas đã lập danh mục bảng và lược đồ của nó thông qua giao diện người dùng web bằng cách:
- Đi tới trang chủ Atlas.
- Đang tìm kiếm tên bảng.
- Đã tạo bảng thứ hai với một tập hợp con các cột từ bảng đầu tiên bằng cách sử dụng câu lệnh HiveQL sau trong ứng dụng khách Hive:
CREATE TABLE employee_alt AS (SELECT name, location FROM employee);
- Đã xác minh rằng Atlas nắm bắt chính xác mối quan hệ dòng dõi của các bảng trên giao diện người dùng web của Atlas bằng cách xem biểu đồ dòng dõi của nó.
Thử nghiệm tích hợp Atlas và Ranger
Về nhiệm vụ này
Dell Technologies đã triển khai các chính sách kiểm soát truy cập dựa trên thẻ trên dữ liệu mẫu để xác thực các chức năng được cung cấp thông qua việc tích hợp Atlas và Ranger.
Dell Technologies đã thực hiện các bước sau để xác thực tích hợp Atlas và Ranger:
bước
- Đã gắn thẻ các cột cụ thể của bảng Hive mẫu với phân loại mới trong Atlas.
- Đã tạo các chính sách dựa trên thẻ trong Ranger để kiểm soát quyền truy cập của người dùng thử nghiệm vào các cột được gắn thẻ.
- Truy vấn các cột có phân loại.
- Đã xác minh rằng quyền truy cập bị che giấu hoặc bị từ chối dựa trên các chính sách.
- Đã xác minh rằng nhật ký kiểm tra Ranger đã ghi lại các sự kiện truy cập này.
Kiểm tra ôzôn
Về nhiệm vụ này
HDFS có một NameNode duy nhất quản lý không gian tên và siêu dữ liệu. Tuy nhiên, Ozone tách biệt việc quản lý không gian tên và quản lý không gian khối bằng Trình quản lý Ozone (OM) và Trình quản lý vùng chứa lưu trữ (SCM). Do đó, về mặt lý thuyết, Ozone có thể xử lý nhiều tệp và đối tượng hơn HDFS.
Dell Technologies đã thực hiện các bước sau để xác thực Ozone :
bước
- Thực hiện các thao tác đọc/ghi đơn giản trên các đối tượng.
- Chạy TeraSuite như một phần của quá trình xác thực.
Những phát hiện
Tất cả các dịch vụ chạy bên trong cụm Cloudera CDP Private Cloud Base phải hoạt động tốt vì chúng có các lệnh phụ thuộc.
Ví dụ: MapReduce và YARN có sự phụ thuộc vào HDFS. HDFS phải ở trạng thái ổn định để khởi động Dịch vụ MapReduce và YARN.
Bản tóm tắt
Tất cả các thử nghiệm đã được hoàn thành thành công và cho thấy việc sử dụng hiệu quả tài nguyên máy tính và bộ nhớ. Các thử nghiệm và các bước được mô tả trong chương này không được thiết kế để đo lường bất kỳ dữ liệu chỉ số hiệu suất nào. Thay vào đó, họ nhằm mục đích xác minh chức năng chính xác của tất cả các dịch vụ được triển khai trong cụm Cloudera CDP Private Cloud Base 7.1.7 SP2 .
Phần kết luận
Tài liệu này cung cấp hướng dẫn thiết kế cho các nhà quản lý và kiến trúc sư cơ sở hạ tầng phân tích dữ liệu bằng cách mô tả kiến trúc tham chiếu được thiết kế trước, xác thực và có thể mở rộng để chạy CDP Private Cloud Base trên cơ sở hạ tầng phần cứng của Dell . Các chủ đề mà tài liệu này thảo luận bao gồm:
- Các thành phần và phiên bản cơ sở hạ tầng phần mềm đã được sử dụng cho CDP Private Cloud Base
- Kiến trúc cụm được thiết kế cho ứng dụng này, bao gồm các định nghĩa, vai trò và nhiệm vụ của nút cụm
- Các thiết kế mạng vật lý và logic cụm
- Hướng dẫn chia tỷ lệ và định cỡ cụm
- Cân nhắc tính sẵn sàng cao
- Chi tiết về máy chủ PowerEdge , mạng PowerSwitch và cấu hình lưu trữ PowerScale
Dell Technologies và Cloudera đã cộng tác trong gần mười năm để cung cấp cho khách hàng hướng dẫn về phần cứng tối ưu nhằm hợp lý hóa việc thiết kế, lập kế hoạch và cấu hình cho quá trình triển khai Cloudera của họ . Dell Technologies là thành viên Bạch kim của Chương trình Cloudera IHV, mức độ hợp tác cao nhất thể hiện các cam kết liên tục đối với cả Cloudera và khách hàng. Tài liệu này dựa trên kinh nghiệm chung của cả hai công ty trong việc triển khai và vận hành môi trường sản xuất doanh nghiệp cho phần mềm Cloudera trên cơ sở hạ tầng phần cứng của Dell .
Bài viết mới cập nhật
Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)
Trong quy trình làm việc NDU, các nút được khởi động ...
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...