Triển khai Microsoft SQL Server Big Data Clusters trên nền tảng OpenShift bằng PowerFlex

Giới thiệu

Microsoft SQL Server 2019 đã giới thiệu một nền tảng dữ liệu đột phá với SQL Server 2019 Big Data Clusters (BDC). SQL Server BDC được thiết kế để giải quyết thách thức về dữ liệu lớn mà hầu hết các tổ chức hiện nay đang phải đối mặt. Bạn có thể sử dụng SQL Server BDC để sắp xếp và phân tích khối lượng dữ liệu lớn, bạn cũng có thể kết hợp dữ liệu quan hệ có giá trị cao với dữ liệu lớn. Trong blog này, tôi sẽ mô tả việc triển khai Microsoft SQL Server BDC trên nền tảng container OpenShift bằng cách sử dụng bộ lưu trữ được xác định bằng phần mềm Dell EMC PowerFlex. 

Điện năng linh hoạt

PowerFlex (trước đây là VxFlex OS) là nền tảng phần mềm của lưu trữ được xác định bằng phần mềm PowerFlex. Đây là giải pháp lưu trữ và mạng tính toán hợp nhất cung cấp dịch vụ lưu trữ khối mở rộng được thiết kế để mang lại sự linh hoạt, đàn hồi và đơn giản với hiệu suất cao và khả năng phục hồi có thể dự đoán được ở quy mô lớn. 

Nền tảng PowerFlex có nhiều tùy chọn tiêu thụ để giúp khách hàng đáp ứng các yêu cầu về dự án và trung tâm dữ liệu của họ. Thiết bị PowerFlex và giá đỡ PowerFlex cung cấp cho khách hàng Quản lý hoạt động CNTT (ITOM) toàn diện và quản lý vòng đời (LCM) của toàn bộ ngăn xếp cơ sở hạ tầng ngoài các dịch vụ lưu trữ hiệu suất cao, có khả năng mở rộng và phục hồi tinh vi. Thiết bị PowerFlex và giá đỡ PowerFlex là hai tùy chọn tiêu thụ được ưa chuộng và tiếp thị chủ động. PowerFlex cũng có sẵn trên VxFlex Ready Nodes dành cho những khách hàng quan tâm đến phần cứng tuân thủ được xác định bằng phần mềm mà không có khả năng ITOM và LCM.

Lưu trữ được xác định bằng phần mềm PowerFlex với tính toán và mạng thống nhất cung cấp tính linh hoạt của kiến ​​trúc triển khai để giúp đáp ứng tốt nhất các yêu cầu triển khai và kiến ​​trúc cụ thể. PowerFlex có thể được triển khai trong hai lớp để mở rộng không đối xứng tính toán và lưu trữ cho “năng lực đúng kích cỡ, lớp đơn (HCI) hoặc trong kiến ​​trúc hỗn hợp.

Nền tảng Container OpenShift

Red Hat® OpenShift® Container Platform là một nền tảng để triển khai và tạo các ứng dụng được chứa trong container. OpenShift Container Platform cung cấp cho các quản trị viên và nhà phát triển các công cụ họ cần để triển khai và quản lý các ứng dụng và dịch vụ ở quy mô lớn. OpenShift Container Platform cung cấp cho các doanh nghiệp quyền kiểm soát hoàn toàn đối với môi trường Kubernetes của họ, cho dù chúng ở tại chỗ hay trên đám mây công cộng, mang đến cho bạn sự tự do để xây dựng và chạy các ứng dụng ở bất kỳ đâu. 

Tổng quan về cụm dữ liệu lớn của Microsoft SQL Server

Microsoft SQL Server Big Data Clusters được thiết kế để giải quyết các thách thức về dữ liệu lớn theo một cách độc đáo, BDC giải quyết nhiều thách thức truyền thống gặp phải khi xây dựng môi trường dữ liệu lớn và hồ dữ liệu. Bạn có thể truy vấn các nguồn dữ liệu bên ngoài, lưu trữ dữ liệu lớn trong HDFS do SQL Server quản lý hoặc truy vấn dữ liệu từ nhiều nguồn dữ liệu bên ngoài bằng cách sử dụng cụm. Xem tổng quan về Microsoft SQL Server 2019 Big Data Clusters trên trang Microsoft Microsoft SQL Server BDC details và trên trang GitHub SQL Server BDC Workshops . 

Các thành phần của SQL Server Big Data Cluster

 Triển khai OpenShift Container Platform trên PowerFlex

Cụm OpenShift được cấu hình với ba nút chính và tám nút công nhân. Để cài đặt OpenShift Container Platform trên PowerFlex, hãy xem Cài đặt OpenShift . 

Hình sau đây cho thấy kiến ​​trúc logic của Red Hat OpenShift 4.6.x được triển khai trên PowerFlex. Nút CSAH được cấu hình với các dịch vụ cần thiết như DNS, DHCP, HTTP Server và HA Proxy. Nó cũng lưu trữ PowerFlex Gateway và PowerFlex GUI. Kiến trúc logic của Red Hat OpenShift 4.6.x được triển khai trên PowerFlex 

Ví dụ sau đây hiển thị cụm OpenShift với ba nút chính và tám nút công nhân. 

Sau khi cài đặt OpenShift hoàn tất, CSI 1.4 được triển khai trên cụm OCP. CSI driver controller pod được triển khai trên một trong các nút worker và có tám vxflexos-node pod được triển khai trên tám nút worker. 

Để biết thêm thông tin về cài đặt CSI trên OpenShift, hãy xem trang GitHub cài đặt CSI . 

Triển khai Microsoft SQL Server BDC trên nền tảng OpenShift Container

Cụm Microsoft SQL Server BDC được triển khai bằng OpenShift Container Platform như thể hiện trong sơ đồ kiến ​​trúc bên dưới bằng cách làm theo các hướng dẫn có sẵn khi cài đặt.

Các bước sau đây được thực hiện để triển khai cụm Microsoft SQL Server BDC bằng OpenShift Container Platform:

  1. Azure Data CLI được cài đặt trên máy khách. 
  2. Tất cả các điều kiện tiên quyết cho Microsoft SQL Server BDC trên cụm OpenShift đều được thực hiện. Đối với giải pháp này, openshift-prod được chọn làm nguồn cho mẫu cấu hình từ danh sách các mẫu có sẵn.  
  3. Tất cả các nút công việc OpenShift đều được gắn nhãn trước khi Microsoft SQL Server BDC được cài đặt. 
  4. Các tệp control.json và bdc.json được tạo ra. 
  5. bdc.json được sửa đổi từ các thiết lập mặc định để sử dụng tài nguyên cụm và giải quyết các yêu cầu về khối lượng công việc. Ví dụ, bdc.json trông như sau:
    “đặc tả”: {

                        “loại”: “Chủ”,

                        “bản sao”: 3,

                        “điểm cuối”: [

                            {

                                     “tên”: “Chủ nhân”,

                                     “serviceType”: “Cổng nút”,

                                     “cổng”: 31433

                            },

                            {

                                     “tên”: “MasterSecondary”,

                                     “serviceType”: “Cổng nút”,

                                     “cổng”: 31436

                            }

                        ],

                        “cài đặt”: {

                            “sql”: {

                                     “hadr.enabled”: “đúng”

                            }

                        },

               ……………

      }

  6. Hình ảnh SQL được triển khai trong control.json là 2019-CU9-ubuntu-16.04. Để mở rộng nhóm tài nguyên BDC, số lượng bản sao được điều chỉnh để tận dụng tối đa tài nguyên của cụm. Hình ảnh sau đây cho thấy kiến ​​trúc logic của Microsoft SQL Server BDC trên OpenShift Container Platform với PowerFlex:
    Kiến trúc logic của Microsoft SQL Server BDC trên OpenShift Container với PowerFlex

     7. Triển khai SQL Server HA được cấu hình cùng với hai data và hai compute pod. Ba storage pod cũng được cấu hình. Kiểu cấu hình này được sử dụng cho TPC-C và triển khai giống TPC-H vì SQL ở chế độ HA với một primary và một vài bản sao. Hình sau đây cho thấy vị trí pod trên tám nút worker. 
       Vị trí pod trên các nút công nhân

Xác thực Microsoft SQL Server BDC trên PowerFlex
Khi triển khai ứng dụng, phải tuân thủ các biện pháp thực hành tốt nhất sau của Microsoft SQL Server BDC:
  • Để đạt được hiệu suất điều chỉnh của cụm Microsoft SQL Server BDC, hãy xem hướng dẫn về hiệu suất của Microsoft . 
  • Điều chỉnh phiên bản chính của Microsoft SQL Server dựa trên các hướng dẫn được khuyến nghị. 
  • Một công cụ kiểm tra như tài liệu HammerDB được chạy để xác thực Microsoft SQL Server BDC cho các truy vấn TPROC-H. Các truy vấn HammerDB được chạy trên phiên bản SQL Master. 
  • Thực hiện theo các hướng dẫn thực hành tốt nhất của HammerDB cho SQL Server để có được hiệu suất tối ưu. Mặc dù kết quả đáp ứng được khả năng thực hiện của hệ thống thử nghiệm, mục đích của thử nghiệm là để xác thực cụm Microsoft SQL Server BDC và đảm bảo rằng tất cả các thực hành tốt nhất đều được triển khai. 

Phần kết luận

Xác thực được thực hiện với phần cứng phòng thí nghiệm tối thiểu. Đối với 1,2 TB dữ liệu được tải vào Microsoft SQL Server, QpH@Size đạt được ở mức 220.800 cho năm người dùng ảo như thể hiện trong hình bên dưới. Kiểm tra tổng thể đã hoàn tất cho tất cả người dùng trong vòng chưa đầy 30 phút. Người ta quan sát thấy hệ thống PowerFlex không được sử dụng nhiều trong khi thử nghiệm được thực hiện, bao gồm bộ lưu trữ PowerFlex, CPU và bộ nhớ, cho phép hệ thống có thể xử lý thêm khối lượng công việc tiềm năng.

Xác thực SQL Server BDC trên PowerFlex 

Kết quả thử nghiệm trên cho thấy SQL Server BDC được triển khai trong môi trường PowerFlex có thể cung cấp nền tảng phân tích mạnh mẽ cho các hoạt động kiểu Kho dữ liệu ngoài các giải pháp Dữ liệu lớn.