Cụm dữ liệu lớn của Microsoft SQL Server 2019: Giải pháp dữ liệu lớn sử dụng cơ sở hạ tầng Dell EMC

Tóm tắt

Thử thách kinh doanh

Lưu ý : Tiện ích bổ sung Cụm dữ liệu lớn của Microsoft SQL Server 2019 sẽ ngừng hoạt động. Hỗ trợ dành cho Cụm dữ liệu lớn SQL Server 2019 sẽ kết thúc vào ngày 14 tháng 1 năm 2025. Để biết thêm thông tin, hãy xem Tùy chọn dữ liệu lớn trên nền tảng Microsoft SQL Server .

Tốc độ đổi mới và áp dụng công nghệ ngày càng tăng đang làm thay đổi cuộc sống của chúng ta. Với các ứng dụng điện thoại thông minh, chúng ta có thể quản lý tài khoản ngân hàng của mình, duy trì kết nối thông qua vô số kênh truyền thông xã hội và có thể truy cập gần như ngay lập tức vào tin tức từ khắp nơi trên thế giới. Thời đại tiến bộ công nghệ không ngừng này đã tạo ra sự bùng nổ về dữ liệu. IDC dự đoán phạm vi dữ liệu toàn cầu sẽ tăng từ 33 zettabyte vào năm 2018 lên 175 zettabyte vào năm 2025. (Xem  Thời đại dữ liệu 2025: Số hóa thế giới từ biên đến lõi , IDC, tháng 11 năm 2018.)

Phân tích dữ liệu có thể giải quyết các vấn đề trong thế giới thực để cải thiện nhiều khía cạnh trong cuộc sống của chúng ta; tuy nhiên, các yêu cầu quản lý dữ liệu cần thiết để hỗ trợ phân tích là yếu tố hạn chế nhất đối với hầu hết các tổ chức. Cơ sở dữ liệu có cấu trúc truyền thống không được thiết kế để hỗ trợ dữ liệu ở quy mô petabyte, exabyte hoặc lớn hơn. Những đổi mới trong công nghệ cơ sở dữ liệu phân tán giải quyết thách thức dữ liệu lớn bằng cách phân phối dữ liệu trên các cụm máy tính được kết nối với nhau. Chúng tôi tin rằng việc sử dụng cơ sở dữ liệu phân tán trong các trường đại học, chính phủ và doanh nghiệp có tiềm năng to lớn để tạo ra những hiểu biết bổ sung sẽ dẫn đến những chuyển đổi mới nhằm cải thiện cuộc sống.

Công nghệ SQL Server và thách thức dữ liệu lớn

Cụm dữ liệu lớn của Microsoft SQL Server được thiết kế để giải quyết thách thức về dữ liệu lớn mà hầu hết các tổ chức hiện nay phải đối mặt. Với Cụm dữ liệu lớn của SQL Server, các chuyên gia dữ liệu có thể phân phối từ petabyte đến exabyte dữ liệu trên các nhóm tài nguyên điện toán và lưu trữ có quy mô lớn bằng cách sử dụng các khung tính toán cụm nguồn mở Hệ thống tệp phân tán Apache Spark và Hadoop (HDFS). Spark cung cấp khả năng song song hóa phân tích dữ liệu trên toàn bộ cụm máy tính, trong khi HDFS xử lý hiệu suất truy cập dữ liệu và tính bền vững cho các bộ dữ liệu quy mô lớn. Các nhà khoa học dữ liệu có thể chọn từ nhiều công cụ, bao gồm Spark API và Transact-SQL (T-SQL), để sử dụng trong việc phát triển những hiểu biết phân tích mới.

Công nghệ SQL Server cũng giải quyết các thách thức trong việc truy cập các kho dữ liệu quá linh hoạt hoặc quá lớn để đưa vào một phiên bản cơ sở dữ liệu phân tán duy nhất. Khả năng kết nối với các nguồn dữ liệu khác trong lĩnh vực dữ liệu sẽ làm tăng tính đa dạng của dữ liệu, do đó củng cố phạm vi phân tích và tăng độ chính xác của các dự đoán. Trong số những cải tiến gần đây của SQL Server là ảo hóa dữ liệu, tạo điều kiện thuận lợi cho việc phân tích với các nguồn dữ liệu khác nhau mà không cần sao chép dữ liệu giữa các hệ thống. Ảo hóa dữ liệu có thể truy cập nhiều hệ thống dữ liệu nguồn khác nhau và cho phép phân tích mà không cần phải trích xuất, chuyển đổi và tải (ETL) vào kho dữ liệu chung. Thay vào đó, ảo hóa dữ liệu cho phép truy vấn dữ liệu trực tiếp bằng cách sử dụng ngôn ngữ gốc và trả kết quả về ứng dụng của người yêu cầu.

Có thể ảo hóa dữ liệu thông qua công nghệ PolyBase và tích hợp công nghệ đó vào SQL Server. Sử dụng SQL Server với PolyBase, các nhà phân tích dữ liệu của bạn có thể truy cập dữ liệu trong Hadoop, Oracle, Teradata và MongoDB bằng cách sử dụng các truy vấn T – SQL quen thuộc. Cùng với Cụm dữ liệu lớn của SQL Server, PolyBase xây dựng cầu nối bằng cách kết nối công nghệ dữ liệu lớn với các nguồn dữ liệu quan hệ truyền thống trong phạm vi dữ liệu. Các nhà khoa học dữ liệu có thể sử dụng các ngôn ngữ lập trình phù hợp nhất, bao gồm T ‑ SQL, Java, Python, R và Scala, để thực hiện phân tích dữ liệu trên nhiều nguồn dữ liệu.

 

Tổng quan về giải pháp

Giải pháp này thể hiện trường hợp sử dụng kết hợp SQL Server, Cụm dữ liệu lớn của SQL Server và RDBMS của Oracle để thực hiện phân tích dữ liệu bằng cách sử dụng ảo hóa dữ liệu. Hệ thống Dell EMC PowerFlex cung cấp tài nguyên tính toán và lưu trữ cho toàn bộ kiến ​​trúc dữ liệu hỗ trợ trường hợp sử dụng.

Lưu ý : Phần mềm PowerFlex trước đây được gọi là “VxFlex OS”.

Sách trắng này mô tả các bước chính trong việc thiết kế và xây dựng Cụm dữ liệu lớn của SQL Server, tập trung vào các phương pháp được đề xuất để giúp bạn triển khai thành công. Giải pháp của chúng tôi thể hiện một phương pháp đáng tin cậy và có thể lặp lại để triển khai các dịch vụ ứng dụng của chúng tôi. Nó dựa vào tự động hóa và điều phối do VMware vSphere, Docker và Kubernetes cung cấp, nhưng việc sử dụng ảo hóa là tùy chọn.

Sách trắng được phát hành gần đây của nhóm Giải pháp Máy chủ SQL tại Dell Technologies giải thích các khái niệm nền tảng của giải pháp này. Bài viết đó, Bộ chứa SQL Server trên Linux , thảo luận về những lợi thế của việc lưu trữ cơ sở dữ liệu trong bộ chứa Docker để hỗ trợ phát triển ứng dụng. Dựa trên đà phát triển của container, giải pháp này cho thấy cách các hệ thống PowerFlex với Cụm dữ liệu lớn SQL Server và PolyBase có thể tăng tốc các chương trình dữ liệu lớn của bạn thông qua tích hợp với việc triển khai Kubernetes của chúng tôi.

Hệ thống Dell EMC PowerFlex, nền tảng phần mềm của dòng PowerFlex được xác định bằng phần mềm của chúng tôi, tích hợp với Kubernetes thông qua trình cắm Giao diện lưu trữ vùng chứa (CSI). Sự tích hợp này tự động hóa việc cung cấp và quản lý các vùng chứa yêu cầu lưu trữ liên tục. Tích hợp Kubernetes cải thiện năng suất của các nhà phát triển và những người khác bằng cách hỗ trợ cung cấp vùng chứa có bộ lưu trữ nhanh chóng và dễ dàng. Kubernetes và plug-in CSI dành cho tự động hóa PowerFlex đã thay thế nhiều quy trình phân bổ tài nguyên điện toán và lưu trữ tốn nhiều thời gian.

Ngoài việc ghi lại cách tiếp cận của chúng tôi để xây dựng và chạy triển khai Cụm dữ liệu lớn SQL Server trong phòng thí nghiệm của mình, chúng tôi mô tả cách chúng tôi nhập dữ liệu dạng bảng, dựa trên định nghĩa lược đồ được phát triển cho bộ thử nghiệm TPC-H, vào Cụm dữ liệu lớn SQL Server của chúng tôi . Các bảng lớn được tải vào kho lưu trữ HDFS trên cụm trong khi các bảng nhỏ hơn được đưa vào cơ sở dữ liệu SQL Server và Oracle, vì vậy các thử nghiệm của chúng tôi có thể sử dụng các truy vấn trải rộng trên cả ba nguồn dữ liệu.

Trường hợp sử dụng của chúng tôi chứng minh khả năng ảo hóa dữ liệu PolyBase để truy vấn cả ba nguồn dữ liệu mà không cần ETL. Chúng tôi cũng triển khai một trường hợp sử dụng thử nghiệm để tạo nhóm dữ liệu Cụm dữ liệu lớn. Chúng tôi sử dụng nhóm dữ liệu để lưu trữ dữ liệu và lưu vào bộ nhớ đệm. Chúng tôi cũng trình bày cách lưu trữ dữ liệu từ cơ sở dữ liệu Oracle để mô phỏng cách nhà phát triển hoặc nhà khoa học dữ liệu có thể cải thiện hiệu suất phân tích.

 

Mục đích của tài liệu

Trong sách trắng này, chúng tôi mở rộng thông tin có sẵn từ Microsoft và hệ sinh thái Cụm dữ liệu lớn SQL Server bằng cách cung cấp thông tin chi tiết về từng lớp kiến ​​trúc và mô tả cách áp dụng kiến ​​trúc cho các trường hợp sử dụng thông thường của khách hàng. Ngoài ra, chúng tôi khám phá sự giao thoa giữa Cụm dữ liệu lớn của SQL Server và PolyBase để hỗ trợ dữ liệu lớn và kết nối phạm vi dữ liệu của bạn. Trường hợp sử dụng trong sách trắng này được thiết kế để cho thấy cách các nhà phát triển và nhà khoa học dữ liệu có thể dễ dàng hỗ trợ hệ sinh thái Cụm dữ liệu lớn bằng PowerFlex, VMware, Docker và Kubernetes. Chúng tôi cũng mô tả cách sử dụng plug-in Dell EMC CSI cho hệ thống PowerFlex cho phép tự động hóa và điều phối toàn diện để phối hợp các hệ thống máy chủ và lưu trữ nhằm triển khai cấu hình Cơ sở hạ tầng được xác định bằng phần mềm này.

 

Khán giả

Sách trắng này dành cho các chuyên gia CNTT muốn tìm hiểu về lợi ích của việc triển khai Cụm dữ liệu lớn của SQL Server với bộ chứa Docker và tự động hóa Kubernetes với hệ thống PowerFlex trong trung tâm dữ liệu.

 

Thuật ngữ

Bảng sau đây định nghĩa một số thuật ngữ được sử dụng trong sách trắng này:

Bảng 1. Thuật ngữ

Thuật ngữ Sự miêu tả
Thùng đựng hàng Một dạng ảo hóa được xác định bằng phần mềm đóng gói một ứng dụng và các phần phụ thuộc của nó. Docker là một định dạng vùng chứa được sử dụng rộng rãi và dựa trên công nghệ vùng chứa Linux. Vì bộ chứa Docker là một tiêu chuẩn được chấp nhận rộng rãi nên nhiều hình ảnh bộ chứa dựng sẵn có sẵn để triển khai trên các hệ thống hỗ trợ định dạng Docker.
Cụm Kubernetes Một phiên bản có tính khả dụng cao của hệ thống điều phối vùng chứa nguồn mở để tự động hóa việc triển khai, mở rộng quy mô và quản lý ứng dụng. Một số khái niệm trừu tượng có thể có của cụm Kubernetes là các ứng dụng, mặt phẳng dữ liệu, mặt phẳng điều khiển, cơ sở hạ tầng cụm và hoạt động của cụm. Cụm Kubernetes bao gồm một tập hợp các máy được gọi là nút.
Nút cụm Kubernetes Một nút chạy các ứng dụng được đóng gói. Nó có thể là máy vật lý hoặc máy ảo (VM). Một cụm Kubernetes có thể chứa hỗn hợp các nút máy vật lý và VM. Một nút của cụm được chỉ định là nút chính, được sử dụng để điều khiển cụm. Các nút còn lại là các nút công nhân. Bậc thầy Kubernetes chịu trách nhiệm phân phối công việc giữa các công nhân và theo dõi tình trạng của cụm.
Nhóm Kubernetes Một nhóm bao gồm một hoặc nhiều vùng chứa được đảm bảo nằm cùng vị trí trên nút công nhân và có thể chia sẻ tài nguyên. Đơn vị lập lịch cơ bản và đơn vị triển khai tối thiểu của Kubernetes là một nhóm. Các nhóm Kubernetes được chỉ định một địa chỉ IP duy nhất trong cụm, cho phép các ứng dụng trong nhóm sử dụng cổng mà không có nguy cơ xung đột. Kubernetes master tự động gán các nhóm cho các nút trong cụm.