Làm gì với tất cả dữ liệu đó? Trả lời: SingleStore trên PowerFlex

Mọi tổ chức đều có dữ liệu, mọi tổ chức đều có cơ sở dữ liệu, mọi tổ chức đều phải tìm ra cách xử lý tất cả dữ liệu từ các cơ sở dữ liệu đó. Theo nghiên cứu của Đại học Tennessee, Cao đẳng Kinh doanh Haslam của Knoxville, có 44 zettabyte dữ liệu vào năm 2020 và ước tính đến năm 2025, sẽ có 463 exabyte dữ liệu được tạo ra mỗi ngày. Đó là một lượng dữ liệu lớn và ngay cả khi tổ chức của bạn chỉ đóng góp một phần nhỏ của một phần trăm vào 463 exabyte dữ liệu đó mỗi ngày, thì đó vẫn là một lượng dữ liệu lớn cần quản lý. Một cách tiếp cận tuyệt vời đối với đại dương dữ liệu hiện đại này là sử dụng SingleStore trên Dell PowerFlex .

Gần đây, Dell và SingleStore đã phát hành một bài báo chung về xác thực môi trường SingleStore ảo hóa chạy trên PowerFlex. Bài báo cung cấp tổng quan về các công nghệ được sử dụng và sau đó xem xét kiến ​​trúc có thể được sử dụng để chạy SingleStore trên PowerFlex. Sau đó, bài báo xem xét cách môi trường được xác thực.

Cửa hàng đơn lẻ

Trước khi đi vào chi tiết của bài báo, tôi ngờ rằng có thể có một số độc giả chưa nghe về SingleStore hoặc biết về một số tính năng tuyệt vời của nó, vì vậy chúng ta hãy bắt đầu từ đó. Được xây dựng cho các nhà phát triển và kiến ​​trúc sư, SingleStoreDB dựa trên kiến ​​trúc SQL phân tán, cung cấp hiệu suất 10–100 mili giây cho các truy vấn phức tạp—đồng thời đảm bảo rằng tổ chức của bạn có thể dễ dàng mở rộng quy mô. Bây giờ chúng ta hãy đi sâu hơn một chút….

SingleStoreDB:

  • Có thể mở rộng theo chiều ngang, cung cấp thông lượng cao trên nhiều nền tảng khác nhau.
  • Duy trì khả năng tương thích rộng rãi với các công nghệ phổ biến trong hệ sinh thái xử lý dữ liệu hiện đại (ví dụ: nền tảng phối hợp, IDE dành cho nhà phát triển và công cụ BI), do đó bạn có thể dễ dàng tích hợp vào môi trường hiện tại của mình.
  • Có kho lưu trữ hàng trong bộ nhớ và kho lưu trữ cột trên đĩa để xử lý cả khối lượng công việc phân tích và vận hành đồng thời.
  • Có công nghệ thu thập dữ liệu SingleStore Pipelines truyền trực tuyến lượng lớn dữ liệu với thông lượng cao vào cơ sở dữ liệu chỉ với một lần ngữ nghĩa.

Điều này có nghĩa là bạn có thể tiếp tục chạy các truy vấn SQL truyền thống của mình trên mọi dữ liệu đang phát triển, tất cả đều nằm trên một hệ thống phân tán và bạn có thể thực hiện nhanh chóng. Đây là một chiến thắng lớn cho các tổ chức có sự phát triển dữ liệu tích cực trong môi trường của họ.

Điều làm cho điều này thậm chí còn tốt hơn là khả năng mở rộng của PowerFlex từ một vài nút lên hàng nghìn. Điều này cung cấp một vài tùy chọn khác nhau để phù hợp với nhu cầu ngày càng tăng của bạn. Bạn có thể bắt đầu chỉ với hệ thống SingleStore của mình được triển khai trên PowerFlex và di chuyển các khối lượng công việc khác vào môi trường PowerFlex khi có thời gian. Điều này cho phép bạn chỉ tập trung vào môi trường cơ sở dữ liệu của mình để bắt đầu và sau đó, khi cơ sở hạ tầng được gia hạn, bạn di chuyển các khối lượng công việc đó và mở rộng môi trường của mình với nhiều khả năng tính toán và lưu trữ hơn.

Hoặc có thể bạn đang đóng góp nhiều hơn vào 463 exabyte dữ liệu mỗi ngày mà tôi đã đề cập trước đó và bạn cần mở rộng môi trường của mình để xử lý sự tăng trưởng của dữ liệu. Bạn cũng có thể làm như vậy!

Đó là điều tuyệt vời của PowerFlex, bạn có thể sử dụng tài nguyên độc lập với nhau. Bạn có thể thêm dung lượng lưu trữ hoặc tính toán khi cần.

Ngoài ra, với PowerFlex, bạn có thể cung cấp môi trường bare-metal và ảo hóa mà không cần phải chỉ chọn một. Đúng vậy—bạn có thể chạy máy chủ bare-metal ngay bên cạnh khối lượng công việc ảo hóa.

Ngành kiến ​​​​trúc

Cách các kỹ sư xây dựng môi trường này là sử dụng PowerFlex được triển khai trong cấu hình cơ sở hạ tầng siêu hội tụ (HCI) trong đó các nút tính toán cũng là các nút lưu trữ. (PowerFlex hỗ trợ cả kiến ​​trúc hai tầng và HCI.) 

Như được thể hiện trong sơ đồ sau, nhóm kỹ thuật của chúng tôi đã sử dụng năm máy chủ Dell PowerEdge R640 với CPU kép, RAM 384 GB và tám ổ SSD cho mỗi nút. Năm nút này được định cấu hình là các nút HCI và được kết nối với mạng 25 Gbps. Lưu trữ từ khắp các nút được tổng hợp để tạo ra một nhóm lưu trữ được xác định bằng phần mềm lớn như một miền bảo vệ duy nhất cung cấp khối lượng cho các VM SingleStore. Điều này lý tưởng ngay cả đối với các cơ sở dữ liệu đòi hỏi khắt khe nhất do khả năng I/O cao của nó.

Đối với xác thực này, SingleStore Cluster VM bao gồm hai VM tổng hợp và nhiều VM lá. Sách trắng nêu chi tiết cấu hình của các VM này.

Ngoài ra, sách trắng cung cấp tổng quan về các bước được sử dụng để triển khai SingleStore trên VMware vSphere trong môi trường PowerFlex. Đối với xác thực này, họ đã làm theo phương pháp giao diện người dùng trực tuyến để triển khai SingleStore.

Kiểm tra

Với môi trường được cấu hình, sách trắng sau đó thảo luận về cách xác thực môi trường bằng TPC-DS . Công cụ này cung cấp 99 truy vấn khác nhau có thể được sử dụng để kiểm tra cơ sở dữ liệu. Đối với xác thực này, chỉ có 95 trong số 99 truy vấn được sử dụng. Sau đó, sách trắng mô tả cả cách tạo bộ dữ liệu mẫu và cách chạy thử nghiệm.

Các thử nghiệm xác thực được chạy trên cấu hình 4, 6 và 8 nút lá. Điều này được thực hiện để hiểu sự thay đổi về hiệu suất khi môi trường mở rộng. Thử nghiệm cho thấy rằng việc có nhiều nút lá SingleStore hơn dẫn đến kết quả hiệu suất tốt hơn.

Việc thử nghiệm cũng cho thấy không có tình trạng tắc nghẽn lưu trữ đối với khối lượng công việc như TPC-DS và việc sử dụng CPU mạnh hơn có thể cải thiện môi trường hơn nữa.

Sách trắng cho thấy cách SingleStore và PowerFlex có thể được sử dụng để tạo ra một môi trường năng động và mạnh mẽ cho nhu cầu dữ liệu ngày càng tăng của bạn khi bạn thực hiện vai trò của mình để đóng góp vào 463 exabyte dữ liệu dự kiến ​​sẽ được tạo ra mỗi ngày vào năm 2025. Để tìm hiểu thêm về thiết kế này, hãy liên hệ với đại diện Dell của bạn.