Hành trình vào không gian phân tích với Dell & Starburst

Silo dữ liệu là mối quan tâm ngày càng tăng đối với các doanh nghiệp ngày nay. Chúng đặt ra những thách thức mới để khám phá, truy cập và kích hoạt dữ liệu. Tại Dell Technologies, chúng tôi đã giúp khách hàng vượt qua những thách thức này trong nhiều năm, từ xây dựng hệ thống phát hiện gian lận cho đến hỗ trợ chăm sóc sức khỏe cứu mạng sống. Chúng tôi hiểu rằng việc thực hiện đúng chiến lược dữ liệu có thể giúp các nhóm giải quyết các vấn đề trong thế giới thực của họ. Dell Technologies đã tham gia vào các nỗ lực xác nhận và kỹ thuật chung để tích hợp sản phẩm máy chủ hàng đầu Dell PowerEdge và Dell ECS hàng đầu của chúng tôi   với các công ty hàng đầu trong ngành trong lĩnh vực Phân tích dữ liệu.  

Hôm nay, chúng tôi vui mừng thông báo sự hợp tác với công ty phân tích hàng đầu Starburst Data, điều này sẽ cho phép khách hàng phân tích của chúng tôi cung cấp kiến ​​trúc linh hoạt và hiệu quả bằng cách kết hợp công cụ truy vấn nhanh nhất và an toàn nhất với các nền tảng phần cứng hàng đầu để tính toán và lưu trữ.

Ảo hóa dữ liệu và phân tích truy vấn liên kết

Starburst được xây dựng dựa trên Trino, công cụ SQL phân tán hiệu suất cao nguồn mở, được biết đến với khả năng chạy các truy vấn phân tích nhanh đối với các nguồn dữ liệu có kích thước từ GB đến PB. Trino trước đây được gọi là PrestoSQL. Trên thực tế, vào năm 2020, chúng tôi đã phát hành sách trắng mô tả cách các khả năng của Presto chuyển đổi hiệu quả đáng kể sang bộ lưu trữ đối tượng Dell ECS và tính năng phong phú của Trino giúp nó giành chiến thắng trong cuộc chiến về giá/hiệu suất trước Hadoop và các công nghệ khác trong hầu hết các trường hợp !

Việc phân phối Trino trên Nền tảng doanh nghiệp Starburst được tạo ra để giúp các doanh nghiệp thu được nhiều giá trị hơn từ việc triển khai Trino của họ thông qua bảo mật toàn cầu với các biện pháp kiểm soát truy cập chi tiết, các bản phát hành ổn định và đáng tin cậy, các trình kết nối bổ sung, bộ nhớ đệm dữ liệu và hỗ trợ doanh nghiệp bao gồm cả hướng dẫn từ nhóm đủ điều kiện nhất của các chuyên gia Trino ở bất cứ đâu.

Vì những lý do này, chúng tôi đã chọn hợp tác với Starburst và triển khai phần mềm của họ trong phòng thí nghiệm của chúng tôi để đánh giá hiệu suất của nó trên phần cứng Dell. Chúng tôi đã sử dụng bộ kiểm tra TPC-DS tiêu chuẩn ngành để đánh giá hiệu suất Starburst bằng cách đo tổng số mục thực hiện cũng như thời gian thực hiện mỗi truy vấn. Chúng tôi cũng thay đổi tài nguyên phần cứng để mô hình hóa hiệu suất của Starburst thay đổi như thế nào. Chúng tôi đã trình bày chi tiết cách thiết lập và thử nghiệm về khả năng tái tạo trong bài báo này. Mục tiêu của chúng tôi là cung cấp cho khách hàng một tài liệu tham khảo thiết kế đã được xác thực để triển khai Starburst và mở rộng quy mô phù hợp theo quy mô khối lượng truy vấn, đồng thời hoặc khối lượng dữ liệu.

Triển khai và mở rộng quy mô trên cơ sở hạ tầng của Dell 

Starburst dựa trên kiến ​​trúc Điều phối viên-Công nhân phân tán. Trong quá trình thiết lập, chúng tôi chạy các nút điều phối và công nhân của Starburst Enterprise trên máy chủ Dell PowerEdge và sử dụng bộ lưu trữ phi cấu trúc như Dell Elastic Cloud Storage (ECS) cho các chế độ xem cụ thể hóa, sản phẩm dữ liệu, bộ nhớ đệm, v.v.

Chúng tôi đã thử nghiệm kiến ​​trúc tham chiếu trên PowerEdge R740XD (14G), nhưng chúng tôi cho rằng danh mục máy chủ PowerEdge mới nhất (15G) có thể nâng hiệu suất lên một tầm cao mới với những cải tiến mang tính thế hệ như:

  • Điện toán hiệu năng cao – mang lại hiệu suất cao hơn tới 43% bằng cách tận dụng bộ xử lý Xeon có thể mở rộng thế hệ thứ 3 của Intel.
  • PCIe Gen 4  – tăng gấp đôi thông lượng so với các thế hệ máy chủ trước đó, với tám làn dữ liệu.
  • Bảo mật toàn diện – với mã hóa dữ liệu, gốc rễ của bảo vệ niềm tin và xác minh chuỗi cung ứng.
  • Cải thiện hiệu quả sử dụng năng lượng – với công nghệ làm mát mới nhất, giúp giảm tới 60% mức tiêu thụ điện năng.
  • Quản lý linh hoạt, tự chủ – tiết kiệm tới 85% thời gian bằng cách giải phóng đôi tay lành nghề của các chuyên gia CNTT cho các dự án quan trọng khác.

Chúng tôi đã sử dụng ECS ​​EX500 làm nguồn hồ dữ liệu. ECS là bộ lưu trữ đối tượng an toàn trên mạng nhất thế giới, cung cấp các dịch vụ đám mây công cộng có thể mở rộng với độ tin cậy và khả năng kiểm soát của cơ sở hạ tầng đám mây riêng. Với sự hỗ trợ giao thức toàn diện cho dữ liệu phi cấu trúc (đối tượng và tệp) và nhiều tùy chọn triển khai (thiết bị chìa khóa trao tay hoặc do phần mềm xác định), ECS có thể hỗ trợ nhiều khối lượng công việc, đặc biệt là phân tích dữ liệu lớn. Và trên hết, Starburst hoạt động liền mạch với ECS!

Khai thác dữ liệu để giải quyết các vấn đề trong thế giới thực

Các nhóm dữ liệu có thể bắt đầu tận dụng sự hợp tác của chúng tôi ngay bây giờ. Thông báo hôm nay cho phép khách hàng:

  • Nhanh chóng triển khai kiến ​​trúc đã được kiểm tra kỹ lưỡng bao gồm phần cứng Dell, Nền tảng doanh nghiệp Starburst và phần mềm khác tại chỗ
  • Hợp tác hiệu quả với bộ phận CNTT để di chuyển dữ liệu một cách thông minh vào hồ dữ liệu/kho dữ liệu dựa trên mô hình sử dụng
  • Ngăn chặn việc khóa nhà cung cấp với sự hỗ trợ cho các định dạng tệp và bảng mở phổ biến nhất
  • Tách biệt tính toán và lưu trữ cũng như mở rộng quy mô một cách linh hoạt và hiệu quả
  • Khai thác những cải tiến trong thế hệ thiết bị ECS mới nhất của chúng tôi làm kho lưu trữ hồ dữ liệu