PowerFlex chuyển đổi dữ liệu lớn như thế nào với VMware Greenplum

Nhanh lên! Tin tức vừa mới được đưa ra. Có một sáng kiến ​​mới yêu cầu cơ sở dữ liệu xử lý song song hàng loạt (MPP) và bạn chịu trách nhiệm triển khai sáng kiến ​​đó. Bạn sẽ làm gì? May mắn thay, bạn biết câu trả lời. Bạn cũng vừa phát hiện ra rằng nhóm Dell PowerFlex Solutions đã cung cấp cho bạn hướng dẫn giải pháp cho VMware Greenplum.

Hướng dẫn giải pháp có gì và nó sẽ giúp ích như thế nào với cơ sở dữ liệu MPP? Blog này cung cấp câu trả lời. Chúng ta hãy xem Greenplum là gì và cách tận dụng Dell PowerFlex cho cả tài nguyên lưu trữ và tính toán trong Greenplum.

Tính linh hoạt của cơ sở hạ tầng: PowerFlex

Nếu bạn đã đọc các blog khác của tôi hoặc quen thuộc với PowerFlex, bạn sẽ biết nó có các đặc tính chuyển đổi mạnh mẽ. Ví dụ, các nút PowerFlex đôi khi hoạt động như cả lưu trữ và tính toán, giống như cơ sở hạ tầng siêu hội tụ (HCI). Vào những thời điểm khác, PowerFlex hoạt động như một nút chỉ lưu trữ (SO) hoặc một nút chỉ tính toán (CO). Thậm chí thú vị hơn, các loại nút này có thể được kết hợp và khớp trong cùng một môi trường để đáp ứng nhu cầu của tổ chức và khối lượng công việc mà chúng chạy.    

Thuộc tính biến đổi này của PowerFlex hữu ích trong triển khai Greenplum, đặc biệt là với cấu hình được mô tả trong hướng dẫn giải pháp. Vì triển khai được xây dựng trên PostgreSQL mã nguồn mở nên được tối ưu hóa cho nhu cầu của cơ sở dữ liệu MPP, như Greenplum. PowerFlex có thể cung cấp hiệu suất tính toán cần thiết để hỗ trợ IO dữ liệu lớn với các nút CO của nó. Cơ sở hạ tầng PowerFlex cũng có thể hỗ trợ khối lượng công việc chạy trên các nút CO hoặc các nút kết hợp tính toán và lưu trữ (các nút lai). Bằng cách tận dụng bản chất dễ uốn nắn của PowerFlex, không cần thêm các silo trong trung tâm dữ liệu và thậm chí có thể giúp loại bỏ các silo hiện có.

Kiến trúc được sử dụng trong hướng dẫn giải pháp bao gồm 12 nút CO và 10 nút SO. Các nút CO được cài đặt VMware ESXi, với các phiên bản Greenplum được triển khai ở trên cùng. Có 10 phân đoạn và một giám đốc được triển khai cho môi trường Greenplum. Nút CO thứ 12 được sử dụng để dự phòng.

Tầng lưu trữ sử dụng 10 nút SO để cung cấp 12 ổ đĩa được hỗ trợ bởi SSD. Cấu hình này tạo ra một hệ thống lưu trữ tốc độ cao, dự phòng cao cần thiết cho Greenplum. Ngoài ra, hai miền bảo vệ được sử dụng để cung cấp cả lưu trữ chính và lưu trữ phản chiếu cho các phiên bản Greenplum. Greenplum phản chiếu các ổ đĩa giữa các miền bảo vệ đó, thêm một cấp độ bảo vệ bổ sung cho môi trường, như thể hiện trong hình sau:

Bằng cách sử dụng kiến ​​trúc linh hoạt và có thể cấu hình này, các thành phần có thể được mở rộng độc lập với nhau, cho phép tăng dung lượng lưu trữ độc lập hoặc cùng với tính toán. Quản trị viên có thể sử dụng cấu hình này để tối ưu hóa việc sử dụng và cung cấp tài nguyên phù hợp khi cần mà không tạo ra các silo trong môi trường.  

Kiểm tra và xác thực với Greenplum: chúng tôi đã hỗ trợ bạn

Hướng dẫn giải pháp không chỉ mô tả cách xây dựng môi trường Greenplum mà còn đề cập đến việc thử nghiệm, mà nhiều quản trị viên muốn thực hiện trước khi hoàn tất bản dựng. Hướng dẫn bao gồm việc thực hiện các xác thực cơ bản với FIO và gpcheckperf . Nói một cách đơn giản nhất, các công cụ này đảm bảo rằng hiệu suất IO, bộ nhớ và mạng là chấp nhận được. Các thử nghiệm FIO được chạy cho hướng dẫn cho thấy HBA đã bão hòa hoàn toàn, tối đa hóa cả hoạt động đọc và ghi. Thử nghiệm gpcheckperf cho thấy hiệu suất là 14.283,62 MB/giây cho khối lượng công việc ghi.

Bạn sẽ không cảm thấy tốt hơn nếu môi trường Greenplum được thử nghiệm với một tập dữ liệu thực tế sao? Nghĩa là, đưa nó vượt ra ngoài các con số tối thiểu, tối đa và trung bình? Tin tuyệt vời là kiến ​​trúc đã được thử nghiệm theo cách đó! Nhóm Dell Digital của chúng tôi đã phát triển một bộ kiểm tra nội bộ chạy dữ liệu chuẩn tĩnh. Bộ kiểm tra này được sử dụng tại Dell Technologies trên các môi trường Greenplum mới như là tiêu chuẩn vàng cho các triển khai mới.

Trong thiết kế thử nghiệm này, tất cả các tập dữ liệu và truy vấn đều tĩnh. Kịch bản này cho phép đo lường nhất quán môi trường từ lần chạy này sang lần chạy khác. Nó cũng cung cấp đường cơ sở của môi trường có thể được sử dụng theo thời gian để xem hiệu suất của môi trường đó đã thay đổi như thế nào — ví dụ, nếu môi trường tăng tốc hoặc chậm lại sau khi cập nhật phần mềm.

Hiệu suất lớn với dữ liệu thực tế

Vậy kiến ​​trúc đã hoạt động như thế nào? Nó đã hoạt động rất tốt! Khi 182 truy vấn phức tạp song song được chạy đồng thời để gây áp lực cho hệ thống, chỉ mất chưa đầy 12 phút để chạy thử nghiệm. Trong thời gian đó, môi trường có băng thông đọc là 40 GB/giây và băng thông ghi là 10 GB/giây. Những kết quả này đang sử dụng các truy vấn dựa trên sản xuất thực tế từ khối lượng công việc của nhóm Dell Digital. Những kết quả này gần như bão hòa băng thông mạng cho môi trường, điều này cho thấy không có tình trạng tắc nghẽn lưu trữ.

Thiết kế được đề cập trong hướng dẫn giải pháp này không chỉ đơn thuần xác minh rằng môi trường có thể xử lý khối lượng công việc mà còn cho thấy cách cấu hình có thể duy trì hiệu suất trong quá trình vận hành đang diễn ra.

Duy trì hiệu suất bằng ảnh chụp nhanh

Một trong những lĩnh vực chính mà chúng tôi đã thử nghiệm là tác động của ảnh chụp nhanh đến hiệu suất. Ảnh chụp nhanh là hoạt động thường xuyên trong các trung tâm dữ liệu và được sử dụng để tạo bản sao dữ liệu thử nghiệm cũng như nguồn sao lưu. Vì lý do này, hãy xem xét tác động của ảnh chụp nhanh đến cơ sở dữ liệu MPP khi xem xét một môi trường, không chỉ tốc độ thực hiện của cơ sở dữ liệu khi mới triển khai.

Trong thử nghiệm của mình, chúng tôi đã sử dụng khả năng chụp nhanh gốc của PowerFlex để đo lường tác động của ảnh chụp nhanh lên hiệu suất. Sử dụng ảnh chụp nhanh PowerFlex mang lại sự linh hoạt đáng kể trong bảo vệ dữ liệu và các hoạt động sao chép thường được thực hiện trong các trung tâm dữ liệu.

Chúng tôi thấy rằng khi chụp ảnh nhanh nhất quán về lưu trữ đầu tiên của các khối cơ sở dữ liệu được thực hiện, thử nghiệm mất nhiều thời gian hơn 45 giây để hoàn tất so với các thử nghiệm ban đầu. Kết quả này là do đây là ảnh chụp nhanh đầu tiên của các khối. Các ảnh chụp nhanh tiếp theo trong quá trình thử nghiệm dẫn đến tác động tối thiểu đến môi trường. Tác động tối thiểu này có ý nghĩa quan trọng đối với các cơ sở dữ liệu MPP trong đó hiệu suất là quan trọng. (Tất nhiên, hiệu suất có thể thay đổi theo từng lần triển khai.)  

Chúng tôi hy vọng rằng những phát hiện này giúp các quản trị viên đang xây dựng môi trường Greenplum cảm thấy thoải mái hơn. Bạn không chỉ có hướng dẫn giải pháp để tham khảo khi thiết kế môi trường, bạn có thể tự tin rằng nó được xây dựng trên cơ sở hạ tầng tốt nhất trong lớp và được xác thực bằng các công cụ kiểm tra phổ biến và các truy vấn thực tế.

Dòng cuối cùng

Bây giờ bạn đã biết nhiệm vụ xây dựng cơ sở dữ liệu MPP bằng VMware Greenplum — bạn có sẵn sàng cho thử thách này không?

Nếu bạn là, hãy đảm bảo đọc hướng dẫn giải pháp . Nếu bạn cần hướng dẫn bổ sung về việc xây dựng môi trường Greenplum trên PowerFlex, hãy đảm bảo liên hệ với đại diện Dell của bạn.