Grace Dưới Áp Lực — PowerFlex Tái Thiết Siêu Năng Lực

Bài viết đầu tiên trong loạt bài này, “ Giải thích về khả năng phục hồi — Hiểu về kiến ​​trúc tự phục hồi, tự cân bằng của PowerFlex ”, đã trình bày tổng quan về cách kiến ​​trúc hệ thống PowerFlex cung cấp hiệu suất và độ tin cậy vượt trội. Hôm nay, chúng tôi sẽ đưa bạn đến một cấp độ chi tiết khác với các ví dụ cụ thể về khả năng phục hồi.

Cảnh báo: Thông tin trong blog này có thể khiến bạn muốn có kết quả tương tự từ các nhà cung cấp khác.

PowerFlex sở hữu một số siêu năng lực đáng kinh ngạc mang lại kết quả hiệu suất chạy một số ứng dụng đòi hỏi khắt khe nhất thế giới. Nhưng điều gì xảy ra khi bạn gặp phải sự cố bất ngờ như mất ổ đĩa, nút hoặc thậm chí là giá đỡ máy chủ? Ngay cả các lần ngừng hoạt động theo kế hoạch để bảo trì cũng có thể dẫn đến lỗ hổng hoặc mức hiệu suất giảm, NẾU bạn sử dụng các kiến ​​trúc bảo vệ dữ liệu thông thường như RAID.

Xin nhắc lại, PowerFlex là hệ thống lưu trữ được xác định bằng phần mềm hiệu suất cao cung cấp hệ thống tính toán và lưu trữ trong một kết cấu thống nhất với khả năng đàn hồi để mở rộng quy mô tính toán, lưu trữ hoặc cả hai để phù hợp với khối lượng công việc. PowerFlex sử dụng phương tiện gắn trực tiếp hoàn toàn bằng flash nằm trên các máy chủ x86 tiêu chuẩn sử dụng bộ điều hợp HBA tiêu chuẩn công nghiệp và NIC ethernet 10 Gb/giây hoặc cao hơn kết nối các máy chủ. Các hệ thống mở rộng từ 4 nút đến 1000+ nút đa giá đỡ trong khi tăng dung lượng, tăng tuyến tính IOPS, tất cả trong khi vẫn duy trì độ trễ dưới mili giây.

Bảo vệ mạnh mẽ

PowerFlex xử lý việc sắp xếp dữ liệu động để đảm bảo KHÔNG có điểm nóng nào, do đó QoS là một điểm thiết kế cơ bản chứ không phải là một “bản sửa lỗi” bổ sung được nghĩ ra sau cho một sơ đồ kiến ​​trúc dữ liệu kém; không cần vị trí dữ liệu. PowerFlex xử lý vị trí của dữ liệu để đảm bảo không có điểm lỗi đơn lẻ nào và nó phân phối lại các khối dữ liệu một cách động nếu bạn mất ổ đĩa, thêm một nút, đưa một nút ra khỏi mạng hoặc có sự cố máy chủ (có kế hoạch hoặc không có kế hoạch) chứa một số lượng lớn ổ đĩa. Nó tự động cân bằng tải việc sắp xếp dữ liệu khi việc sử dụng bộ nhớ thay đổi theo thời gian hoặc khi mở rộng nút.

Kiến trúc phần mềm được cấp bằng sáng chế làm nền tảng cho PowerFlex không sử dụng cơ chế bảo vệ RAID thông thường. RAID có mục đích riêng và thậm chí các tùy chọn như mã hóa xóa cũng có vai trò trong bảo vệ dữ liệu. Những tùy chọn này còn thiếu điều gì? Hãy sử dụng một vài phép so sánh để so sánh cơ chế bảo vệ RAID và PowerFlex truyền thống:

Đột kích

Hãy nghĩ về RAID như một bố cục nhiều cốc, trong đó bạn muốn đảm bảo mỗi lần ghi dữ liệu vào nhiều cốc. Nếu bạn mất một cốc, bạn không nhất thiết phải sắp xếp lại dữ liệu. Bạn được bảo vệ khỏi mất dữ liệu, nhưng nếu không có sự phân phối lại, bạn vẫn đang hoạt động ở trạng thái lỗi thời và có khả năng dễ bị lỗi bổ sung cho đến khi phần cứng thay thế. Nếu bạn muốn nhiều hơn một cấp độ lỗi cốc, bạn có nhiều lần ghi để có nhiều cốc, điều này tạo ra nhiều chi phí hơn (đặc biệt là trong bộ lưu trữ được xác định bằng phần mềm so với hệ thống dựa trên bộ điều khiển RAID phần cứng). Nó vẫn chỉ quan tâm đến việc bảo vệ dữ liệu chứ không nhất thiết phải phục hồi hiệu suất.

Điện năng linh hoạt

Hãy nghĩ về bố cục kiến ​​trúc của dữ liệu như một bàn cờ ba chiều, nơi chúng tôi đảm bảo vị trí dữ liệu giữ cho dữ liệu của bạn an toàn. Trong bố cục bàn cờ, chúng tôi có thể nhanh chóng sắp xếp lại các quân cờ nếu bạn mất một ô trên bàn cờ hoặc một hàng/cột hoặc thậm chí là toàn bộ bàn cờ. Sắp xếp lại dữ liệu để đảm bảo luôn có hai bản sao của dữ liệu để bảo vệ liên tục  khôi phục hiệu suất. Khía cạnh ba chiều đến từ tất cả các nút và tất cả các ổ đĩa tham gia vào quá trình cân bằng lại. Hệ thống quản lý siêu dữ liệu điều phối liền mạch việc phân phối lại và cân bằng vị trí dữ liệu.

Cho dù hệ thống có sự cố mất điện theo kế hoạch hoặc không theo kế hoạch hoặc nâng cấp hoặc thay thế nút, thì việc cân bằng lại tự động này diễn ra nhanh chóng vì mọi ổ đĩa trong nhóm đều tham gia. Càng nhiều nút và càng nhiều ổ đĩa, thì quá trình tái tạo bất kỳ quy trình xây dựng lại dữ liệu nào càng nhanh. Trong giải pháp PowerFlex được xác định bằng phần mềm, bạn không cần lo lắng về cấp độ RAID hay sự đánh đổi hiệu suất, nó chỉ được xử lý cho bạn một cách liền mạch trong nền mà không có bất kỳ biến chứng khó chịu nào mà RAID thường gây ra hoặc cần bất kỳ bộ điều khiển phần cứng chuyên dụng nào và chi phí liên quan.

Kết quả

Xây dựng lại ổ đĩa

PowerFlex xem xét dữ liệu thực tế được lưu trữ trên mỗi ổ đĩa thay vì coi toàn bộ dung lượng ổ đĩa là những gì cần khôi phục. Trong ví dụ này, ổ đĩa bị lỗi. Các mức dữ liệu được minh họa ở đây biểu thị tổng dung lượng đã sử dụng trong các ví dụ cấu hình 6, 9 hoặc 12 nút này (chúng ta có thể mở rộng lên hơn 1.000 nút). Các mức 25%, 50% và 75% cho thấy thời gian xây dựng lại tương đối cho ổ SSD SAS 960GB này để quay lại khôi phục dữ liệu về trạng thái khỏe mạnh hoàn toàn (được bảo vệ lại).

Chúng tôi đang cho bạn thấy một kịch bản xây dựng lại để nhấn mạnh hiệu suất, nhưng đưa nó lên một cấp độ khác, bạn sẽ không cần phải thay ổ đĩa khẩn cấp vì chúng tôi tận dụng việc phân phối lại dữ liệu sang các ổ đĩa khác để bảo vệ và duy trì hiệu suất trong khi sử dụng không gian dự phòng ảo do tất cả các ổ đĩa cung cấp để lấp đầy khoảng trống. Không giống như RAID, chúng tôi không cần phải thay ổ đĩa để đưa hệ thống trở lại trạng thái hoạt động hoàn toàn. Bạn có thể thay ổ đĩa khi thuận tiện.

Lưu ý một số điều:

  • Nhiều nút hơn = ít thời gian xây dựng lại hơn! Hãy thử cách này nếu bạn mở rộng các tùy chọn thay thế và tôi nghĩ bạn sẽ thấy kết quả ngược lại.
  • Hiệu suất xây dựng lại gần như tuyến tính được cải thiện khi bạn thêm nhiều ổ đĩa và nút hơn. Hãy tưởng tượng nếu điều này cho thấy nhiều nút hơn tham gia vào quá trình xây dựng lại!
  • Mật độ dữ liệu cao hơn không dẫn đến sự gia tăng tuyến tính trong thời gian xây dựng lại. Như bạn thấy trong cấu hình 12 nút, nó bắt đầu hội tụ tại một điểm biến mất.

Phần này minh họa những gì xảy ra khi bạn có 35, 53 và 71 ổ đĩa tham gia vào quá trình xây dựng lại song song cho cấu hình sáu, chín và mười hai nút tương ứng.

Xây dựng lại nút (6 ổ đĩa)

Ở đây chúng tôi trình bày một ví dụ sử dụng mức tải dữ liệu tương tự trên các nút. Mỗi nút chứa sáu ổ đĩa với tối đa 5,76 TB cần được xây dựng lại. Toàn bộ cụm ổ đĩa tham gia vào việc tiếp quản khối lượng công việc, tự động sắp xếp lại vị trí dữ liệu và đảm bảo cụm luôn có hai bản sao dữ liệu nằm trên các nút khác nhau. Cũng giống như trong ví dụ xây dựng lại ổ đĩa ở trên, quy trình tận dụng tất cả các ổ đĩa còn lại từ cụm để thực hiện quy trình xây dựng lại để trở về trạng thái được bảo vệ hoàn toàn. Điều đó có nghĩa là đối với cấu hình sáu nút, có 30 ổ đĩa tham gia vào quá trình xây dựng lại song song, 48 ổ đĩa trong cấu hình chín nút và 66 ổ đĩa trong mười hai nút.

Lưu ý một lần nữa sự cải thiện gần như tuyến tính trong thời gian xây dựng lại khi bạn tăng số lượng nút và ổ đĩa. Giống như trong kịch bản xây dựng lại ổ đĩa, thời gian xây dựng lại nút được quan sát cũng có xu hướng tiến tới điểm biến mất đối với các mức độ bão hòa dữ liệu khác nhau.

Như đã đề cập trước đó, PowerFlex mở rộng tới hơn 1000 nút. Hãy lấy một kịch bản mà bạn cần tác động đến toàn bộ một giá đỡ máy chủ và vẫn hoạt động và có thể phục hồi (điều không thể nghĩ tới trong các kiến ​​trúc thông thường) và bạn sẽ thấy lý do tại sao những khách hàng lớn nhất của chúng tôi phụ thuộc vào PowerFlex.

Chi tiết thử nghiệm

Nếu các thử nghiệm trên chỉ được thực hiện để thể hiện thời gian xây dựng lại tốt nhất, chúng tôi sẽ chỉ chạy các hệ thống này mà không có bất kỳ công việc thực tế nào khác xảy ra. Tuy nhiên, điều đó sẽ không phản ánh một kịch bản thực tế trong đó mục đích là tiếp tục hoạt động bình thường và vẫn phục hồi đến mức hoạt động đầy đủ.

Các thử nghiệm này được thực hiện với cài đặt xây dựng lại mặc định của PowerFlex là một I/O đồng thời cho mỗi ổ đĩa. Đối với những khách hàng có nhu cầu cấp thiết hơn là quay lại chế độ được bảo vệ hoàn toàn, PowerFlex có thể được cấu hình để tăng tốc việc xây dựng lại như một ưu tiên. Để tối ưu hóa việc xây dựng lại nhiều hơn mức minh họa, bạn có thể đặt số lượng I/O đồng thời cho mỗi ổ đĩa thành hai hoặc nhiều hơn hoặc thậm chí không giới hạn. Vì việc thay đổi số lượng I/O cho mỗi ổ đĩa sẽ ảnh hưởng đến độ trễ và IOPS, có thể tác động tiêu cực đến khối lượng công việc, chúng tôi đã chọn minh họa ví dụ mặc định của mình để cố tình cân bằng giữa việc duy trì hiệu suất khối lượng công việc ở mức cao trong khi thực hiện xây dựng lại.

Sử dụng FIO * làm trình tạo I/O lưu trữ, chúng tôi đã chạy các kịch bản xây dựng lại này với ~750k IOPS ngẫu nhiên hoạt động trên cấu hình 12 nút, ~600k IOPS ngẫu nhiên trên 9 nút và ~400k trên 6 nút, tất cả trong khi duy trì mức độ trễ 0,5mS (các ví dụ cụm ở đây có thể điều khiển tốt hơn 1M IOPS ở mức dưới mS). Điều này thể hiện khối lượng công việc khá nặng khi chúng tôi thực hiện các thử nghiệm này. Ngay cả khi trình tạo I/O đang chạy  quá trình xây dựng lại diễn ra, tải CPU vẫn xấp xỉ 20%. Riêng trình tạo I/O chỉ tiêu thụ 8 đến 10% dung lượng CPU khả dụng. Cả hai số liệu sử dụng CPU đều nhấn mạnh hiệu quả cơ sở hạ tầng được xác định bằng phần mềm vốn có của PowerFlex, giúp để lại nhiều dung lượng khả dụng để lưu trữ khối lượng công việc của ứng dụng. Trong kịch bản trường hợp thử nghiệm này, cả tính toán và lưu trữ đều chiếm cùng một nút (siêu hội tụ), nhưng hãy nhớ rằng chúng ta cũng có thể chạy cấu hình 2 lớp bằng cách sử dụng các nút chỉ tính toán và chỉ lưu trữ để mở rộng không đối xứng.

Các hệ thống được sử dụng cho các thử nghiệm này có cấu hình sau. Lưu ý rằng chúng tôi sử dụng sáu ổ đĩa cho mỗi nút trong khung máy R740xd có thể chứa 24 ổ đĩa, nghĩa là có thêm 18 khe cắm cho các ổ đĩa bổ sung. Như đã lưu ý trước đó, nhiều ổ đĩa hơn có nghĩa là nhiều khả năng song song hơn cho hiệu suất và tốc độ xây dựng lại.

  • 12x nút R740xd với 2 ổ cắm Intel Xeon Gold 2126 2,6Ghz (12 lõi / ổ cắm)
  • Sáu chiếc có RAM 256GB và sáu chiếc sử dụng RAM 192GB

Phần kết luận

PowerFlex cung cấp hiệu suất quy mô đám mây với sự duyên dáng vô song dưới áp lực độ tin cậy để cung cấp sản phẩm lưu trữ khối được xác định bằng phần mềm với sáu chín khả dụng. Hãy chắc chắn đọc Phần 1 của blog này “ Giải thích về khả năng phục hồi — Hiểu về kiến ​​trúc tự phục hồi, tự cân bằng của PowerFlex ” để xem các thành phần kiến ​​trúc bảo vệ khác không được đề cập ở đây. Để biết thêm thông tin về khối lượng công việc quan trọng đã được xác thực của chúng tôi như Oracle RAC, SAP HANA, MySQL, MongoDB, SAS, Elastic, VDI, Cassandra và các ứng dụng khác biệt trong kinh doanh, vui lòng truy cập trang sản phẩm PowerFlex của chúng tôi .