Phân cụm kéo dài Azure Stack HCI: vì vấn đề khắc phục thảm họa tự động

Nếu lịch sử đã dạy chúng ta điều gì thì đó là thảm họa luôn rình rập và có xu hướng xuất hiện dưới bất kỳ hình thức nào khi chúng ít được mong đợi nhất.

Để khắc phục những trường hợp này, chúng tôi cần các công cụ và công nghệ thích hợp có thể đảm bảo hoạt động trở lại bình thường một cách an toàn, tự động và kịp thời.

Các quy trình khắc phục thảm họa (DR) truyền thống thường phức tạp và đòi hỏi đầu tư cơ sở hạ tầng đáng kể. Chúng cũng tốn nhiều công sức và dễ xảy ra lỗi của con người.

Kể từ tháng 12 năm 2020, tình hình đã thay đổi. Nhờ bản phát hành mới của Microsoft Azure Stack HCI, phiên bản 20H2 , chúng tôi có thể tận dụng tính năng cụm kéo dài Azure Stack HCI mới trên Hệ thống tích hợp Dell EMC cho Microsoft Azure Stack HCI (Azure Stack HCI).

Hệ thống tích hợp dựa trên nền tảng là họ nút AX linh hoạt của chúng tôi và kết hợp khả năng quản lý vòng đời toàn bộ của Dell Technologies với hệ điều hành Microsoft Azure Stack HCI.

Điều quan trọng cần lưu ý là công nghệ này chỉ khả dụng cho hệ thống tích hợp được cung cấp theo danh mục Azure Stack HCI được chứng nhận.

Phân cụm kéo dài Azure Stack HCI cung cấp một giải pháp dễ dàng và tự động (không có sự tương tác của con người nếu muốn) đảm bảo chuyển đổi dự phòng minh bạch của khối lượng công việc sản xuất bị ảnh hưởng bởi thảm họa sang địa điểm thứ cấp an toàn.

Nó cũng có thể được tận dụng để thực hiện các hoạt động theo kế hoạch (chẳng hạn như di chuyển toàn bộ địa điểm hoặc tránh thảm họa), cho đến nay, đòi hỏi nỗ lực thực hiện tốn nhiều công sức và dễ xảy ra lỗi của con người.

Phân cụm kéo dài là một loại cấu hình Bản sao lưu trữ . Nó cho phép khách hàng phân chia một cụm duy nhất giữa hai địa điểm—phòng, tòa nhà, thành phố hoặc khu vực. Nó cung cấp bản sao đồng bộ hoặc không đồng bộ của các khối Storage Spaces Direct để cung cấp khả năng chuyển đổi dự phòng VM tự động nếu xảy ra thảm họa tại cơ sở.

Có hai cấu trúc liên kết khác nhau:

  • Chủ động-Thụ động: Tất cả các ứng dụng và khối lượng công việc chạy trên trang chính (ưu tiên) trong khi cơ sở hạ tầng tại trang phụ vẫn không hoạt động cho đến khi xảy ra chuyển đổi dự phòng.
  • Active-Active: Có các ứng dụng đang hoạt động ở cả hai trang web tại bất kỳ thời điểm nào và quá trình sao chép diễn ra hai chiều từ một trong hai trang web. Thiết lập này có xu hướng sử dụng hiệu quả hơn khoản đầu tư của tổ chức vào cơ sở hạ tầng vì tài nguyên ở cả hai địa điểm đều đang được sử dụng.

Cấu trúc liên kết phân cụm kéo dài Azure Stack HCI: Active-Passive và Active-Active

 Để thực sự tiết kiệm chi phí, các chiến lược bảo vệ dữ liệu tốt nhất kết hợp sự kết hợp của các công nghệ khác nhau (sao lưu trùng lặp, lưu trữ, sao chép dữ liệu, tính liên tục trong kinh doanh và tính di động của khối lượng công việc) để cung cấp mức độ bảo vệ dữ liệu phù hợp cho từng ứng dụng kinh doanh.

Sơ đồ sau đây nêu bật thực tế rằng chỉ một tập dữ liệu rút gọn mới chứa được những thông tin có giá trị nhất. Đây là điểm lý tưởng cho việc phân cụm kéo dài.

Để có trải nghiệm thực tế, các chuyên gia Dell Technologies của chúng tôi đã thử nghiệm phân cụm kéo dài Azure Stack HCI trong thiết lập phòng thí nghiệm sau:

Cấu trúc liên kết mạng cụm phòng thí nghiệm thử nghiệm

 Lưu ý những cân nhắc chính liên quan đến kiến ​​trúc mạng phòng thí nghiệm:

  • Các mạng Bản sao lưu trữ, quản lý và VM trong mỗi địa điểm là các mạng con Lớp 3 duy nhất. Trong Active Directory, chúng tôi đã đặt cấu hình hai trang—Bangalore (Trang 1) và Chennai (Trang 2)—dựa trên các mạng con IP này để các trang chính xác xuất hiện trong Trình quản lý cụm chuyển đổi dự phòng trên cấu hình của cụm kéo dài. Không cần phải cấu hình thủ công bổ sung các miền lỗi cụm.
  • Độ trễ trung bình giữa hai địa điểm là dưới 5 mili giây, cần thiết để sao chép đồng bộ.
  • Các nút cụm có thể đạt được nhân chứng chia sẻ tệp trong yêu cầu độ trễ khứ hồi tối đa 200 mili giây.
  • Các mạng con trong cả hai trang web có thể tiếp cận các máy chủ Active Directory, DNS và DHCP.
  • Mạng được xác định bằng phần mềm (SDN) trên cụm nhiều trang hiện không được hỗ trợ và không được sử dụng cho thử nghiệm này.

Để biết tất cả thông tin chi tiết, hãy xem sách trắng này: Thêm tính linh hoạt cho các gói DR với phân cụm kéo dài cho Azure Stack HCI.

Tuy nhiên, trong blog này, tôi chỉ muốn tập trung vào việc tóm tắt các kết quả mà chúng tôi thu được trong phòng thí nghiệm cho bốn tình huống sau:

  • Tình huống 1: Lỗi nút ngoài kế hoạch
  • Tình huống 2: Lỗi trang web ngoài kế hoạch
  • Tình huống 3: Chuyển đổi dự phòng theo kế hoạch
  • Kịch bản 4: Quản lý vòng đời
Kịch bản Sự kiện Sự cố mô phỏng hoặc sự kiện bảo trì Cụm kéo dài

phản hồi được mong đợi

Cụm kéo dài

phản ứng thực tế

1 Lỗi nút ngoài kế hoạch Nút 1 khi tắt nguồn ở Site 1 Các máy ảo bị ảnh hưởng sẽ chuyển đổi dự phòng sang nút cục bộ khác Trong khoảng 5 phút, tất cả 10 máy ảo trong Nút 1 Trang 1 đã khởi động lại hoàn toàn trong Trang 1 Nút 2.

 

Đây là hành vi được mong đợi vì Trang 1 đã được đặt cấu hình làm trang ưu tiên; nếu không, ổ đĩa hoạt động có thể đã được chuyển sang Trang 2 và các máy ảo sẽ được khởi động lại trên một nút cụm ở Trang 2.

2 Mất điện ở cơ sở 1 Tắt nguồn đồng thời Nút 1 và 2 tại trang 1 Các máy ảo bị ảnh hưởng sẽ chuyển đổi dự phòng sang các nút trên trang phụ Trong 25 phút, tất cả các máy ảo đã được khởi động lại và ứng dụng web đi kèm đã hoàn toàn phản hồi.

 

Khối lượng thuộc sở hữu của các nút trong Trang 2 vẫn trực tuyến trong suốt tình huống lỗi này.

 

Các tập bản sao vẫn ngoại tuyến cho đến khi Trang 1 được khôi phục hoàn toàn.

Khi Trang 1 trực tuyến trở lại, quá trình sao chép đồng bộ lại bắt đầu từ các khối nguồn trong Trang 2 đến các đối tác bản sao đích của chúng trong Trang 1.

3 Chuyển đổi dự phòng theo kế hoạch Thao tác Chuyển hướng trên một ổ đĩa từ Trung tâm quản trị Windows Các máy ảo và khối lượng công việc đã chọn sẽ di chuyển sang trang phụ một cách minh bạch Trong vòng 0 đến 3 phút, ứng dụng được lưu trữ trên máy ảo bị ảnh hưởng có thể truy cập được mà không bị gián đoạn dịch vụ (thời gian tùy thuộc vào việc có cần gán lại IP hay không).

 

Đầu tiên, nút chủ sở hữu cho các tập đã thay đổi thành Nút 2 ở Trang 2 và nút chủ sở hữu cho các tập bản sao đã thay đổi thành Nút 2 ở Trang 1. Không có gián đoạn dịch vụ.

Tại thời điểm này, VM thử nghiệm đang chạy ở Trang 1, nhưng đĩa ảo nằm trên ổ đĩa của nó đang chạy ở Trang 2. Các vấn đề về hiệu suất có thể xảy ra do I/O đang truyền qua các liên kết sao chép trên các trang. Sau khoảng 10 phút, Quá trình di chuyển trực tiếp của máy ảo thử nghiệm sẽ tự động diễn ra (nếu không được khởi tạo thủ công trước đó) để máy ảo sẽ nằm trên cùng một nút với ổ đĩa ảo của nó.

4 Quản lý vòng đời Cập nhật tất cả các nút trong cụm bằng cách sử dụng Cập nhật nhận biết cụm ngăn xếp đầy đủ (CAU) bằng một lần bấm trong Trung tâm quản trị Windows Cụm kéo dài và CAU sẽ hoạt động liền mạch với nhau để cung cấp bản cập nhật cụm ngăn xếp đầy đủ mà không bị gián đoạn dịch vụ và tính di động khối lượng công việc chỉ cục bộ cho các máy ảo được di chuyển trực tiếp Tổng quá trình áp dụng các bản cập nhật hệ điều hành và chương trình cơ sở cho cụm kéo dài mất khoảng 3 giờ và quá trình này không ảnh hưởng đến ứng dụng.

 

Mỗi nút đã bị cạn kiệt và các máy ảo của nó đã được di chuyển trực tiếp sang nút khác trong cùng một trang.

Các liên kết xen kẽ giữa Trang 1 và Trang 2 không bao giờ được sử dụng trong quá trình cập nhật. Ngoài ra, quá trình này chỉ yêu cầu khởi động lại một lần cho mỗi nút.

Hành vi này nhất quán trong suốt quá trình cập nhật tất cả các nút trong cụm kéo dài.

 Tóm lại, Phân cụm kéo dài Azure Stack HCI đã được chứng minh là hoạt động như mong đợi trong những trường hợp khó khăn. Nó có thể dễ dàng được tận dụng để đáp ứng nhiều tình huống bảo vệ dữ liệu, chẳng hạn như:

  • khôi phục CNTT của tổ chức của bạn trong vòng vài phút sau một sự kiện ngoài kế hoạch
  • di chuyển khối lượng công việc đang chạy giữa các địa điểm một cách minh bạch để tránh các thảm họa sắp xảy ra hoặc các hoạt động theo kế hoạch khác
  • tự động xử lý lỗi trên máy ảo và khối lượng công việc của từng nút bị lỗi

Công nghệ này có thể tạo ra sự khác biệt để các doanh nghiệp có thể tự động đứng dậy sau thảm họa, một yếu tố thay đổi hoàn toàn cuộc chơi trong bối cảnh khắc phục thảm họa tự động.