Talking CloudIQ: Điểm số sức khỏe chủ động

Giới thiệu

Đây là bài thứ hai trong loạt bài viết thảo luận về CloudIQ. Trong bài viết đầu tiên , tôi đã cung cấp tổng quan cấp cao về CloudIQ và một số tính năng chính của nó. Tôi sẽ tiếp tục với loạt bài viết, mỗi bài sẽ nói chi tiết hơn về một trong những tính năng chính. Bài viết này thảo luận về một trong những tính năng khác biệt chính của CloudIQ: Điểm sức khỏe chủ động.

Điểm Sức khỏe Chủ động

Điểm sức khỏe chủ động sử dụng nhiều yếu tố khác nhau để cung cấp góc nhìn tổng hợp về sức khỏe của hệ thống thành một điểm sức khỏe duy nhất. Điểm sức khỏe dựa trên tối đa năm hạng mục: Thành phần, Cấu hình, Dung lượng, Hiệu suất và Bảo vệ dữ liệu. Dựa trên điểm sức khỏe thu được, hệ thống được xếp vào một trong ba hạng mục rủi ro: Kém, Trung bình hoặc Tốt. Điểm bắt đầu từ 100 và giảm dần theo vấn đề có mức khấu trừ cao nhất.

Một hệ thống trong danh mục Kém có điểm từ 0 đến 70 và gây ra rủi ro nghiêm trọng sắp xảy ra. Có thể là một nhóm lưu trữ được cung cấp quá mức và đầy, nghĩa là các hệ thống sẽ cố gắng ghi vào bộ lưu trữ không khả dụng. Hoặc có thể là lỗi thành phần đáng kể. Dù vấn đề là gì, thì đó là điều cần được bạn chú ý ngay lập tức.  

Một hệ thống trong danh mục Fair có điểm từ 71 đến 94. Các hệ thống trong danh mục này có một vấn đề cần được xem xét, nhưng chắc chắn không phải là thứ đòi hỏi bạn phải ra khỏi giường lúc 3:00 sáng để giải quyết ngay lập tức. Nó có thể là thứ gì đó như một nhóm lưu trữ được dự đoán sẽ đầy trong một tuần hoặc nhiệt độ đầu vào hệ thống vượt quá ngưỡng cảnh báo trên cùng trên máy chủ PowerEdge.

Một hệ thống trong danh mục Tốt có điểm từ 95 đến 100 và đang hoạt động tốt. Có thể có một vấn đề nhỏ mà bạn cần xem xét, nhưng không có vấn đề đáng kể nào được dự kiến ​​sẽ gây ra bất kỳ vấn đề nào trong thời gian ngắn. Một ví dụ là cổng cáp quang có trạng thái cảnh báo trên bộ chuyển mạch Connectrix.

Bây giờ điều gì xảy ra nếu có nhiều vấn đề trên một hệ thống? Chúng tôi đã ám chỉ điều này trước đó. Điểm số chỉ bị ảnh hưởng bởi vấn đề quan trọng nhất. Giả sử có bốn vấn đề trên một hệ thống: một lần trừ 30 điểm, một lần trừ 10 điểm và hai lần trừ 5 điểm. Trong trường hợp này, điểm số sức khỏe là 70. Khi giải quyết được lần trừ 30 điểm, điểm số sẽ trở thành 90. Chúng tôi làm điều này để ngăn hệ thống có nhiều vấn đề nhỏ xuất hiện ở mức rủi ro cao hoặc rủi ro cao hơn hệ thống có vấn đề đáng kể. 

Hình 1. Trang Sức khỏe hệ thống

Độ phân giải được đề xuất

Vậy bây giờ chúng ta đã được thông báo về sự cố trên hệ thống, chúng ta phải làm gì tiếp theo? Vâng, với CloudIQ, chúng tôi sẽ đưa ra các hành động khắc phục được đề xuất để giải quyết sự cố trước khi nó có tác động đáng kể đến môi trường. Điều này có thể ở dạng thay đổi cấu hình được đề xuất hoặc hành động khác, bài viết trong cơ sở kiến ​​thức có giải pháp hoặc một số lệnh để chạy nhằm thu thập thông tin cần thiết để giải quyết sự cố.

Hình 2. Biện pháp khắc phục được đề xuất

Lịch sử Điểm Sức khỏe

CloudIQ cũng theo dõi lịch sử của Điểm sức khỏe chủ động. Chúng ta có thể thấy cả các vấn đề mới và đã giải quyết dọc theo biểu đồ với phạm vi ngày có thể lựa chọn. Chi tiết về các vấn đề được liệt kê bên dưới biểu đồ. Bằng cách cung cấp lịch sử của điểm sức khỏe, CloudIQ cho phép người dùng xác định các vấn đề có thể tái diễn trong môi trường.

Hình 3. Lịch sử Điểm sức khỏe

Thông báo

Nếu chúng ta không muốn đăng nhập vào CloudIQ hàng ngày hoặc hàng tuần để kiểm tra hệ thống của mình thì sao? Chúng ta có thể dễ dàng được thông báo qua email bất cứ khi nào có thay đổi về tình trạng hệ thống. Những thông báo này có thể được thiết lập cho một tập hợp các hệ thống có thể cấu hình, cho phép người dùng chỉ nhận thông báo cho những hệ thống mà họ chịu trách nhiệm.

Đối với người dùng có động lực hơn, CloudIQ hỗ trợ Webhooks. Với tính năng này, người dùng có thể gửi Webhook cho bất kỳ thông báo thay đổi nào về tình trạng sức khỏe để tích hợp với các công cụ của bên thứ ba như ServiceNow, Slack hoặc Teams. Webhook được gửi cho cả các sự cố mở và đóng với một mã định danh duy nhất. Điều này cho phép người dùng liên hệ sự cố đã giải quyết với sự cố mở để tự động đóng bất kỳ sự cố nào đã tạo. Một số ví dụ về tích hợp Webhook có thể được tìm thấy tại đây .

Phần kết luận

Cho dù là lưu trữ, mạng, siêu hội tụ, máy chủ hay bảo vệ dữ liệu, Điểm sức khỏe chủ động tóm tắt tình trạng sức khỏe của một hệ thống thành một con số duy nhất, cung cấp chỉ báo ngay lập tức về trạng thái của từng hệ thống. Được phát triển song song với các chuyên gia từ mỗi nhóm sản phẩm, bất kỳ sự cố nào được xác định cho một hệ thống đều đi kèm với biện pháp khắc phục được đề xuất để giúp tự phục vụ và nhanh chóng giảm thiểu rủi ro. Và với thông báo qua email và Webhooks, người dùng có thể được thông báo chủ động bất cứ khi nào phát hiện ra sự cố.