Theo dõi tình trạng sức khỏe của PowerScale bằng InsightIQ

Mọi quản trị viên PowerScale đều từng thắc mắc câu hỏi này vào một thời điểm nào đó: ” Làm sao tôi có thể phát hiện các vấn đề sức khỏe như bất thường?”

Để phát hiện ra các bất thường, trước tiên bạn cần hiểu thế nào là bình thường. InsightIQ cung cấp hơn 40 số liệu hiệu suất trong Báo cáo hiệu suất mặc định, nhưng việc điều hướng tất cả chúng có thể rất khó khăn để theo dõi hàng ngày. Thay vì chuyển đổi giữa nhiều biểu đồ, bạn có thể sử dụng Create Report để tùy chỉnh các số liệu theo nhu cầu của mình và xây dựng một báo cáo cơ sở cho các cụm PowerScale của bạn.

Nội dung trong báo cáo cơ sở: Cụm, Mạng và Đĩa

Chúng tôi đề xuất bao gồm số liệu cụm, mạng và đĩa để có được bức tranh toàn cảnh về tình trạng hệ thống PowerScale của bạn.

Số liệu cụm để đo hiệu suất toàn hệ thống
Số liệu mạng để theo dõi luồng dữ liệu
Số liệu đĩa để đảm bảo hiệu suất hiệu quả

Số liệu cụm

Sức khỏe cụm là nền tảng của cơ sở hạ tầng lưu trữ của bạn. Chúng tôi đề xuất thêm các mô-đun hiệu suất sau khi bạn tạo báo cáo cơ sở:

Cụm số liệu

Sự định nghĩa

Sự bất thường

Thực hành tốt nhất

Khách hàng đang hoạt động và Khách hàng đã kết nối

Phần này hiển thị số lượng người dùng hoặc ứng dụng hiện đang truy cập vào cụm.

Sự gia tăng hoặc mất cân bằng đột ngột có thể chỉ ra sự cố về hiệu suất hoặc cân bằng tải được cấu hình sai.

Phân tích các máy khách theo giao thức để hiểu được sự phân bổ khối lượng công việc và đảm bảo cân bằng tải đồng đều trên các nút.

Sử dụng CPU

Tỷ lệ phần trăm công suất CPU được sử dụng trên các nút.

Việc sử dụng CPU cao có thể có nghĩa là hệ thống của bạn đang phải chịu tải nặng, có khả năng gây ra thời gian phản hồi chậm.

Duy trì mức sử dụng CPU dưới 80% cho mỗi nút để tránh suy giảm hiệu suất và lập kế hoạch mở rộng nếu cần thiết.

Nếu một nút bị quá tải, SmartConnect có thể cần điều chỉnh để đảm bảo cân bằng tải tốt hơn.

Số liệu mạng

Các vấn đề về mạng có thể gây ra độ trễ, truyền dữ liệu chậm và thậm chí là lỗi trong quy trình làm việc phân tán. Các số liệu sau đây có thể giúp bạn xác định các điểm nghẽn trước khi chúng ảnh hưởng đến người dùng cuối.

Đo lường mạng	Sự định nghĩa	Sự bất thường	Thực hành tốt nhất
Tốc độ thông lượng mạng bên ngoài	Đo lượng dữ liệu chảy vào và ra khỏi cụm của bạn.	Sự sụt giảm đột ngột có thể là dấu hiệu của tình trạng tắc nghẽn mạng hoặc giao diện bị lỗi.	Theo dõi xu hướng theo thời gian để phát hiện các mô hình và đối chiếu thông lượng tăng hoặc giảm với những thay đổi về khối lượng công việc đã biết.
Tỷ lệ hoạt động của giao thức	Theo dõi số lượng yêu cầu mạng đang được xử lý.	Tốc độ cao mà không có thông lượng tương ứng thường biểu thị kích thước I/O nhỏ chứ không phải là kém hiệu quả.	Phân tích theo lớp hoạt động (đọc, ghi, siêu dữ liệu) để hiểu khối lượng công việc nào tạo ra nhiều yêu cầu nhất.
Độ trễ hoạt động của giao thức	Đo thời gian cần thiết để xử lý một yêu cầu mạng.	Giá trị độ trễ cao hơn có thể báo hiệu sự cố về phân bổ khối lượng công việc hoặc các nút quá tải.	Tùy thuộc, nhưng độ trễ dưới 5ms được coi là tối ưu. Kiểm tra các điểm đột biến để tìm điểm tắc nghẽn tiềm ẩn.
Lỗi mạng	Phát hiện việc truyền dữ liệu bị lỗi hoặc hỏng.	Lỗi thường gặp có thể do sự cố phần cứng hoặc cấu hình mạng kém.	Phân tích theo giao diện và hướng để nhanh chóng xác định khu vực có vấn đề và các thành phần mạng bị lỗi.

Số liệu đĩa

Hiệu suất lưu trữ ảnh hưởng trực tiếp đến tốc độ truy cập và sửa đổi dữ liệu. Chúng tôi khuyên bạn nên thêm các mô-đun hiệu suất sau vào báo cáo cơ sở của mình:

Đĩa Metric	Sự định nghĩa	Sự bất thường	Thực hành tốt nhất
Tốc độ thông lượng đĩa	Tổng lượng dữ liệu được đọc và ghi vào đĩa.	Thông lượng thấp có thể chỉ ra tình trạng tắc nghẽn trong quá trình xử lý dữ liệu.	Phân chia theo hướng để xem hoạt động đọc so với ghi. Phân tích theo nodepool để xem từng pool xử lý tải như thế nào.
Tốc độ hoạt động của đĩa	Số lượng yêu cầu đọc/ghi mỗi giây.	Sự gia tăng đáng kể có thể dẫn đến việc sử dụng đĩa nhiều hơn, có thể ảnh hưởng đến hiệu suất tổng thể.	Xác định các nút mất cân bằng để phân bổ khối lượng công việc đồng đều hơn.
Độ trễ phần cứng đĩa trung bình	Thời gian đĩa cần để hoàn tất một yêu cầu.	Độ trễ cao hơn cho thấy khả năng xảy ra vấn đề về sức khỏe của đĩa.	Duy trì độ trễ trung bình dưới 3ms đối với ổ SSD và 6ms đối với ổ SATA để đảm bảo hiệu suất phản hồi.
Tỷ lệ sự kiện hệ thống tập tin	Theo dõi các hành động của tệp như tạo, xóa và sửa đổi.	Sự gia tăng đột ngột có thể chỉ ra các quy trình tự động hoặc hoạt động bất thường của người dùng.	So sánh các mức tăng đột biến với các công việc đã lên lịch để loại trừ các quy trình hệ thống dự kiến.
Đếm số lượng hoạt động đĩa đang chờ xử lý	Hiển thị số lượng yêu cầu đĩa bị trì hoãn.	Số lượng cao có nghĩa là ổ đĩa của bạn đang gặp khó khăn trong việc theo kịp nhu cầu.	Điều tra các vấn đề xếp hàng nhất quán bằng cách xem xét phân bổ khối lượng công việc và sử dụng bộ đệm.
Tỷ lệ truy cập bộ nhớ đệm	Tỷ lệ yêu cầu dữ liệu được thực hiện từ bộ nhớ đệm thay vì từ đĩa.	Tỷ lệ truy cập thấp có nghĩa là hệ thống dựa nhiều hơn vào tốc độ đọc đĩa chậm hơn.	Triển khai ổ SSD (trong các nút lai) ở chế độ siêu dữ liệu thay vì L3 để tối ưu hóa các lượt truy cập siêu dữ liệu.

Phát hiện bất thường bằng AI trong tương lai

Bây giờ bạn đã có báo cáo đầy đủ, hãy thường xuyên so sánh dữ liệu mới và dữ liệu lịch sử để phát hiện bất kỳ vấn đề tiềm ẩn nào trước khi chúng trở thành vấn đề thực sự. Khi PowerScale phát triển, InsightIQ cũng vậy và trong tương lai, phát hiện bất thường do AI điều khiển sẽ đảm bảo môi trường lưu trữ lành mạnh hơn.

Xin gửi lời cảm ơn đặc biệt đến Scott Phelps, Usha N và Carl Ye vì đã cung cấp những hiểu biết giá trị từ những tương tác thực tế của họ với khách hàng. Chuyên môn của họ đã đóng góp rất nhiều vào các phương pháp hay nhất được chia sẻ trong blog này.

Nếu bạn thích bài đăng này, hãy theo dõi! Tôi sẽ viết một loạt bài đăng trên blog về InsightIQ, đi sâu hơn vào các tính năng và phương pháp hay nhất của nó. Hãy thoải mái liên hệ với tôi và chia sẻ suy nghĩ của bạn!

Tác giả : Shaofei Liu, Kỹ sư công nghệ