Làm sáng tỏ khả năng quan sát trong quy trình SRE

Bộ phận CNTT của Dell chia sẻ cái nhìn cận cảnh hơn về các kỹ thuật quan sát có thể giúp tổ chức của bạn cải thiện tính ổn định của trang web với SRE.

Chúng ta đang sống trong một thế giới phức tạp của các hệ thống CNTT được kết nối với nhau và dữ liệu ngày càng tăng, trong đó khách hàng đòi hỏi những trải nghiệm hoàn hảo và các doanh nghiệp cố gắng tăng tốc đổi mới. Bộ phận CNTT không còn có thể dựa vào các kỹ thuật giám sát truyền thống để duy trì hoạt động của các hệ thống hiện đại này với tốc độ và sự linh hoạt của thị trường mà chúng tôi phục vụ. Đó là nơi khả năng quan sát đến.

Khả năng quan sát là một cơ chế giúp nhóm Kỹ thuật độ tin cậy của trang web (SRE) hiểu và giải thích hành vi không mong muốn của hệ thống với sự trợ giúp của nhật ký, dấu vết và số liệu. Nó giúp CNTT chủ động quản lý hiệu suất của các hệ thống phân tán phức tạp chạy trên cơ sở hạ tầng đang phát triển.

Giải pháp và chiến lược khả năng quan sát phù hợp sẽ giúp tăng độ tin cậy của trang web, trải nghiệm khách hàng tốt hơn và năng suất nhóm cao hơn. Với sự gia tăng dữ liệu, chúng ta cần nhanh chóng xác định tín hiệu so với nhiễu để có thể tổng hợp, phân tích và phản hồi khi cần. Một thước đo thành công quan trọng cho khả năng quan sát là thời gian trung bình để tìm và giải quyết vấn đề. Tốc độ xác định thành công trong nền kinh tế kỹ thuật số ngày nay.

Hiện nay, hơn bao giờ hết, việc học cách đơn giản hóa các hệ thống phức tạp là điều cần thiết.

Cách duy nhất để khắc phục tình trạng lỗi không xác định và tối ưu hóa hành vi của ứng dụng là sử dụng công cụ và thu thập tất cả dữ liệu về môi trường của bạn ở mức trung thực nhất. Tuy nhiên, sự sẵn có của dữ liệu đơn thuần không mang lại giải pháp về khả năng quan sát.

Mặc dù các giải pháp vượt trội có thể giúp bạn bắt đầu thuận lợi với khả năng quan sát, nhưng chúng có xu hướng không cung cấp giải pháp hoàn chỉnh cho các nhu cầu riêng của bạn.

May mắn thay, một vài kỹ thuật quan sát có thể giúp đơn giản hóa sự phức tạp và dẫn đến sự rõ ràng và thành công hơn.

Động não với các chuyên gia về chủ đề

Các kiến ​​trúc phân tán hiện đại có nhiều phụ thuộc lẫn nhau, có nghĩa là chúng cũng có nhiều điểm sai sót. Một thành phần quan trọng của hệ thống đàn hồi là có thể nhanh chóng xác định chính xác vị trí của vấn đề đã phát hiện. Đó là lý do tại sao, khi xây dựng chiến lược SRE, một trong những bước đầu tiên mà nhóm Hỗ trợ SRE thực hiện là làm việc với các chuyên gia về chủ đề, những người có cái nhìn toàn diện về hệ sinh thái của họ.

Bắt đầu bằng cách tổ chức một phiên động não với các kiến ​​trúc sư, trưởng nhóm kỹ thuật, SRE, DevOps, nhóm hỗ trợ theo yêu cầu, quản lý sự cố và nhà thiết kế trải nghiệm người dùng để tạo ra một cái nhìn toàn cảnh hoặc toàn diện về hệ sinh thái của tổ chức.

Phiên này giúp loại bỏ sự lộn xộn và xác định các dịch vụ cấp cao có thể được biểu diễn trên một màn hình duy nhất và mô tả luồng ứng dụng được kết nối với nhau từ đầu đến cuối. Luồng thô từ đầu đến cuối này là một vật phẩm sống và thở sẽ phát triển khi hệ sinh thái ứng dụng trải qua quá trình chuyển đổi.

Thiết lập KPI và chấm điểm 

Khi bạn có một danh sách các dịch vụ cần quan sát, bạn xác định các chỉ số hiệu suất chính cho từng dịch vụ. KPI được lấy từ nhật ký và chỉ số và chúng tôi cần lấy chúng từ nhiều nguồn khác nhau.

Sau khi dữ liệu được đưa vào công cụ bạn chọn, hãy nhìn lại lịch sử (lý tưởng nhất là bốn tuần) về hành vi của dịch vụ để xác định các ngưỡng tối ưu. Phác thảo những điều “Tốt”, “Xấu” và “Xấu xí”.

Tùy thuộc vào miền, những gì đòi hỏi một dịch vụ có thể thay đổi khá nhiều, bao gồm dịch vụ web, ứng dụng, mạng, cơ sở dữ liệu, hàng đợi tin nhắn, email, v.v. Mỗi dịch vụ đều có các bên liên quan, KPI và tiêu chí khác nhau để đo lường thành công và hiệu suất.

Vậy làm thế nào bạn có thể xây dựng một giải pháp quan sát dễ hiểu cho mọi người mặc dù có nhiều lĩnh vực chủ đề khác nhau? Đó là nơi ghi bàn đến.

Ghi điểm là một cơ chế thấm nhuần vào DNA của con người. Mặc dù tất cả chúng tôi đều có các môn học khác nhau ở trường, nhưng chúng thường được chấm điểm từ một đến 100 phần trăm. Mọi người đều hiểu 50 nghĩa là gì và 90 nghĩa là gì, bất kể chủ đề là gì. Đo lường sức khỏe hoặc hiệu suất của một dịch vụ không nên được đối xử khác nhau.

Một cách phổ biến để tính điểm tình trạng của dịch vụ là xác định ba KPI quan trọng nhất trong một dịch vụ và chỉ định mỗi trọng số từ quan trọng nhất đến ít quan trọng nhất. Yếu tố trọng số KPI với tỷ lệ phần trăm mà KPI bị suy giảm để chấm điểm tình trạng của dịch vụ đó.

Bạn có thể đơn giản hóa hơn nữa điểm tình trạng dịch vụ của mình bằng cách đánh đồng các mức điểm với một thước đo khác được hiểu rộng rãi: các tín hiệu đèn giao thông màu đỏ, vàng và xanh lục.

Chuẩn hóa quy trình ra quyết định bằng cách sử dụng mô hình tính điểm có nghĩa là đưa ra các quyết định nhanh hơn và tự động hơn.

Đặt mọi thứ lại với nhau 

Sau khi một tổ chức CNTT tạo ra một thiết kế kiến ​​trúc, KPI và điểm số tình trạng dịch vụ, nhóm SRE có thể kết hợp chúng thành một sơ đồ để tạo một ô kính duy nhất thông qua công cụ quan sát được tạo sẵn hoặc giải pháp được xây dựng tùy chỉnh. Một ô kính duy nhất được thiết kế để hoàn toàn tương tác và trực quan để bất kỳ ai sử dụng nó đi sâu vào các khu vực có vấn đề.

Các nhóm SRE hoặc nhóm kỹ thuật nên xây dựng các chế độ xem chi tiết và duy trì chúng để phù hợp với điểm số tình trạng được mô tả trên một ô kính.

Mặc dù bảng điều khiển SRE cung cấp khả năng giám sát liên tục các hệ sinh thái, nhưng chiến lược này không phụ thuộc vào việc theo dõi chúng 24/7. Kết quả giám sát được sử dụng song song với các dữ liệu khác có sẵn để tương quan và giải quyết các sự kiện hiệu suất.

Chẳng hạn, bạn có thể thấy trang web xuống cấp, độ trễ cơ sở dữ liệu tăng dần và dịch vụ hệ thống tên miền xuống cấp. Theo truyền thống, điều đó có thể kích hoạt ba cảnh báo riêng biệt. Nhưng tại Dell, chiến lược thông báo của chúng tôi, với sự trợ giúp của dàn nhạc tùy chỉnh, tạo ra một thông báo bao gồm nguyên nhân và kết quả.

Hệ thống tránh các thông báo trùng lặp về cùng một sự cố bằng cách tập trung các bộ dữ liệu và chỉ định một công cụ để tạo sự cố.

Điều quan trọng là nhắm mục tiêu các thông báo về khả năng quan sát đến các nhóm phát triển cụ thể bị ảnh hưởng bởi sự cố hệ thống và sử dụng các kênh liên lạc kết nối tốt nhất với các nhóm đó. Mặc dù email đã từng là kênh liên lạc truyền thống để nhận thông báo, nhưng sự cộng tác ngày nay có thể bao gồm MS Teams, Slack, SMS, Mobile Apps và WhatsApp, v.v.

Chiến lược về khả năng quan sát nên bao gồm ánh xạ các dịch vụ siêu nhỏ tới các nhóm phát triển và thiết lập các kênh liên lạc để thông báo vấn đề nghiêm trọng.

Cuối cùng, mục tiêu của khả năng quan sát là cho phép nhiều nhóm hành động với dữ liệu được chia sẻ, kết nối mọi người với các quy trình và phù hợp với các mục tiêu kinh doanh lớn hơn.