Mặc dù Kỹ thuật Độ tin cậy của Trang web (SRE) bắt đầu bằng việc thu thập dữ liệu từ khắp các tổ chức CNTT để tạo ra một cái nhìn toàn cảnh về các hệ sinh thái để chúng tôi có thể theo dõi, khắc phục và ngăn chặn các sự cố hệ thống, nhưng giá trị của dữ liệu tổng hợp đó không dừng lại ở đó. Việc chia sẻ dữ liệu về khả năng quan sát ngoài các kỹ sư SRE cho các nhóm trong các tổ chức đó không chỉ làm tăng tính minh bạch mà còn khai thác tiềm năng cho những cải tiến và đổi mới mới.
Đó là lý do tại sao nhóm Hỗ trợ Kỹ thuật Độ tin cậy Trang web của Dell Digital đang cung cấp dữ liệu cho chủ sở hữu sản phẩm, người dùng doanh nghiệp và nhóm vận hành trong bộ phận CNTT của Dell thông qua công cụ trò chuyện hai chiều mà chúng tôi gọi là Trợ lý SRE.
Ngoài việc sử dụng trò chuyện để cung cấp cho các thành viên trong nhóm thông tin chuyên sâu dễ hiểu về các vấn đề của hệ sinh thái, Trợ lý SRE đang phát triển để cung cấp cho người dùng quyền truy cập vào dữ liệu sức khỏe phi hệ thống khác – từ số lượng bán hàng đến sự hài lòng của khách hàng – bằng một truy vấn đơn giản.
Tất cả đều là một phần của quá trình dân chủ hóa dữ liệu để các thành viên trong nhóm trong các tổ chức CNTT của Dell, bất kể họ có bí quyết kỹ thuật như thế nào, có thể làm việc với dữ liệu một cách thoải mái, cảm thấy tự tin khi nói về dữ liệu và do đó, đưa ra quyết định dựa trên dữ liệu và xây dựng trải nghiệm của khách hàng được cung cấp bởi dữ liệu dữ liệu.
Dân chủ hóa dữ liệu cảnh báo hệ thống
Dell Digital, tổ chức CNTT của Dell, đã bắt đầu thử nghiệm chiến lược SRE hai năm trước để giảm thời gian ngừng hoạt động trong môi trường Thương mại điện tử của chúng tôi. Chúng tôi đã mở rộng nỗ lực này để tạo ra một sáng kiến SRE nhằm giúp các tổ chức trong toàn bộ hệ thống CNTT sử dụng các phương pháp SRE để cải thiện độ tin cậy của sản phẩm và tăng hiệu quả bảo trì.
Một phần của quy trình SRE là nhắm mục tiêu các nhóm phát triển cụ thể bị ảnh hưởng bởi các sự cố với thông báo cảnh báo hệ thống sử dụng các kênh liên lạc ưa thích của các nhóm đó. Khi chúng tôi tạo các kênh liên lạc cảnh báo sự cố này, chúng tôi nhận ra rằng việc biến chúng thành hai chiều là điều hợp lý để người dùng có thể vừa nhận được cảnh báo vừa có thể đặt câu hỏi. Để đạt được mục tiêu đó, chúng tôi đã xây dựng một chatbot bằng cách sử dụng khung công cụ cộng tác, chuyển các cảnh báo đến các thành viên cụ thể trong nhóm, những người có thể lần lượt tìm kiếm thêm thông tin chi tiết qua trò chuyện.
Một mục tiêu quan trọng trong chiến lược thông báo cảnh báo của chúng tôi là chuẩn hóa và đơn giản hóa dữ liệu cảnh báo mà chúng tôi gửi khi có vấn đề phát sinh.
Công cụ quan sát SRE của chúng tôi tổng hợp nhiều loại dữ liệu để cung cấp chế độ xem toàn cảnh và xác định các giải pháp. Dữ liệu của chúng tôi có thể đến từ thiết bị mạng, thiết bị lưu trữ, cơ sở dữ liệu ứng dụng hoặc ứng dụng cho thương mại điện tử và quản lý đơn đặt hàng, hàng tồn kho và sự cố. Cảnh báo liên quan đến các bên liên quan khác nhau, KPI khác nhau và các ngưỡng khác nhau khi có điều gì đó vi phạm.
Để giúp các thành viên trong nhóm ở mọi cấp độ kiến thức kỹ thuật dễ dàng giải thích các cảnh báo sự cố, chúng tôi hợp nhất nhiều chỉ số bảng điều khiển và phân loại sự cố bằng cách sử dụng hệ thống tính điểm dựa trên tỷ lệ phần trăm: 0% đến 100% và mã hóa chúng bằng màu đỏ, vàng và xanh lục.
Đây là một bước quan trọng trong việc dân chủ hóa dữ liệu. Ví dụ: giả sử có sự cố mất mạng trong trung tâm dữ liệu. Theo truyền thống, chỉ nhóm mạng được thông báo về điều đó ngay lập tức. Các thành viên khác trong nhóm có thể biết về nó sau này trong quá trình và có thể không thoải mái với các chi tiết kỹ thuật của sự kiện.
Bằng cách chia nhỏ dữ liệu cảnh báo theo cách mà mọi người đều hiểu, việc người nhận cảnh báo có biết chủ đề đó hay không không quan trọng. Một người nào đó có thể không biết gì về mạng hoặc cơ sở dữ liệu, nhưng màu sắc hoặc cấp độ của cảnh báo mang lại sự hiểu biết cơ bản và nhanh chóng về vấn đề.
Đơn giản hóa yêu cầu dữ liệu
Với việc nhiều thành viên trong nhóm truy cập và hiểu dữ liệu tình trạng hệ thống thông qua chatbot của chúng tôi, chúng tôi đã có một nguồn cảm hứng khác. Điều gì sẽ xảy ra nếu chúng tôi chia sẻ mảng dữ liệu phong phú mà chúng tôi đã thu thập được từ hoạt động SRE một cách rộng rãi hơn?
Chúng tôi đã tổng hợp dữ liệu về doanh số bán hàng, nền tảng quản lý dịch vụ, ngăn xếp ứng dụng, mạng, cơ sở dữ liệu của chúng tôi, v.v. Chúng tôi quyết định rằng dữ liệu này đủ phong phú để truyền giáo cho nhiều đối tượng hơn gồm các thành viên trong nhóm.
Trợ lý SRE có thể lấy dữ liệu từ những gì chúng tôi đã thu thập để đáp ứng các yêu cầu cụ thể của thành viên nhóm. Nó sẽ truy cập các API (giao diện lập trình ứng dụng), phần lớn dữ liệu sẽ lấy thông tin được yêu cầu từ công cụ quan sát của chúng tôi. Nó cũng có thể tìm nạp dữ liệu từ các nguồn không phải SRE bằng API. Một nhân viên bán hàng có thể nhận được tổng số đơn đặt hàng hàng ngày. Một nhà cung cấp dịch vụ có thể kiểm tra số hài lòng của khách hàng. Và vì Trợ lý SRE có sẵn trên công cụ cộng tác chính của chúng tôi nên họ có thể làm như vậy trên thiết bị di động của mình.
Dữ liệu này có sẵn trong các công cụ riêng biệt trên toàn bộ CNTT, nhưng cho đến nay không có nguồn duy nhất nào mà các thành viên trong nhóm có thể lấy tất cả thông tin đó ở một nơi.
Đây là một khía cạnh khác của việc dân chủ hóa dữ liệu: phá vỡ các công cụ silo và tập hợp thông tin cần thiết về vị trí của người dùng trong các kênh liên lạc của họ.
Các thành viên trong nhóm không chỉ có thể đặt câu hỏi bằng cách sử dụng Trợ lý SRE về hiệu suất hệ thống CNTT mà giờ đây họ còn có thể hỏi về một chức năng kinh doanh, chẳng hạn như cách chức năng đó hoạt động tại một thời điểm nhất định.
Chatbot của chúng tôi hơi giống với các trợ lý kỹ thuật số phổ biến Alexa hoặc Siri. Người dùng chỉ cần đặt câu hỏi trong bot và Trợ lý SRE sẽ sử dụng API để lấy thông tin liên quan từ một nguồn và trình bày thông tin đó trong cuộc trò chuyện.
Tận dụng khả năng dữ liệu của chúng tôi trên đường
Mặc dù nhóm của chúng tôi chưa chính thức công bố nó cho người dùng, nhưng chatbot Trợ lý SRE là một ý tưởng đã được đón nhận nồng nhiệt cho đến nay bởi số lượng người dùng hạn chế hiện tại.
Lựa chọn dữ liệu được cung cấp đã tăng lên một cách tự nhiên khi các thành viên trong nhóm có thêm yêu cầu. Về mặt thông báo cảnh báo, chúng tôi đã thấy rất nhiều hứa hẹn xung quanh việc tăng cường sự hợp tác của các thành viên trong nhóm để giải quyết các vấn đề về hệ thống chia sẻ. Với các cảnh báo hiện được cung cấp trên toàn nhóm thông qua bot, mọi người đều nhìn thấy điều giống nhau và cần khẩn cấp khắc phục mọi thứ.
Nhìn chung, sự giao thoa thông tin mà Trợ lý SRE cung cấp làm mờ đi các rào cản và khuyến khích tiếp cận và cộng tác. Nó làm tăng tính minh bạch về hiệu suất hệ thống. Và có lẽ quan trọng nhất, bởi vì nó sử dụng công cụ cộng tác trung tâm của chúng tôi có sẵn trên thiết bị di động, người dùng có thể truy cập thông báo và dữ liệu mọi lúc mọi nơi. Vì vậy, họ nhận được thông tin cập nhật về hệ thống của mình và có thể thực hiện truy vấn một cách dễ dàng.
Trong những tháng tới, chúng tôi sẽ chia sẻ Trợ lý SRE rộng rãi hơn giữa các nhóm, chủ sở hữu sản phẩm và cộng đồng doanh nghiệp bằng cách sử dụng chương trình Hỗ trợ SRE của chúng tôi, giáo dục họ về khả năng chatbot của nó.
Chúng tôi tin rằng có rất nhiều điều có thể học được từ việc chia sẻ dữ liệu SRE của chúng tôi trên CNTT. Chúng tôi hy vọng việc sử dụng dữ liệu của mình một cách khôn ngoan sẽ mang lại cơ hội tốt hơn để cải thiện cách chúng tôi phục vụ khách hàng của mình.
Bài viết mới cập nhật
OneFS Cbind và DNS Caching
OneFS cbind là daemon bộ đệm DNS phân tán cho cụm ...
NANON OneFS
Theo cách nói của OneFS, các cụm PowerScale có kết nối ...
Mở khóa tiềm năng của dữ liệu phi cấu trúc với PowerScale OneFS S3
Trong bối cảnh lưu trữ dữ liệu đang phát triển nhanh ...
Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI
Trình điều khiển máy khách đa đường dẫn PowerScale và khả ...