Trí tuệ nhân tạo cho hoạt động CNTT (AIOps) trong Dự đoán hiệu suất PowerScale

AI là một chủ đề hấp dẫn và nóng hổi trong những năm gần đây. Một câu hỏi thường gặp từ khách hàng của chúng tôi là ‘AI có thể giúp ích gì cho hoạt động và quản lý hàng ngày của PowerScale?’ Đây là một câu hỏi rất thú vị, bởi vì mặc dù AI có thể giúp hiện thực hóa rất nhiều khả năng, nhưng chúng tôi vẫn chưa có nhiều triển khai AI trong cơ sở hạ tầng CNTT. 

Nhưng cuối cùng chúng tôi cũng có một thứ rất truyền cảm hứng. Đây là những gì chúng tôi đã đạt được như bằng chứng về khái niệm trong phòng thí nghiệm của mình với sự hỗ trợ của AI Dynamics, một công ty nền tảng AI chuyên nghiệp. 

Thách thức đối với hoạt động CNTT và cơ hội cho AIOps

Với sự gia tăng về độ phức tạp của cơ sở hạ tầng CNTT, lượng dữ liệu do các hệ thống này tạo ra cũng tăng theo. Nhật ký hiệu suất thời gian thực, báo cáo sử dụng, kiểm toán và siêu dữ liệu khác có thể lên tới hàng gigabyte hoặc terabyte mỗi ngày. Đây là một thách thức lớn đối với bộ phận CNTT khi phải phân tích dữ liệu này và đưa ra các dự đoán chủ động, chẳng hạn như các vấn đề về hiệu suất cơ sở hạ tầng CNTT và các điểm nghẽn của chúng.

AIOps là phương pháp giải quyết những thách thức này. Thuật ngữ ‘AIOps’ dùng để chỉ việc sử dụng trí tuệ nhân tạo (AI), cụ thể là các kỹ thuật học máy (ML), để thu thập, phân tích và học hỏi từ khối lượng lớn dữ liệu từ mọi ngóc ngách của môi trường CNTT. Mục tiêu của AIOps là cho phép các phòng CNTT quản lý tài sản của họ và giải quyết các thách thức về hiệu suất một cách chủ động, theo thời gian thực (hoặc tốt hơn), trước khi chúng trở thành vấn đề của toàn hệ thống. 

Dự đoán hiệu suất chính của PowerScale bằng AIOps

Tổng quan

Trong giải pháp này, chúng tôi xác định độ trễ NFS là chỉ báo hiệu suất PowerScale mà khách hàng muốn thấy báo cáo dự đoán. Mục tiêu của mô hình AI là nghiên cứu hoạt động hệ thống trong lịch sử và dự đoán độ trễ NFS theo khoảng thời gian năm phút trong bốn giờ trong tương lai. Một hệ thống phần mềm truyền thống có thể sử dụng các dự đoán này để cảnh báo người dùng về tình trạng tắc nghẽn hiệu suất tiềm ẩn dựa trên ngưỡng độ trễ do người dùng chỉ định và thời lượng đột biến. Trong tương lai, có thể xây dựng các mô hình AI giúp chẩn đoán nguồn gốc của các vấn đề này để có thể báo cáo cho người dùng cả cảnh báo và giải pháp được khuyến nghị tốt nhất.

Toàn bộ quá trình đào tạo bao gồm ba bước sau (tôi sẽ giải thích chi tiết ở các phần sau):

  • Chuẩn bị dữ liệu – để có được dữ liệu thô và trích xuất các tính năng hữu ích làm đầu vào cho việc đào tạo và xác thực
  • Đào tạo mô hình – để chọn kiến ​​trúc AI phù hợp và điều chỉnh các tham số để có độ chính xác
  • Xác thực mô hình – để xác thực mô hình AI dựa trên tập dữ liệu thu được từ quá trình đào tạo

Chuẩn bị dữ liệu

Dữ liệu hiệu suất thô được thu thập thông qua Dell Secure Remote Services (SRS) từ 12 cụm PowerScale toàn flash khác nhau từ một khách hàng tự động hóa thiết kế điện tử (EDA) mỗi tuần. Chúng tôi xác định và trích xuất 26 số liệu chính về hiệu suất từ ​​dữ liệu thô, phần lớn trong số đó được ghi lại và cập nhật sau mỗi năm phút. AI Dynamics NeoPulse được sử dụng để trích xuất một số trường bổ sung (chẳng hạn như ngày trong tuần và thời gian trong ngày từ các trường dấu thời gian UNIX) để cho phép mô hình đưa ra dự đoán tốt hơn. Mỗi tuần, dữ liệu mới được thu thập từ cụm PowerScale để tăng kích thước của tập dữ liệu đào tạo và cải thiện mô hình AI. Trong mỗi lần chạy đào tạo, chúng tôi cũng giữ lại 10% dữ liệu, dữ liệu này được sử dụng để kiểm tra mô hình AI trong giai đoạn thử nghiệm. Dữ liệu này tách biệt với 10% dữ liệu đào tạo được giữ lại để xác thực.

Hình 1. Quy trình chuẩn bị dữ liệu

Đào tạo mô hình

Trong khoảng thời gian hai tháng, hơn 50 mô hình AI khác nhau đã được đào tạo bằng nhiều kiến ​​trúc chuỗi thời gian khác nhau, các tham số kiến ​​trúc mô hình, siêu tham số và kỹ thuật kỹ thuật dữ liệu khác nhau để tối đa hóa hiệu suất, mà không cần phải quá khớp với dữ liệu hiện có. Khi các đường ống đào tạo này được tạo trong NeoPulse, chúng có thể dễ dàng được sử dụng lại khi dữ liệu mới đến từ khách hàng mỗi tuần, để chạy lại quá trình đào tạo và thử nghiệm nhằm định lượng hiệu suất của mô hình.

Vào cuối giai đoạn hai tháng, chúng tôi đã xây dựng một mô hình có thể dự đoán liệu chỉ số hiệu suất này (độ trễ NFS3) có vượt quá ngưỡng 10ms hay không, chính xác trong 70% thời gian của mỗi 48 khoảng thời gian năm phút tiếp theo (tổng cộng bốn giờ).

Xác thực mô hình

Trong giai đoạn chuẩn bị dữ liệu, chúng tôi đã giữ lại 10% tổng bộ dữ liệu để sử dụng cho việc xác thực và thử nghiệm mô hình AI. Với mô hình AI hiện tại, người dùng cuối có thể dễ dàng định cấu hình ngưỡng độ trễ theo ý muốn. Trong trường hợp này, chúng tôi đã xác thực mô hình ở ngưỡng độ trễ 10ms và 15ms. Mô hình có thể xác định chính xác hơn 70% các đột biến độ trễ 10ms và 60% các đột biến độ trễ 15ms trong toàn bộ khoảng thời gian bốn giờ tiếp theo.

Hình 2. Xác thực mô hình

Kết quả

Trong giải pháp này, chúng tôi sử dụng độ trễ NFS từ PowerScale làm chỉ báo cần dự đoán. Mô hình AI sử dụng dữ liệu hiệu suất từ ​​bốn giờ trước đó để dự đoán xu hướng và mức tăng đột biến của độ trễ NFS trong bốn giờ tiếp theo. Nếu phần mềm xác định được khoảng thời gian năm phút khi mức tăng đột biến độ trễ >10ms xảy ra hơn 70% thời gian, nó sẽ kích hoạt cảnh báo có thể định cấu hình cho người dùng.

Sơ đồ sau đây cho thấy một ví dụ. Vào lúc 8:55 sáng, mô hình AI dự đoán độ trễ NFS từ 8:55 sáng đến 12:55 trưa, dựa trên dữ liệu hiệu suất đầu vào từ 4:55 sáng đến 8:55 sáng. Mô hình AI đưa ra dự đoán cho mỗi khoảng thời gian năm phút trong suốt thời gian dự đoán. Mô hình dự đoán một vài điểm đột biến riêng lẻ về độ trễ, với một cụm lớn liên tiếp có độ trễ cao trong khoảng từ 12 giờ trưa đến 12:55 trưa. Một hệ thống phần mềm có thể sử dụng dự đoán này để cảnh báo người dùng về sự gia tăng độ trễ dự kiến, cho họ hơn ba giờ để giải quyết vấn đề trước và giảm tải máy chủ. Trong biểu đồ, đường chấm chấm hiển thị dự đoán của mô hình AI, trong khi đường liền cho thấy hiệu suất thực tế.

Biểu đồ, biểu đồ đường, biểu đồ histogram Mô tả được tạo tự động

Hình 3. Dự báo độ trễ NFS của Dell PowerScale

Tóm lại, giải pháp này đạt được những mục tiêu sau:

  • Bằng cách sử dụng dữ liệu hiệu suất của PowerScale trong bốn giờ trước đó, giải pháp này có thể dự báo bốn giờ tiếp theo của bất kỳ số liệu nào được chỉ định.
  • Đối với độ trễ NFS3, giải pháp được đánh giá là có thể xác định chính xác các khoảng thời gian độ trễ sẽ cao hơn 10ms trong 70% thời gian.
  • Các đường ống đào tạo dữ liệu và mô hình được tạo cho tác vụ này có thể dễ dàng được điều chỉnh để dự đoán các số liệu hiệu suất khác, chẳng hạn như các đợt tăng đột biến thông lượng NFS, các đợt tăng đột biến độ trễ SMB, v.v.
  • AI học cách cải thiện dự đoán của mình theo từng tuần khi thích ứng với các mô hình sử dụng khác nhau của từng khách hàng, tạo ra các mô hình tùy chỉnh cho từng hồ sơ khối lượng công việc riêng biệt của từng khách hàng.

Phần kết luận

AIOps giới thiệu trí thông minh cần thiết để quản lý sự phức tạp của môi trường CNTT hiện đại. Nền tảng NeoPulse từ AI Dynamics giúp AIOps dễ dàng triển khai. Trong cấu hình toàn flash của cụm Dell PowerScale, hiệu suất là một trong những cân nhắc chính. Hàng trăm và hàng nghìn nhật ký hiệu suất được tạo ra mỗi ngày và AIOps rất dễ dàng sử dụng các nhật ký hiện có và cung cấp thông tin chi tiết về các điểm nghẽn hiệu suất tiềm ẩn. Máy chủ Dell có GPU là nền tảng tuyệt vời để thực hiện đào tạo và suy luận, không chỉ cho mô hình này mà còn cho bất kỳ thách thức AI mới nào khác mà công ty muốn giải quyết, trên hàng chục loại vấn đề.  

Để biết thêm thông tin chi tiết về thử nghiệm của chúng tôi, hãy xem sách trắng Dự đoán hiệu suất chính bằng trí tuệ nhân tạo cho hoạt động CNTT (AIOps) .

Tác giả : Vincent Shen