Hướng dẫn dành cho Lãnh đạo CNTT về việc cung cấp dữ liệu chất lượng cao cho AI

Dữ liệu chất lượng cao là chìa khóa cho kết quả AI chất lượng, mặc dù cách thức khai thác dữ liệu này không phải lúc nào cũng rõ ràng. Cẩm nang này có thể giúp ích.

Các nhà lãnh đạo CNTT hiểu rằng chất lượng dữ liệu của tổ chức sẽ định hình hiệu suất của các giải pháp AI. Các kỹ sư dữ liệu đã nói với họ như vậy.  

Tuy nhiên, chính những kỹ sư dữ liệu này lại thường than thở về việc thiếu dữ liệu đáng tin cậy trong tổ chức của họ và lo lắng về khối lượng công việc cần thiết để phát triển dữ liệu. Những nhóm này chia sẻ gánh nặng với các giám đốc điều hành. 

Theo nghiên cứu của The Futurum Group và Kearney , gần hai phần ba số CEO cho rằng dữ liệu chất lượng thấp hoặc không kết nối do cơ sở hạ tầng bị cô lập và các ngăn xếp công nghệ bị phân mảnh là những rào cản chính ngăn cản các giải pháp AI mở rộng quy mô . 

Trước khi khám phá cách xây dựng dữ liệu chất lượng cao để phục vụ cho các giải pháp AI, điều quan trọng là phải hiểu những hậu quả tiềm ẩn của dữ liệu kém. 

Thực tế rác vào, rác ra

Vào thì rác, ra thì rác. Cụm từ này đã trở nên phổ biến với sự trỗi dậy của AI tạo sinh. Khi dữ liệu đưa vào mô hình AI không chính xác hoặc bị thiên vị (vào thì rác), mô hình sẽ không thể khái quát hóa, dẫn đến sai sót trong dự đoán hoặc quyết định (ra thì rác).  

Nhưng điều này thực tế ra sao? Khi bạn đưa dữ liệu kém chất lượng vào hệ thống AI, về cơ bản bạn đang yêu cầu nó đưa ra những quyết định trị giá hàng triệu đô la dựa trên thông tin sai lệch.  

Hãy xem xét một chuỗi bán lẻ triển khai hệ thống AI để tối ưu hóa hàng tồn kho tại 500 cửa hàng. Giả sử dữ liệu bán hàng của chuỗi cửa hàng này gắn thẻ hàng trả lại không đúng cách, khiến chúng được hiển thị là doanh số bán hàng bổ sung.  

Kết quả là, hệ thống AI đã giả định sai rằng một số sản phẩm nhất định đang “bán” nhiều hơn 30%. Hậu quả là gì? Hàng loạt đơn hàng tồn kho chậm được đặt quá nhiều, hàng triệu sản phẩm tồn kho dư thừa và tình trạng thiếu hụt hàng tồn kho. 

Hoặc hãy xem xét trường hợp của một ngân hàng lớn có chatbot AI được đào tạo dựa trên các bản ghi dịch vụ khách hàng chứa đầy dữ liệu không chính xác, được lưu giữ kém, trong đó các nhân viên viết tắt dữ liệu tài khoản vãng lai bằng các thuật ngữ “chk”, “checking” hoặc thậm chí là mã tài khoản số.  

Thật không may, chatbot không thể hiểu chính xác các yêu cầu của khách hàng về các dịch vụ ngân hàng cơ bản, điều này làm giảm điểm hài lòng của khách hàng. Ngân hàng thường phải thuê thêm nhân viên để xử lý các yêu cầu bổ sung. 

Hãy tưởng tượng những kịch bản tương tự xảy ra trong các ngành công nghiệp được quản lý khác , vốn đang phải cân nhắc giữa tuân thủ và rủi ro. Đôi khi, hậu quả gây ra thiệt hại về uy tín và tài chính; đó là một sự lãng phí nghiêm trọng. 

Quản lý dữ liệu chất lượng cao 

Dell Technologies và NVIDIA đã tạo ra cuốn sách điện tử này , giải thích cách các tổ chức có thể xây dựng chiến lược dữ liệu để đảm bảo triển khai AI thành công. Một khía cạnh quan trọng để tạo điều kiện cho một chiến lược dữ liệu hiệu quả bao gồm việc chuẩn bị dữ liệu.  

Dữ liệu chất lượng cao quyết định khả năng nhận thức, dự đoán và hành động của mô hình AI – tất cả đều là những tiêu chí hiệu suất quan trọng. Nếu không có dữ liệu đáng tin cậy, nền tảng AI của bạn sẽ sụp đổ. Dưới đây, chúng tôi sẽ đề cập đến các bước cần thiết để sắp xếp lại dữ liệu của bạn. 

  1. Kiểm tra Dữ liệu của Bạn I Trước khi bạn có thể đưa dữ liệu về trạng thái mong muốn, bạn phải đánh giá trạng thái hiện tại của nó. Hệ thống quản lý dữ liệu của bạn có sạch sẽ, được tổ chức và bảo trì tốt không? Thực hiện các bước này có thể giúp bạn phát hiện và khắc phục lỗi, trùng lặp hoặc không nhất quán. 
  2. Kết nối các kho dữ liệu. Dữ liệu tổ chức nằm rải rác trên nhiều lĩnh vực kinh doanh, trong các ứng dụng và nền tảng. Việc hợp nhất các nguồn dữ liệu giúp bạn có cái nhìn chính xác hơn về dữ liệu, giảm thiểu trùng lặp và mang lại thông tin chi tiết hữu ích hơn.
  3. Chuẩn bị dữ liệu. Theo thời gian, dữ liệu trở nên lỗi thời, cồng kềnh và việc dọn dẹp, dán nhãn và chuẩn hóa dữ liệu sẽ cải thiện hiệu suất mô hình AI, đồng thời giảm thời gian triển khai. Việc thiết lập các tiêu chuẩn tổ chức về cấu trúc dữ liệu, tính nhất quán và tính đầy đủ giúp đảm bảo các mô hình mà doanh nghiệp bạn đang dựa vào đang học hỏi từ các tín hiệu phù hợp. 
  4. Triển khai quản trị và tuân thủ. Bảo mật và khả năng phục hồi dữ liệu là tối quan trọng. Việc thiết lập nguồn gốc dữ liệu rõ ràng, các biện pháp kiểm soát bảo mật và khuôn khổ tuân thủ sẽ xây dựng niềm tin vào các hệ thống AI. Việc duy trì cấu trúc quản trị dữ liệu và theo dõi kiểm toán chặt chẽ đảm bảo dữ liệu nhạy cảm được sử dụng một cách có trách nhiệm, đồng thời tuân thủ quy định. 
  5. Hiện đại hóa cơ sở hạ tầng dữ liệu. Các giải pháp AI đòi hỏi công nghệ tính toán, lưu trữ và mạng hiện đại , cũng như chuyên môn để cấu hình và hỗ trợ chúng. Việc nâng cấp lên các nền tảng hỗ trợ truy cập thời gian thực, khả năng mở rộng và tích hợp cho phép tổ chức của bạn đáp ứng nhu cầu AI ngày càng tăng.

Con đường hiện đại hóa cơ sở hạ tầng dữ liệu của bạn

Việc đơn giản hóa cách thức dữ liệu di chuyển, cách thức xử lý và cách thức quản lý dữ liệu đảm bảo khối lượng công việc AI của bạn có thể mở rộng. Một phương pháp tiếp cận thống nhất và linh hoạt sẽ rút ngắn thời gian đưa sản phẩm ra thị trường và đảm bảo tổ chức của bạn luôn sẵn sàng cho tương lai. 

Việc tiếp cận theo cách này rất khó khăn. Dell Technologies và NVIDIA đã tạo ra Dell AI Factory cùng NVIDIA, bao gồm các công nghệ và dịch vụ giúp đẩy nhanh các trường hợp sử dụng, tích hợp dữ liệu và quy trình làm việc, đồng thời giúp bạn thiết kế hành trình AI của riêng mình. 

Hãy nhớ: Đầu vào rác, đầu ra rác. Dữ liệu tốt tạo ra lợi thế cạnh tranh, trong khi dữ liệu xấu gây ra những vấn đề tốn kém ở quy mô lớn. Vấn đề không phải là bạn có đủ khả năng đầu tư vào chất lượng dữ liệu hay không, mà là bạn có đủ khả năng để không đầu tư hay không. 

Bạn có đủ khả năng để không làm vậy không?