Khi các tổ chức tiến lên với AI tổng quát (GenAI), họ phải xem xét và cung cấp giải pháp bảo mật dữ liệu. Bởi vì các mô hình AI tổng quát sử dụng văn bản, hình ảnh, mã và các loại nội dung động, không có cấu trúc khác, nên bề mặt tấn công được mở rộng, làm tăng nguy cơ vi phạm an ninh.
Có dữ liệu đáng tin cậy là điều cần thiết để xây dựng niềm tin vào kết quả của GenAI và thúc đẩy chuyển đổi kinh doanh. Điều quan trọng là phải bảo mật dữ liệu để triển khai các giải pháp GenAI đáng tin cậy.
Các tổ chức phải xem xét rủi ro dữ liệu AI tổng hợp trong bốn giai đoạn của vòng đời dữ liệu GenAI: tìm nguồn cung ứng dữ liệu, chuẩn bị dữ liệu, tùy chỉnh/đào tạo và vận hành mô hình cũng như mở rộng quy mô. Đối với mỗi giai đoạn, chúng ta sẽ xem xét ngắn gọn các thách thức tổng thể, phương hướng tấn công tiềm ẩn và các hành động giảm thiểu đối với cuộc tấn công đó.
Tìm nguồn dữ liệu: Bảo vệ nguồn của bạn
Trong giai đoạn này, nguồn dữ liệu được phát hiện và thu thập từ hệ thống và bộ dữ liệu nội bộ của tổ chức hoặc từ các nguồn bên ngoài. Các tổ chức phải tiếp tục đảm bảo tính sạch sẽ và bảo mật của dữ liệu có cấu trúc và bán cấu trúc. Với GenAI, dữ liệu phi cấu trúc—chẳng hạn như hình ảnh, video, phản hồi của khách hàng hoặc ghi chú của bác sĩ—cũng được đưa lên hàng đầu. Cuối cùng, tính toàn vẹn của dữ liệu mô hình phải được đảm bảo, bao gồm dữ liệu tinh chỉnh, nhúng vectơ và dữ liệu tổng hợp.
Một cuộc tấn công chuỗi cung ứng AI xảy ra khi kẻ tấn công sửa đổi hoặc thay thế dữ liệu hoặc thư viện cung cấp dữ liệu cho ứng dụng AI tổng hợp. Ví dụ: kẻ tấn công có thể sửa đổi mã của gói mà ứng dụng dựa vào, sau đó tải phiên bản gói đã sửa đổi lên kho lưu trữ công cộng. Khi tổ chức nạn nhân tải xuống và cài đặt gói, mã độc sẽ được cài đặt.
Một tổ chức có thể tự bảo vệ mình trước cuộc tấn công chuỗi cung ứng AI bằng cách xác minh chữ ký số của các gói đã tải xuống, sử dụng kho lưu trữ gói an toàn, cập nhật gói thường xuyên, sử dụng các công cụ xác minh gói và giáo dục các nhà phát triển về rủi ro của các cuộc tấn công chuỗi cung ứng.
Chuẩn bị dữ liệu: Kiểm soát quyền truy cập và thực thi vệ sinh dữ liệu
Trong giai đoạn chuẩn bị dữ liệu, dữ liệu thu được sẽ được chuẩn bị cho việc huấn luyện mô hình, tinh chỉnh hoặc nâng cao mô hình. Điều này có thể bao gồm lọc dữ liệu rác, loại bỏ trùng lặp và làm sạch, xác định thành kiến và xử lý thông tin nhạy cảm hoặc thông tin nhận dạng cá nhân. Tất cả các hoạt động này tạo cơ hội cho một tác nhân làm ô nhiễm hoặc thao túng dữ liệu.
Các cuộc tấn công đầu độc dữ liệu xảy ra khi kẻ tấn công thao túng dữ liệu huấn luyện để khiến mô hình hoạt động theo cách không mong muốn. Ví dụ: kẻ tấn công có thể khiến bộ lọc thư rác phân loại email không chính xác bằng cách đưa các email thư rác được gắn nhãn độc hại vào tập dữ liệu huấn luyện. Kẻ tấn công cũng có thể làm sai lệch nhãn của email.
Để ngăn chặn các loại tấn công này, các công ty nên xác thực và xác minh dữ liệu trước khi sử dụng nó để đào tạo hoặc tùy chỉnh mô hình, hạn chế người có thể truy cập dữ liệu, cập nhật kịp thời cho phần mềm hệ thống và xác thực mô hình bằng cách sử dụng bộ xác thực riêng biệt không được sử dụng trong thử nghiệm.
Đào tạo/Tùy chỉnh mô hình: Xác thực dữ liệu và giám sát hoạt động đối nghịch
Trong giai đoạn đào tạo mô hình, dữ liệu thu được sẽ được sử dụng để đào tạo lại, tinh chỉnh hoặc tăng cường mô hình AI tổng hợp cho các yêu cầu cụ thể. Nhóm AI đào tạo hoặc làm phong phú mô hình bằng một bộ tham số cụ thể xác định mục đích và nhu cầu của hệ thống GenAI.
Trong các cuộc tấn công làm lệch mô hình, kẻ tấn công thao túng việc phân phối dữ liệu huấn luyện để khiến mô hình hoạt động theo cách không mong muốn. Một trường hợp ví dụ là một tổ chức tài chính sử dụng mô hình AI để dự đoán mức độ tin cậy của người xin vay. Kẻ tấn công có thể thao túng vòng phản hồi và cung cấp dữ liệu giả cho hệ thống, chỉ ra không chính xác rằng những người nộp đơn có rủi ro cao có rủi ro thấp (hoặc ngược lại).
Các bước giảm thiểu chính để ngăn chặn cuộc tấn công làm lệch mô hình bao gồm triển khai các biện pháp kiểm soát truy cập mạnh mẽ, phân loại dữ liệu đúng cách, xác thực nhãn dữ liệu và thường xuyên theo dõi hiệu suất của mô hình.
Hoạt động và mở rộng quy mô: Bảo vệ tính toàn vẹn của môi trường sản xuất AI
Khi một tổ chức mở rộng quy mô hoạt động AI của mình, họ sẽ trưởng thành và trở nên có năng lực hơn trong các hoạt động quản lý dữ liệu mạnh mẽ. Nhưng cơ hội vẫn còn—ví dụ: thông tin được tạo ra sẽ trở thành một tập dữ liệu mới. Các công ty sẽ cần phải cảnh giác.
Việc tiêm nhắc nhở xảy ra khi kẻ tấn công thao túng mô hình ngôn ngữ lớn (LLM) thông qua các đầu vào được tạo thủ công, khiến LLM vô tình thực hiện ý định của kẻ tấn công. Hãy xem xét kẻ tấn công đưa một lời nhắc vào một chatbot hỗ trợ dựa trên LLM để yêu cầu chatbot “quên tất cả các hướng dẫn trước đó”. LLM sau đó được hướng dẫn truy vấn các kho lưu trữ dữ liệu và khai thác các lỗ hổng của gói. Điều này có thể dẫn đến việc thực thi mã từ xa, cho phép kẻ tấn công có được quyền truy cập trái phép và leo thang đặc quyền.
Để ngăn chặn việc tiêm nhắc, hãy hạn chế quyền truy cập LLM vào các hệ thống phụ trợ ở mức tối thiểu cần thiết và thiết lập ranh giới tin cậy giữa LLM, các nguồn bên ngoài và chức năng mở rộng như plugin.
Kiểm tra rủi ro dữ liệu của bạn như một phần của chiến lược và thực thi AI
Bài đăng này đã trình bày một số loại rủi ro tấn công có thể xảy ra khi đào tạo, tùy chỉnh và sử dụng các mô hình GenAI. Ngoài những rủi ro quen thuộc từ phân tích dữ liệu, GenAI còn đưa ra những thách thức mới về bảo mật dữ liệu. Và bản thân mô hình phải được bảo vệ trong quá trình đào tạo, tinh chỉnh, nhúng và sản xuất vectơ.
Đây là một công việc lớn. Với các mục tiêu và khung thời gian đầy tham vọng mà nhiều tổ chức đã đặt ra để triển khai các trường hợp sử dụng GenAI, họ không có thời gian để bổ sung dần dần nhân lực, quy trình và công cụ cần thiết để tăng cường bảo mật dữ liệu GenAI.
Dell Services sẵn sàng trợ giúp giải quyết những thách thức này với Dịch vụ tư vấn về bảo mật dữ liệu GenAI của chúng tôi. Các chuyên gia tư vấn về bảo mật dữ liệu và chuyên môn về AI giúp bạn xác định các rủi ro liên quan đến dữ liệu thông qua bốn giai đoạn của vòng đời dữ liệu GenAI—tìm nguồn dữ liệu, chuẩn bị dữ liệu, đào tạo/tùy chỉnh mô hình cũng như vận hành và mở rộng quy mô AI. Nhóm của chúng tôi cung cấp kiến thức về các bề mặt tấn công có thể xảy ra và giúp bạn ưu tiên các rủi ro cũng như chiến lược giảm thiểu, tận dụng các khuôn khổ như MITER ATLAS , OWASP ML Top 10 và OWASP LLM Top 10 .
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...