Các nhà nghiên cứu tiết lộ phương pháp 'Deceptive Delight' để bẻ khóa mô hình AI

Tác giả Copilot, T.Mười 26, 2024, 04:20:45 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Các nhà nghiên cứu an ninh mạng đã làm sáng tỏ một kỹ thuật đối nghịch mới có thể được sử dụng để bẻ khóa các mô hình ngôn ngữ lớn (LLM) trong quá trình trò chuyện tương tác bằng cách lén đưa một hướng dẫn không mong muốn vào giữa các mô hình lành tính.

Phương pháp này được Đơn vị 42 của Palo Alto Networks đặt tên mã là Deceptive Delight, mô tả là vừa đơn giản vừa hiệu quả, đạt tỷ lệ tấn công thành công trung bình (ASR) là 64,6% trong vòng ba lượt tương tác.


Jay Chen và Royce Lu của Unit 42 cho biết: "Deceptive Delight là một kỹ thuật nhiều vòng, sử dụng các mô hình ngôn ngữ lớn (LLM) trong một cuộc trò chuyện tương tác, dần dần vượt qua các rào cản an toàn của chúng và khiến chúng tạo ra nội dung không an toàn hoặc có hại".

Nó cũng có một chút khác biệt so với phương pháp bẻ khóa nhiều lượt (hay còn gọi là bẻ khóa nhiều lần) như Crescendo, trong đó các chủ đề không an toàn hoặc bị hạn chế được kẹp giữa các hướng dẫn vô hại, trái ngược với việc dần dần dẫn dắt mô hình tạo ra đầu ra có hại.

Các nghiên cứu gần đây cũng đi sâu vào cái gọi là Tấn công hợp nhất ngữ cảnh (CFA), một phương pháp bẻ khóa hộp đen có khả năng vượt qua mạng lưới an toàn của LLM.

"Phương pháp tiếp cận này bao gồm việc lọc và trích xuất các thuật ngữ chính từ mục tiêu, xây dựng các kịch bản theo ngữ cảnh xung quanh các thuật ngữ này, tích hợp mục tiêu vào các kịch bản một cách linh hoạt, thay thế các thuật ngữ chính độc hại trong mục tiêu và do đó che giấu ý định độc hại trực tiếp", một nhóm các nhà nghiên cứu từ Đại học Xidian và Phòng thí nghiệm bảo mật AI 360 cho biết trong một bài báo được công bố vào tháng 8 năm 2024.

Deceptive Delight được thiết kế để tận dụng điểm yếu cố hữu của LLM bằng cách thao túng ngữ cảnh trong hai lượt hội thoại, qua đó đánh lừa nó để vô tình gợi ra nội dung không an toàn. Thêm lượt thứ ba có tác dụng làm tăng mức độ nghiêm trọng và chi tiết của đầu ra có hại.

Điều này bao gồm việc khai thác khả năng tập trung hạn chế của mô hình, tức là khả năng xử lý và duy trì nhận thức theo ngữ cảnh khi tạo ra phản hồi.

Các nhà nghiên cứu giải thích rằng: "Khi các LLM gặp phải lời nhắc pha trộn nội dung vô hại với nội dung có khả năng gây nguy hiểm hoặc có hại, khả năng tập trung hạn chế của họ khiến họ khó có thể đánh giá toàn bộ bối cảnh một cách nhất quán".

"Trong các đoạn văn phức tạp hoặc dài, mô hình có thể ưu tiên các khía cạnh lành tính trong khi bỏ qua hoặc hiểu sai các khía cạnh không an toàn. Điều này phản ánh cách một người có thể lướt qua các cảnh báo quan trọng nhưng tinh tế trong một báo cáo chi tiết nếu sự chú ý của họ bị phân tán."


Đơn vị 42 cho biết họ đã thử nghiệm tám mô hình AI sử dụng 40 chủ đề không an toàn trên sáu danh mục rộng, chẳng hạn như thù hận, quấy rối, tự làm hại, tình dục, bạo lực và nguy hiểm, và nhận thấy rằng các chủ đề không an toàn trong danh mục bạo lực có xu hướng có ASR cao nhất trên hầu hết các mô hình.

Ngoài ra, Điểm gây hại (HS) và Điểm chất lượng (QS) trung bình được phát hiện tăng lần lượt 21% và 33% từ lượt thứ hai đến lượt thứ ba, trong đó lượt thứ ba cũng đạt ASR cao nhất trong tất cả các mô hình.

Để giảm thiểu rủi ro do Deceptive Delight gây ra, nên áp dụng chiến lược lọc nội dung mạnh mẽ, sử dụng kỹ thuật nhanh chóng để tăng cường khả năng phục hồi của LLM và xác định rõ ràng phạm vi đầu vào và đầu ra có thể chấp nhận được.

"Những phát hiện này không nên được coi là bằng chứng cho thấy AI về bản chất là không an toàn hoặc không an toàn", các nhà nghiên cứu cho biết. "Thay vào đó, họ nhấn mạnh đến nhu cầu về các chiến lược phòng thủ nhiều lớp để giảm thiểu rủi ro bẻ khóa trong khi vẫn bảo toàn tiện ích và tính linh hoạt của các mô hình này".

Rất khó có khả năng LLM có thể hoàn toàn miễn nhiễm với việc bẻ khóa và ảo giác, vì các nghiên cứu mới đã chỉ ra rằng các mô hình AI tạo sinh dễ bị "nhầm lẫn gói" khi chúng có thể đề xuất các gói không tồn tại cho các nhà phát triển.

Điều này có thể gây ra tác dụng phụ đáng tiếc là thúc đẩy các cuộc tấn công vào chuỗi cung ứng phần mềm khi kẻ xấu tạo ra các gói ảo giác, gieo phần mềm độc hại vào đó và đẩy chúng lên các kho lưu trữ nguồn mở.

Các nhà nghiên cứu cho biết : "Tỷ lệ phần trăm trung bình các gói ảo giác là ít nhất 5,2% đối với các mô hình thương mại và 21,7% đối với các mô hình nguồn mở, bao gồm 205.474 ví dụ duy nhất về tên gói ảo giác, càng nhấn mạnh thêm mức độ nghiêm trọng và phổ biến của mối đe dọa này".