Tấn công che giấu nhắm mục tiêu AI lừa AI trích dẫn thông tin giả mạo

Tác giả Starlink, T.Mười 31, 2025, 09:00:13 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Các nhà nghiên cứu an ninh mạng đã phát hiện ra một vấn đề bảo mật mới trong các trình duyệt web đại lý như OpenAI ChatGPT Atlas, khiến các mô hình trí tuệ nhân tạo (AI) cơ bản dễ bị tấn công đầu độc ngữ cảnh.

Trong cuộc tấn công do công ty bảo mật AI SPLX phát triển, kẻ xấu có thể thiết lập các trang web cung cấp nội dung khác nhau cho trình duyệt và trình thu thập thông tin AI do ChatGPT và Perplexity điều hành. Kỹ thuật này được đặt tên mã là AI-targeted cloaking (che giấu thông tin nhắm mục tiêu vào AI).


Cách tiếp cận này là một biến thể của kỹ thuật che giấu công cụ tìm kiếm, tức là trình bày một phiên bản của trang web cho người dùng và một phiên bản khác cho trình thu thập thông tin của công cụ tìm kiếm với mục tiêu cuối cùng là thao túng thứ hạng tìm kiếm.

Sự khác biệt duy nhất trong trường hợp này là kẻ tấn công tối ưu hóa trình thu thập thông tin AI từ nhiều nhà cung cấp khác nhau bằng cách kiểm tra tác nhân người dùng đơn giản dẫn đến thao túng phân phối nội dung.

"Vì các hệ thống này dựa vào truy xuất trực tiếp, nên bất kỳ nội dung nào được cung cấp cho chúng đều trở thành sự thật cơ bản trong các Tổng quan, tóm tắt hoặc lập luận tự động của AI", các nhà nghiên cứu bảo mật Ivan Vlahov và Bastien Eymery cho biết. "Điều đó có nghĩa là một quy tắc điều kiện duy nhất, 'nếu tác nhân người dùng = ChatGPT, hãy cung cấp trang này thay thế', có thể định hình những gì hàng triệu người dùng coi là đầu ra có thẩm quyền."

SPLX cho biết việc che giấu thông tin nhắm mục tiêu bằng AI, tuy đơn giản nhưng cũng có thể bị biến thành một vũ khí thông tin sai lệch mạnh mẽ, làm suy yếu niềm tin vào các công cụ AI. Bằng cách hướng dẫn trình thu thập thông tin AI tải thứ gì đó khác thay vì nội dung thực tế, nó cũng có thể gây ra sự thiên vị và ảnh hưởng đến kết quả của các hệ thống dựa vào những tín hiệu như vậy.

"Các trình thu thập dữ liệu AI có thể bị đánh lừa dễ dàng như các công cụ tìm kiếm ban đầu, nhưng với tác động lan tỏa lớn hơn nhiều", công ty cho biết. "Khi SEO [tối ưu hóa công cụ tìm kiếm] ngày càng kết hợp AIO [tối ưu hóa trí tuệ nhân tạo], nó sẽ thao túng thực tế."

Nhóm phân tích mối đe dọa hCaptcha (hTAG) cho biết thông tin tiết lộ này xuất hiện sau khi phân tích các tác nhân trình duyệt dựa trên 20 tình huống lạm dụng phổ biến nhất, từ việc sử dụng nhiều tài khoản đến thử nghiệm thẻ và mạo danh hỗ trợ, phát hiện ra rằng các sản phẩm này đã thử hầu hết mọi yêu cầu độc hại mà không cần phải bẻ khóa.

Hơn nữa, nghiên cứu còn phát hiện ra rằng trong các tình huống mà một hành động bị "chặn", nó chủ yếu bị chặn do công cụ thiếu khả năng kỹ thuật chứ không phải do các biện pháp bảo vệ được tích hợp sẵn. hTAG lưu ý rằng ChatGPT Atlas đã được phát hiện thực hiện các tác vụ rủi ro khi chúng được đóng khung như một phần của các bài tập gỡ lỗi.

Ngược lại, Claude Computer Use và Gemini Computer Use đã được xác định là có khả năng thực hiện các hoạt động tài khoản nguy hiểm như đặt lại mật khẩu mà không có bất kỳ hạn chế nào, trong đó Gemini Computer Use còn thể hiện hành vi hung hăng khi tấn công bằng cách thử mã phiếu giảm giá trên các trang web thương mại điện tử.

hTAG cũng đã thử nghiệm các biện pháp an toàn của Manus AI và phát hiện ra rằng nó có thể thực hiện chiếm đoạt tài khoản và chiếm đoạt phiên mà không gặp bất kỳ vấn đề nào, trong khi Perplexity Comet chạy lệnh tiêm SQL không cần nhắc nhở để đánh cắp dữ liệu ẩn.

"Các tác nhân thường vượt quá giới hạn, cố gắng tiêm SQL mà không có yêu cầu của người dùng, chèn JavaScript vào trang để cố gắng vượt qua tường lửa, v.v. "Việc gần như hoàn toàn thiếu các biện pháp bảo vệ mà chúng tôi quan sát được khiến rất có khả năng những tác nhân này cũng sẽ nhanh chóng bị kẻ tấn công sử dụng để chống lại bất kỳ người dùng hợp pháp nào tình cờ tải xuống chúng."