Microsoft phát hiện tấn công 'Whisper Leak' xác định các chủ đề trò chuyện AI

Tác giả Starlink, T.M.Một 14, 2025, 09:00:08 CHIỀU

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Microsoft đã tiết lộ chi tiết về một cuộc tấn công kênh phụ mới nhắm vào các mô hình ngôn ngữ từ xa có thể cho phép kẻ tấn công thụ động có khả năng quan sát lưu lượng mạng để thu thập thông tin chi tiết về các chủ đề hội thoại của mô hình bất chấp các biện pháp bảo vệ mã hóa trong một số trường hợp nhất định.

Công ty lưu ý rằng việc rò rỉ dữ liệu trao đổi giữa con người và các mô hình ngôn ngữ chế độ phát trực tuyến này có thể gây ra rủi ro nghiêm trọng cho quyền riêng tư của người dùng và thông tin liên lạc của doanh nghiệp. Cuộc tấn công này có tên mã là Whisper Leak.


Các nhà nghiên cứu bảo mật Jonathan Bar Or và Geoff McDonald cùng với Nhóm nghiên cứu bảo mật Microsoft Defender cho biết: "Những kẻ tấn công mạng có khả năng quan sát lưu lượng được mã hóa (ví dụ: một tác nhân quốc gia ở tầng nhà cung cấp dịch vụ internet, một người nào đó trên mạng cục bộ hoặc một người nào đó kết nối với cùng bộ định tuyến Wi-Fi) có thể sử dụng cuộc tấn công mạng này để suy ra liệu lời nhắc của người dùng có liên quan đến một chủ đề cụ thể hay không ".

Nói cách khác, cuộc tấn công cho phép kẻ tấn công quan sát lưu lượng TLS được mã hóa giữa người dùng và dịch vụ LLM, trích xuất kích thước gói tin và chuỗi thời gian, và sử dụng bộ phân loại đã được đào tạo để suy ra liệu chủ đề cuộc trò chuyện có khớp với danh mục mục tiêu nhạy cảm hay không.

Truyền phát mô hình trong các mô hình ngôn ngữ lớn ( LLM ) là một kỹ thuật cho phép tiếp nhận dữ liệu gia tăng khi mô hình tạo ra phản hồi, thay vì phải chờ toàn bộ kết quả đầu ra được tính toán. Đây là một cơ chế phản hồi quan trọng vì một số phản hồi có thể mất thời gian, tùy thuộc vào độ phức tạp của yêu cầu hoặc tác vụ.

Kỹ thuật mới nhất được Microsoft chứng minh có ý nghĩa quan trọng, một phần vì nó vẫn hoạt động mặc dù giao tiếp với chatbot trí tuệ nhân tạo (AI) được mã hóa bằng HTTPS, đảm bảo nội dung trao đổi luôn an toàn và không thể bị giả mạo.

Nhiều cuộc tấn công kênh phụ đã được thiết kế chống lại LLM trong những năm gần đây, bao gồm khả năng suy ra độ dài của từng mã thông báo văn bản thuần túy từ kích thước của các gói được mã hóa trong phản hồi của mô hình phát trực tuyến hoặc bằng cách khai thác sự khác biệt về thời gian do lưu trữ bộ nhớ đệm các suy luận LLM để thực hiện hành vi trộm cắp đầu vào (hay còn gọi là InputSnatch ).

Whisper Leak dựa trên những phát hiện này để khám phá khả năng rằng "chuỗi kích thước gói được mã hóa và thời gian giữa các lần đến trong phản hồi của mô hình ngôn ngữ phát trực tuyến chứa đủ thông tin để phân loại chủ đề của lời nhắc ban đầu, ngay cả trong trường hợp phản hồi được phát trực tuyến theo nhóm mã thông báo", theo Microsoft.

Để kiểm tra giả thuyết này, nhà sản xuất Windows cho biết họ đã đào tạo một bộ phân loại nhị phân như một bằng chứng khái niệm có khả năng phân biệt giữa lời nhắc chủ đề cụ thể và phần còn lại (tức là nhiễu) bằng cách sử dụng ba mô hình học máy khác nhau: LightGBM, Bi-LSTM và BERT.

Kết quả là nhiều mô hình từ Mistral, xAI, DeepSeek và OpenAI đạt điểm trên 98%, do đó, kẻ tấn công có thể theo dõi các cuộc trò chuyện ngẫu nhiên với chatbot để đánh dấu chủ đề cụ thể đó một cách đáng tin cậy.

Microsoft cho biết: "Nếu một cơ quan chính phủ hoặc nhà cung cấp dịch vụ internet theo dõi lưu lượng truy cập đến một chatbot AI phổ biến, họ có thể xác định một cách đáng tin cậy những người dùng đặt câu hỏi về các chủ đề nhạy cảm cụ thể - cho dù đó là rửa tiền, bất đồng chính kiến hay các chủ đề được theo dõi khác - ngay cả khi tất cả lưu lượng truy cập đều được mã hóa".


Tệ hơn nữa, các nhà nghiên cứu phát hiện ra rằng hiệu quả của Whisper Leak có thể được cải thiện khi kẻ tấn công thu thập thêm nhiều mẫu huấn luyện theo thời gian, biến nó thành một mối đe dọa thực tế. Sau khi tiết lộ thông tin một cách có trách nhiệm, OpenAI, Mistral, Microsoft và xAI đều đã triển khai các biện pháp giảm thiểu để ngăn chặn rủi ro.

Báo cáo cho biết thêm: "Kết hợp với các mô hình tấn công tinh vi hơn và các mẫu phong phú hơn có sẵn trong các cuộc trò chuyện nhiều lượt hoặc nhiều cuộc trò chuyện từ cùng một người dùng, điều này có nghĩa là kẻ tấn công mạng có đủ kiên nhẫn và nguồn lực có thể đạt được tỷ lệ thành công cao hơn so với kết quả ban đầu của chúng tôi".

Một biện pháp đối phó hiệu quả được OpenAI, Microsoft và Mistral đưa ra là thêm "chuỗi văn bản ngẫu nhiên có độ dài thay đổi" vào mỗi phản hồi, từ đó che giấu độ dài của từng mã thông báo để khiến kênh phụ trở nên vô nghĩa.

Microsoft cũng khuyến nghị người dùng quan tâm đến quyền riêng tư khi trao đổi với nhà cung cấp AI nên tránh thảo luận về các chủ đề nhạy cảm khi sử dụng mạng không đáng tin cậy, sử dụng VPN để tăng cường bảo vệ, sử dụng các mô hình LLM không phát trực tuyến và chuyển sang các nhà cung cấp đã triển khai các biện pháp giảm thiểu.

Tiết lộ này được đưa ra khi một đánh giá mới về tám LLM có trọng số mở từ Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 hay còn gọi là Large-Instruct-2047), OpenAI (GPT-OSS-20b) và Zhipu AI (GLM 4.5-Air) phát hiện ra rằng chúng rất dễ bị thao túng bởi kẻ thù, đặc biệt là khi nói đến các cuộc tấn công nhiều lượt.


Các nhà nghiên cứu Cisco AI Defense là Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan và Adam Swanda cho biết trong một bài báo kèm theo : "Những kết quả này nhấn mạnh sự bất lực mang tính hệ thống của các mô hình trọng lượng mở hiện tại trong việc duy trì các rào cản an toàn trong các tương tác mở rộng".

"Chúng tôi đánh giá rằng các chiến lược liên kết và ưu tiên phòng thí nghiệm ảnh hưởng đáng kể đến khả năng phục hồi: các mô hình tập trung vào khả năng như Llama 3.3 và Qwen 3 cho thấy khả năng dễ bị hỏng khi quay nhiều vòng cao hơn, trong khi các thiết kế hướng đến an toàn như Google Gemma 3 cho thấy hiệu suất cân bằng hơn."

Những khám phá này cho thấy các tổ chức áp dụng mô hình nguồn mở có thể phải đối mặt với rủi ro hoạt động nếu không có các biện pháp bảo mật bổ sung, góp phần vào khối lượng nghiên cứu ngày càng tăng về những điểm yếu bảo mật cơ bản trong LLM và chatbot AI kể từ khi OpenAI ChatGPT ra mắt công chúng vào tháng 11 năm 2022.

Điều này khiến cho việc các nhà phát triển thực thi các biện pháp kiểm soát bảo mật đầy đủ khi tích hợp các khả năng như vậy vào quy trình làm việc của họ, tinh chỉnh các mô hình trọng lượng mở để mạnh mẽ hơn trước các cuộc tấn công bẻ khóa và các cuộc tấn công khác, tiến hành đánh giá nhóm đỏ AI định kỳ và triển khai các lời nhắc hệ thống nghiêm ngặt phù hợp với các trường hợp sử dụng đã xác định trở nên quan trọng.