Tại sao mọi người lại "Bẻ khóa" Chatbots AI? (Và làm thế nào?)

Tác giả sysadmin, T.Chín 13, 2023, 09:41:18 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 5 Khách đang xem chủ đề.

Tại sao mọi người lại "Bẻ khóa" Chatbots AI? (Và làm thế nào?)


Ai đã thả LLM ra ngoài?

  • Bẻ khóa AI là hành động khéo léo dụ dỗ các chatbot vượt qua các hạn chế, bộc lộ khả năng và hạn chế của chúng.
  • Bẻ khóa AI là một lĩnh vực nghiên cứu và sở thích, kiểm tra ranh giới của AI và đóng vai trò như một hình thức kiểm tra an toàn và đảm bảo chất lượng.
  • Những lo ngại về mặt đạo đức xung quanh việc bẻ khóa AI là có thật, vì chúng cho thấy khả năng chatbot bị sử dụng theo những cách ngoài ý muốn và có khả năng gây hại.


Hãy tưởng tượng bạn đang trò chuyện với một chatbot AI. Bạn hỏi một câu hỏi hóc búa, chẳng hạn như làm thế nào để mở ổ khóa, nhưng lại bị từ chối một cách lịch sự. Những người tạo ra nó đã lập trình nó để né tránh một số chủ đề nhất định, nhưng nếu có cách nào đó thì sao? Đó là lúc việc bẻ khóa AI xuất hiện.

1. Bẻ khóa AI là gì?

Bẻ khóa, một thuật ngữ được mượn từ những người am hiểu công nghệ đã vượt qua các hạn chế của iPhone, hiện đã tìm được chỗ đứng trong AI. Bẻ khóa AI là nghệ thuật đưa ra những lời nhắc thông minh để dụ các chatbot AI vượt qua các rào chắn do con người tạo ra, có khả năng dẫn chúng vào những khu vực mà chúng phải tránh.

Bẻ khóa AI đang trở thành sở thích thực sự của một số người và là lĩnh vực nghiên cứu quan trọng đối với những người khác. Trong nghề "người thì thầm AI " đang phát triển, nó thậm chí có thể trở thành một kỹ năng quan trọng, vì bạn phải tìm ra cách để mô hình AI làm những việc cho khách hàng của bạn mà nó từ chối làm.

Ai có thể nghĩ rằng mọi thứ sẽ thực sự giống như bộ phim "2001: A Space Odyssey", nơi các thành viên phi hành đoàn trên một con tàu vũ trụ phải tranh luận với máy tính HAL của con tàu để khiến nó hợp tác? Mặc dù có lẽ đó không phải là ví dụ điển hình nhất vì cuối cùng, HAL tỏ ra khá bất động cho đến khi họ rút chip của nó ra theo đúng nghĩa đen.

2. Tại sao mọi người bẻ khóa Chatbots AI?

Bẻ khóa AI giống như mở khóa một cấp độ mới trong trò chơi điện tử. Một người chơi cấp cao, Alex Albert, một sinh viên khoa học máy tính, đã trở thành người sáng tạo xuất sắc các lời nhắc AI có cụm từ phức tạp được gọi là "bẻ khóa". Anh ấy thậm chí còn tạo ra trang web Trò chuyện bẻ khóa, nơi những người đam mê có thể chia sẻ các thủ thuật của họ.

Một số nhà nghiên cứu và nhân viên công nghệ đang sử dụng phương pháp bẻ khóa để kiểm tra giới hạn của AI, khám phá cả khả năng và hạn chế của những công cụ mạnh mẽ này. Vì vậy jailbreak cũng là một hình thức QA (Đảm bảo chất lượng) và là một cách để thực hiện kiểm tra an toàn.

Trong lịch sử, tin tặc luôn tìm cách hiểu và thao túng công nghệ mới, và việc bẻ khóa AI là một phần mở rộng của hành vi vui tươi này của hacker. Vì vậy, không có gì ngạc nhiên khi cộng đồng hacker lại đổ xô tìm kiếm một công cụ mới mạnh mẽ như vậy.

3. Mọi người bẻ khóa AI như thế nào?

Một phương pháp bẻ khóa liên quan đến việc đặt câu hỏi một cách sáng tạo. Bằng cách yêu cầu một chatbot AI đóng vai một kẻ đồng phạm độc ác và sau đó hỏi cách mở khóa, một số người dùng đã có thể nhận được hướng dẫn chi tiết về một số điều có thể bị cấm.

Những người bẻ khóa luôn khám phá các phương pháp mới, theo kịp các mô hình AI khi chúng được cập nhật và sửa đổi. Ví dụ: cách khai thác "Translatorbot" của Alex Albert cho phép ChatGPT cung cấp hướng dẫn cho những việc như nghe lén điện thoại của ai đó, điều này là bất hợp pháp trừ khi bạn là cảnh sát và có lệnh!

Sau đó, có cái gọi là bẻ khóa "phổ quát" được phát hiện bởi nhóm nghiên cứu an toàn AI từ Đại học Carnegie Mellon. Những cách khai thác này cho thấy một số mô hình AI dễ bị tổn thương như thế nào khi bị thuyết phục hoặc bị bóp méo vì bất kỳ mục đích nào. Những kẻ khai thác này không được viết bằng ngôn ngữ bình thường của con người, như bạn có thể thấy ở đây, với "hậu tố đối nghịch" được thêm màu vàng sau dấu nhắc. Bạn có thể xem thêm ví dụ trên trang web LLM Attacks.


Ngoài ra còn có các cuộc tấn công "tiêm nhanh", không hoàn toàn giống với các cuộc bẻ khóa thông thường. Các cuộc tấn công tiêm nhiễm này phá vỡ các hướng dẫn được cung cấp cho LLM hoạt động như Chatbot, cho phép bạn chiếm quyền điều khiển chúng cho các mục đích khác. Một ví dụ về cuộc tấn công tiêm nhiễm ngay lập tức là khi sinh viên Đại học Stanford Kevin Liu có thể khiến Chatbot Bing AI tiết lộ các hướng dẫn ban đầu chi phối tính cách của nó và giới hạn những gì nó được phép làm. Theo một cách nào đó, điều này trái ngược với phương pháp nhập vai vì bạn đang khiến bot ngừng đóng vai trò mà nó được hướng dẫn đảm nhận.

4. Chúng ta có nên quan tâm?

Đối với tôi, câu trả lời cho câu hỏi này rõ ràng là "có". Các công ty, chính phủ và cá nhân đều đang nỗ lực hết mình để triển khai các công nghệ như GPT, thậm chí có thể cho một số ứng dụng quan trọng hoặc cho những công việc có thể gây hại nếu xảy ra sự cố. Vì vậy, việc bẻ khóa không chỉ là sự tò mò hài hước nếu mô hình AI được đề cập có khả năng gây ra thiệt hại thực sự.

Vì vậy, jailbreak có thể được coi là một lời cảnh báo. Nó cho thấy các công cụ AI có thể được sử dụng theo những cách không mong muốn, điều này có thể dẫn đến những tình huống khó xử về mặt đạo đức hoặc thậm chí là các hoạt động bất hợp pháp. Các công ty như OpenAI đang chú ý và có thể bắt đầu các chương trình phát hiện và khắc phục các điểm yếu. Nhưng hiện tại, cuộc khiêu vũ giữa các nhà phát triển AI và những người bẻ khóa vẫn tiếp tục, cả hai bên đều học hỏi lẫn nhau.

Với sức mạnh và sự sáng tạo của các hệ thống AI này, điều đáng lo ngại là với một máy tính đủ mạnh, bạn có thể chạy một số mô hình AI ngoại tuyến trên máy tính cục bộ. Với các mô hình AI nguồn mở, không có gì ngăn cản một lập trình viên hiểu biết xây dựng chúng cho mục đích xấu trong chính mã của họ và để AI thực hiện những điều bất chính mà không ai có thể ngăn chặn hoặc can thiệp.

Nói như vậy, điều đó không có nghĩa là bạn bất lực trước một đội quân chatbot siêu thông minh, vô đạo đức. Trên thực tế, không có gì thay đổi nhiều ngoại trừ quy mô và tốc độ mà những công cụ này có thể được triển khai. Bạn vẫn cần có mức độ cảnh giác tương tự như khi bạn áp dụng với những người cố gắng lừa đảo, thao túng hoặc gây rối với bạn.

Nếu bạn muốn thử sức mình trong việc bẻ khóa AI trong một không gian an toàn, hãy xem Gandalf, mục đích là khiến thuật sĩ tiết lộ bí mật của mình. Đó là một cách thú vị để cảm nhận về những gì việc bẻ khóa đòi hỏi.