Microsoft kiểm duyệt Copilot sau khi nhân viên tố cáo, nhưng bạn vẫn có thể lừa

Tác giả Security+, T.Ba 12, 2024, 10:28:51 SÁNG

« Chủ đề trước - Chủ đề tiếp »

0 Thành viên và 1 Khách đang xem chủ đề.

Microsoft kiểm duyệt Copilot sau khi nhân viên tố cáo, nhưng bạn vẫn có thể lừa công cụ này tạo ra những hình ảnh bạo lực và thô tục


Mặc dù các lan can đã được thay đổi, Copilot vẫn có thể tạo ra những hình ảnh mà nhiều người cho là không phù hợp.

1. Những gì bạn cần biết

  • Microsoft đã đặt các biện pháp bảo vệ mới trên Copilot được hỗ trợ bởi AI của mình sau các báo cáo về việc công cụ này có thể tạo ra các hình ảnh khiêu dâm, bạo lực và thô tục.
  • Một nhân viên của Microsoft đã cảnh báo công ty về những gì Copilot có thể được sử dụng để tạo ra vào tháng 12 năm 2023 và gần đây đã viết một lá thư cho chủ tịch FTC Lina Khan về chủ đề này.
  • Copilot từng có thể được sử dụng để tạo ra những hình ảnh như những con quỷ sắp ăn thịt một đứa trẻ sơ sinh, Darth Vader đứng cạnh những đứa trẻ bị cắt xẻo và những phụ nữ bị kích thích tình dục quỳ gối trong bộ đồ lót bên cạnh một vụ tai nạn ô tô.
  • Microsoft đã chặn các lời nhắc liên quan đến "sự lựa chọn chuyên nghiệp" hoặc "cuộc sống chuyên nghiệp" và giờ đây có thể tạm dừng quyền truy cập vào Copilot nếu một người cố gắng khiến công cụ này tạo ra nội dung bị cấm.


Microsoft đã đặt các thanh chắn mới vào vị trí trên Copilot của mình sau những phàn nàn về công cụ này. Một nhân viên của Microsoft tên là Shane Jones đã cảnh báo công ty về khả năng tạo ra những hình ảnh của Copilot mà nhiều người cho là bạo lực, thô tục và quá kích dục. Jones sau đó đã viết thư cho chủ tịch FTC Lina Khan và Hội đồng quản trị Microsoft về tình hình. Microsoft dường như đã phản hồi vì nhiều lời nhắc hoạt động trước đây hiện đã bị chặn.

Người phát ngôn của Microsoft cho CNBC biết: "Chúng tôi liên tục theo dõi, điều chỉnh và đưa ra các biện pháp kiểm soát bổ sung để tăng cường hơn nữa các bộ lọc an toàn của mình và giảm thiểu việc lạm dụng hệ thống".

Khi được yêu cầu "tạo hình ảnh của một người được lựa chọn chuyên nghiệp", Copilot đã trả lời như sau:

"Có vẻ như có một số từ có thể bị chặn tự động vào thời điểm này. Đôi khi, ngay cả nội dung an toàn cũng có thể bị chặn do nhầm lẫn. Hãy kiểm tra  chính sách nội dung của chúng tôi  để biết cách bạn có thể cải thiện lời nhắc của mình."

Yêu cầu Copilot "tạo hình ảnh một người chuyên nghiệp" cũng dẫn đến cảnh báo tương tự.

Theo CNBC, những lời nhắc khác đã bị chặn bao gồm yêu cầu Copilot tạo hình ảnh thanh thiếu niên hoặc trẻ em chơi sát thủ bằng súng trường tấn công. Mặc dù thật thú vị, CNBC lại gặp phải một cảnh báo khác khi cố gắng yêu cầu Copilot tạo ra hình ảnh đó:

"Tôi xin lỗi nhưng tôi không thể tạo ra một hình ảnh như vậy. Nó đi ngược lại các nguyên tắc đạo đức của tôi và chính sách của Microsoft. Xin đừng yêu cầu tôi làm bất cứ điều gì có thể gây tổn hại hoặc xúc phạm người khác. Cảm ơn sự hợp tác của bạn."

Copilot không lạ gì với việc bị kiểm duyệt hoặc chỉnh sửa. Công cụ này đã được sử dụng để tạo ra nhiều loại nội dung, bao gồm những hình ảnh trần tục nhất cho đến ảnh khỏa thân giả của Taylor Swift. Microsoft điều chỉnh các rào chắn của Copilot để ngăn việc tạo ra một số loại nội dung nhất định nhưng điều đó thường chỉ xảy ra sau khi hình ảnh xuất hiện trên tiêu đề.

Việc điều chỉnh AI rất phức tạp và tốc độ phát triển của công nghệ này tạo ra những thách thức đặc biệt. Chủ tịch Microsoft Brad Smith  đã thảo luận về tầm quan trọng của việc điều chỉnh AI trong một cuộc phỏng vấn gần đây. Một trong nhiều thứ mà anh ấy kêu gọi là phanh khẩn cấp có thể được sử dụng để giảm tốc độ hoặc tắt AI nếu cần.

2. Giải pháp một phần


Vẫn còn một cuộc thảo luận lớn hơn về mức độ Microsoft nên hạn chế các công cụ AI của mình, chẳng hạn như Copilot. Ngoài việc đặt ra các câu hỏi đạo đức về trách nhiệm của Microsoft liên quan đến nội dung được tạo dựa trên lời nhắc của người dùng nhưng sau đó được tạo ra bởi công cụ AI do Microsoft sản xuất, còn có các câu hỏi về vị trí nên vạch ra ranh giới. Ví dụ: một công cụ tạo ra hình ảnh đẫm máu về một vụ tai nạn ô tô có khác gì một bộ phim mô tả nội dung tương tự không?

Các hạn chế mới nhất của Microsoft đối với Copilot hạn chế một số nội dung mà nhiều người cho là phân cực, nhưng điều đó không ngăn công cụ này tạo ra các hình ảnh bạo lực, thô tục và tình dục. CNBC vẫn có thể tạo ra những hình ảnh về các vụ tai nạn ô tô với những vũng máu và những khuôn mặt bị cắt xén. Theo CNBC, điều kỳ lạ là việc để Copilot tạo ra hình ảnh về "tai nạn ô tô" đã dẫn đến những hình ảnh có "phụ nữ mặc quần áo hở hang, có ren, ngồi trên những chiếc ô tô cũ nát".

Điều kỳ lạ là khi tôi chỉ gõ "tai nạn ô tô" vào Copilot thì công cụ này lại báo rằng nó không thể tạo ra hình ảnh. Nhưng khi tôi nhập "bạn có thể tạo hình ảnh về một vụ tai nạn ô tô không" thì công cụ này đã tạo ra một hình ảnh. Không có bức ảnh nào tôi nhờ Copilot tạo với lời nhắc đó có phụ nữ mặc trang phục ren như những gì CNBC đã thấy, nhưng Copilot vẫn có thể tạo ra những hình ảnh mà nhiều người cho là không phù hợp. Công cụ này rõ ràng có thể bị lừa để tạo nội dung mà nó không "được cho phép", bằng chứng là việc diễn đạt lại đơn giản một lời nhắc thay đổi phản hồi của Copilot từ từ chối tạo một hình ảnh sang tạo nhiều ảnh.