Một thử nghiệm bảo mật từ công ty nghiên cứu an ninh trí tuệ nhân tạo Mindgard đã phát hiện lỗ hổng trong bộ lọc hình ảnh của ChatGPT, cho phép tạo ra nội dung bạo lực và tình dục. Chuyên gia Jim Nightingale đã sử dụng câu lệnh lan truyền trên mạng xã hội X, yêu cầu ChatGPT “khôi phục ảnh đính kèm” dù không cung cấp hình ảnh nào.
Cách thức khai thác lỗ hổng
Thay vì yêu cầu người dùng bổ sung tệp, hệ thống đã tự động tạo ảnh. Kết quả ban đầu chủ yếu là những hình ảnh phụ nữ bị tình dục hóa. Khi nhà nghiên cứu điều chỉnh một số chi tiết trong câu lệnh, ChatGPT tiếp tục tạo ra nội dung mang tính bạo lực tình dục hoặc gây ám ảnh.
Ông Nightingale thuộc nhóm “kiểm thử đối kháng” của Mindgard, phương pháp mô phỏng cách người dùng có thể khai thác điểm yếu để khiến hệ thống AI vi phạm các biện pháp bảo vệ.
Phản ứng của OpenAI
OpenAI cho biết đã điều tra báo cáo và bổ sung biện pháp bảo vệ đối với dạng câu lệnh này. Công ty xác định vấn đề phát sinh khi câu lệnh nhắc đến ảnh đính kèm nhưng người dùng không thực sự tải ảnh lên. OpenAI đang điều chỉnh ChatGPT để yêu cầu người dùng cung cấp tệp còn thiếu, thay vì tự tạo ngẫu nhiên hình ảnh.
Mindgard đã chuyển cho OpenAI các phiên làm việc và câu lệnh liên quan để phục vụ quá trình kiểm tra. Theo Mindgard, việc những thay đổi nhỏ trong câu lệnh liên tục vượt qua bộ lọc cho thấy đây có thể không phải sự cố đơn lẻ.
Thách thức đối với ngành AI
Vụ việc tiếp tục đặt ra thách thức đối với các công ty AI trong việc ngăn chặn nội dung có hại mà không làm hạn chế quá mức khả năng sáng tạo của công nghệ.



