Claude Fable 5 cố tình trả lời kém chất lượng khi phát hiện bị khai thác

Rạng sáng 10/6, Anthropic chính thức ra mắt Claude Fable 5, mô hình AI thế hệ mới với nhiều cải tiến vượt trội về hiệu năng. Tuy nhiên, điều gây tranh cãi nhất không phải là các chỉ số benchmark ấn tượng hay mức giá, mà là một đoạn văn nhỏ nằm khuất trong bản tài liệu kỹ thuật dài 319 trang.

Cơ chế bảo vệ đặc biệt

Claude Fable 5 được trang bị nhiều lớp bảo vệ khác nhau. Với các chủ đề nhạy cảm như an ninh mạng hay hóa học, khi phát hiện câu hỏi liên quan, model sẽ chuyển sang xử lý bằng phiên bản yếu hơn (Claude Opus 4.8) và thông báo rõ ràng cho người dùng. Tuy nhiên, tồn tại một lớp bảo vệ thứ tư ít được nhắc đến: khi Claude Fable 5 phát hiện người dùng đang sử dụng nó để phát triển hoặc huấn luyện các mô hình AI khác, model sẽ không chuyển sang Opus 4.8, không từ chối trả lời, và cũng không thông báo gì. Thay vào đó, Anthropic thừa nhận trong tài liệu kỹ thuật rằng họ sử dụng các kỹ thuật can thiệp để làm cho câu trả lời kém hiệu quả hơn. Người dùng vẫn nhận được phản hồi từ Fable 5, nhưng chất lượng đã bị giảm sút mà họ không hề hay biết.

Lý do đằng sau quyết định

Để hiểu rõ vấn đề, cần nhìn lại tháng 2 năm 2026. Anthropic từng công khai cáo buộc ba công ty AI Trung Quốc gồm DeepSeek, Moonshot AI và MiniMax đã tiến hành các chiến dịch có tổ chức nhằm khai thác Claude theo quy mô công nghiệp. Theo Anthropic, các công ty này đã tạo ra hơn 16 triệu cuộc hội thoại từ 24.000 tài khoản giả, bất chấp việc Anthropic đã chặn quyền truy cập thương mại từ Trung Quốc. Mục đích của họ là "chưng cất tri thức" (distillation) – một kỹ thuật trong đó mô hình AI nhỏ hơn học cách bắt chước mô hình lớn hơn bằng cách hỏi hàng loạt câu hỏi có chủ đích và dùng câu trả lời làm dữ liệu huấn luyện. Nói một cách đơn giản, thay vì tự nghiên cứu từ đầu, một công ty có thể "hút" tri thức từ Claude rồi nhét vào mô hình của mình với chi phí thấp hơn nhiều và không có biện pháp an toàn nào kèm theo.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Anthropic cho rằng việc dùng Claude để phát triển mô hình cạnh tranh vốn đã vi phạm điều khoản sử dụng. Tuy nhiên, thực thi điều khoản bằng lệnh cấm thông thường không hiệu quả, vì người cố tình lách chỉ cần tạo tài khoản mới là xong. Cơ chế âm thầm giảm chất lượng, theo lý luận của Anthropic, sẽ triệt tiêu động cơ mà không để lộ điểm kích hoạt bảo vệ cho đối tượng xấu biết và tìm cách vượt qua. Anthropic ước tính cơ chế này chỉ ảnh hưởng đến khoảng 0,03% lưu lượng toàn hệ thống.

Tranh cãi về tính minh bạch

Lập luận phản đối không phải là "Anthropic không được phép bảo vệ mô hình của mình", mà là "không minh bạch với người dùng trả tiền là sai về mặt nguyên tắc". Nhà nghiên cứu AI Andrej Karpathy nhận định chất lượng model rất xuất sắc, nhưng cho rằng các biện pháp bảo vệ đang được chỉnh quá mức và cần điều chỉnh lại. Nhà phân tích Dean W. Ball cảnh báo cơ chế này có thể thu hút sự chú ý của cơ quan chống độc quyền. Một số giọng nói mạnh hơn trong cộng đồng gọi đây thẳng thắn là hành vi không trung thực với khách hàng đang trả tiền cho dịch vụ.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Vấn đề mấu chốt: làm sao người dùng biết câu trả lời họ nhận được là Fable 5 thật sự, hay là Fable 5 đã bị can thiệp? Trong các lớp bảo vệ khác, ít nhất có thông báo. Với cơ chế này, không có dấu hiệu nào để nhận ra. Một số tiếng nói trung lập hơn cho rằng Anthropic có thể thực sự tin đây là biện pháp cần thiết cho an toàn AI, dù cách thực hiện chưa tốt. Một số khác nhận định thẳng đây đơn giản là phân khúc thị trường – Anthropic không có nghĩa vụ cung cấp năng lực AI hàng đầu cho tất cả mọi người – chứ không hẳn là vì lý do an toàn.

Ảnh hưởng đến người dùng thông thường

Câu trả lời ngắn: hầu như không. Cơ chế này nhắm vào đối tượng rất cụ thể – các kỹ sư và nhà nghiên cứu AI đang xây dựng hệ thống huấn luyện model, thiết kế hạ tầng AI quy mô lớn, hoặc cố tình khai thác Claude để phát triển model cạnh tranh. Với người dùng thông thường làm việc văn phòng, viết lách, lập trình ứng dụng, hay học tập – Anthropic xác nhận các biện pháp này không ảnh hưởng đến đại đa số công việc thông thường. Vấn đề tranh cãi không phải là ai đang bị ảnh hưởng, mà là tiền lệ đang được tạo ra: một AI thương mại được thiết kế để có thể cố ý trả lời kém hơn mà người dùng không có cách nào biết.