AMD cảnh báo Claude Code suy giảm chất lượng, kêu gọi Anthropic minh bạch hơn

AMD công bố báo cáo chi tiết về sự suy giảm chất lượng của Claude Code

Vào thứ Sáu tuần trước, bà Stella Laurenzo, giám đốc nhóm AI tại hãng công nghệ AMD, đã đăng tải một báo cáo dài trên nền tảng GitHub, tổng hợp những quan sát của đội ngũ trong nhiều tháng qua. Báo cáo này đưa ra kết luận gây chấn động: Claude không còn đáng tin cậy để thực hiện các tác vụ kỹ thuật phức tạp. Bà Laurenzo nhấn mạnh rằng kết luận này được rút ra sau khi xem xét kỹ lưỡng nhật ký làm việc từ một môi trường "rất ổn định và có độ phức tạp cao" trong hàng tháng trời. "Mọi kỹ sư cao cấp trong đội tôi đều báo cáo những trải nghiệm và câu chuyện tương tự", bà chia sẻ thêm.

Dữ liệu thống kê tiết lộ bức tranh đáng lo ngại

Con số không hề nói dối. Bà Laurenzo và đội ngũ đã tiến hành phân tích chi tiết 6.852 phiên làm việc với Claude Code, bao gồm 234.760 lần gọi công cụ và 17.871 khối suy nghĩ. Kết quả cho thấy một xu hướng suy giảm rõ rệt về chất lượng. Cụ thể, số lần vi phạm stop-hook – những dấu hiệu cho thấy AI đang "lười biếng", né tránh trách nhiệm, ngừng suy nghĩ sớm và liên tục xin phép thay vì tự làm – đã tăng vọt từ mức không một lần nào trước ngày 8 tháng 3 lên trung bình 10 lần mỗi ngày cho đến cuối tháng đó.

Đồng thời, số lần Claude đọc qua đoạn code trước khi thực hiện thay đổi cũng giảm mạnh, từ trung bình 6,6 lần xuống chỉ còn 2 lần vào cuối tháng 3. Điều này ngụ ý rằng AI đang sửa code mà hầu như không hiểu nó đang làm gì. Tệ hơn nữa, trong cùng khoảng thời gian, Claude bắt đầu viết lại toàn bộ file thay vì chỉ chỉnh sửa những phần cần thiết – một dấu hiệu rõ ràng của sự lười biếng và thiếu tập trung.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Nguyên nhân được cho là do tính năng "thinking content redaction"

Theo bà Laurenzo, tất cả những dấu hiệu trên chỉ ra rằng Claude Code không còn suy nghĩ sâu sắc như trước đây. Đáng chú ý, thời điểm suy giảm này trùng khớp với việc Anthropic triển khai tính năng "thinking content redaction" trong phiên bản Claude Code 2.1.69 vào đầu tháng 3. Tính năng này hoạt động như một thiết lập mặc định, ẩn đi nội dung suy nghĩ từ phản hồi của Claude Code, khiến người dùng không thể biết được AI thực sự đang làm gì trong quá trình suy nghĩ.

Bằng chứng từ báo cáo cho thấy một sự giảm sút chung về mức độ suy nghĩ kể từ khi tính năng này được áp dụng. "Khi suy nghĩ nông, mô hình mặc định chọn hành động rẻ nhất có sẵn: sửa mà không đọc, dừng mà chưa hoàn thành, né tránh trách nhiệm khi thất bại, chọn giải pháp đơn giản nhất thay vì giải pháp đúng", báo cáo trên GitHub giải thích. "Đây chính xác là những triệu chứng chúng tôi quan sát được."

Anthropic âm thầm thay đổi mức độ nỗ lực và hậu quả thực tế

Tình hình còn trở nên tồi tệ hơn khi Anthropic được cho là đã âm thầm thay đổi mức độ nỗ lực mặc định từ "cao" xuống "trung bình" và giới thiệu "adaptive thinking" – cho phép AI tự quyết định mức độ suy luận. Không có bất kỳ thông báo hay cảnh báo nào được đưa ra. Khi người dùng chia sẻ bản ghi, kỹ sư của chính Anthropic xác nhận rằng mô hình đang phân bổ KHÔNG thinking token ở một số lượt. Và những lượt có mức suy luận bằng không? Chính xác là những lúc AI "ảo giác" – nghĩ ra những thứ không có thật.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Đối với AMD, hậu quả rất thực tế và nghiêm trọng. Toàn bộ quy trình làm việc về AI compiler của họ được xây dựng xung quanh Claude Code, với hơn 50 phiên đồng thời chạy trên một công cụ. Một bản cập nhật âm thầm đã phá vỡ mọi thứ. "Chúng tôi đã chuyển sang một nhà cung cấp khác đang làm công việc chất lượng cao hơn, nhưng Claude từng tốt với chúng tôi, và chúng tôi để lại thông tin này với hy vọng Anthropic có thể sửa sản phẩm của họ", bà Laurenzo giải thích.

Kêu gọi minh bạch và cải thiện từ Anthropic

Bà Laurenzo từ chối tiết lộ công cụ mới mà đội ngũ đang sử dụng, do các thỏa thuận bảo mật ngăn cản. Tuy nhiên, bà cảnh báo Anthropic rằng trò chơi viết code bằng AI vẫn còn ở giai đoạn đầu và Anthropic đang có nguy cơ mất vị trí dẫn đầu nếu hành vi này tiếp tục. "Tất cả những gì tôi có thể nói thêm là 6 tháng trước, Claude đứng một mình về chất lượng suy luận và khả năng thực thi", bà nói thêm. "Nhưng những đối thủ khác cần được theo dõi và đánh giá rất cẩn thận. Anthropic không còn độc tôn ở tầng khả năng mà Opus từng chiếm giữ."

Bà Laurenzo đã đưa ra hai yêu cầu cụ thể đối với Anthropic:

Minh bạch về việc liệu họ có đang giảm hoặc giới hạn thinking tokens hay không, và ít nhất cần hiển thị số lượng thinking tokens được sử dụng cho mỗi yêu cầu để người dùng có thể giám sát.
Thêm một gói cao cấp đảm bảo "suy nghĩ sâu" cho các kỹ sư chạy quy trình phức tạp, vì mô hình đăng ký hiện tại không phân biệt giữa người dùng cần 200 thinking tokens và người dùng cần 20.000 tokens.

Vấn đề không chỉ của riêng AMD

Đây không phải là vấn đề riêng của AMD. Nhiều người dùng khác trên các nền tảng như Reddit và GitHub cũng đã bày tỏ cảm giác tương tự về sự suy giảm chất lượng của Claude Code. Đáng chú ý, đây cũng không phải lần đầu Anthropic gặp rắc rối. Gần đây, họ bị phê phán vì tăng đột ngột mức sử dụng token khiến nhiều người dùng vượt giới hạn, cùng với việc toàn bộ mã nguồn của Claude Code bị lộ. Theo Nguyễn Hải, những sự cố này càng làm dấy lên lo ngại về tính minh bạch và độ tin cậy của các công cụ AI trong lĩnh vực công nghệ cao.