Chiến lược hỏi đáp mới giúp AI nhỏ thắng lớn trong Battleship
AI nhỏ thắng lớn nhờ chiến lược hỏi đáp mới

Nghiên cứu từ MIT và Harvard: Dùng Battleship để dạy AI đặt câu hỏi

Năm 2026, các tác nhân trí tuệ nhân tạo (AI) bán tự động đang thu hút sự chú ý lớn, với khả năng thực hiện nhiệm vụ trong chăm sóc khách hàng hay phát triển phần mềm. Tuy nhiên, trong các lĩnh vực như chẩn đoán y khoa hay khám phá khoa học, AI không chỉ cần trả lời đúng mà còn phải biết đặt câu hỏi đúng – một điểm yếu của nhiều mô hình ngôn ngữ hiện nay.

Trò chơi Battleship trở thành phép thử cho AI

Để giải quyết vấn đề này, các nhà nghiên cứu tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo của MIT (CSAIL) và Trường Kỹ thuật và Khoa học Ứng dụng Harvard (SEAS) đã chọn trò chơi Battleship làm thử nghiệm. Trò chơi đoán vị trí tàu này vốn được các nhà khoa học nhận thức sử dụng để nghiên cứu cách con người tìm kiếm thông tin.

Nhóm nghiên cứu đã tạo ra phiên bản mới mang tên “Collaborative Battleship”. Trong đó, một người chơi đóng vai “thuyền trưởng” đặt câu hỏi để tìm vị trí tàu, người còn lại đóng vai “người quan sát” trả lời bằng ngôn ngữ tự nhiên theo thời gian thực.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Bộ dữ liệu BattleshipQA và thử nghiệm các mô hình ngôn ngữ

Nhóm đã cho hơn 40 người chơi tham gia, thu thập các câu hỏi và câu trả lời có/không để xây dựng bộ dữ liệu “BattleshipQA”. Bộ dữ liệu này trở thành chuẩn so sánh khi thử nghiệm các mô hình ngôn ngữ tiên tiến như GPT-5 và các mô hình nhỏ hơn như Llama 4 Scout.

Khi chưa được huấn luyện bổ sung, các mô hình hàng đầu có thể “đánh bại” con người trong Battleship với ít lượt hơn. Tuy nhiên, các mô hình nhỏ lại kém hợp lý trong cách đặt câu hỏi. Vấn đề cốt lõi là nhiều mô hình không giỏi tự nghĩ ra những câu hỏi thực sự hữu ích.

Chiến lược suy luận Monte Carlo giúp AI hỏi thông minh hơn

Để cải thiện, nhóm nghiên cứu trang bị cho mỗi mô hình một chiến lược suy luận Monte Carlo. Cách tiếp cận này giúp mô hình liên tục đánh giá xác suất đúng của các khả năng sau mỗi câu trả lời, từ đó chọn câu hỏi kế tiếp có tính toán hơn.

Kết quả đáng chú ý nhất đến từ Llama 4 Scout. Ban đầu, mô hình này chỉ thắng con người trong 8% số lượt chơi. Sau khi cải thiện chiến lược suy luận, tỷ lệ thắng tăng lên 82%. Đáng nói hơn, Llama 4 Scout còn vượt qua GPT-5, trong khi chi phí vận hành chỉ khoảng 1%.

Cải thiện khả năng trả lời câu hỏi của AI

Bên cạnh việc giúp mô hình hỏi tốt hơn, nhóm nghiên cứu cũng tìm cách cải thiện khả năng trả lời. Trong vai trò “người quan sát”, GPT-5 khá đáng tin cậy. Nhưng các mô hình nhỏ thường mắc lỗi khi trả lời về vị trí tàu. Để khắc phục, nhóm yêu cầu mô hình chuyển câu hỏi tự nhiên thành mã lệnh Python, giúp chỉ rõ cách kiểm tra câu trả lời.

Ví dụ, câu hỏi “Có con tàu nào ở cột một và kéo dài qua hai hàng không?” được chuyển thành chỉ dẫn để mô hình tìm trong khu vực tương ứng. Khi có hướng dẫn rõ ràng bằng Python, độ chính xác của các hệ thống tăng trung bình 15%. Riêng GPT-4o-mini tăng gần 30 điểm phần trăm, còn Claude 4 Opus tăng khoảng 8 điểm.

Thử nghiệm với trò chơi Guess Who? và ứng dụng thực tế

Nhóm nghiên cứu cũng thử nghiệm phương pháp này với trò chơi “Guess Who?”, nơi người chơi phải thu hẹp dần 100 lựa chọn để đoán đúng nhân vật bí mật. Llama 4 Scout ban đầu chỉ thành công 30% số lượt, nhưng sau điều chỉnh đã hoàn thành nhiệm vụ trong hơn 72% lượt chơi. GPT-4o cũng tăng từ 62% lên 90%.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Trong các thử nghiệm này, GPT-5 được dùng làm “người quan sát” để bảo đảm câu trả lời có độ chính xác cao nhất. Dù vậy, các mô hình vẫn gặp khó khi trả lời những câu hỏi phức tạp, đặc biệt so với người chơi giàu kinh nghiệm.

Valerio Pepe, nhà nghiên cứu OpenAI, cựu sinh viên Harvard và đồng tác giả nghiên cứu, nhận xét: “GPT-5 có thể thắng người chơi Battleship trung bình và còn nhỉnh hơn khi dùng phương pháp mới, nhưng những người chơi chuyên nghiệp vẫn là thử thách khó với mọi mô hình. Điều này khác với cờ vua, nơi những kỳ thủ hàng đầu cũng khó thắng được hệ thống AI.”

Ý nghĩa rộng hơn: AI có thể hỗ trợ khám phá khoa học

Ý nghĩa rộng hơn của nghiên cứu nằm ở khả năng ứng dụng vào các bài toán “mò kim đáy bể” – những tình huống phải tìm một lời giải hiếm trong không gian lựa chọn khổng lồ, chẳng hạn xác định cấu trúc phân tử của một hợp chất hoặc hỗ trợ khám phá khoa học. Nếu biết đặt câu hỏi tốt hơn, các tác nhân AI có thể trở thành trợ lý nghiên cứu mạnh mẽ hơn, không chỉ trả lời mà còn chủ động định hướng quá trình tìm kiếm.

Theo MIT News, nghiên cứu này mở ra hướng đi mới cho việc phát triển AI có khả năng tương tác thông minh hơn trong các lĩnh vực đòi hỏi tư duy chiến lược.