Google ra mắt Gemini 3.5 Flash: AI tự hành, nhanh gấp 4 lần, rẻ hơn 50%
Google ra mắt Gemini 3.5 Flash: AI tự hành, nhanh, rẻ

Tại hội nghị Google I/O diễn ra vào ngày 19 và 20 tháng 5 tại Mountain View, California, Google đã chính thức ra mắt Gemini 3.5 Flash, một mô hình AI tự hành mới với tốc độ xử lý vượt trội và chi phí thấp hơn đáng kể. Sự kiện này đánh dấu bước ngoặt trong cuộc đua công nghệ, khi Google khẳng định kỷ nguyên chatbot truyền thống đã lỗi thời.

Bước ngoặt từ chatbot sang AI tự hành

Trong nhiều năm qua, hàng tỷ người dùng trên thế giới đã quen với việc tương tác với AI qua các chatbot: đặt câu hỏi, chờ phản hồi, rồi lại tiếp tục hỏi. Các hãng công nghệ lớn cạnh tranh nhau để làm cho chatbot trả lời nhanh hơn, chính xác hơn và tự nhiên hơn. Tuy nhiên, Google nhận ra rằng vấn đề cốt lõi không nằm ở chất lượng câu trả lời, mà ở việc người dùng vẫn phải chủ động đặt câu hỏi và tự kết nối kết quả với công việc thực tế. AI vẫn chỉ là công cụ thụ động, chờ con người chỉ đường. Gemini 3.5 Flash ra đời để phá vỡ giới hạn đó, mang đến một AI có thể tự lên kế hoạch và thực hiện công việc mà không cần sự can thiệp từng bước của con người.

Tốc độ và chi phí vượt trội

Theo ông Koray Kavukcuoglu, giám đốc công nghệ của DeepMind, Gemini 3.5 Flash xử lý nhanh hơn 4 lần so với các mô hình tiên tiến cùng thế hệ. Phiên bản tối ưu hóa đặc biệt còn đạt tốc độ nhanh hơn 12 lần mà vẫn duy trì chất lượng tương đương. Chi phí vận hành thấp hơn 50% so với các đối thủ, giúp doanh nghiệp triển khai nhiều tác nhân AI hơn với cùng ngân sách. Trên các bài kiểm tra kỹ thuật, Gemini 3.5 Flash đạt 76,2% trên Terminal-Bench 2.1, 83,6% trên MCP Atlas và 84,2% trên CharXiv Reasoning, vượt qua chính Gemini 3.1 Pro, flagship trước đó của Google.

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Trình diễn ấn tượng tại I/O

Không chỉ dừng lại ở những con số, Google đã trình diễn trực tiếp sức mạnh của Gemini 3.5 Flash trên sân khấu I/O. Kỹ sư Varun Mohan cho thấy các tác nhân AI tự tách ra, mỗi tác nhân nhận một phần việc riêng, sau đó phối hợp để tạo ra một hệ điều hành hoàn chỉnh từ đầu mà không cần lập trình viên can thiệp. Môi trường cho quá trình này là Antigravity 2.0, nền tảng phát triển phần mềm thế hệ mới được xây dựng theo triết lý agent-first, thay vì chat-first như các IDE truyền thống. Ông Kavukcuoglu mô tả Antigravity là môi trường sống và làm việc bản địa của các tác nhân AI, nơi chúng có thể lên kế hoạch, thực thi và lặp lại mà không cần xin phép người dùng từng bước nhỏ.

Cơ chế phối hợp giữa Pro và Flash

Google cũng tiết lộ cách hai mô hình Gemini 3.5 Pro và Flash sẽ phối hợp với nhau. Bà Tulsee Doshi, giám đốc cấp cao phụ trách sản phẩm, mô tả cơ chế phân tầng: Pro đảm nhận vai trò lên kế hoạch tổng thể và điều phối, trong khi Flash triển khai các tác vụ cụ thể với tốc độ cao. Nhờ Antigravity, Gemini 3.5 Flash có thể thực hiện quy trình làm việc nhiều bước, chẳng hạn như tự động đổi tên và gắn nhãn các sản phẩm không có cấu trúc rõ ràng. Cách phân công này giúp doanh nghiệp tập trung năng lực suy luận đắt tiền vào đúng chỗ cần thiết, thay vì dàn trải đồng đều cho mọi bước.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Tác động thực tế và ứng dụng

Ngay sau khi công bố, các ngân hàng và công ty fintech trong nhóm đối tác sớm của Google đã sử dụng Gemini 3.5 Flash để tự động hóa các quy trình vốn tiêu tốn nhiều tuần làm việc thủ công. Các nhóm phân tích dữ liệu tận dụng mô hình này để xử lý những tập dữ liệu phức tạp mà trước đây cần nhiều chuyên gia làm việc song song. Đối với người dùng cá nhân, Google giới thiệu Gemini Spark, trợ lý AI chạy liên tục 24/7 để quản lý email, lịch làm việc và các tác vụ số hàng ngày mà không cần người dùng kích hoạt hay đặt câu hỏi. Gemini Spark đã được triển khai cho nhóm thử nghiệm tin cậy ngay từ ngày ra mắt và dự kiến mở rộng phiên bản beta cho thuê bao Google AI Ultra tại Mỹ trong tuần kế tiếp.

Với Gemini 3.5 Flash, Google đã mở ra một kỷ nguyên mới: AI không còn chỉ trả lời khi được hỏi, mà chủ động lên kế hoạch và thực hiện công việc. Câu hỏi lúc này không còn là AI có thể làm gì khi bạn hỏi đúng cách, mà là AI sẽ làm gì khi bạn không cần hỏi gì cả.