Google và NVIDIA ra mắt Gemma 4: AI mạnh mẽ chạy offline trên máy tính cá nhân

Google và NVIDIA hợp lực đưa AI mạnh mẽ về máy tính cá nhân với Gemma 4

Trong một động thái quan trọng của ngành công nghệ, Google vừa chính thức giới thiệu thế hệ model mã nguồn mở mới nhất mang tên Gemma 4, với sự hợp tác tối ưu hóa từ NVIDIA để chạy trực tiếp trên phần cứng GPU tiêu dùng. Sự kiện này đánh dấu bước tiến lớn trong việc đưa trí tuệ nhân tạo mạnh mẽ về các thiết bị cá nhân, từ máy tính để bàn sử dụng card RTX đến thiết bị edge nhỏ gọn như Jetson Orin Nano.

Bốn biến thể linh hoạt cho nhiều cấu hình phần cứng

Gemma 4 được thiết kế với bốn biến thể chính: E2B, E4B, 26B và 31B, nhằm phủ rộng nhiều cấu hình phần cứng khác nhau. Hai biến thể nhỏ nhất là E2B và E4B hướng đến triển khai ngay trên thiết bị đầu cuối với độ trễ gần như bằng không, có thể chạy hoàn toàn offline trên các module Jetson Orin Nano mà không cần kết nối mạng.

Trong khi đó, hai biến thể lớn hơn là Gemma 4 26B và 31B phù hợp hơn với các tác vụ lập trình phức tạp, suy luận nâng cao và quy trình AI tự động hóa (agentic AI). Những model này vận hành tối ưu trên GPU RTX hoặc máy tính AI cá nhân DGX Spark của NVIDIA, mang lại hiệu suất cao cho người dùng chuyên nghiệp.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Khả năng đa phương thức và hỗ trợ đa ngôn ngữ ấn tượng

Điểm đáng chú ý của Gemma 4 so với các thế hệ trước là khả năng đa phương thức tích hợp sẵn. Model này có thể xử lý văn bản và hình ảnh trong cùng một prompt mà không cần cấu hình thêm. Người dùng có thể gửi một đoạn văn bản xen lẫn nhiều ảnh và nhận phản hồi phù hợp một cách liền mạch.

Về khả năng ngôn ngữ, Gemma 4 hỗ trợ hơn 35 ngôn ngữ ngay từ đầu và được huấn luyện trước trên hơn 140 ngôn ngữ khác nhau. Điều này mở ra khả năng ứng dụng rộng rãi trên toàn cầu, đặc biệt trong bối cảnh đa ngôn ngữ ngày càng quan trọng.

Function calling và tương thích phần mềm rộng rãi

Về khả năng lập trình và tự động hóa, Gemma 4 hỗ trợ function calling, cho phép model gọi công cụ bên ngoài theo cách có cấu trúc. Đây chính là nền tảng để xây dựng các tác nhân AI (AI agent) hoạt động tự chủ, một hướng phát triển mà cả Google lẫn NVIDIA đang đặt cược trong năm nay.

NVIDIA cho biết hiệu năng vượt trội trên GPU của hãng đến từ khả năng tăng tốc suy diễn AI qua Tensor Core, giúp xử lý nhiều tác vụ hơn trong cùng thời gian với độ trễ thấp hơn cho thực thi cục bộ. Bộ phần mềm CUDA cũng đảm bảo Gemma 4 tương thích rộng rãi với các framework phổ biến ngay từ ngày ra mắt.

Cách triển khai Gemma 4 trên máy tính cá nhân

Để chạy Gemma 4 trên máy tính cá nhân, người dùng có thể:

Cài đặt Ollama hoặc llama.cpp
Tải checkpoint GGUF của Gemma 4 từ Hugging Face
Sử dụng nền tảng Unsloth với các phiên bản đã được tối ưu và lượng tử hóa

Nền tảng Unsloth hỗ trợ ngay từ ngày đầu với các phiên bản đã được tối ưu, cho phép tinh chỉnh (fine-tuning) và triển khai cục bộ qua Unsloth Studio. Hiện tại, Gemma 4 đã có thể sử dụng thông qua Ollama, llama.cpp và Unsloth Studio, mang lại sự linh hoạt cho người dùng.

Sự ra mắt của Gemma 4 không chỉ là bước tiến kỹ thuật mà còn thể hiện chiến lược hợp tác chiến lược giữa Google và NVIDIA trong việc đưa AI mạnh mẽ đến gần hơn với người dùng cuối, mở ra kỷ nguyên mới cho tính toán AI cục bộ trên các thiết bị cá nhân.