Viettel huấn luyện mô hình AI chủ quyền tiếng Việt với 120 tỷ tham số

Tập đoàn Công nghiệp – Viễn thông Quân đội (Viettel) đang tiến hành huấn luyện một mô hình ngôn ngữ lớn (LLM) dành riêng cho tiếng Việt với quy mô lên tới 120 tỷ tham số. Đây được xem là bước tiến quan trọng trong chiến lược phát triển trí tuệ nhân tạo (AI) có chủ quyền của Việt Nam.

Mô hình AI chủ quyền tiếng Việt quy mô lớn nhất từ trước đến nay

Mô hình ngôn ngữ lớn do Viettel phát triển có tên gọi là Viettel LLM, sở hữu 120 tỷ tham số, được đào tạo trên kho dữ liệu khổng lồ bằng tiếng Việt. Đây là mô hình AI chủ quyền đầu tiên của Việt Nam ở quy mô này, đánh dấu năng lực làm chủ công nghệ nền tảng của các kỹ sư trong nước.

Việc huấn luyện mô hình với 120 tỷ tham số đòi hỏi hạ tầng tính toán mạnh mẽ và nguồn dữ liệu chất lượng cao. Viettel đã đầu tư hệ thống siêu máy tính GPU, đồng thời thu thập và xử lý hàng nghìn tỷ token văn bản tiếng Việt từ nhiều lĩnh vực khác nhau như văn hóa, lịch sử, khoa học, kỹ thuật, y tế, giáo dục, pháp luật...

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Ứng dụng đa dạng trong nhiều lĩnh vực

Mô hình Viettel LLM được kỳ vọng sẽ ứng dụng rộng rãi trong nhiều ngành, lĩnh vực, đặc biệt là y tế, giáo dục và hành chính công. Trong y tế, AI có thể hỗ trợ chẩn đoán bệnh, đọc kết quả xét nghiệm, tư vấn sức khỏe. Trong giáo dục, AI giúp cá nhân hóa việc học, tạo ra các bài giảng thông minh, hỗ trợ người học. Trong hành chính công, AI xử lý hồ sơ, giải đáp thắc mắc của người dân, tự động hóa quy trình.

Ngoài ra, Viettel LLM còn có thể tích hợp vào các chatbot, trợ lý ảo, hệ thống tìm kiếm thông minh, tổng hợp văn bản, dịch thuật, viết nội dung sáng tạo... giúp nâng cao năng suất lao động và trải nghiệm người dùng.

Lợi thế của mô hình AI chủ quyền

Việc phát triển mô hình AI chủ quyền mang lại nhiều lợi thế cho Việt Nam. Trước hết, mô hình được huấn luyện trên dữ liệu tiếng Việt thuần túy, hiểu sâu sắc văn hóa, ngữ cảnh và sắc thái ngôn ngữ bản địa, cho kết quả chính xác và tự nhiên hơn so với các mô hình nước ngoài.

Thứ hai, dữ liệu được lưu trữ và xử lý trong nước, đảm bảo an ninh, an toàn thông tin, tránh phụ thuộc vào các nhà cung cấp nước ngoài. Điều này đặc biệt quan trọng trong các lĩnh vực nhạy cảm như quốc phòng, an ninh, tài chính, y tế.

Thứ ba, Viettel hoàn toàn làm chủ công nghệ, có thể tùy chỉnh, tối ưu hóa mô hình theo nhu cầu cụ thể của từng cơ quan, tổ chức, doanh nghiệp, không bị ràng buộc bởi các điều khoản sử dụng từ bên ngoài.

Lộ trình phát triển và thương mại hóa

Viettel dự kiến hoàn thành việc huấn luyện mô hình trong năm 2024 và bắt đầu cung cấp dịch vụ dưới dạng API hoặc nền tảng cho các đối tác, khách hàng. Mô hình sẽ được cung cấp với nhiều phiên bản khác nhau, từ phiên bản nhẹ chạy trên thiết bị di động đến phiên bản cao cấp cho các trung tâm dữ liệu.

Bên cạnh đó, Viettel cũng đang phát triển các công cụ hỗ trợ như fine-tuning, embedding để giúp khách hàng dễ dàng tùy chỉnh mô hình theo nhu cầu riêng. Các lĩnh vực ưu tiên triển khai gồm y tế, giáo dục, tài chính, ngân hàng, thương mại điện tử và chính phủ điện tử.

Với quy mô 120 tỷ tham số, Viettel LLM thuộc những mô hình ngôn ngữ lớn hàng đầu thế giới, cạnh tranh với các đối thủ như GPT-3, Llama 2, PaLM 2. Đây là minh chứng cho năng lực công nghệ của đội ngũ kỹ sư Việt Nam và khẳng định vị thế của Viettel trong cuộc đua AI toàn cầu.