Lập trình viên độc lập tái tạo thuật toán nén AI TurboQuant của Google trong 7 ngày

Một công bố nghiên cứu của Google về thuật toán nén bộ nhớ AI đã nhanh chóng gây chấn động thị trường bán dẫn toàn cầu. Tuy nhiên, song song với phản ứng từ Phố Wall, một diễn biến khác cũng thu hút sự chú ý đặc biệt của cộng đồng công nghệ: chỉ trong vòng 7 ngày, một lập trình viên độc lập đã tái tạo lại gần như toàn bộ thuật toán này từ chính bản nghiên cứu – mà không cần đến mã nguồn gốc.

Thuật toán TurboQuant và tác động đến thị trường bán dẫn

Thuật toán được nhắc đến là TurboQuant, do Google Research công bố, nhằm giải quyết một trong những nút thắt lớn nhất của AI hiện nay: vấn đề bộ nhớ. Trong các mô hình ngôn ngữ lớn, mỗi lần xử lý, hệ thống phải lưu trữ một lượng lớn dữ liệu tạm thời gọi là KV cache – thứ có thể chiếm hàng chục GB bộ nhớ, thậm chí nhiều hơn cả chính mô hình. TurboQuant được thiết kế để nén phần dữ liệu này từ 16-bit xuống chỉ còn khoảng 3-bit, giảm tới 6 lần dung lượng mà vẫn giữ nguyên độ chính xác trong nhiều bài kiểm tra.

Chính khả năng đột phá này đã khiến thị trường phản ứng gần như ngay lập tức. Cổ phiếu của các công ty sản xuất bộ nhớ đồng loạt giảm mạnh chỉ sau một bài nghiên cứu, dù Google chưa phát hành bất kỳ sản phẩm hay đoạn code chính thức nào. Thuật toán mới của Google đang làm chấn động Phố Wall khi giúp cắt giảm chi phí bộ nhớ RAM vốn đang quá đắt đỏ, làm thay đổi cán cân cung cầu trong ngành công nghiệp bán dẫn.

—

Banner rộng Pickt — ứng dụng danh sách mua sắm cộng tác cho Telegram

Quá trình tái tạo thuật toán từ bản nghiên cứu

Tuy nhiên, với giới lập trình, một paper không phải là điểm kết thúc – mà là điểm bắt đầu cho những sáng tạo mới. Ngay sau khi tài liệu được công bố, một lập trình viên độc lập đã bắt đầu "giải mã" thuật toán TurboQuant. Công việc không đơn giản là đọc mô tả, mà là dịch toàn bộ các công thức toán học phức tạp thành logic lập trình có thể chạy được trên máy tính.

Trong 3 ngày đầu tiên, người này xây dựng phiên bản nguyên mẫu bằng Python, tập trung vào hai thành phần cốt lõi của TurboQuant: quá trình biến đổi dữ liệu đầu vào để phù hợp cho nén, và cơ chế lượng tử hóa giúp giảm số bit lưu trữ. Hàng trăm bài kiểm thử được thiết kế cẩn thận để đảm bảo đầu ra sau khi nén vẫn khớp với kết quả gốc – một yêu cầu quan trọng vì chỉ cần sai lệch nhỏ, toàn bộ mô hình AI có thể mất khả năng suy luận chính xác.

Từ ngày thứ ba đến ngày thứ năm, mã nguồn được chuyển sang ngôn ngữ C và tích hợp vào các dự án mã nguồn mở như llama.cpp – một nền tảng phổ biến để chạy mô hình AI trên máy cá nhân. Ở giai đoạn này, lập trình viên không chỉ tái tạo lại thuật toán, mà còn phải giải quyết các vấn đề về hiệu năng, như cách tổ chức dữ liệu trong bộ nhớ, cách tận dụng CPU và GPU, và cách tối ưu luồng xử lý để đạt hiệu quả cao nhất.

Các định dạng nén khác nhau có thể cho tỷ lệ nén đến 6.4 lần đối với turbo2, nhưng độ chính xác sẽ giảm đi một phần, đòi hỏi sự cân nhắc kỹ lưỡng giữa hiệu suất và chất lượng.

Banner sau bài viết Pickt — ứng dụng danh sách mua sắm cộng tác với hình minh họa gia đình

Tối ưu hóa và kết quả đạt được

Đến hai ngày cuối cùng, quá trình tối ưu hóa được đẩy lên mức thấp hơn, sát với phần cứng. Các kỹ thuật tiên tiến như vector hóa phép toán, sắp xếp lại cấu trúc dữ liệu theo block, hay giảm độ chính xác có kiểm soát theo thời gian (với các dữ liệu cũ) được áp dụng để tăng tốc độ xử lý. Kết quả là hiệu năng được cải thiện rõ rệt, với tốc độ xử lý tăng nhiều lần so với phiên bản ban đầu.

Tốc độ AI đọc hiểu nội dung nhập vào của turbo4 và turbo3 nhanh hơn khoảng 4-10% so với chuẩn nén 8 bit truyền thống (q8), mang lại lợi thế đáng kể trong các ứng dụng thực tế. Các mô hình AI khổng lồ với 70 tỷ và 104 tỷ tham số cũng có thể chạy được trên các laptop phổ thông, ví dụ như MacBook M5 Max với bộ nhớ RAM 128 GB, mở ra khả năng triển khai rộng rãi hơn.

Đáng chú ý, lập trình viên này không chỉ dừng lại ở việc "copy" thuật toán, mà còn thử nghiệm thêm các biến thể riêng để cải tiến. Ví dụ, thay vì nén toàn bộ dữ liệu như nhau, một số phần quan trọng được giữ độ chính xác cao hơn, trong khi phần ít quan trọng hơn được nén mạnh hơn để tiết kiệm bộ nhớ. Một hướng khác là bỏ qua việc giải nén một phần dữ liệu khi không cần thiết, giúp giảm thêm chi phí tính toán trong các ngữ cảnh dài.

Kết quả cuối cùng cho thấy các mô hình AI có thể hoạt động với bộ nhớ giảm hơn 4–6 lần, nhưng vẫn giữ được độ chính xác trong các bài kiểm tra dài ngữ cảnh. Thậm chí, một số mô hình lớn vốn cần nhiều GPU giờ có thể chạy trên một máy đơn lẻ, mở ra khả năng triển khai rộng hơn trên phần cứng phổ thông và giảm thiểu chi phí đầu tư.

Ý nghĩa và tác động của sự kiện

Toàn bộ quá trình này diễn ra khi Google vẫn chưa công bố bất kỳ dòng mã chính thức nào về TurboQuant. Điều đó cho thấy hai điểm quan trọng: thứ nhất, bản thân thuật toán được thiết kế đủ rõ ràng và chi tiết để có thể tái tạo chỉ từ mô tả nghiên cứu; và thứ hai, cộng đồng phát triển công nghệ hiện nay có khả năng chuyển đổi từ nghiên cứu học thuật sang ứng dụng thực tế với tốc độ nhanh hơn rất nhiều so với trước đây.

Sự kiện này không chỉ minh chứng cho tinh thần sáng tạo và kỹ năng kỹ thuật xuất sắc của các lập trình viên độc lập, mà còn đặt ra những câu hỏi về tương lai của ngành công nghiệp AI và bán dẫn. Với khả năng tái tạo và cải tiến nhanh chóng, các công nghệ đột phá có thể được phổ biến rộng rãi hơn, thúc đẩy sự phát triển bền vững và dân chủ hóa trong lĩnh vực trí tuệ nhân tạo.