NVIDIA thống trị bài kiểm tra AI khắt khe với ưu thế vượt trội
Hãng công nghệ NVIDIA vừa công bố kết quả ấn tượng trong bộ bài kiểm tra MLPerf Inference v6.0, khẳng định vị thế dẫn đầu trong lĩnh vực trí tuệ nhân tạo. Với nền tảng Blackwell Ultra, công ty đạt được số lần chiến thắng cao gấp 9 lần so với đối thủ cạnh tranh gần nhất, một khoảng cách đáng kinh ngạc trong ngành công nghiệp đầy cạnh tranh.
MLPerf Inference v6.0: Thước đo mới cho các mô hình AI hiện đại
MLPerf Inference v6.0 do tổ chức MLCommons phát triển, được bổ sung hỗ trợ cho các mô hình lập luận và kiến trúc MoE (Mixture of Experts) thế hệ mới. Các mô hình được đưa vào đánh giá bao gồm DeepSeek-R1, GPT-OSS-120B và Mixtral 8x7B, phản ánh xu hướng phát triển của AI hiện nay.
Bộ bài kiểm tra này còn mở rộng phạm vi sang nhiều lĩnh vực khác như mô hình ngôn ngữ lớn dạng dense, hệ thống gợi ý tạo sinh và mô hình ngôn ngữ thị giác. Sự đa dạng này giúp MLPerf trở thành công cụ đánh giá toàn diện, đáp ứng đúng yêu cầu thực tế của doanh nghiệp trong kỷ nguyên AI.
CEO Jensen Huang từng nhận định MLPerf là một trong những bộ bài kiểm tra "khắt khe" nhất hiện có, điều này càng làm nổi bật thành tích mà NVIDIA đạt được.
Hiệu năng tăng vọt nhờ tối ưu phần mềm
Kết quả nổi bật nhất đến từ cấu hình GB300 NVL72 khi so sánh giữa phiên bản v5.1 và v6.0. Với tác vụ DeepSeek-R1 ở chế độ Server, thông lượng đã tăng từ 2.907 lên 8.064 tokens/giây/GPU, tương đương mức tăng 2,77 lần. Ở chế độ Offline, con số này lần lượt là 5.842 và 9.821 tokens/giây/GPU, tăng 1,68 lần.
Đối với mô hình Llama 3.1 405B, tốc độ Server tăng từ 170 lên 259 tokens/giây/GPU (1,52 lần), trong khi chế độ Offline đạt 271 tokens/giây/GPU so với 224 tokens/giây/GPU ở thế hệ trước, tương đương mức tăng 1,21 lần.
Điều đáng chú ý là phần lớn mức tăng hiệu năng này đến từ tối ưu hóa phần mềm, không phải thay đổi phần cứng. Kể từ lần tham dự đầu tiên với bài kiểm tra DeepSeek-R1 vài tháng trước, NVIDIA đã cải thiện thông lượng token lên 2,7 lần chỉ nhờ các bản cập nhật phần mềm.
Ưu thế độc quyền và thiết kế đồng bộ
NVIDIA cho biết họ là nhà sản xuất duy nhất nộp kết quả DeepSeek-R1 trong kỳ MLPerf Inference năm ngoái, và ưu thế này tiếp tục được duy trì ở phiên bản v6.0. Nhiều nhà sản xuất chip ASIC và cả đối thủ AMD vẫn chưa tham gia bộ bài kiểm tra này một cách toàn diện như NVIDIA.
Công ty lý giải hiệu năng suy luận đạt được nhờ thiết kế đồng bộ cực kỳ chặt chẽ trên nhiều cấp độ: từ chip, kiến trúc hệ thống, thiết kế trung tâm dữ liệu cho đến phần mềm. Sự tích hợp này tạo nên lợi thế cạnh tranh khó bị sao chép.
Ở cấp độ phần cứng, GB300 NVL72 mang lại tốc độ cao hơn tới 2,77 lần so với GB200 NVL72, cho thấy mức độ cải tiến qua từng thế hệ là nhất quán và rõ ràng.
Ý nghĩa thực tiễn cho doanh nghiệp
Kết quả MLPerf Inference v6.0 không chỉ là thước đo hiệu năng thuần túy mà còn được dùng để minh chứng cho chỉ số token/USD và chi phí sở hữu toàn phần (TCO) cạnh tranh trong các triển khai quy mô lớn. Điều này có ý nghĩa quan trọng đối với các doanh nghiệp đang tìm kiếm giải pháp AI hiệu quả về chi phí.
Thành tích của NVIDIA trong bài kiểm tra khắt khe này củng cố vị thế dẫn đầu của hãng trong cuộc đua AI toàn cầu, đồng thời cho thấy tầm quan trọng của việc tối ưu hóa phần mềm song song với phát triển phần cứng.



