Google ra mắt mô hình AI biết suy luận mới Gemini 2.5

Vào hôm thứ Ba, Google đã chính thức giới thiệu Gemini 2.5, một mô hình AI mới với khả năng suy luận cao. Để khởi đầu cho dòng sản phẩm này, công ty ra mắt Gemini 2.5 Pro Experimental, mô hình AI đa phương thức mà Google tuyên bố là thông minh nhất của họ cho đến nay.

Người dùng có thể trải nghiệm Gemini 2.5 Pro ngay từ hôm nay thông qua nền tảng Google AI Studio dành cho nhà phát triển, cũng như trong ứng dụng Gemini dành cho người đăng ký gói Gemini Advanced với giá 20 USD/tháng.

Google ra mắt mô hình AI biết suy luận mới Gemini 2.5

Google khẳng định tất cả các mô hình AI mới của họ trong tương lai sẽ được tích hợp sẵn khả năng suy luận, công nghệ đang trở thành xu hướng trong ngành công nghiệp AI hiện nay.

Kể từ khi OpenAI ra mắt mô hình suy luận AI đầu tiên o1 vào tháng 09/2024, nhiều công ty công nghệ lớn đã tham gia vào cuộc đua phát triển các mô hình tương tự. Hiện tại, Anthropic, DeepSeek, Google và xAI đều đã có mô hình AI suy luận riêng, sử dụng thêm sức mạnh tính toán và thời gian để kiểm tra sự thật và suy luận qua các vấn đề trước khi đưa ra câu trả lời.

Các kỹ thuật suy luận đã giúp các mô hình AI đạt được những bước tiến mới trong các nhiệm vụ về toán học và lập trình. Nhiều chuyên gia công nghệ tin rằng các mô hình suy luận sẽ là thành phần quan trọng của AI Agent, hệ thống tự động có thể thực hiện nhiệm vụ mà không cần nhiều sự can thiệp của con người. Tuy nhiên, các mô hình này cũng tốn kém hơn.

Google đã từng thử nghiệm với mô hình AI suy luận trước đây, với phiên bản Gemini “biết suy nghĩ” được phát hành vào tháng 12/2024. Nhưng Gemini 2.5 đánh dấu nỗ lực nghiêm túc nhất của công ty nhằm vượt qua loạt mô hình “o” của OpenAI.

Google tuyên bố Gemini 2.5 Pro vượt trội hơn các mô hình AI tiên tiến trước đây của họ và một số mô hình AI hàng đầu của đối thủ cạnh tranh trên nhiều tiêu chuẩn đánh giá. Cụ thể, Google cho biết họ đã thiết kế Gemini 2.5 để xuất sắc trong việc tạo ra các ứng dụng web hấp dẫn về mặt hình ảnh và các ứng dụng lập trình tác nhân.

Trên đánh giá về chỉnh sửa mã (Aider Polyglot), Google cho biết Gemini 2.5 Pro đạt điểm 68,6%, vượt qua các mô hình AI hàng đầu từ OpenAI, Anthropic và DeepSeek.

Tuy nhiên, trong một bài kiểm tra khác đo lường khả năng phát triển phần mềm (SWE-bench Verified), Gemini 2.5 Pro đạt 63,8%, vượt qua o3-mini của OpenAI và R1 của DeepSeek, nhưng kém hơn Claude 3.7 Sonnet của Anthropic với điểm số 70,3%.

Trong bài kiểm tra đa phương thức Humanity’s Last Exam, bao gồm hàng nghìn câu hỏi về toán học, nhân văn và khoa học tự nhiên, Google cho biết Gemini 2.5 Pro đạt 18,8%, hoạt động tốt hơn hầu hết các mô hình hàng đầu đối thủ.

Ban đầu, Google cho biết Gemini 2.5 Pro được trang bị cửa sổ ngữ cảnh 1 triệu token, có nghĩa là mô hình AI có thể xử lý khoảng 750.000 từ cùng một lúc, dài hơn toàn bộ tiểu thuyết Lord of the Rings (Chúa tể những chiếc nhẫn). Và sắp tới, Gemini 2.5 Pro sẽ hỗ trợ độ dài đầu vào gấp đôi (2 triệu token).

Google chưa công bố giá API cho Gemini 2.5 Pro và cho biết họ sẽ chia sẻ thêm thông tin trong những tuần tới.