Anthropic ra mắt Claude 4 với khả năng suy luận nhiều bước

Mục lục

Khả năng nổi bật của Claude 4

Theo Anthropic, cả hai mô hình thuộc họ Claude 4 đều có thể phân tích tập dữ liệu lớn, thực hiện các tác vụ dài hạn và xử lý những hành động phức tạp. Đặc biệt, chúng được tối ưu hóa cho các tác vụ lập trình, phù hợp để viết và chỉnh sửa code.

Claude Opus 4 là mô hình mạnh hơn, có khả năng duy trì “sự tập trung” qua nhiều bước trong quy trình làm việc. Trong khi đó, Claude Sonnet 4 được thiết kế như bản “thay thế trực tiếp” cho Sonnet 3.7, cải thiện đáng kể khả năng lập trình và toán học so với các mô hình trước đây.

Anthropic ra mắt Claude 4 với khả năng suy luận nhiều bước

Chế độ suy luận lai

Cả hai mô hình đều là hybrid (lai), có thể đưa ra phản hồi gần như tức thì hoặc suy nghĩ mở rộng để suy luận sâu hơn. Khi bật chế độ suy luận, các mô hình sẽ dành thời gian cân nhắc các giải pháp có thể trước khi trả lời.

Trong quá trình suy luận, chúng sẽ hiển thị bản tóm tắt “thân thiện với người dùng” về quá trình suy nghĩ. Tuy nhiên, Anthropic không công khai toàn bộ quá trình này để bảo vệ “lợi thế cạnh tranh” của công ty.

Khả năng sử dụng công cụ và bộ nhớ

Opus 4 và Sonnet 4 có thể sử dụng nhiều công cụ như công cụ tìm kiếm song song, chuyển đổi giữa suy luận và công cụ để cải thiện chất lượng câu trả lời. Chúng cũng có thể trích xuất và lưu trữ thông tin trong “bộ nhớ” để xử lý tác vụ một cách đáng tin cậy hơn, xây dựng “kiến thức ngầm” theo thời gian.

Giá cả và khả năng tiếp cận

Người dùng trả phí và miễn phí đều có thể truy cập Sonnet 4, nhưng chỉ người dùng trả phí mới có thể sử dụng Opus 4. Đối với API của Anthropic thông qua nền tảng Bedrock của Amazon và Vertex AI của Google, Opus 4 có giá 15 USD/75 USD cho một triệu token (input/output) và Sonnet 4 có giá 3 USD/15 USD cho một triệu token.

Cải tiến Claude Code

Anthropic cũng nâng cấp Claude Code, cho phép các nhà phát triển chạy các tác vụ cụ thể thông qua mô hình của Anthropic trực tiếp từ terminal. Claude Code hiện tích hợp với IDE và cung cấp SDK cho phép kết nối với ứng dụng bên thứ ba.

Công ty đã phát hành các tiện ích mở rộng cho VS Code của Microsoft, JetBrains và GitHub. Connector GitHub cho phép các nhà phát triển gắn thẻ Claude Code để phản hồi feedback của reviewer và sửa lỗi hoặc chỉnh sửa code.

Hiệu suất benchmark

Mặc dù Claude 4 chưa phải là mô hình tốt nhất theo mọi tiêu chuẩn, Opus 4 vẫn vượt trội hơn Gemini 2.5 Pro của Google và o3, GPT-4.1 của OpenAI trên SWE-bench Verified, bài kiểm tra đánh giá khả năng lập trình. Tuy nhiên, nó vẫn chưa thể vượt qua o3 trên MMMU hoặc GPQA Diamond.

Biện pháp an toàn

Anthropic phát hành Opus 4 với các biện pháp bảo vệ nghiêm ngặt hơn, bao gồm hệ thống phát hiện nội dung có hại và bảo vệ an ninh mạng được tăng cường.

Mục tiêu tăng trưởng

Các mô hình Claude 4 ra mắt khi Anthropic đang tìm cách tăng trưởng doanh thu đáng kể. Công ty được thành lập bởi các cựu chuyên gia nghiên cứu OpenAI này đặt mục tiêu đạt 12 tỉ USD doanh thu vào năm 2027, tăng từ 2,2 tỉ USD dự kiến của năm nay.

Anthropic cam kết cập nhật mô hình thường xuyên hơn, mang đến “dòng cải tiến ổn định” để đưa khả năng đột phá đến khách hàng nhanh hơn, giúp duy trì vị thế dẫn đầu trong cuộc đua AI ngày càng gay gắt.