OpenAI ra mắt mô hình GPT-4.1 chuyên về lập trình

OpenAI vừa giới thiệu GPT-4.1, tập trung vào khả năng lập trình và tuân thủ hướng dẫn, với cửa sổ ngữ cảnh lên đến 1 triệu token.

OpenAI vừa ra mắt ba mô hình AI mới gồm GPT-4.1, GPT-4.1 mini và GPT-4.1 nano, tất cả đều được tối ưu hóa cho khả năng viết mã. Các mô hình này hiện chỉ có sẵn thông qua API của OpenAI và chưa được tích hợp vào ChatGPT.

Việc ra mắt dòng GPT-4.1 diễn ra trong bối cảnh các đối thủ cạnh tranh như Google và Anthropic đang đẩy mạnh nỗ lực phát triển các mô hình lập trình tiên tiến. Google gần đây đã phát hành Gemini 2.5 Pro với cửa sổ ngữ cảnh 1 triệu token, xếp hạng cao trên nhiều tiêu chuẩn đánh giá về lập trình. Tương tự, Claude 3.7 Sonnet và DeepSeek V3 cũng đạt kết quả ấn tượng.

Mục tiêu của nhiều gã khổng lồ công nghệ, bao gồm cả OpenAI, là đào tạo các mô hình AI có khả năng thực hiện các nhiệm vụ kỹ thuật phần mềm phức tạp. Tham vọng lớn của OpenAI là tạo ra một “kỹ sư phần mềm tự động”, như CFO Sarah Friar đã chia sẻ trong một sự kiện công nghệ tại London vào tháng trước. Công ty khẳng định các mô hình trong tương lai sẽ có khả năng lập trình toàn bộ ứng dụng từ đầu đến cuối, xử lý các khía cạnh như đảm bảo chất lượng, kiểm tra lỗi và viết tài liệu.

OpenAI tuyên bố mô hình GPT-4.1 đầy đủ vượt trội hơn so với GPT-4o và GPT-4o mini trên các tiêu chuẩn đánh giá về lập trình, bao gồm cả SWE-bench. GPT-4.1 mini và nano được cho là hiệu quả và nhanh hơn với chi phí của một số độ chính xác, với OpenAI cho biết GPT-4.1 nano là mô hình nhanh nhất và rẻ nhất của họ từ trước đến nay.

Về chi phí, GPT-4.1 có giá 2 USD cho mỗi triệu token đầu vào và 8 USD cho mỗi triệu token đầu ra. GPT-4.1 mini có giá 0,40 USD/triệu token đầu vào và 1,60 USD/triệu token đầu ra, trong khi GPT-4.1 nano là 0,10 USD/triệu token đầu vào và 0,40 USD/triệu token đầu ra.

Theo kiểm tra nội bộ của OpenAI, GPT-4.1 có thể tạo ra nhiều token cùng lúc hơn GPT-4o (32.768 so với 16.384) và đạt điểm từ 52% đến 54,6% trên SWE-bench Verified, một tập con được xác nhận bởi con người của SWE-bench. Những con số này hơi thấp hơn so với điểm số được báo cáo bởi Google và Anthropic cho Gemini 2.5 Pro (63,8%) và Claude 3.7 Sonnet (62,3%) trên cùng một tiêu chuẩn đánh giá.

Trong một đánh giá riêng biệt, OpenAI đã kiểm tra GPT-4.1 bằng Video-MME, được thiết kế để đo lường khả năng “hiểu” nội dung trong video của mô hình. GPT-4.1 đạt độ chính xác 72% trong danh mục “video dài, không có phụ đề”, theo OpenAI.

Mặc dù GPT-4.1 đạt điểm khá tốt trên các tiêu chuẩn đánh giá và có “điểm cắt kiến thức” gần đây hơn (cập nhật đến tháng 06/2024), điều quan trọng cần lưu ý là ngay cả một số mô hình tốt nhất hiện nay vẫn gặp khó khăn với các nhiệm vụ mà các chuyên gia không gặp vấn đề. Nhiều nghiên cứu đã chỉ ra rằng các mô hình tạo mã thường không sửa được và thậm chí còn tạo ra các lỗ hổng bảo mật và lỗi.

OpenAI cũng thừa nhận rằng GPT-4.1 trở nên kém đáng tin cậy hơn (có khả năng mắc lỗi cao hơn) khi phải xử lý nhiều token đầu vào. Trong một trong những bài kiểm tra của công ty, OpenAI-MRCR, độ chính xác của mô hình giảm từ khoảng 84% với 8.000 token xuống còn 50% với 1 triệu token. GPT-4.1 cũng có xu hướng “hiểu theo nghĩa đen” hơn so với GPT-4o, đôi khi đòi hỏi các lệnh nhắc cụ thể và rõ ràng hơn.

Subscribe
Notify of
guest
1 Comment
Inline Feedbacks
View all comments