Alibaba ra mắt Qwen3, mô hình AI “lai” có khả năng suy luận
Alibaba vừa công bố Qwen3 được cho là có khả năng ngang bằng và trong một số trường hợp vượt trội so với các mô hình AI tốt nhất hiện có.
Hầu hết các mô hình này đã hoặc sẽ sớm được phát hành dưới giấy phép “mở” và có thể tải xuống từ nền tảng phát triển AI Hugging Face và GitHub. Chúng có kích thước từ 0,6 tỉ đến 235 tỉ tham số. Số lượng tham số thường tương ứng với khả năng giải quyết vấn đề của mô hình, và những mô hình có nhiều tham số thường hoạt động tốt hơn so với những mô hình có ít tham số hơn.
Sự xuất hiện của các dòng mô hình AI có nguồn gốc từ Trung Quốc như Qwen đã tạo áp lực lên các công ty Hoa Kỳ như OpenAI để phát triển công nghệ AI mạnh mẽ hơn. Điều này cũng đã khiến các nhà hoạch định chính sách Hoa Kỳ áp dụng các hạn chế nhằm giới hạn khả năng tiếp cận chip cần thiết để huấn luyện mô hình của các công ty AI Trung Quốc.
Theo Alibaba, các mô hình Qwen3 là mô hình “lai”, điều này có nghĩa chúng có thể dành thời gian “suy luận” qua các vấn đề phức tạp hoặc trả lời nhanh chóng các yêu cầu đơn giản hơn. Khả năng suy luận cho phép các mô hình tự kiểm tra sự chính xác, tương tự như các mô hình như o3 của OpenAI, nhưng với chi phí là độ trễ cao hơn.
Một số mô hình cũng áp dụng kiến trúc Mixture of Experts (MoE), có thể hiệu quả hơn về mặt tính toán khi trả lời các truy vấn. MoE chia nhỏ các tác vụ thành các tác vụ phụ và phân công chúng cho các mô hình “chuyên gia” nhỏ hơn.
Alibaba cho biết các mô hình Qwen3 hỗ trợ 119 ngôn ngữ và được huấn luyện trên bộ dữ liệu gần 36 nghìn tỉ token. Token là các đơn vị dữ liệu thô mà mô hình xử lý; 1 triệu token tương đương với khoảng 750.000 từ. Alibaba cho biết Qwen3 được huấn luyện trên dữ liệu từ sách giáo khoa, đoạn mã, dữ liệu do AI tạo ra, và nhiều nguồn khác.
Những cải tiến này, cùng với những cải tiến khác, đã nâng cao đáng kể khả năng của Qwen3 so với người tiền nhiệm Qwen2, theo Alibaba. Không có mô hình Qwen3 nào vượt trội hoàn toàn so với các mô hình hàng đầu gần đây như o3 và o4-mini của OpenAI, nhưng chúng vẫn có hiệu suất mạnh mẽ.
Trên Codeforces, một nền tảng cho các cuộc thi lập trình, mô hình Qwen3 lớn nhất, Qwen-3-235B-A22B, vừa vượt qua o3-mini của OpenAI và Gemini 2.5 Pro của Google. Qwen-3-235B-A22B cũng vượt trội o3-mini trên phiên bản mới nhất của AIME, một chuẩn toán học đầy thách thức, và BFCL, một bài kiểm tra đánh giá khả năng “suy luận” về các vấn đề của mô hình.
Alibaba cho biết Qwen3 “xuất sắc” trong khả năng gọi công cụ cũng như tuân theo hướng dẫn và sao chép các định dạng dữ liệu cụ thể. Ngoài các mô hình có thể tải xuống, Qwen3 còn có sẵn từ các nhà cung cấp đám mây, bao gồm Fireworks AI và Hyperbolic.