Meta Platforms ra mắt mô hình AI mới Llama 4

Meta đã chính thức giới thiệu bộ sưu tập mô hình AI mới mang tên Llama 4 vào ngày 05/04/2025. Bộ sưu tập này gồm ba mô hình: Llama 4 Scout, Llama 4 Maverick và Llama 4 Behemoth. Theo thông tin từ Meta, cả ba mô hình đều được huấn luyện trên “lượng lớn dữ liệu văn bản, hình ảnh và video không nhãn” để cung cấp “khả năng hiểu hình ảnh toàn diện”.

Sự thành công của các mô hình mã nguồn mở từ phòng thí nghiệm AI DeepSeek của Trung Quốc – với hiệu suất ngang bằng hoặc vượt trội so với các mô hình Llama trước đây của Meta – được cho là đã thúc đẩy quá trình phát triển Llama. Theo nguồn tin, Meta đã nhanh chóng thành lập các nhóm nghiên cứu để tìm hiểu cách DeepSeek giảm chi phí vận hành và triển khai các mô hình như R1 và V3.

Meta Platforms ra mắt mô hình AI mới Llama 4

Scout và Maverick hiện đã có sẵn trên Llama.com và từ các đối tác của Meta, bao gồm nền tảng phát triển AI Hugging Face, trong khi Behemoth vẫn đang trong quá trình huấn luyện. Meta cho biết trợ lý AI Meta AI trên các ứng dụng như WhatsApp, Messenger và Instagram đã được cập nhật để sử dụng Llama 4 tại 40 quốc gia. Tuy nhiên, các tính năng đa phương tiện hiện chỉ giới hạn ở Hoa Kỳ và bằng tiếng Anh.

Mục lục

Hạn chế về giấy phép và quy định

Một số nhà phát triển có thể gặp vấn đề với giấy phép của Llama 4. Người dùng và công ty “có trụ sở” hoặc “địa điểm kinh doanh chính” tại EU bị cấm sử dụng hoặc phân phối các mô hình này, có khả năng là do các yêu cầu quản lý áp đặt bởi luật pháp về AI và quyền riêng tư dữ liệu của khu vực. Trước đây, Meta đã chỉ trích những luật này là quá nặng nề. Ngoài ra, giống như các phiên bản Llama trước đây, các công ty có hơn 700 triệu người dùng hoạt động hàng tháng phải yêu cầu giấy phép đặc biệt từ Meta, mà Meta có thể cấp hoặc từ chối theo quyết định riêng.

“Những mô hình Llama 4 này đánh dấu sự khởi đầu của một kỷ nguyên mới cho hệ sinh thái Llama”, Meta viết trong một bài đăng trên blog. “Đây chỉ là khởi đầu cho bộ sưu tập Llama 4”.

Kiến trúc tiên tiến và hiệu suất ấn tượng

Meta cho biết Llama 4 là nhóm mô hình đầu tiên của họ sử dụng kiến trúc mixture of experts (MoE), hiệu quả hơn về mặt tính toán cho việc huấn luyện và trả lời truy vấn. Kiến trúc MoE về cơ bản chia nhỏ các tác vụ xử lý dữ liệu thành các tác vụ phụ và sau đó phân công chúng cho các mô hình “chuyên gia” nhỏ hơn, chuyên biệt.

Maverick, ví dụ, có tổng cộng 400 tỉ tham số, nhưng chỉ có 17 tỉ tham số hoạt động trên 128 “chuyên gia”. Scout có 17 tỉ tham số hoạt động, 16 chuyên gia và tổng cộng 109 tỉ tham số.

Theo thử nghiệm nội bộ của Meta, Maverick – được công ty cho là phù hợp nhất cho các trường hợp sử dụng “trợ lý và trò chuyện chung” như viết sáng tạo – vượt trội hơn các mô hình như GPT-4o của OpenAI và Gemini 2.0 của Google trên một số tiêu chuẩn về lập trình, suy luận, đa ngôn ngữ, ngữ cảnh dài và hình ảnh. Tuy nhiên, Maverick không hoàn toàn sánh ngang với các mô hình gần đây có năng lực cao hơn như Gemini 2.5 Pro của Google, Claude 3.7 Sonnet của Anthropic và GPT-4.5 của OpenAI.

Điểm mạnh của Scout nằm ở các tác vụ như tóm tắt tài liệu và suy luận trên các cơ sở mã lớn. Đặc biệt, nó có cửa sổ ngữ cảnh rất lớn: 10 triệu token. Nói đơn giản, Scout có thể tiếp nhận hình ảnh và lên đến hàng triệu từ, cho phép nó xử lý và làm việc với các tài liệu cực kỳ dài.

Scout có thể chạy trên một GPU Nvidia H100 duy nhất, trong khi Maverick yêu cầu hệ thống Nvidia H100 DGX hoặc tương đương, theo tính toán của Meta.

Behemoth – Mô hình đỉnh cao đang phát triển

Behemoth chưa được phát hành của Meta sẽ cần phần cứng mạnh mẽ hơn nữa. Theo công ty, Behemoth có 288 tỉ tham số hoạt động, 16 chuyên gia và gần hai nghìn tỉ tổng số tham số. Theo đánh giá nội bộ của Meta, Behemoth vượt trội hơn GPT-4.5, Claude 3.7 Sonnet và Gemini 2.0 Pro (nhưng không phải 2.5 Pro) trên nhiều đánh giá đo lường kỹ năng STEM như giải quyết vấn đề toán học.

Đáng chú ý, không có mô hình Llama 4 nào là mô hình “suy luận” đúng nghĩa như o1 và o3-mini của OpenAI. Các mô hình suy luận kiểm tra thực tế câu trả lời của họ và nói chung phản hồi các câu hỏi đáng tin cậy hơn, nhưng do đó mất nhiều thời gian hơn các mô hình truyền thống, “không suy luận” để đưa ra câu trả lời.

Cân bằng trong phản hồi về các chủ đề nhạy cảm

Thú vị là Meta cho biết họ đã điều chỉnh tất cả các mô hình Llama 4 để từ chối trả lời các câu hỏi “gây tranh cãi” ít thường xuyên hơn. Theo công ty, Llama 4 phản hồi các chủ đề chính trị và xã hội “được tranh luận” mà các mô hình Llama trước đây sẽ không trả lời. Ngoài ra, công ty cho biết, Llama 4 “cân bằng hơn đáng kể” với các lời nhắc mà nó hoàn toàn không giải quyết.

Những điều chỉnh này xuất hiện khi một số đồng minh của Nhà Trắng cáo buộc các chatbot AI quá “woke” về mặt chính trị.