Meta представила новую серию ИИ-моделей Llama 4

Корпорация Meta выпустила новую линейку открытых ИИ-моделей Llama 4. Они обходят конкурентов по ряду бенчмарков, свидетельствуют данные внутренних тестов.
В основе серии лежит Llama 4 Behemoth — большая языковая модель (LLM) с 2 трлн параметров. Она находится в стадии обучения и пока не выпущена. Две ее мультимодальные дистилляции — Maverick и Scout — доступны для разработчиков и пользователей.
ИИ-помощник Meta AI, доступный в различных продуктах компании вроде WhatsApp, Messenger и Instagram, уже обновлен для использования Llama 4 в 40 странах. Мультимодальные функции пока доступны только в США.
Утверждается, что Behemoth, или LLM-учитель двух других моделей, превосходит GPT-4.5, Claude Sonnet 3.7 и Gemini 2.0 Pro в ориентированных на STEM бенчмарках, вроде MATH-500 и GPQA Diamond.
«Это только начало для коллекции Llama 4. Мы считаем, что самые интеллектуальные системы должны быть способны выполнять обобщенные действия, естественно общаться с людьми и решать сложные задачи, с которыми они раньше не сталкивались. Наделение Llama сверхспособностями в этих областях приведет к созданию лучших продуктов для людей на наших платформах и расширит возможности разработчиков по внедрению инноваций в следующие крупные потребительские и бизнес-сферы», — говорится в анонсе компании.
Новая архитектура
Llama 4 — первая серия моделей, которые используют архитектуру Mixture of Experts (MoE). Так, у Maverick 128 «экспертов» и 400 млрд общих параметров, но только 17 млрд активных. У Scout показатели 16, 109 млрд и 17 млрд соответственно.
Согласно внутренним тестам компании, Maverick превосходит модели вроде GPT-4o и Gemini 2.0 в некоторых тестах программирования, рассуждений, поддержки языков, длинных контекстов и изображений. Но нейросеть не дотягивает до более мощных и современных Gemini 2.5 Pro от Google, Claude 3.7 Sonnet от Anthropic и GPT-4.5 от OpenAI.
Maverick лучше подходит для применения в качестве общего помощника и чата. Сильные стороны Scout — обобщение документов и рассуждения над большими базами. Последняя способна работать на одном графическом процессоре Nvidia H100, в то время как для Maverick требуется система Nvidia H100 DGX или эквивалентная ей.
Скандал вокруг Llama 4
Maverick заняла второе место в LLM Arena — тесте, в котором люди сравнивают работу различных моделей и формируют «пользовательский» рейтинг.
Несколько исследователей обратили внимание, что в тестах принимала участие специально оптимизированная версия Maverick, недоступная разработчикам. Версия для LLM Arena использует больше эмодзи и дает необычайно длинные ответы.
Okay Llama 4 is def a littled cooked lol, what is this yap city pic.twitter.com/y3GvhbVz65
— Nathan Lambert (@natolambert) April 6, 2025
Из-за этого пользователям сложно предсказать реальную производительность нейросети в «бытовых» условиях.
Опровержение
Вице-президент по генеративному искусственному интеллект в Meta Ахмад Аль-Дахле опроверг информацию о настройке модели для конкретных тестов.
We're glad to start getting Llama 4 in all your hands. We're already hearing lots of great results people are getting with these models.
— Ahmad Al-Dahle (@Ahmad_Al_Dahle) April 7, 2025
That said, we're also hearing some reports of mixed quality across different services. Since we dropped the models as soon as they were…
«Это просто неправда, и мы никогда бы так не поступили», — подчеркнул он.
По словам руководителя, «переменное качество, которое наблюдают люди, связано с необходимостью стабилизировать реализацию».
«Поскольку мы выпустили модели сразу же, как только они были готовы, мы ожидаем, что потребуется несколько дней, чтобы все публичные внедрения были настроены», — добавил он.
Напомним, в ноябре 2024 года Meta открыла свои ИИ-технологии для правительственных учреждений и оборонных подрядчиков США и союзников.
Ранее она представила Movie Gen — ИИ-генератор для создания новых видео, редактирования существующих и добавления звука к ним.
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!