A Meta anunciou os primeiros modelos da família Llama 4, focados em experiências multimodais personalizadas e acessíveis por meio de pesos abertos. Esses modelos incluem o Llama 4 Scout e o Llama 4 Maverick, ambos com 17 bilhões de parâmetros ativos, utilizando arquitetura de mistura de especialistas (MoE), e um modelo de destilação chamado Llama 4 Behemoth, com 288 bilhões de parâmetros ativos. Os lançamentos visam melhorar o ecossistema Llama com suporte a contexto de até 10 milhões de tokens e desempenho superior em benchmarks de raciocínio, codificação e compreensão de imagens.
Características dos Modelos
O Llama 4 Scout, com 16 especialistas, é o melhor modelo multimodal em sua classe e se encaixa em uma única GPU NVIDIA H100. Ele supera todos os modelos Llama de gerações anteriores e oferece resultados melhores que Gemma 3, Gemini 2.0 Flash-Lite e Mistral 3.1 em uma ampla gama de benchmarks reportados. Além disso, apresenta uma janela de contexto líder no setor de 10 milhões de tokens.
O Llama 4 Maverick, com 128 especialistas, também é o melhor em sua classe, superando GPT-4o e Gemini 2.0 Flash em benchmarks de codificação, raciocínio, multilingue, contexto longo e imagens. Ele atinge resultados comparáveis ao DeepSeek v3 em raciocínio e codificação, com menos da metade dos parâmetros ativos, e uma versão experimental de chat pontua 1417 ELO no LMArena. Com 400 bilhões de parâmetros totais, o modelo se encaixa em um host H100 único e oferece uma relação performance-custo líder no setor.
O Llama 4 Behemoth, ainda em treinamento, supera GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro em vários benchmarks STEM e serve como professor para destilação dos outros modelos. A destilação do Maverick a partir do Behemoth resultou em melhorias substanciais em métricas de avaliação de tarefas finais, utilizando uma função de perda de destilação que pondera dinamicamente alvos suaves e duros.
Abordagens de Pré-treinamento
Os modelos Llama 4 adotam pela primeira vez a arquitetura MoE, na qual um token ativa apenas uma fração dos parâmetros totais, tornando o treinamento e a inferência mais eficientes computacionalmente e resultando em maior qualidade para um orçamento fixo de FLOPs. Por exemplo, o Maverick alterna camadas densas e MoE com 128 especialistas roteados e um compartilhado, ativando apenas um subconjunto de parâmetros durante o serviço, o que reduz custos e latência.
A multimodalidade nativa incorpora fusão precoce para integrar tokens de texto, imagem e vídeo em um backbone unificado, permitindo pré-treinamento conjunto com grandes quantidades de dados não rotulados. O codificador de visão, baseado no MetaCLIP mas treinado separadamente com um modelo Llama congelado, foi aprimorado para melhor adaptação ao LLM. Uma nova técnica chamada MetaP define hiperparâmetros como taxas de aprendizado por camada e escalas de inicialização, transferíveis entre diferentes configurações de tamanho de lote, largura e profundidade do modelo.
O pré-treinamento usou precisão FP8 em 32 mil GPUs para o Behemoth, alcançando 390 TFLOPs por GPU, com uma mistura de mais de 30 trilhões de tokens — o dobro do Llama 3 —, incluindo dados diversificados de texto, imagem e vídeo em 200 idiomas, com mais de 100 idiomas tendo mais de 1 bilhão de tokens cada. Uma fase de “treinamento médio” estendeu o contexto longo para 10 milhões de tokens no Scout usando conjuntos de dados especializados.
Pós-treinamento e Aplicações
O pós-treinamento do Maverick equilibrou modalidades de entrada, raciocínio e habilidades conversacionais por meio de uma estratégia curricular curada, sem comprometer o desempenho em comparação a modelos especialistas em modalidades individuais. A pipeline revampada incluiu fine-tuning supervisionado leve (SFT), aprendizado por reforço online (RL) e otimização de atenção direta leve (DPO), removendo mais de 50% dos dados fáceis julgados por modelos Llama e focando em prompts mais difíceis durante o RL contínuo com filtragem adaptativa.
Como LLM de propósito geral, o Maverick se destaca em compreensão de imagens e texto, permitindo aplicações sofisticadas que superam barreiras linguísticas, e é ideal para assistentes gerais e chat com compreensão precisa de imagens e escrita criativa. O Scout é líder em ancoragem de imagens, alinhando prompts de usuários com conceitos visuais relevantes e localizando objetos para respostas de perguntas visuais mais precisas, superando modelos comparáveis em codificação, raciocínio, contexto longo e imagens, além de todos os Llama anteriores.
Disponibilidade e Ecossistema
Os modelos Llama 4 Scout e Maverick estão disponíveis para download em llama.com e Hugging Face. Eles podem ser testados no Meta AI em WhatsApp, Messenger, Instagram Direct e no site do Meta AI. Parceiros como Accenture, Amazon Web Services, AMD e outros da comunidade de IA apoiaram o trabalho.
Os modelos otimizam respostas personalizadas e rápidas como humanos, integrando-se ao ecossistema completo com foco em pilha total e integrações de produtos. A Meta planeja disponibilizá-los via parceiros nos próximos dias e convida a comunidade open source para construir experiências no ecossistema Llama. Para oportunidades, acesse posições abertas em IA.

