A OpenAI lançou o modelo ChatGPT Images 2.0, uma atualização significativa na geração de imagens por IA, que melhora a precisão em texto, composição e raciocínio. O novo sistema permite criar imagens complexas, como menus realistas de comida mexicana sem erros de soletração comuns em modelos anteriores, e incorpora capacidades de pesquisa na web para verificar saídas. Disponível para todos os usuários do ChatGPT a partir desta terça-feira, o modelo representa uma evolução em relação ao GPT-Image-1.5, lançado em dezembro de 2025.
Avanços Técnicos e Capacidades de Raciocínio
Os geradores de imagens por IA enfrentavam dificuldades históricas para soletrar palavras corretamente, devido ao uso de modelos de difusão que reconstruiem imagens a partir de ruído, priorizando padrões gerais de pixels em vez de detalhes textuais minúsculos. Pesquisadores exploraram mecanismos alternativos, como modelos autoregressivos, que preveem a aparência de uma imagem de forma sequencial, similar a modelos de linguagem grandes. O ChatGPT Images 2.0 integra capacidades de “pensamento”, permitindo que o sistema pesquise na web, gere múltiplas imagens de um prompt único e verifique criações antes da renderização final, o que facilita a produção de ativos de marketing em vários tamanhos e tiras de quadrinhos multipainel.
Na prática, essa abordagem agentic transforma o processo: em vez de gerar uma saída direta de um prompt, o modelo planeja a estrutura da imagem, analisa materiais enviados e mantém consistência em elementos como texto denso, iconografia e composições complexas. Durante uma demonstração, o sistema sintetizou dados de um arquivo PowerPoint sobre estratégias de produto, identificou logotipos corretos e produziu um pôster profissional preservando estilos específicos. A arquitetura foi reformulada do zero, descrita como um “modelo generalista” ou “GPT para imagens”, capaz de lidar com perspectivas em 3D e raciocínio espacial por meio de prompts textuais simples.
Além disso, o modelo reproduz interfaces de usuário realistas, screenshots de sites populares e figuras da vida real, como o cofundador e CEO da OpenAI, Sam Altman. Ele gera planos de piso, grades de imagens e conjuntos de múltiplas imagens menores, aplicando esses recursos a imagens enviadas pelo usuário. O corte de conhecimento do modelo é dezembro de 2025, o que pode afetar a precisão em prompts envolvendo notícias recentes.
Melhorias em Texto e Suporte Multilíngue
Uma das principais inovações do Images 2.0 é a renderização precisa de texto, resolvendo um problema persistente em imagens geradas por IA, como erros em soletrações em menus ou diagramas científicos. O modelo produz tipografia legível em composições densas, como capas de revistas com cabeçalhos, números de volume e datas em códigos de barras alinhados profissionalmente. Ele também gera visuais educacionais de até três páginas, incluindo quizzes, com fluxo instrucional consistente.
O suporte a idiomas não latinos foi aprimorado, com ganhos significativos em japonês, coreano, hindi e bengali, renderizando caracteres complexos de forma coerente e nativa em layouts educacionais, como diagramas sobre o ciclo da água. Na prática, isso torna o modelo mais útil para prototipagem de jogos e storyboards, preservando características específicas de estilos visuais. Comparado a testes com prompts como arte pixel de um gato em estilo Pokémon da terceira geração ou mangá de quatro páginas, o sistema gerou resultados fiéis, incluindo conversões para PNG transparente, embora alguns outputs variem ligeiramente do prompt inicial.
Disponibilidade, Preços e Acesso por Camadas
O ChatGPT Images 2.0 está disponível para todos os usuários do ChatGPT e Codex a partir de terça-feira, com usuários pagos acessando outputs mais avançados. O modelo gpt-image-2 será liberado via API, com preços por qualidade e resolução: US$ 8 para inputs de imagem, US$ 2 para inputs em cache, e US$ 30 para outputs; para texto, US$ 5 para inputs, US$ 1,25 para cache e US$ 10 para outputs. Aspectos flexíveis incluem resoluções até 2K (e 4K em beta para API) e proporções de 3:1 a 1:3, permitindo até oito imagens distintas de um prompt com continuidade de personagens e objetos.
Usuários gratuitos acessam o modelo base para tarefas padrão, enquanto Plus e Pro utilizam capacidades de “pensamento” para pesquisa na web, uso de ferramentas e geração multi-imagem. Modos avançados como Thinking e Pro são mais lentos devido ao raciocínio adicional, mas produzem ativos prontos para produção em minutos, como quadrinhos complexos ou sequências de mangá. A OpenAI está depreciando o GPT-Image-1.5 como padrão, mantendo-o via API para suporte legado, e o Images 2.0 foi testado previamente em plataformas como LM Arena AI sob o nome “duct tape”.
Em seguida, para usuários empresariais, as diferenças entre camadas formam um espectro: do geração rápida para drafts criativos até modos agentic para tarefas factuais, como transformar documentos internos em explicadores ou manter consistência em conjuntos de ativos.
Contexto Competitivo e Compromissos de Segurança
O lançamento ocorre em meio a competição crescente, com o modelo Nano Banana 2 do Google (também conhecido como Gemini 3 Pro Image ou Gemini 3.1 Pro Image), lançado em fevereiro de 2026, oferecendo opções de texto denso similar, mas o Images 2.0 supera em fidelidade para interfaces de usuário, screenshots e pacotes múltiplos de imagens. Relatos recentes, incluindo um do The New York Times, destacam usos de conteúdo gerado por IA em campanhas de influência política, como vídeos realistas apoiando o presidente Donald J. Trump com personagens fictícios posando como americanos reais. A OpenAI reafirma compromissos com segurança, marcando outputs com metadados de IA gerada e monitorando interferências eleitorais, diferentemente de novos entrantes no espaço de geração de imagens.
A empresa descreve o Images 2.0 como um “sistema visual” que trata imagens como linguagem, selecionando, arranjando e revelando informações, com potencial para tarefas criativas economicamente valiosas, embora mais lentas que prompts simples. Para mais detalhes, consulte o anúncio oficial do ChatGPT Images 2.0. Historicamente, dificuldades com soletração em IA foram discutidas em análises como por que a IA é ruim em soletrar, atribuídas a modelos de difusão.


