A startup Thinking Machines Lab anunciou os “interaction models”, uma nova categoria de sistemas de inteligência artificial multimodal projetados para comunicação em tempo real. Esses modelos processam entradas de áudio e vídeo simultaneamente, permitindo reações contínuas e redução significativa na latência de resposta. A iniciativa visa promover colaborações mais naturais entre humanos e IA, com foco em aplicações empresariais e industriais sensíveis ao tempo.
Limitações dos Sistemas de IA Turn-Based
Os sistemas de IA atuais operam em formato sequencial, onde o usuário fornece um prompt e aguarda o processamento antes da resposta. Essa estrutura cria pausas incômodas, limitando interrupções naturais, pausas, acknowledgements e cues conversacionais. Segundo a Thinking Machines Lab, isso representa uma barreira fundamental para a IA como colaboradora em ambientes como saúde, operações industriais e suporte ao cliente.
Para contornar essas restrições, a maioria dos sistemas de IA em tempo real usa componentes separados, como detecção de atividade de voz, que simulam responsividade mas são menos inteligentes que o modelo principal. Essa abordagem “harness” impede capacidades como reações visuais proativas ou fala simultânea. A empresa argumenta que a interatividade deve ser nativa ao modelo para escalar com a inteligência geral.
Arquitetura dos Modelos de Interação
A Thinking Machines Lab desenvolveu uma arquitetura baseada em interações “full-duplex”, dividindo conversas em micro-turnos de cerca de 200 milissegundos. Isso permite que o sistema reaja continuamente a entradas visuais e auditivas, mesmo durante a geração de saída. O modelo central, TML-Interaction-Small, é um mixture-of-experts de 276 bilhões de parâmetros, com 12 bilhões ativos, focado em manuseio conversacional rápido, presença e respostas imediatas.
Um modelo secundário assíncrono atua em paralelo para tarefas intensivas, como raciocínio, uso de ferramentas e buscas na web, enviando pacotes de contexto rico e integrando resultados de forma intercalada. A arquitetura evita encoders externos pesados por meio de “encoder-free early fusion”, processando sinais brutos de áudio e vídeo diretamente via camadas de embedding leves no transformer. Para saída de áudio, usa um “flow head” para decodificação, com todos os componentes treinados conjuntamente.
No lado de inferência, sessões de streaming lidam com chunks de 200ms, otimizadas para evitar sobrecargas em bibliotecas de LLM existentes, com contribuições upstream para frameworks como SGLang. Além disso, estratégias como gather+gemv para kernels MoE otimizam para formatos sensíveis à latência.
Desempenho em Benchmarks
No FD-bench, focado em qualidade de interação e timing conversacional, o TML-Interaction-Small alcançou latência de resposta de 0,4 segundos em uma fonte, enquanto outra indica abaixo de 0,4 segundos. Para comparação, o Gemini-3.1-flash-live do Google marcou 0,57 segundos, e o GPT-realtime-2.0, 1,18 segundos. No FD-bench v1, obteve 77,8 em qualidade média, superior a 54,3 do Gemini-3.1-flash-live (minimal) e 48,3 do GPT-realtime-1.5.
Em cenários de áudio multitarefa, como Audio MultiChallenge APR, o modelo pontuou 43,4%, acima de 37,6% do GPT-realtime-2.0 (minimal) e 26,8% do Gemini-3.1-flash-live-preview (minimal). No FD-bench v3, com agente de background, alcançou 82,8% em qualidade de resposta e 68,0% em Pass@1, o mais alto na comparação. Em benchmarks proativos e de consciência temporal, como TimeSpeak (64,7), CueSpeak (81,7), RepCount-A (35,4) e Charades mIoU (32,4), superou modelos como GPT-realtime-2.0, que tiveram desempenho próximo de zero.
Aplicações e Implicações
Os interaction models podem monitorar feeds de vídeo em tempo real para detectar anormalidades em laboratórios, ambientes de manufatura e operações de segurança crítica. Em suporte ao cliente, a baixa latência torna conversas mais naturais e menos transacionais. A consciência temporal integrada permite instruções contextuais, como alertas se um processo exceder tentativas anteriores, sem especificar timestamps manualmente.
Uma demonstração preliminar mostra backchanneling, como acenos e acknowledgements durante a conversa. Em contextos como a Índia, onde o uso de voz é predominante, esses sistemas podem reduzir barreiras para usuários em línguas locais, facilitando acesso para estudantes e pequenos negócios. A abordagem dual-brain, com um motor rápido para trocas e outro para raciocínio profundo, simula engajamento contínuo, como um colega passando notas em tempo real.
Lançamento e Limitações Atuais
Os modelos estão disponíveis em preview de pesquisa limitado para parceiros, com rollout público mais amplo esperado mais adiante neste ano em uma fonte, ou mais tarde em 2026 em outras. A fundadora Mira Murati destaca a frustração com pausas em IA modernas, visando evoluir para colaborações genuínas. O acesso é gateado durante essa fase, sem API de produção.
Sessões longas acumulam contexto rapidamente, exigindo gerenciamento cuidadoso de áudio e vídeo contínuos. Conexões instáveis degradam a experiência em chunks de 200ms. Modelos maiores pré-treinados são lentos para tempo real, com variantes planejadas para 2026. Questões de alinhamento surgem com interações em tempo real, e a taxa de recusa em Harmbench é de 99,0%. Detalhes técnicos estão disponíveis no blog da Thinking Machines Lab sobre modelos de interação. Para discussões adicionais, acesse o subreddit de machine learning, a newsletter de IA ou o canal no Telegram.

