AutoTTS reduz tokens de LLMs em 69,5%

Pesquisadores da Meta, do Google e de quatro universidades apresentaram o AutoTTS, um framework criado para reduzir o custo operacional de grandes modelos de linguagem. Na prática, a proposta automatiza a descoberta de estratégias de raciocínio e diminui a dependência de ajustes manuais.

O avanço mira a etapa de inferência, isto é, o momento em que o modelo gera respostas. Como o consumo de tokens pesa no custo final de execução, o AutoTTS pode tornar LLMs mais eficientes sem perda relevante de desempenho. Além disso, os resultados indicam economia justamente na fase mais intensiva em computação.

O artigo LLMs Improving LLMs: Agentic Discovery for Test-Time Scaling, publicado em maio de 2026 no arXiv, reformula o test-time scaling, ou TTS, como uma síntese de controladores sobre trajetórias de raciocínio já coletadas. Assim, em vez de um pesquisador escrever regras de execução, um agente de código busca automaticamente as estratégias mais eficientes.

Framework automatiza estratégias de raciocínio

O TTS parte de uma lógica simples. Em geral, quanto mais computação o modelo recebe durante o raciocínio, melhores tendem a ser as respostas. Contudo, esse ganho normalmente eleva o custo da inferência. Por isso, o desafio central está em distribuir o orçamento computacional com mais eficiência.

Até agora, essa definição dependia de ajustes manuais. Em outras palavras, equipes de pesquisa desenhavam estratégias com base em intuição, experiência e testes repetidos. O AutoTTS muda esse processo ao automatizar a descoberta de políticas de execução. Dessa forma, o framework reduz a intervenção humana e acelera a busca por combinações mais econômicas.

Segundo o estudo, o agente usado nessa exploração foi o Claude Code. Ele opera em um ambiente offline de replay, no qual analisa trajetórias de raciocínio e sinais de sondagem. A partir disso, identifica controladores eficazes para a execução. Ademais, o framework usa parametrização beta e feedback detalhado de rastros de execução, a fim de tornar a busca mais barata.

Testes mostram economia sem queda relevante de precisão

Os números reportados chamam atenção. Em comparação com o SC@64, descrito pelos pesquisadores como uma linha de base robusta, o AutoTTS reduziu cerca de 69,5% do consumo agregado de tokens. Esse resultado ocorreu com um valor beta em torno de 0,5. Ainda assim, o framework preservou praticamente o mesmo nível de desempenho.

Nos testes fora da amostra, o AutoTTS registrou precisão média de 45,3. O SC@64, por sua vez, marcou 45,2. Portanto, a diferença foi mínima, embora a economia de tokens tenha superado dois terços do volume consumido pela referência. Esse equilíbrio entre custo e precisão reforça o interesse por técnicas de otimização em inteligência artificial.

Outro dado relevante envolve o custo do próprio processo de descoberta. Os pesquisadores afirmam que toda a busca por estratégias otimizadas custou US$ 39,9 e levou aproximadamente 160 minutos. Assim, além de reduzir o gasto futuro com inferência, o AutoTTS mostrou um custo inicial relativamente acessível para a etapa de otimização.

Meta, Google e universidades avaliaram generalização

A pesquisa reúne University of Maryland, University of Virginia, Washington University in St. Louis e University of North Carolina. Também participam Google e Meta. O grupo avaliou se as estratégias descobertas pelo AutoTTS funcionam fora do ambiente específico em que surgiram. Nesse sentido, os resultados indicaram boa capacidade de generalização.

Segundo o artigo, as estratégias encontradas transferem entre diferentes escalas de modelos. Além disso, elas também funcionam em benchmarks mantidos fora do conjunto de descoberta. Entre eles estão AIME24, AIME25 e HMMT25, que medem raciocínio matemático em LLMs avançados. Desse modo, o framework não ficou restrito a um único cenário experimental.

A equipe também disponibilizou publicamente o código e os dados do projeto em um repositório no GitHub. Com isso, outros pesquisadores e desenvolvedores podem examinar a metodologia e testar o framework em diferentes cenários de inferência.

O que o AutoTTS indica para o uso de LLMs

O AutoTTS surge como uma proposta relevante para cortar custos sem enfraquecer a qualidade das respostas. Afinal, o framework reduziu cerca de 69,5% do consumo agregado de tokens frente ao SC@64. Ao mesmo tempo, manteve precisão média de 45,3, contra 45,2 da referência. O processo de descoberta, por fim, custou US$ 39,9 e levou cerca de 160 minutos.

Esse conjunto de resultados reforça uma tendência importante para 2026. À medida que LLMs ganham escala, cresce também a pressão por eficiência operacional. Nesse cenário, ferramentas como o AutoTTS podem ajudar empresas e laboratórios a reduzir custos de inferência sem abrir mão de desempenho técnico.