O custo que ninguém vê até doer no bolso

Deixa eu te contar uma coisa que acontece com quase todo time que começa a usar agentes de IA de verdade.

No começo, é empolgação. O agente revisa PR, sugere mudanças, antecipa problema técnico. Parece mágica. O time fica feliz, o produto avança, tudo certo.

Aí chega a fatura.

E ali, entre uma linha e outra, aparece um número que ninguém esperava. Não é a assinatura da ferramenta. Não é o custo do modelo. É o token queimado em silêncio, execução por execução, ao longo de semanas inteiras.

Esse é o custo invisível dos agentes em produção. E ele cresce antes de qualquer um perceber.

Por que isso acontece com tanta gente boa

Não é descuido. Não é falta de técnica.

É que ninguém foi treinado para pensar em token como métrica de operação. A gente aprende a medir uptime, latência, taxa de erro. Token fica em segundo plano, tratado como “detalhe de custo” para resolver depois.

O problema é que “depois” chega rápido.

Quando o agente roda uma vez por semana em ambiente de teste, os números não assustam. Quando ele entra no fluxo diário do time, em cada pull request, em cada revisão de código, em cada pipeline de CI, o que parecia pequeno vira linha de despesa real.

É igual àquela torneira que pinga de noite. Você não ouve durante o dia. Mas na conta de água do mês, está lá.

O post do GitHub que tocou num ponto importante

Faz pouco tempo, o GitHub publicou algo que chamou atenção de quem trabalha com esse assunto. Não era sobre qual modelo usar, nem sobre qual feature estava chegando no Copilot.

Era sobre eficiência de token em workflows agentic.

Parece técnico demais? É, um pouco. Mas a essência é simples: eles olharam para o próprio processo e perguntaram “onde estamos desperdiçando?” E a resposta tinha padrões que qualquer time em produção vai reconhecer.

Contexto demais. Instruções repetidas. Tarefas grandes demais em uma única chamada. Histórico de conversa inteiro sendo jogado em cada execução, mesmo quando metade disso não era necessário.

Nada disso era erro grave. Era só hábito de quem nunca precisou otimizar porque o volume ainda era baixo.

O que muda quando você começa a medir de verdade

Quando o token vira métrica de verdade, umas coisas incômodas aparecem.

Aquele prompt “completo e robusto” que o time construiu com tanto cuidado? Tem três parágrafos que nunca influenciam a resposta. Estão lá por segurança, por tradição, por ninguém ter parado para questionar.

Aquele contexto “só para garantir”? Na maior parte das execuções, o agente não precisava nem da metade.

Aquela tarefa que virou uma chamada só porque era mais fácil de implementar assim? Gera resposta longa, custo alto e qualidade que varia mais do que deveria.

Não é culpa de ninguém. É o que acontece quando o processo não foi pensado para escala desde o início.

A boa notícia é que a correção não é difícil. É só chata de fazer sem dados.

Eficiência não é espremer até piorar

Aqui tem um mal-entendido que precisa ser desfeito.

Quando alguém fala em “reduzir token”, a reação imediata costuma ser defensiva: “mas vai piorar a qualidade”. E faz sentido pensar assim, porque às vezes é verdade.

Mas eficiência de verdade não é cortar contexto até o agente começar a errar. É remover o que não agrega.

Tem uma diferença enorme entre dar ao agente menos do que ele precisa e dar a ele exatamente o que ele precisa. O segundo é o objetivo. E na maioria dos processos que não passaram por otimização, tem muito espaço entre os dois.

Instrução objetiva performa melhor que instrução inchada. Tarefa dividida em etapas curtas costuma ter resultado mais previsível que tarefa ampla em uma chamada só. Contexto selecionado gera resposta mais focada que contexto completo por precaução.

Eficiência e qualidade, na prática, caminham juntas mais do que caminham contra.

Como começar sem travar o que já funciona

A tentação é refazer tudo. Geralmente é o caminho errado.

O que funciona melhor é escolher um fluxo que já roda com frequência e entender o que está acontecendo nele de verdade. Quanto token ele consome em média por execução? Quanto tempo leva? O time aceita a saída ou costuma editar bastante?

Com essa base, você testa uma mudança de cada vez.

Encurta uma instrução. Limita o contexto de entrada. Divide uma tarefa grande em duas menores. Define um teto para o tamanho da resposta quando fizer sentido.

Depois mede de novo. Compara. Decide com dado, não com intuição.

Esse ciclo parece lento, mas é o que separa melhoria real de aposta no escuro.

O impacto que vai além do financeiro

Tem algo que acontece quando um time aprende a operar agente com eficiência que vai além de economizar.

A conversa muda.

Antes era: “vamos limitar o uso para não estourar o orçamento”. Depois passa a ser: “podemos expandir, porque agora temos controle sobre o que acontece”.

Isso é diferente. Muito diferente.

Porque o problema não era o custo em si. Era a falta de visibilidade. Quando você não sabe o que está gastando nem por quê, a resposta natural é restringir. Quando você sabe, pode crescer com confiança.

E aí o agente deixa de ser aquela coisa promissora que o time usa com cautela e vira processo confiável que o time quer expandir.

Uma última coisa

A conversa sobre IA está mudando. Está saindo da fase “qual é o modelo mais incrível do momento” e entrando em algo mais maduro: como operar isso de forma sustentável.

Quem passar por esse aprendizado agora vai ter uma vantagem real. Não porque descobriu algum segredo técnico, mas porque desenvolveu disciplina operacional enquanto a maioria ainda estava na fase da empolgação.

E isso, no dia a dia, faz toda a diferença.

Fontes: GitHub Blog — Improving token efficiency in GitHub agentic workflows

Por que isso acontece com tanta gente boa

O post do GitHub que tocou num ponto importante

O que muda quando você começa a medir de verdade

Eficiência não é espremer até piorar

Como começar sem travar o que já funciona

O impacto que vai além do financeiro

Uma última coisa

Receba análises tech exclusivas

Precisa de um site profissional?

Você também pode gostar

GitHub está usando agente para acessibilidade. E esse é um dos usos mais práticos de IA hoje

Amazon Bedrock AgentCore agora deixa agentes fazerem pagamentos

Nvidia já é quase uma empresa de data center: o que os números dizem sobre o fim da velha tese gamer