A maioria de nós desenvolvedores já escreve código com IA diariamente. O que eu acredito ser mais incomum é um time inteiro usar IA de forma padronizada sem cair em dois extremos: virar muito burocrático e ninguém seguir, ou continuar cada um por si e ninguém saber se está no caminho certo.
Esse texto é sobre o meio-termo. Não é um tutorial de config (a documentação oficial faz isso melhor e mais atualizada que qualquer post), e não é um case de sucesso ou com resultados, porque acho que ninguém tem ainda. É a forma como interpretei o problema depois de estudar os materiais que a Anthropic e a Cognition publicaram sobre o assunto, lido pela lente de quem trabalha com desenvolvimento web e sistemas distribuídos.
O problema raramente é o prompt
A mudança mais importante de perspectiva é parar de pensar no agente de IA como só "o modelo" e pensar nele como modelo mais o aparato em volta. Esse aparato tem um nome na literatura, chamam de harness. São as ferramentas, as verificações, o contexto que você fornece, os limites que você impõe, o loop de feedback que corrige o modelo quando ele erra.
Quando uma sessão de IA é ruim, muitas pessoas culpam de cara o modelo ou o prompt. Porém, na minha opinião, muitas vezes o problema está no harness: faltou contexto sobre como o código funciona, não havia testes pra validar se algo quebrou, o modelo não tinha como verificar o próprio trabalho. É o mesmo raciocínio de quando um serviço se comporta mal em produção e a causa não está no código da request, mas sim na ausência de timeout, retry, de métricas que mostrariam o problema antes.










