Esse artigo é a documentação completa do pipeline que construí para extrair conhecimento do histórico real de atendimento de um cliente e transformá-lo em base vetorial para uma IA de suporte em produção.

A linha do tempo: 8.400 conversas brutas viraram 2.200 pares de conhecimento na base final. Sem anotação manual.

Antes de começar: os conceitos

LLM (Large Language Model). O modelo de linguagem em si, como Claude, GPT ou Gemini. Ele é poderoso, mas tem dois problemas: não sabe nada sobre o seu negócio específico, e alucina quando não sabe.

RAG (Retrieval-Augmented Generation). A solução para isso. Antes do LLM responder, você busca o contexto relevante numa base própria e injeta esse contexto no prompt. O modelo deixa de adivinhar e passa a responder a partir de informação real e verificável.