28 de abril de 2026·4 min de leitura·IA, Governança, Estratégia

Por que sua empresa precisa arrumar os dados antes de adotar IA generativa

IA generativa é tão boa quanto os dados que a alimentam. Se seus KPIs não batem entre si, o copilot também não vai bater. Aqui está como pensar na ordem das coisas.

Gabriel Fernandes

Mago dos Dados

Read in English

Toda fundadora e todo CDO com quem converso em 2026 tem a mesma conversa engatilhada: "precisamos colocar IA na frente dos nossos dados." Alguns já estão pilotando um copilot. Outros estão avaliando fornecedores. E alguns admitem em voz baixa que o piloto que rodaram seis meses atrás emperrou e ninguém quer muito reanimá-lo.

O padrão que vejo nos pilotos emperrados é quase sempre o mesmo, e tem muito pouco a ver com o modelo, o prompt ou o fornecedor escolhido. Tem a ver com o que o modelo está lendo. Quando começo a investigar, encontro uma fundação que não estava pronta nem para um analista humano confiar, quanto mais para um modelo de linguagem consultar.

O modelo só é honesto se os dados forem

Um LLM é uma máquina de confiança. Pergunte sobre a sua receita do trimestre passado e ele vai produzir uma resposta fluente e coerente, independentemente de os números por trás estarem limpos ou não. Se duas tabelas no seu warehouse definem "cliente ativo" de formas diferentes, o modelo não tem como saber em qual delas confiar. Ele vai escolher uma, narrar com convicção, e o executivo do outro lado do chat vai acreditar.

Já vi isso acontecer em empresas reais. Um CFO pergunta ao copilot sobre churn, recebe um número, pede ao time de BI para confirmar, recebe outro número. Em duas semanas o experimento morre, não porque o modelo é ruim, mas porque ninguém sabe qual versão da verdade defender.

Três sinais de que sua fundação ainda não está pronta

Antes de subir mais um piloto, faça estas três checagens. Se qualquer resposta for "não", você ainda não está pronto para colocar um modelo na frente do time interno.

Uma única fonte da verdade por métrica. Se "receita", "cliente ativo" ou "MRR" podem ser calculados de três formas diferentes dependendo do dashboard que você abre, o modelo vai herdar essa ambiguidade e piorar.
Lineage que dá pra ler. Quando o modelo expõe um número, dá pra um humano rastrear esse número pelo pipeline até a fonte bruta em menos de cinco minutos? Se não dá, não há como auditar alucinações quando elas acontecerem.
Controle de acesso que funciona de verdade. IA generativa é um multiplicador de confidencialidade. Se o seu warehouse tem row-level-security frouxo, um copilot vai citar a tabela de salários para qualquer um que pedir com jeitinho.

O que "AI-ready" significa de fato

AI-ready não é selo de marketing. É uma checklist concreta. Quando rodo uma auditoria de fundação antes de uma iniciativa de IA generativa, estou procurando quatro camadas específicas:

Um warehouse modelado em camadas claras (staging, intermediate, marts). Cada métrica tem uma única definição canônica que as ferramentas downstream não conseguem redefinir.
Um catálogo de dados (Atlan, DataHub ou equivalente) onde cada métrica tem dono, definição em linguagem clara e SLA de freshness.
Lineage end-to-end para que o modelo, e o humano revisando a saída , consigam caminhar de um número num gráfico até a linha de origem no sistema que gerou.
Ganchos de governança que decidem o que o modelo pode e não pode ver. Não uma lista de desejos; uma política aplicada na camada do warehouse.

Repare no que não está nessa lista: qual modelo você usa, qual vector database você escolheu, se está fazendo RAG ou fine-tuning. Essas decisões importam, mas são baratas de mudar depois. Os quatro itens acima são caros de retrofitar uma vez que o copilot já está em produção e seu time já criou hábitos em cima de respostas erradas.

Se você está sentado em cima de um piloto de IA emperrado, o modelo raramente é o problema. Eu rodo uma auditoria de fundação de 1–2 semanas que te diz exatamente o que arrumar antes de relançar, e em qual ordem.

Auditar minha fundação

A ordem que eu recomendo

As empresas que entregam features de IA que de fato são usadas internamente tendem a seguir a mesma ordem: fundação, depois ferramenta, depois adoção.

Primeiro, arrume a fundação. Trave definições de métricas, entregue um warehouse dbt com testes, suba um catálogo, ligue lineage. Trabalho chato que ninguém vai celebrar, mas é a diferença entre um copilot em que o time confia e um copilot que é silenciosamente ignorado.

Depois, escolha a ferramenta. Uma vez que o warehouse é a fonte da verdade, a decisão entre fornecedores fica muito menor. Você não está comprando um milagreiro, está comprando uma interface em cima de dados em que você já confia.

Por último, dirija a adoção. Treine o time para o que o modelo é bom e o que não é. Estabeleça a expectativa de que toda resposta pode ser rastreada até o warehouse. Construa o músculo de perguntar "de onde vem esse número?" antes de agir em cima dele.

As empresas que tentam fazer isso ao contrário, comprar a ferramenta, depois remendar os dados, depois empurrar adoção, são as que me escrevem seis meses depois perguntando por que o piloto emperrou. A ordem importa mais que o modelo.

Quer conversar sobre o seu cenário?

Vamos transformar seus dados em decisões.

Falar com a gente