O Custo Oculto dos Dados Não Estruturados na Sua Estratégia de LLM

A Parte Um é uma leitura de cinco minutos. A Parte Dois tem as evidências para quem quiser aprofundar.

Parte Um: O Que Está a Correr Mal e o Que Fazer

Provavelmente já passou por isto. O piloto de IA correu bem. A administração ficou impressionada. O orçamento foi aprovado. E agora, uns meses de utilização real depois, algo não parece bem.

Os resultados estão quase certos — mas não completamente. A sua equipa financeira reescreve os resumos antes de os enviar. As pessoas de operações passam mais tempo a verificar relatórios gerados por IA do que costumavam demorar a escrevê-los à mão. E ninguém consegue explicar por que é que a automatização de associação de facturas continua confiantemente a atribuir os números de referência errados.

A reacção natural é culpar o modelo. Fazer upgrade. Fazer fine-tuning. Escrever melhores prompts. Mas na maioria dos casos, o modelo não é o problema. Os dados por baixo é que são.

O verdadeiro problema é mais confuso do que parece

Cada organização tem a sua própria linguagem interna. As finanças chamam-lhe uma «transacção». As vendas chamam à mesma coisa um «negócio». As operações chamam-lhe um «trabalho». Não são apenas palavras diferentes — estão em sistemas diferentes, em formatos diferentes, com pressupostos diferentes embutidos.

Isto sempre causou atrito. Relatórios que não coincidem entre departamentos. Dashboards que contam histórias diferentes conforme quem os construiu. As pessoas aprenderam a contornar. Pegavam no telefone, perguntavam a um colega, usavam o seu bom senso.

Os large language models não fazem nada disso. Pegam nos dados que lhes são fornecidos e processam-nos com total confiança. Se os seus dados dizem duas coisas contraditórias sobre o mesmo cliente, o modelo escolhe uma — ou mistura ambas — e entrega o resultado como se fosse um facto estabelecido. Sem hesitação. Sem ressalva. Apenas uma resposta limpa, articulada e errada.

E está a pagar por cada uma delas.

Isto é um problema de orçamento, não apenas de qualidade

Os LLMs cobram por token. De forma simplificada, cada palavra que envia e cada palavra que recebe custa computação. Quando os dados que entram são desorganizados — formatos inconsistentes, entradas duplicadas, definições conflituantes — o modelo tem de trabalhar mais. Puxa mais contexto para tentar fazer sentido das coisas. Precisa de mais passagens para gerar algo utilizável. E depois alguém tem de rever na mesma, porque o resultado não inspira confiança.

A maioria das organizações desperdiça entre 40% e 60% dos seus gastos em tokens apenas pela forma como os dados estão estruturados antes de o modelo sequer começar a pensar. Uma empresa de média dimensão a executar 50.000 consultas de IA por dia com dados mal formatados pode estar a queimar entre 100.000 e 200.000 euros por ano em computação desnecessária. Isto antes de alguém contar as horas gastas a verificar e corrigir os resultados.

Aqui está a parte desconfortável: enquanto o preço por token está a descer, os gastos totais com IA estão a subir rapidamente — duplicaram aproximadamente em menos de um ano. O custo unitário está a baixar, mas a factura total está a subir. A qualidade dos dados é a maior alavanca de custos que a maioria das empresas não está a tocar.

Tornar concreto: o problema das facturas

A sua IA digitaliza facturas recebidas e associa-as a pagamentos. Parece simples. Mas o seu sistema financeiro chama-lhe «número de factura», a sua plataforma de operações chama-lhe «ID de referência», e a sua ferramenta de procurement usa um código de seis dígitos que não corresponde a nenhum dos dois.

A IA não pára para perguntar qual é o correcto. Escolhe a melhor correspondência que consegue encontrar e avança — muitas vezes associando a factura errada ao pagamento errado. Multiplique isso por milhares de facturas por mês.

Inquéritos mostram consistentemente que as facturas são a maior fonte individual de erros de dados em IA, representando cerca de um terço de todos os erros de processamento de documentos. Um único erro de factura custa entre 50 e 200 euros para resolver. Uma empresa encontrou 42 milhões de dólares em facturação duplicada em apenas doze meses — e isto com humanos no circuito a apanhar erros.

Quando a IA herda essas mesmas inconsistências, não as apanha. Escala-as.

Porque é que prompts mais inteligentes não o vão salvar

Há sempre a tentação de resolver isto com inteligência do lado da IA. Melhores prompts. Retrieval mais inteligente. Mais barreiras de segurança. E estas coisas ajudam genuinamente — por vezes muito. O Retrieval-Augmented Generation pode reduzir significativamente as taxas de alucinação. O caching evita trabalho redundante. O encaminhamento de consultas simples para modelos mais baratos poupa dinheiro.

Mas a investigação é consistente: estes são tratamentos de sintomas, não curas para a doença. Quando investigadores testaram as melhores técnicas de prompt disponíveis em modelos a trabalhar com dados maus, as taxas de erro desceram de cerca de 66% para 44%. É progresso real — mas o modelo ainda estava errado quase metade das vezes.

Cada uma destas correcções técnicas depende da qualidade dos dados por baixo. O RAG só ajuda se a base de conhecimento de onde puxa for precisa. O fine-tuning só funciona se os dados de treino forem consistentes. A engenharia de prompts só aguça resultados quando os inputs são limpos.

Se procura melhoria duradoura — não remendos que ganham tempo enquanto os custos se acumulam silenciosamente — o trabalho tem de começar pelos dados.

Dois caminhos em frente

Qual escolher depende dos seus recursos e da sua tolerância ao risco.

Governança primeiro. Faça o trabalho de base antes de escalar. Defina os conceitos centrais em que o seu negócio assenta — o que é um cliente, uma transacção, uma factura, um produto? Ponha todas as equipas a usar as mesmas definições. Limpe e estruture os domínios de dados mais importantes para os seus casos de uso de IA. Depois implemente com confiança.

Este é o caminho mais cauteloso. É mais lento. Mas evita o ciclo de retrabalho caro que apanha tantas organizações desprevenidas.

Governança em paralelo. Se tem o orçamento e a coragem, comece a implementar IA em casos de uso cuidadosamente escolhidos enquanto constrói as suas fundações de dados ao mesmo tempo. Escolha áreas onde os seus dados já estão em bom estado. Aceite riscos específicos em projectos específicos. Aprenda depressa e construa a infraestrutura à medida que avança.

A investigação mostra que as empresas que extraem mais valor da IA tendem a seguir este segundo caminho — movem-se depressa, falham depressa e aprendem depressa. Mas a palavra crítica é deliberadamente. Executar IA e governança lado a lado com um plano claro é uma coisa. Implementar IA e esperar resolver os dados depois é algo completamente diferente.

Sobre este ponto, os números são preocupantes. O abandono de projectos de IA mais que duplicou entre 2024 e 2025. Cerca de 95% dos pilotos de GenAI empresarial não conseguem entregar impacto mensurável. O fio condutor em quase todas as falhas são os dados.

Para organizações na região DACH, o relógio também está a contar. O EU AI Act torna-se plenamente aplicável em Agosto de 2026. Exige que os dados utilizados em sistemas de IA de alto risco sejam relevantes, representativos e — tanto quanto possível — livres de erros. Não como recomendação. Como lei. Com penalidades até 20 milhões de euros ou 4% da facturação mundial.

Combinado com o EU Data Act e o RGPD, isto constitui uma tripla camada de conformidade. A maioria das organizações DACH ainda não está preparada — o que é um risco, mas também uma vantagem para quem agir agora.

A que se resume

A conversa que a maioria das equipas de liderança precisa de ter não é sobre quanto gastar em IA. É sobre quanto já estão a desperdiçar.

A governança de dados não se apresenta bem numa demo. Ninguém fica entusiasmado com o alinhamento de definições de campos entre três sistemas ERP. Mas é a diferença entre IA que acumula valor e IA que acumula custos. As organizações que acertam nisto — quer façam o trabalho de governança primeiro, quer o executem em paralelo com a implementação — vão gastar menos, obter melhores resultados e evitar o ciclo de retrabalho que silenciosamente está a drenar orçamentos por todo o lado.

Todos os outros continuam a pagar o custo oculto.

Participe na conversa

Já sentiu o custo oculto de dados mal estruturados nos seus próprios projectos de IA? Gostaria de ouvir a sua experiência — junte-se à discussão no LinkedIn.

Parte Dois: As Evidências

Tudo na Parte Um está fundamentado em investigação específica. Esta secção apresenta os dados para quem quiser verificar as afirmações, questionar os números, ou levar isto para a administração com fontes anexadas.

A lacuna de preparação

A dimensão da desconexão entre ambição de IA e preparação de dados está bem documentada. O inquérito Q3 2024 da Gartner a líderes de gestão de dados revelou que 63% das organizações ou não têm ou não têm a certeza de ter as práticas correctas para IA. Apenas 4% reportaram os seus dados como totalmente preparados. [1]

Um inquérito da HBR Analytic Services de Fevereiro de 2026 aprofunda: 89% dos líderes consideram a governança de dados altamente importante para IA, mas apenas 37% classificam a sua própria organização como proficiente. Apenas 15% consideram os seus dados «muito preparados» para a próxima vaga de IA agêntica. [2]

O relatório State of AI 2025 da McKinsey conta a mesma história do lado da adopção: 88% das organizações usam IA em pelo menos uma função, mas apenas 1% se consideram maduras. Mesmo entre os high-performers, 70% reportam dificuldades de governança. [3]

Como isto se manifesta na região DACH

A lacuna é particularmente pronunciada — e a oportunidade particularmente grande — para os mercados de língua alemã. Um relatório de 2025 da Dr. Justus & Partners revelou que 94% das empresas do Mittelstand não implementaram IA. [4] O estudo «Data Imperative» da Roland Berger revelou que 71% das empresas europeias têm dificuldade em aceder a dados fiáveis, com apenas 25% a considerar a sua infraestrutura pronta para GenAI. [5] A investigação da Cognizant focada na DACH confirmou que as empresas da região avaliam a sua preparação de dados como relativamente alta, mas dão-se notas baixas na conformidade com os seus próprios frameworks internos — consciência sem execução. [6]

Alucinações e como os dados maus as agravam

O Hallucination Leaderboard da Vectara — o mais próximo que a indústria tem de um benchmark padrão — mostra LLMs populares a fabricar informação em 2,5–8,5% dos casos em tarefas básicas de sumarização. [7] Em contextos especializados, as taxas disparam: um estudo JMIR de 2024 encontrou o GPT-3.5 a alucinar quase 40% das referências médicas. [8] Um estudo de 2025 do Mount Sinai publicado na Nature plantou fabricações deliberadas em casos clínicos e descobriu que seis LLMs líderes repetiram ou elaboraram esses erros em até 83% dos casos. [9]

As alucinações não são puramente um problema de qualidade de dados — a arquitectura do modelo e os incentivos de treino também desempenham um papel. Mas dados organizacionais maus amplificam uma fraqueza inerente. Está a adicionar ruído a um sistema que já é propenso a adivinhação confiante.

Como é realmente o desperdício de tokens

Investigação do The New Stack coloca o desperdício em 40–60% dos gastos em tokens para a maioria das organizações, impulsionado principalmente pela forma como os dados são formatados antes de chegarem ao modelo. [10] A GetCrux testou 10.000 perguntas e descobriu que CSV consumia 56% menos tokens que JSON para dados tabulares idênticos — à escala empresarial, a optimização de uma única carga de trabalho poupou aproximadamente $1.740 por mês. [11]

Arquitecturas de retrieval mal calibradas pioram a situação, inflacionando tokens de entrada em 3–4× quando puxam demasiados fragmentos de documentos. [12] Na prática, mais de 30% das consultas RAG empresariais revelam-se repetitivas ou quase idênticas, cada uma a accionar a cadeia completa de processamento do zero. [13] Entretanto, os gastos totais com APIs de modelos duplicaram de $3,5 mil milhões para $8,4 mil milhões entre finais de 2024 e meados de 2025. [14]

Os números das facturas em detalhe

O inquérito de Janeiro de 2026 da Parseur a 500 profissionais revelou que 88% reportam erros em dados de documentos processados por IA. As facturas lideraram a lista com quase 32%. [15] A investigação da HabileData descreve o mecanismo: quando departamentos aplicam definições diferentes aos mesmos campos, as contradições multiplicam-se a cada passagem automatizada. [16] Apenas 9% dos departamentos de contas a pagar estão totalmente automatizados [17], e a OpenEnvoy identificou $42,1 milhões em facturação duplicada entre os seus clientes num único ano. [18]

Onde a engenharia de prompts atinge o seu tecto

O estudo do Mount Sinai é o ponto de dados mais claro aqui: a melhor mitigação de prompts reduziu as taxas de alucinação de 65,9% para 44,2%. Progresso, mas ainda errado quase metade das vezes quando os dados subjacentes eram maus. [19] Investigadores que publicaram nas Communications of the ACM concluíram que as alucinações estão incorporadas no funcionamento dos LLMs actuais e não podem ser totalmente eliminadas. [20]

O framework que falta

Neste momento, o mercado de ferramentas está fragmentado. Plataformas de observabilidade de LLM como a Langfuse [21] rastreiam gastos em tokens mas não a qualidade dos dados. Ferramentas de qualidade de dados como a Monte Carlo [22] medem a saúde dos dados mas não os custos de IA. Frameworks de FinOps [23] estão a adaptar-se à IA generativa mas ainda não integraram a qualidade dos dados. Ninguém construiu a ponte.

Os dados de falha e custo

Dados da S&P Global mostram o abandono de projectos de IA a saltar de 17% em 2024 para 42% em 2025. [24] Investigação da MIT Sloan Management Review argumenta que a dívida técnica em IA acumula-se mais rapidamente do que em software tradicional. [25] O paper seminal da Google na NIPS sobre sistemas de machine learning identificou dependências de dados como fonte de custos de manutenção que crescem ao longo do tempo em vez de diminuir. [26]

Do lado dos custos: a análise da IBM de Janeiro de 2026 revelou que mais de 25% das organizações perdem mais de $5 milhões por ano com má qualidade de dados, com 7% a exceder $25 milhões. [27] O inquérito de 2024 da Fivetran — que incluiu inquiridos alemães — revelou que modelos de IA treinados com dados maus levaram a decisões mal informadas que custaram em média $406 milhões por organização. [28]

O relógio regulatório

O EU AI Act [29] torna-se plenamente aplicável a 2 de Agosto de 2026. O Artigo 10 [30] exige que os dados para sistemas de IA de alto risco sejam relevantes, representativos e livres de erros. O EU Data Act está em vigor desde Setembro de 2025, mas a Bitkom revelou que apenas 1% das empresas alemãs o implementaram totalmente. [31] As empresas DACH carregam aproximadamente 46% de dark data — recolhidos mas nunca governados — o que acrescenta um estimado de $900.000 aos custos por incidente de segurança. [32]