Die versteckten Kosten unstrukturierter Daten in Ihrer LLM-Strategie

Teil Eins ist ein Fünf-Minuten-Artikel. Teil Zwei liefert die Belege für alle, die tiefer einsteigen möchten.

Teil Eins: Was schiefläuft und was Sie dagegen tun können

Sie kennen das wahrscheinlich. Das KI-Pilotprojekt lief gut. Der Vorstand war beeindruckt. Das Budget wurde genehmigt. Und jetzt, ein paar Monate im Echtbetrieb, fühlt sich etwas nicht richtig an.

Die Ergebnisse sind fast korrekt — aber eben nur fast. Ihr Finanzteam schreibt die Zusammenfassungen um, bevor sie weitergeleitet werden. Ihre Operations-Leute verbringen mehr Zeit mit dem Überprüfen von KI-generierten Berichten, als das manuelle Erstellen früher gedauert hat. Und niemand kann erklären, warum die automatische Rechnungszuordnung ständig selbstbewusst die falschen Referenznummern zuweist.

Die natürliche Reaktion ist, das Modell zu beschuldigen. Upgraden. Feintunen. Bessere Prompts schreiben. Aber in den meisten Fällen ist das Modell nicht das Problem. Die darunterliegenden Daten sind es.

Das eigentliche Problem ist komplizierter, als es klingt

Jede Organisation hat ihre eigene interne Sprache. Die Finanzabteilung nennt etwas eine «Transaktion». Der Vertrieb nennt dasselbe einen «Deal». Der Betrieb nennt es einen «Auftrag». Das sind nicht nur verschiedene Wörter — sie befinden sich in unterschiedlichen Systemen, in unterschiedlichen Formaten, mit unterschiedlichen Annahmen.

Das hat schon immer Reibung verursacht. Berichte, die abteilungsübergreifend nicht übereinstimmen. Dashboards, die je nach Ersteller unterschiedliche Geschichten erzählen. Menschen haben gelernt, damit umzugehen. Sie griffen zum Telefon, fragten einen Kollegen, nutzten ihr Urteilsvermögen.

Large Language Models tun nichts davon. Sie nehmen die Daten, die sie bekommen, und verarbeiten sie mit völliger Überzeugung. Wenn Ihre Daten zwei widersprüchliche Aussagen über denselben Kunden enthalten, wählt das Modell eine aus — oder vermischt beide — und liefert das Ergebnis, als wäre es eine feststehende Tatsache. Kein Zögern. Kein Vorbehalt. Einfach eine saubere, eloquente, falsche Antwort.

Und Sie bezahlen für jede einzelne.

Das ist ein Budgetproblem, nicht nur ein Qualitätsproblem

LLMs rechnen pro Token ab. Vereinfacht gesagt kostet jedes Wort, das Sie senden, und jedes Wort, das Sie zurückbekommen, Rechenleistung. Wenn die eingehenden Daten unordentlich sind — inkonsistente Formate, doppelte Einträge, widersprüchliche Definitionen — muss das Modell härter arbeiten. Es zieht mehr Kontext heran, um die Dinge zu verstehen. Es braucht mehr Durchläufe, um etwas Brauchbares zu generieren. Und dann muss es trotzdem jemand überprüfen, weil das Ergebnis nicht vertrauenswürdig wirkt.

Die meisten Organisationen verschwenden zwischen 40 % und 60 % ihrer Token-Ausgaben allein durch die Art, wie ihre Daten strukturiert sind, bevor das Modell überhaupt mit dem Denken beginnt. Ein mittelständisches Unternehmen, das 50'000 KI-Anfragen pro Tag mit schlecht formatierten Daten ausführt, könnte jährlich 100'000 bis 200'000 Euro an unnötiger Rechenleistung verbrennen. Das ist, bevor jemand die Stunden zählt, die für das Überprüfen und Korrigieren der Ergebnisse aufgewendet werden.

Hier wird es unangenehm: Während der Preis pro Token sinkt, steigt die gesamte KI-Ausgabe rapide — sie hat sich in weniger als einem Jahr ungefähr verdoppelt. Die Stückkosten sinken, aber die Gesamtrechnung steigt. Datenqualität ist der grösste Kostenhebel, den die meisten Unternehmen nicht anrühren.

Machen wir es konkret: das Rechnungsproblem

Ihre KI scannt eingehende Rechnungen und ordnet sie Zahlungen zu. Klingt einfach genug. Aber Ihr Finanzsystem nennt es eine «Rechnungsnummer», Ihre Operations-Plattform nennt es eine «Referenz-ID», und Ihr Beschaffungstool verwendet einen sechsstelligen Code, der keinem der beiden entspricht.

Die KI hält nicht inne, um zu fragen, welches richtig ist. Sie wählt die beste Übereinstimmung, die sie finden kann, und macht weiter — oft ordnet sie die falsche Rechnung der falschen Zahlung zu. Multiplizieren Sie das über Tausende von Rechnungen pro Monat.

Umfragen zeigen konsequent, dass Rechnungen die grösste Einzelquelle für KI-Datenfehler sind und etwa ein Drittel aller Dokumentenverarbeitungsfehler ausmachen. Ein einzelner Rechnungsfehler kostet zwischen 50 und 200 Euro zur Behebung. Ein Unternehmen entdeckte 42 Millionen Dollar an doppelten Abrechnungen in nur zwölf Monaten — und das war mit Menschen im Prozess, die Fehler auffingen.

Wenn KI dieselben Inkonsistenzen erbt, fängt sie sie nicht auf. Sie skaliert sie.

Warum klügere Prompts Sie nicht retten

Es gibt immer die Versuchung, das mit Cleverness auf der KI-Seite zu lösen. Bessere Prompts. Klügeres Retrieval. Mehr Leitplanken. Und diese Dinge helfen tatsächlich — manchmal sogar viel. Retrieval-Augmented Generation kann Halluzinationsraten deutlich senken. Caching vermeidet redundante Arbeit. Das Routing einfacher Anfragen an günstigere Modelle spart Geld.

Aber die Forschung ist konsistent: Das sind Behandlungen von Symptomen, keine Heilmittel für die Krankheit. Als Forscher die besten verfügbaren Prompt-Techniken an Modellen testeten, die mit schlechten Daten arbeiteten, sanken die Fehlerquoten von ungefähr 66 % auf 44 %. Das ist echter Fortschritt — aber das Modell lag immer noch fast die Hälfte der Zeit falsch.

Jede dieser technischen Korrekturen hängt von der Qualität der darunterliegenden Daten ab. RAG hilft nur, wenn die Wissensbasis, aus der es schöpft, korrekt ist. Feintuning funktioniert nur, wenn die Trainingsdaten konsistent sind. Prompt Engineering schärft Ergebnisse nur, wenn die Eingaben sauber sind.

Wenn Sie nachhaltige Verbesserung suchen — keine Workarounds, die Zeit kaufen, während die Kosten still steigen — muss die Arbeit bei den Daten beginnen.

Zwei Wege nach vorne

Welchen Sie wählen, hängt von Ihren Ressourcen und Ihrer Risikotoleranz ab.

Governance zuerst. Leisten Sie die Grundlagenarbeit, bevor Sie skalieren. Definieren Sie die Kernkonzepte, auf denen Ihr Geschäft basiert — was ist ein Kunde, eine Transaktion, eine Rechnung, ein Produkt? Bringen Sie jedes Team dazu, dieselben Definitionen zu verwenden. Bereinigen und strukturieren Sie die Datendomänen, die für Ihre KI-Anwendungsfälle am wichtigsten sind. Dann deployen Sie mit Zuversicht.

Das ist der vorsichtigere Weg. Er ist langsamer. Aber er vermeidet den Kreislauf teurer Nacharbeit, der so viele Organisationen überrascht.

Governance parallel. Wenn Sie das Budget und den Mut haben, beginnen Sie mit dem Deployment von KI in sorgfältig ausgewählten Anwendungsfällen, während Sie gleichzeitig Ihre Datengrundlagen aufbauen. Wählen Sie Bereiche, in denen Ihre Daten bereits in gutem Zustand sind. Akzeptieren Sie spezifische Risiken bei spezifischen Projekten. Lernen Sie schnell und bauen Sie die Infrastruktur parallel auf.

Die Forschung zeigt, dass die Unternehmen, die den grössten Nutzen aus KI ziehen, tendenziell diesen zweiten Weg gehen — sie bewegen sich schnell, scheitern schnell und lernen schnell. Aber das entscheidende Wort ist bewusst. KI und Governance Seite an Seite mit einem klaren Plan zu betreiben, ist eine Sache. KI zu deployen und zu hoffen, die Daten später zu sortieren, ist etwas völlig anderes.

Zu diesem Punkt sind die Zahlen ernüchternd. Die Abbruchrate von KI-Projekten hat sich zwischen 2024 und 2025 mehr als verdoppelt. Rund 95 % der GenAI-Piloten in Unternehmen liefern keinen messbaren Impact. Der gemeinsame Nenner bei fast jedem Scheitern sind die Daten.

Für DACH-Organisationen tickt ausserdem die Uhr. Das EU AI Act wird im August 2026 vollständig anwendbar. Es verlangt, dass Daten, die in KI-Systemen mit hohem Risiko verwendet werden, relevant, repräsentativ und — so weit wie möglich — fehlerfrei sind. Nicht als Empfehlung. Als Gesetz. Mit Strafen von bis zu 20 Millionen Euro oder 4 % des weltweiten Umsatzes.

Zusammen mit dem EU Data Act und der DSGVO ergibt das eine dreifache Compliance-Schicht. Die meisten DACH-Organisationen sind darauf noch nicht vorbereitet — was ein Risiko ist, aber auch ein Vorsprung für diejenigen, die jetzt handeln.

Worauf es hinausläuft

Die Diskussion, die die meisten Führungsteams führen müssen, dreht sich nicht darum, wie viel sie in KI investieren sollen. Sondern darum, wie viel sie bereits verschwenden.

Data Governance lässt sich schlecht präsentieren. Niemand wird begeistert, wenn es darum geht, Felddefinitionen über drei ERP-Systeme hinweg abzugleichen. Aber es ist der Unterschied zwischen KI, die Wert kumuliert, und KI, die Kosten kumuliert. Die Organisationen, die das richtig machen — ob sie die Governance-Arbeit zuerst erledigen oder parallel zum Deployment betreiben — werden weniger ausgeben, bessere Ergebnisse erzielen und den Nacharbeitskreislauf vermeiden, der anderswo still Budgets aufzehrt.

Alle anderen zahlen weiter die versteckten Kosten.

Diskutieren Sie mit

Haben Sie die versteckten Kosten schlechter Daten in Ihren eigenen KI-Projekten erlebt? Ich würde gerne von Ihren Erfahrungen hören — beteiligen Sie sich an der Diskussion auf LinkedIn.

Teil Zwei: Die Belege

Alles in Teil Eins basiert auf konkreter Forschung. Dieser Abschnitt legt die Daten offen für alle, die die Behauptungen überprüfen, die Zahlen hinterfragen oder das Ganze mit Quellen unterlegt in den Vorstand tragen möchten.

Die Bereitschaftslücke

Das Ausmass der Diskrepanz zwischen KI-Ambitionen und Datenbereitschaft ist gut dokumentiert. Gartners Q3-2024-Umfrage unter Datenmanagement-Führungskräften ergab, dass 63 % der Organisationen entweder die richtigen Praktiken für KI nicht haben oder sich unsicher sind. Nur 4 % meldeten ihre Daten als vollständig vorbereitet. [1]

Eine Umfrage von HBR Analytic Services vom Februar 2026 verschärft das Bild: 89 % der Führungskräfte bezeichnen Data Governance als hochrelevant für KI, aber nur 37 % bewerten ihre eigene Organisation als kompetent. Nur 15 % betrachten ihre Daten als «sehr bereit» für die nächste Welle agentischer KI. [2]

McKinseys State of AI 2025 Report erzählt dieselbe Geschichte von der Adoptionsseite: 88 % der Organisationen nutzen KI in mindestens einer Funktion, aber nur 1 % bezeichnen sich als ausgereift. Selbst unter den High-Performern berichten 70 % von Governance-Schwierigkeiten. [3]

Wie das in der DACH-Region aussieht

Die Lücke ist besonders ausgeprägt — und die Chance besonders gross — für deutschsprachige Märkte. Ein Bericht von Dr. Justus & Partners aus 2025 ergab, dass 94 % der Mittelstandsunternehmen KI nicht implementiert haben. [4] Roland Bergers «Data Imperative»-Studie fand, dass 71 % der europäischen Unternehmen Schwierigkeiten beim Zugang zu zuverlässigen Daten haben, wobei nur 25 % ihre Infrastruktur als GenAI-bereit bezeichnen. [5] Cognizants DACH-fokussierte Forschung bestätigte, dass Unternehmen in der Region ihre Datenbereitschaft recht hoch einschätzen, sich aber bei der Compliance mit ihren eigenen internen Frameworks schlecht bewerten — Bewusstsein ohne Umsetzung. [6]

Halluzinationen und wie schlechte Daten sie verschlimmern

Vectaras Hallucination Leaderboard — das Nächste, was die Branche an einem Standardbenchmark hat — zeigt, dass populäre LLMs in 2,5–8,5 % der Fälle bei einfachen Zusammenfassungsaufgaben Informationen frei erfinden. [7] In Fachkontexten steigen die Raten sprunghaft: Eine JMIR-Studie von 2024 fand, dass GPT-3.5 fast 40 % der medizinischen Referenzen halluzinierte. [8] Eine Mount-Sinai-Studie von 2025, veröffentlicht in Nature, platzierte absichtliche Fabrikationen in klinischen Fällen und fand, dass sechs führende LLMs diese Fehler in bis zu 83 % der Fälle wiederholten oder ausbauten. [9]

Halluzinationen sind nicht rein ein Datenqualitätsproblem — Modellarchitektur und Trainingsanreize spielen ebenfalls eine Rolle. Aber schlechte Organisationsdaten verstärken eine inhärente Schwäche. Sie fügen einem System Rauschen hinzu, das ohnehin zu selbstbewusstem Raten neigt.

Was die Token-Verschwendung tatsächlich aussieht

Forschung von The New Stack beziffert die Verschwendung auf 40–60 % der Token-Ausgaben für die meisten Organisationen, primär getrieben durch die Art, wie Daten formatiert werden, bevor sie das Modell erreichen. [10] GetCrux testete 10'000 Fragen und fand, dass CSV 56 % weniger Tokens verbrauchte als JSON für identische tabellarische Daten — auf Unternehmensebene sparte die Optimierung eines einzelnen Workloads etwa 1'740 Dollar pro Monat. [11]

Schlecht abgestimmte Retrieval-Architekturen verschlimmern das Problem und blähen Input-Tokens um das 3–4-Fache auf, wenn sie zu viele Dokumentfragmente abrufen. [12] In der Praxis erweisen sich über 30 % der RAG-Anfragen in Unternehmen als repetitiv oder nahezu identisch, wobei jede die vollständige Verarbeitungskette von Grund auf auslöst. [13] Unterdessen verdoppelten sich die gesamten Modell-API-Ausgaben von 3,5 Milliarden auf 8,4 Milliarden Dollar zwischen Ende 2024 und Mitte 2025. [14]

Die Rechnungszahlen im Detail

Parseurs Umfrage vom Januar 2026 unter 500 Fachleuten ergab, dass 88 % Fehler in KI-verarbeiteten Dokumentendaten melden. Rechnungen führten die Liste mit fast 32 % an. [15] HabileDatas Forschung beschreibt den Mechanismus: Wenn Abteilungen unterschiedliche Definitionen auf dieselben Felder anwenden, multiplizieren sich die Widersprüche mit jeder automatisierten Übergabe. [16] Nur 9 % der Kreditorenbuchhaltungen sind vollständig automatisiert [17], und OpenEnvoy identifizierte 42,1 Millionen Dollar an doppelten Abrechnungen bei seinen Kunden in einem einzigen Jahr. [18]

Wo Prompt Engineering an seine Grenzen stösst

Die Mount-Sinai-Studie ist hier der klarste Datenpunkt: Erstklassige Prompt-Mitigation senkte die Halluzinationsraten von 65,9 % auf 44,2 %. Fortschritt, aber immer noch fast die Hälfte der Zeit falsch, wenn die zugrundeliegenden Daten schlecht waren. [19] Forscher, die in den Communications of the ACM publizierten, kamen zum Schluss, dass Halluzinationen in die Funktionsweise aktueller LLMs eingebaut sind und nicht vollständig eliminiert werden können. [20]

Das fehlende Framework

Derzeit ist der Tooling-Markt fragmentiert. LLM-Observability-Plattformen wie Langfuse [21] tracken Token-Ausgaben, aber nicht die Datenqualität. Datenqualitäts-Tools wie Monte Carlo [22] messen die Datengesundheit, aber nicht die KI-Kosten. FinOps-Frameworks [23] holen bei generativer KI auf, haben aber die Datenqualität noch nicht integriert. Niemand hat die Brücke gebaut.

Die Ausfall- und Kostendaten

Daten von S&P Global zeigen, dass die Abbruchrate von KI-Projekten von 17 % im Jahr 2024 auf 42 % im Jahr 2025 sprang. [24] Forschung des MIT Sloan Management Review argumentiert, dass technische Schulden bei KI schneller kumulieren als bei traditioneller Software. [25] Googles wegweisendes NIPS-Paper über Machine-Learning-Systeme identifizierte Datenabhängigkeiten als Quelle von Wartungskosten, die über die Zeit wachsen, anstatt zu schrumpfen. [26]

Auf der Kostenseite: IBMs Analyse vom Januar 2026 ergab, dass über 25 % der Organisationen mehr als 5 Millionen Dollar jährlich durch schlechte Datenqualität verlieren, wobei 7 % 25 Millionen Dollar überschreiten. [27] Fivetrans Umfrage von 2024 — die auch deutsche Befragte einschloss — fand, dass KI-Modelle, die auf schlechten Daten trainiert wurden, Fehlentscheidungen verursachten, die durchschnittlich 406 Millionen Dollar pro Organisation kosteten. [28]

Die regulatorische Uhr

Das EU AI Act [29] wird am 2. August 2026 vollständig anwendbar. Artikel 10 [30] verlangt, dass Daten für KI-Systeme mit hohem Risiko relevant, repräsentativ und fehlerfrei sind. Der EU Data Act gilt seit September 2025, aber Bitkom fand, dass nur 1 % der deutschen Unternehmen ihn vollständig umgesetzt haben. [31] DACH-Unternehmen tragen ungefähr 46 % Dark Data — gesammelt, aber nie governed —, was geschätzte 900'000 Dollar zu den Kosten pro Sicherheitsvorfall hinzufügt. [32]