Wenn ein KI-Projekt im Mittelstand scheitert, liegt es selten am Modell. GPT-4o, Claude und die offenen Modelle aus dem letzten Jahr sind so gut, dass das eigentliche Sprachverständnis kein Engpass mehr ist. Der Engpass sitzt davor — in den Daten, mit denen die KI arbeiten soll. Und genau dort schaut vor dem Projektstart fast niemand hin.

Ich habe in den letzten zwölf Monaten in V1-Mandaten und im eigenen Portfolio mehr als ein Dutzend KI-Use-Cases bewertet. Meine ehrliche Bilanz: 30–40 % der angedachten Projekte sind initial nicht am Tooling gescheitert, sondern an der Datenlage. Manchmal so klar, dass wir das Projekt verschoben oder umgebaut haben, bevor der erste Euro für Beratung oder Lizenzen geflossen ist.

Dieser Artikel beschreibt, was vor dem Rollout sitzen muss — und in welcher Reihenfolge. Es ist keine Theorie, sondern die Checklist, die wir in V1-Mandaten konkret abarbeiten.

Warum die meisten KI-Projekte an Daten scheitern

Schlechte Datenstrukturen

Mittelständische Unternehmen haben oft historisch gewachsene Strukturen. Kundendaten in einer alten Branchenlösung, Auftragsdaten in einem ERP, das vor zehn Jahren eingeführt wurde, Service-Daten in einem zweiten System, weil die ERP-Modul-Lizenz zu teuer war. Marketingdaten in einem CRM, das eine Kollegin aufgesetzt hat. Und alles in irgendeiner Form mit Excel verbunden.

Das funktioniert für den menschlichen Betrieb. Für KI ist es ein Albtraum. Eine KI braucht klare Strukturen — eindeutige Identifier, definierte Felder, dokumentierte Wertebereiche. Wenn eine Kundennummer im ERP siebenstellig ist, im CRM aber als Freitextfeld geführt wird und im Service-Tool gar nicht existiert, hat die KI keine Chance, denselben Kunden über die Systeme hinweg zu erkennen.

Duplikate

Ich kenne kein Mittelstandsunternehmen, das keine Duplikate in seinen Stammdaten hat. „Müller GmbH", „Mueller GmbH", „Müller GmbH & Co. KG", „Müller" — vier Datensätze, ein Kunde. Ein Mensch erkennt das beim Lesen. Eine KI ohne Bereinigung errechnet vier verschiedene Lifetime-Values, vier verschiedene Vertriebshistorien, vier verschiedene Forecasts.

Fehlende Konsistenz

Drittes Muster: Felder werden formal befüllt, aber nicht konsistent. Branche steht im einen Datensatz als „Maschinenbau", im anderen als „Maschinen", im dritten als „Industrie". Auftragsstatus ist mal „abgeschlossen", mal „erledigt", mal „done". Datum mal als ISO, mal als Excel-Datumsformat, mal als Freitext „Q3/2024". Jede dieser Inkonsistenzen sabotiert KI-Auswertungen lautlos.

Silos zwischen Systemen

Vierter Punkt: Selbst wenn die Daten in jedem einzelnen System sauber sind, fehlt häufig die Brücke. ERP weiß nichts vom CRM, das CRM nichts vom Service-Tool, und die Marketing-Plattform nichts von den tatsächlichen Verkaufszahlen. KI, die nur in einem Silo arbeitet, kann auch nur Silo-Erkenntnisse liefern. Der eigentliche Wert entsteht erst, wenn Daten quer durchs Unternehmen verfügbar werden.

KI braucht keine perfekten Daten. Sie braucht Daten, die ein Mensch innerhalb von 30 Sekunden verstehen würde — und genau das ist die Hürde, an der die meisten Projekte scheitern.

Datenaudit vor jedem KI-Projekt

Bevor ein KI-Use-Case definiert wird, gehört eine Daten-Bestandsaufnahme an den Anfang. Sie kostet 2–5 Tage Aufwand für einen typischen Mittelständler und spart in der Regel das Vielfache an späterer Frustration.

Schritt 1 — Daten-Inventur

Die erste Frage ist banal: Welche Daten gibt es überhaupt, und wo liegen sie? In den meisten V1-Mandaten ist das Ergebnis dieser Inventur eine Excel-Liste mit 8–25 Datenquellen. ERP, CRM, Buchhaltung, Lohn, Service-Tool, Webshop, Marketing-Plattform, drei verschiedene Excel-Dateien, eine Access-Datenbank, die seit 2019 niemand mehr ehrlich versteht. Die Inventur ist nichts Glamouröses. Sie ist die Voraussetzung dafür, überhaupt informiert zu entscheiden.

Schritt 2 — Quality Scoring

Jede Datenquelle bekommt eine grobe Bewertung in drei Dimensionen. Vollständigkeit: Welcher Anteil der wichtigen Felder ist tatsächlich befüllt? Eine CRM-Tabelle mit 60 % leerer Branchenfelder ist für KI-Klassifizierung nicht nutzbar. Konsistenz: Werden gleiche Sachverhalte gleich beschrieben? Hier zeigt sich oft das Müller-Mueller-Problem. Aktualität: Wann wurde der Datensatz zuletzt aktualisiert? Ein CRM, in dem 40 % der Kundenkontakte seit drei Jahren keine Änderung hatten, ist faktisch tot.

Das Scoring muss nicht akademisch sein. Eine Ampel pro Quelle und Dimension reicht. Aber es muss dokumentiert sein, damit später klar ist, warum ein Use-Case auf Quelle A funktioniert und auf Quelle B nicht.

Schritt 3 — Cleansing

Aus dem Scoring folgen die Cleansing-Maßnahmen. Deduplizierung der Stammdaten, Standardisierung von Branchenangaben, Vereinheitlichung von Datumsformaten, Schließen kritischer Lücken. Das ist Fleißarbeit, kein Hexenwerk — aber es muss vor dem KI-Projekt passieren, nicht währenddessen. In der Praxis lassen sich 70–80 % der Bereinigung mit Skripten erledigen, der Rest braucht menschliche Entscheidung.

Schritt 4 — Pipelining

Sind die Daten sauber, brauchen sie einen Weg von der Quelle zur KI. Das nennt sich in der Fachsprache Datenpipeline. Im Mittelstand ist das selten ein eigenes Data-Warehouse-Projekt — es sind oft schlanke Lösungen mit Make, n8n oder Airbyte, die regelmäßig Daten aus den Quellsystemen ziehen, transformieren und an die KI-Schicht übergeben. Wichtig ist: Die Pipeline läuft automatisch, idealerweise mit Monitoring, damit Fehler sichtbar werden.

Schritt 5 — Monitoring

Datenqualität ist kein einmaliger Zustand, sondern ein laufendes Thema. Sobald Mitarbeiter wieder Daten eintragen, sinkt die Qualität — wenn niemand misst und gegensteuert. Ein einfaches Dashboard mit Vollständigkeits- und Duplikate-Quoten pro Monat genügt. Wenn die Quote unter Schwellwerte rutscht, gibt es eine Maßnahme. Ohne Monitoring degradiert auch die beste Bereinigung innerhalb von 12 Monaten zurück auf Ausgangsniveau.

Datenintegration — der unterschätzte Hebel

Daten zu bereinigen reicht nicht. Sie müssen für die KI auch erreichbar sein. Das ist die zweite Stelle, an der Mittelständler stolpern.

Was bringt KI ohne Datenzugriff

Die ehrliche Antwort: wenig. Eine KI, die Vertriebs-Forecasts erstellen soll, aber keinen Zugriff auf historische Auftragsdaten hat, kann nichts liefern. Eine KI für Predictive Maintenance, die keine Sensordaten sieht, ist ein PowerPoint-Use-Case. Datenintegration ist nicht das spannende Thema im KI-Diskurs — sie ist die Voraussetzung für alle anderen Themen.

Im Mittelstand bedeutet das in der Praxis: API-Anbindung der wichtigsten Quellsysteme, definierte Schnittstellen, Authentifizierung und ein zentraler Punkt, an dem die KI Daten konsumiert. Das ist machbar — aber es kostet Zeit, und es muss vor dem Use-Case stehen, nicht danach.

V1-Erfahrung

In einem aktuellen Mandat wollte der Geschäftsführer eine KI für automatisierte Angebotskalkulation. Schöner Use-Case, klarer ROI. Beim ersten Datencheck stellte sich heraus: Die Materialpreise lagen in drei Excel-Dateien, die monatlich manuell aktualisiert wurden — mit 6–12 Wochen Verzögerung. Eine KI auf veralteten Preisen hätte falsche Angebote produziert. Wir haben den Use-Case zurückgestellt und zuerst eine Pipeline gebaut, die Materialpreise tagesaktuell aus den Lieferantenportalen zieht. Drei Monate später lief die Angebots-KI — aber eben mit Datengrundlage, nicht ohne.

Wo der Mittelstand realistisch starten sollte

Die gute Nachricht: Datenqualität muss nicht für das ganze Unternehmen perfekt sein. Sie muss für den ersten Use-Case ausreichen. Das ist eine deutlich niedrigere Hürde.

Klein anfangen — aber sauber

Statt eine unternehmensweite Datenbereinigung als Vorprojekt zu starten (das wird mehrere Hunderttausend Euro und 12–18 Monate kosten), empfehle ich: einen Use-Case wählen, dessen Datenbedarf überschaubar ist. Zum Beispiel KI-gestützte Belegklassifizierung — braucht nur saubere Lieferantenstammdaten und konsistente Kontierung. Das lässt sich in 2–4 Wochen vorbereiten und dann sofort produktiv stellen. Mehr dazu in KI in der Buchhaltung.

Reihenfolge der Datenbereinigung

Die Reihenfolge folgt dem Use-Case, nicht der Vollständigkeit. Wenn der erste Use-Case Vertriebs-Pipeline-Vorhersagen ist, wird CRM-Bereinigung priorisiert. Wenn es Predictive Maintenance ist, sind Sensor- und Wartungsdaten dran. Wenn es Buchhaltungs-Automation ist, sind Lieferanten- und Kontendaten erste Priorität. Diese Reihenfolge ist nicht offensichtlich — sie ergibt sich aus dem konkreten Use-Case.

Wer alle Daten bereinigen will, bevor er mit KI startet, startet nie. Wer für einen klaren Use-Case die richtigen Daten bereinigt, startet in vier Wochen.

Wann das nicht funktioniert

Drei Konstellationen, in denen ich CEOs ehrlich rate, das KI-Projekt zu verschieben oder neu zuzuschneiden. Erstens: Wenn die kritischen Daten gar nicht digital existieren — Wartungsprotokolle auf Papier, Kundenkontakte in Köpfen einzelner Verkäufer, Kalkulationsgrundlagen im Excel des Inhabers. Hier muss zuerst Digitalisierung passieren, dann KI. Zweitens: Wenn die Datenstruktur so chaotisch ist, dass Bereinigung mehr kostet als der gesamte Use-Case einbringt. Das passiert bei sehr alten ERPs oder hochfragmentierten Insellösungen. Drittens: Wenn die Datenpflege organisatorisch nicht abgesichert ist — niemand fühlt sich verantwortlich, niemand misst, niemand korrigiert. Eine KI auf solch einer Basis liefert kurzfristig Ergebnisse, die innerhalb von 6 Monaten unbrauchbar werden.

Realistische Aufwände

Für einen Mittelständler mit 5–50 Mio. € Umsatz liegt der typische Aufwand für Datenaudit und initiale Bereinigung eines Use-Case-relevanten Datenbereichs zwischen 5 und 25 Personentagen — abhängig von Datenmenge, Quellenanzahl und Ausgangsqualität. Das sind keine Beratertage; das ist überwiegend interne Arbeit, die mit klarer Anleitung durchgeführt werden kann. Externe Begleitung ist sinnvoll für die Methodik, nicht für die Tipparbeit.

Wer die Logik dahinter besser verstehen will, findet in KI in der Praxis die vier Phasen sauberer Implementierung — Datenaudit gehört in Phase 2 und ist dort regelmäßig der Engpass, der Phase 3 und 4 verzögert.

Nächster Schritt

Wenn Sie vor einem KI-Projekt stehen und unsicher sind, ob Ihre Datenlage trägt: 30 Minuten reichen, um die kritischen Punkte zu identifizieren — und um zu klären, ob der angedachte Use-Case heute startet oder erst nach Vorarbeit. Direkt mit dem Founder. +49 172 2532705. Diskretion ist selbstverständlich.