Datenqualität für KI-Modelltraining: Welche Governance-Standards Medien brauchen

KI-Kompetenzzentrum MedienDatenqualität für KI-Modelltraining: Welche Governance-Standards Medien brauchen

Datenqualität für KI-Modelltraining: Welche Governance-Standards Medien brauchen

Mehr Effizienz durch Künstliche Intelligenz: Das trifft vor allem dann zu, wenn die Datenqualität stimmt. Denn wenn die Datenbasis für ein KI-Projekt fehlerhaft, veraltet oder unvollständig sind, versagen selbst die ausgereiftesten Modelle. Aus dem erhofften Effizienzgewinn wird dann schnell das Gegenteil – denn Entscheidungen werden dann im schlimmsten Fall auf Basis erfundener Informationen getroffen.

Das hat Folgen: Ein Newsticker, der ständig falschen Alarm schlägt? Artikel, die sich auf verzerrte Infos stützen? Für Medienhäuser, die wesentlich vom Vertrauen der Menschen in ihr Produkt abhängig sind, ist ein solcher Verlust der Glaubwürdigkeit fatal. Wer das vermeiden will, braucht proaktive Data Governance.

Warum Data Governance für KI-Modelle entscheidend ist

Zwei der zentralen Herausforderungen von generativen KI-Systemen sind Biases und Halluzinationen. Beides hat seinen Ursprung in der Funktionsweise von Sprachmodellen und in der ihnen zugrundeliegenden Technik. Im Regelfall können User die Architektur und das Pre-Training eines KI-Modells nicht beeinflussen. Eine Einflussmöglichkeit besteht hingegen bei den Daten, die verarbeitet werden.

Gerade weil gut strukturierte Daten nicht nur bei der Anwendung generativer KI-Systeme nützlich sind, kann eine konsequente Data Governance ein entscheidender Wettbewerbsvorteil sein. Denn Fakt ist: Zugang zu KI-Tools haben mittlerweile alle.

Warum gibt es Biases in KI-Systemen?

Sprachmodelle arbeiten nach dem Wahrscheinlichkeitsprinzip. Wie sie diese Wahrscheinlichkeiten berechnen, hängt von ihrem Training ab. Der Lebenszyklus eines KI-Modells beginnt also schon vor ihrem eigentlichen Einsatz, und Biases können an verschiedenen Punkten entstehen

1. Die Pre-Trainingsdaten enthalten bereits Biases.

Während des Pre-Trainings wird ein Modell meistens mit Daten aus dem Internet trainiert. Diese Daten enthalten nicht nur objektiv wahre oder falsche Aussagen, sondern sind auch von sozialen und kulturellen Voreingenommenheiten geprägt. KI-Modelle übernehmen Biases als Grundlage ihrer Wahrscheinlichkeitsberechnung – ihr Output ist zwangsläufig von ihnen gefärbt.

2. Auch während des Finetunings entstehen Biases.

KI-Systeme agieren auf der Basis von Mustern, um plausible und überzeugende Antworten generieren zu können. Selbst wenn die Datenbasis absolut fehlerfrei ist, kann der entstehende Output aus diesem Kombinationsprozess fehlerhaft sein. In Expertenkreisen gelten Halluzinationen deshalb als ein nur schwer zu lösendes Problem.

Sorgfältige Datenaufbereitung kann hier bedingt gegensteuern, aber fortlaufende Datenkontrolle bleibt unverlässlich. Falsch oder inkonsistent gelabelte Daten können im schlimmsten Fall sogar bessere (sprich: genauere) Gewichtungen aus dem Pre-Training überschreiben. Dieses sogenannte „Catastrophic Forgetting“ („katastrophales Vergessen“) bedeutet, dass sogar ein leistungsstarkes Large Language Model unzuverlässig werden kann, wenn es mit einer instabilen Datenbasis arbeitet.

Aber auch das Gegenteil ist der Fall, oft mit positiven Auswirkungen auf den Rechenbedarf. Denn mit gut gepflegten Daten können kleinere Small Language Models (SLMs) deutlich effizienter agieren als ressourcenaufwendige LLMs.

3. Während der Inferenz treffen Biases aus verschiedenen Quellen aufeinander.

Während der Inferenz, also im laufenden Betrieb, werden die meisten Modelle als Teil eines Systems verwendet. Dabei greifen sie auch auf Echtzeit-Wissensquellen zurück. Klassischerweise stammen diese aus unternehmenseigenen Archiven, internen Compliance-Dokumenten oder Handbüchern, aber auch Nachrichten-Feeds, Börsenkurse oder Live-Ticker können Quellen sein. Insgesamt bilden diese Daten das dynamische Gedächtnis des Modells.

Diese Quellen unterliegen ihrerseits ihren eigenen Biases. Zwangsläufig spiegeln sie neben inhaltlichen Schwerpunkten auch die sozialen und kulturellen Umstände ihrer Urheber:innen wider. Je nach Kontext kann das kritisch sein, denn: Bevor ein Sprachmodell überhaupt auf Inhalte zugreift, wurden diese bereits durch verschiedenste Faktoren gefiltert, selektiert und digital strukturiert. Es kann die Nachrichtenlage daher nur in dem Ausschnitt abbilden, der in solchen Quellen vorhanden ist. Die Inferenz ringt deshalb mit dem Zusammenprallen interner und externer Quellen mit ihren jeweils eigenen Vorannahmen.

Im Medienkontext ist dieses Problem besonders tückisch, weil sich Themen und Kontexte extrem schnell verändern. Ein Modell, das nicht nachjustiert wird, beschreibt eine andere Welt als die, die real existiert. Es weiß nichts von den brennenden Themen der Gegenwart und spricht möglicherweise sogar eine andere Sprache. Seine Logik veraltet rasant.

Was sind die Kriterien für eine gute Datenbasis?

Für jedes Medienhaus gilt daher: Die Pflege einer Datenbank ist die kontinuierliche kuratorische Arbeit an einem lebendigen Datensatz. Und das gilt sowohl für die Echtzeit-Daten, mit denen ein KI-System arbeitet, als auch für den Datensatz, der für sein Finetuning verwendet wird. Die Datengrundlage kann deshalb sowohl das Hindernis als auch der Möglichmacher für zuverlässige KI-Systeme sein.

Gute Datensätze zeichnen sich durch eine Vielzahl von Merkmalen aus:

Merkmal 1: Vollständigkeit und Konsistenz

Lückenhafte und inkonsistente Datenstandardisierung kann ein Modell verwirren und den Raum für Halluzinationen weiten. Schon ein einfacher Tippfehler kann Abweichungen erzeugen, die den Output verzerren. Eine gute Datenbasis hat eine einheitliche Nomenklatur und keine Lücken an Stellen, die ein Modell nicht eigenständig füllen sollte.

Merkmal 2: Repräsentativität und Fairness

Jede Quelle ist das Produkt der Umstände ihrer Entstehung. Historische, redaktionelle oder politische Tendenzen in Datenquellen beeinflussen KI-Modelle unbewusst und können für ein unbeabsichtigtes Ungleichgewicht in der Datenqualität sorgen. Dieses Problem liegt im Zentrum einer jeden Quellenkritik und kann abschließend nicht gelöst werden. Aber: Entwicklerteams können sich bewusst für Quellen mit mehr thematischer, kultureller oder sozialer Diversität entscheiden.

Merkmal 3: Aktualität, Gültigkeit und Relevanz

Der Output eines KI-Modells wird schnell unsinnig, wenn der Daten-Input veraltet oder inkompatibel ist. Speziell Medienhäuser sollten darauf achten, dass der Input journalistischen Qualitätsstandards entspricht. Die Datenbasis sollte also stets aktuell und relevant sein. Dafür braucht es eine kuratorische Pflege vor der Inferenz.

Merkmal 4: Datenherkunft und Sicherheit

Wer nicht weiß, woher Input-Daten stammen, verstößt möglicherweise gegen Lizenzen. Das ist nicht nur aus rechtlicher Perspektive problematisch, sondern kann auch zu Qualitätseinbußen führen, wenn dadurch unklar wird, auf welcher Basis ein KI-System potenziell Folgefehler produziert. Idealerweise sind Betreiber von KI-Systemen in der Lage, die Herkunft des Inputs lückenlos nachzuweisen, sowohl inhaltlich als auch juristisch.

KI.M-Praxistipp: Vier Ratschläge für mehr Datenrichtigkeit

Eine gute Data Governance für journalistisch korrekten Output zeichnet sich also letztlich durch Datenrichtigkeit aus.

Tipp 1: Kein KI-Output ohne menschliche Überprüfung

Jeder KI-Workflow sollte von einem Menschen überprüft werden. Doppel-LLM-Architekturen und RAG-Verfahren können dir aber bei der Vorarbeit helfen.

Tipp 2: Datenbankpflege mit KI-Assistenten

Auto-Complete-Werkzeuge können bei der korrekten und einheitlichen Eingabe und Verschlagwortung deiner Archive helfen. KI-Tools können außerdem problemhafte Daten identifizieren und so manuelle Arbeit reduzieren.

Tipp 3: Data Governance ist Firmenangelegenheit

Die Verantwortung für eine aktuelle und hochwertige Datengrundlage darf nicht nur bei der IT liegen. Wer die Pflege von Datenbanken als essenzielle Tätigkeit versteht, gibt ihr auch den notwendigen Raum im Arbeitsalltag. Datenqualität sollte als gemeinsames Projekt verstanden werden, das von Arbeitgebern über Schulungen und aktive Thematisierung als wichtiger Bestandteil des Alltags forciert wird.

Tipp 4: Biases abmildern mit Prompt-Engineering

Prompt-Engineering ist kein Ersatz für die Korrektur von Biases aus Trainingsdatensätzen, bietet aber eine flexible und sofort wirksame Methode, um systemischen Tendenzen in deiner Datenquelle entgegenzutreten. Durch gezielte und einheitliche Prompt-Anweisungen kann ein Modell zu mehr Neutralität und Ausgewogenheit gezwungen werden.

Fazit: Warum die Qualität deiner Daten mindestens so wichtig wie die Größe deines Modells ist

Beide Faktoren beeinflussen gleichsam, ob ein KI-Projekt erfolgreich ist oder nicht. Ein leistungsstarkes Sprachmodell (egal ob LLM oder SLM) kann allein kein Datenchaos einfangen. Sind die Daten allerdings gut gepflegt, kann schon ein SLM den gewünschten Effekt haben.

Biases und Datenmängel schleichen sich in allen Phasen der Modellentwicklung und Dimensionen von Datensätzen ein. Da die Datengrundlage und die Entscheidungen der Modelle so eng und dynamisch miteinander verbunden sind, ist es essentiell, ein KI-System inklusive seiner Datenbasis kontinuierlich zu überprüfen und zu pflegen.

Fazit: Gute Daten schlagen große Modelle – jedenfalls meistens. Ein Small Language Model (SLM) mit hochwertiger Datenbasis übertrifft ein Large Language Model (LLM) mit mangelhaften Daten.

Dieser Beitrag gibt eine Einschätzung zur strategischen KI-Einführung, ersetzt aber keine individuelle Beratung für dein spezifisches Unternehmen.

Bei der Erstellung des Beitragsbildes sowie des Textes kam generative Künstliche Intelligenz unterstützend zum Einsatz.

Wir freuen uns, euch vom 22. – 24. Oktober 2025 auf den #MTM25 begrüßen zu dürfen. Mit der „Media For You“ gibt es auch wieder die beliebte Career-Erlebnismesse zum Thema Jobs & Ausbildung.