KI: Daten müssen repräsentativ sein und reifen

“Künstliche Intelligenz erfordert von IT-Verantwortlichen ein neues Verständnis in Sachen Datenmanagement”, sagt Gartner-Analystin Roxane Edjlali.

Daten müssen für den Einsatz mit KI im Kontext des jeweiligen Anwendungsfalls und der verwendeten KI-Technik betrachtet werden. Das Problem dabei ist, dass Definition und Funktion variieren, wenn es um das Datenmanagement geht, weil schließlich auch die Entwicklung von KI-Anwendungen iterativen und dynamischen Regeln folgt.

Die Verfügbarkeit und Eignung von Daten für KI kann also nur dann valide beurteilt werden, wenn klar ist, wie sie verwendet werden. Doch die Datensätze unterscheiden sich je nach Anwendungsfall zum Teil stark voneinander. Und jeder KI-Anwendungsfall erfordert spezifische Daten, die zur verwendeten KI-Technik passen müssen. So haben beispielsweise auch Trainingsdaten andere Anforderungen an die Daten als ein Simulationsmodell. Sogar die Semantik, Beschriftungen und Kennzeichnungen für Bilder und Videos sowie Taxonomien und Ontologien sind entscheidend für die Genauigkeit eines KI-Modells.

Fehler gewünscht

Dabei geht es nicht nur um die Datenqualität. KI-tauglich bedeutet in diesem Zusammenhang, dass die zu verwendenden Daten repräsentativ für den jeweiligen Anwendungsfall sein müssen – mit allen Mustern, Fehlern und „Ausreißern“, die für das Training oder den Betrieb eines KI-Modells notwendig sind. Die Reife von KI-Daten wird damit zum fortlaufenden Prozess. Er basiert auf der Verfügbarkeit von Metadaten, um Daten abzugleichen und zu nutzen.

Folgende Faktoren bestimmen die Eignung von Daten für die KI-Nutzung:

Validierung und Verifizierung
Stellt sicher, dass alle Datenanforderungen bei der Entwicklung und während des Betriebs regelmäßig erfüllt werden.

Leistungs-, Kosten- und nichtfunktionale Anforderungen
Sorgen dafür, dass die Daten die minimalen betrieblichen Service Level Agreements (SLAs) erfüllen. Dazu gehören Reaktionszeit, Pünktlichkeit, hohe Verfügbarkeit, Notfallwiederherstellung oder Kosten.

Versionierung
Gewährleistet, dass jede Nutzung der Daten versioniert wird, und so die Möglichkeit gegeben ist, auf ältere Versionen von KI-fähigen Daten zurückzugreifen und alle Datenversionen zu überprüfen.

Kontinuierliche Regressionstests
Ermöglichen es, KI-Systeme zu testen und zu erkennen, wenn etwas schiefläuft. Wird eine mögliche Abweichung von Daten im Vergleich zu Trainingsdaten festgestellt, muss das Modell mitunter neu trainiert werden.

Metriken zur Beobachtbarkeit und Überwachung
Bieten Transparenz und Unterstützung bei der Kontrolle des Systemzustands. So lässt sich der Zustand verschiedener Komponenten verfolgen, die für den Aufbau des KI-Anwendungsfalls verwendet werden.

Erweiterte Compliance-Richtlinien

Zusätzlich entstehen mit KI neue Anforderungen an die Datenverwaltung: Unternehmen müssen demnach klar definieren, welche Anforderungen Daten konkret zur Unterstützung des KI-Anwendungsfalls erfüllen müssen. Dazu gehört die Tatsache, dass der jeweilige Anwendungsfall über seinen gesamten Lebenszyklus hinweg ordnungsgemäß im Rahmen der Datenverwaltung gemanagt wird. Möglich macht das die Definition und Überwachung von Richtlinien. Sie umfassen sowohl die Datenverwaltung als auch den Zugang zum KI-Modell und die Entwicklung. Hier spielen KI-Standards und -Vorschriften eine entscheidende Rolle, zumal aktuell KI-Direktiven wie der AI EU Act entwickelt werden, die bestehende Vorschriften und Compliance-Regularien erweitern sollen.

Aber auch ethische Fragen, ob es akzeptabel ist, Modelle auf echten Kundendaten zu trainieren, müssen in die Neubewertung des Datenmanagements einfließen. Das gilt beispielsweise auch für den Fall, dass Trainingsdaten, die nur mit einem Geschlecht arbeiten, zu verzerrten Ergebnissen führen können – dann nämlich, wenn das KI-Modell Daten mit einem anderen Geschlecht verarbeiten soll. Hier müssen IT-Verantwortliche dafür sorgen, dass solche Verzerrungen von Anfang an ausgeschlossen werden können.

Lernen aus anderen Verwendungen

Und schließlich gehört das Thema der gemeinsamen Datennutzung ins Pflichtenheft, wenn in Unternehmen das Datenmanagement in Verbindung mit KI zur Sprache kommt. Eine gemeinsame Nutzung von Daten und Metadaten erweitert nicht nur den Umfang der nutzbaren Informationen. Auch die Wiederverwendung von Daten und das Lernen aus anderen Verwendungen kann den KI-Einsatz beschleunigen und qualitativ verbessern.

Fest steht: Für den erfolgreichen Einsatz von KI benötigen Unternehmen und deren IT-Verantwortliche ein neues Verständnis von Datenmanagement. Anders als in der Vergangenheit, als Daten gleich Daten waren, müssen sie mit KI spezifisch für den jeweiligen Anwendungsfall und die eingesetzte Technik geeignet sein. Diese Voraussetzungen erfordern kontinuierliche Anpassungen von Unternehmensprozessen, einschließlich der Validierung, Verifizierung, Versionierung und Überwachung von Daten sowie die Einhaltung von Daten-Governance-Anforderungen und ethischen Standards. Dann wird KI auch zu einem entscheidenden Wettbewerbsvorteil.