Schutz der Privatsphäre mit synthetischen Daten
Laut Gartner-Umfrage ist Datenverfügbarkeit ein großes Hinderniss für die Implementierung von generativer KI.
Ein großes Problem bei der Entwicklung von KI ist der Aufwand, der mit der Beschaffung von realen Daten und deren Kennzeichnung verbunden ist. Synthetische Daten können helfen, dieses Problem zu lösen. Da das Datenschutzrisiko um Größenordnungen geringer ist als bei realen Daten, eröffnen synthetische Daten eine Reihe von Möglichkeiten zum Trainieren von Modellen für maschinelles Lernen (ML) und zur Analyse von Daten, sagt Alys Woodward, Senior Director Analyst bei Gartner.
Frau Woodward, wie lassen sich mit synthetischen Daten die Herausforderungen in Bezug auf Datenschutz, Compliance und Datenanonymisierung überwinden?
Alys Woodward: Synthetische Daten können Informationssilos überbrücken, indem sie als Ersatz für reale Daten fungieren und keine sensiblen Informationen wie persönliche Details und geistiges Eigentum preisgeben. Da synthetische Datensätze statistische Eigenschaften aufweisen, die den Originaldaten sehr ähnlich sind, können sie präzise Trainings- und Testdaten liefern, die für die Modellentwicklung entscheidend sind.
Für das Training von Lebenslaufmodellen ist oft ein großer und vielfältiger Satz markierter Daten erforderlich, um hochgenaue Modelle zu erstellen. Die Beschaffung und Verwendung echter Daten für diesen Zweck kann eine Herausforderung sein, insbesondere wenn es sich um personenbezogene Daten handelt.
Zwei häufige Anwendungsfälle, für die PII-Daten benötigt werden, sind die Ausweisüberprüfung und automatische Fahrerassistenzsysteme (ADAS), die Bewegungen und Aktionen im Bereich des Fahrers überwachen. In diesen Situationen können synthetische Daten nützlich sein, um eine Reihe von Gesichtsausdrücken, Hautfarbe und -textur sowie zusätzliche Objekte wie Hüte, Masken und Sonnenbrillen zu erzeugen. ADAS erfordert auch, dass die KI für schlechte Lichtverhältnisse trainiert wird, zum Beispiel für das Fahren im Dunkeln.
Wie können synthetische Daten die mit der Anonymisierung von Daten verbundenen Herausforderungen verringern?
Alys Woodward: Die manuelle Anonymisierung und De-Identifizierung von Datensätzen – also das Entfernen von Informationen, die einen Datensatz mit einer bestimmten Person verknüpfen – ist oft zeitaufwändig, arbeitsintensiv und fehleranfällig. Letztendlich kann dies Projekte verzögern und die Iterationszeit für die Entwicklung von Algorithmen und Modellen für maschinelles Lernen (ML) verlängern. Synthetische Daten können viele dieser Fallstricke überwinden, indem sie einen schnelleren, billigeren und einfacheren Zugang zu Daten bieten, die der ursprünglichen Quelle ähnlich sind, sich für die Verwendung eignen und die Privatsphäre schützen.
Wenn manuell anonymisierte Daten mit anderen öffentlich zugänglichen Datenquellen kombiniert werden, besteht außerdem die Gefahr, dass versehentlich Informationen preisgegeben werden, die zu einer Re-Identifizierung der Daten führen und damit den Datenschutz verletzen. Die Verantwortlichen können Techniken wie den differenziellen Datenschutz einsetzen, um sicherzustellen, dass bei synthetischen Daten, die aus echten Daten generiert werden, das Risiko einer Deanonymisierung sehr gering ist.
Trotz der eindeutigen Vorteile, die die Verwendung synthetischer Daten mit sich bringt, gibt es einige Herausforderungen, die einer breiten Einführung im Wege stehen?
Alys Woodward: Bei der Erstellung eines synthetischen Tabellendatensatzes muss ein Gleichgewicht zwischen Datenschutz und Nutzen gefunden werden, um sicherzustellen, dass die Daten nützlich bleiben und den Originaldatensatz genau wiedergeben. Wenn der Nutzen zu hoch ist, kann die Privatsphäre gefährdet sein, insbesondere bei einzigartigen oder unverwechselbaren Datensätzen, da der synthetische Datensatz mit anderen Datenquellen abgeglichen werden könnte. Umgekehrt können Methoden zur Verbesserung des Datenschutzes, zum Beispiel die Abtrennung bestimmter Attribute oder die Einführung von “Rauschen” durch differentiellen Datenschutz, den Nutzen des Datensatzes beeinträchtigen.
Oft ist die Datenqualität auch unzureichend. Wie sieht es bei synthetischen Daten mit der Qualität aus?
Alys Woodward: In den letzten Jahrzehnten der Datenverwaltung war die schlechte Qualität von Transaktionsdaten eine ständige Herausforderung. So kann es beispielsweise vorkommen, dass Callcenter-Agenten die Adressdaten oder Kundeninformationen nicht vollständig ausfüllen. Diese fehlenden Daten können eine Analyse verhindern. Um dem entgegenzuwirken, müssen IT-Organisationen die Geschäftsanwender darüber aufklären, wie wichtig eine gute Datenqualität sowohl für Anwendungen als auch für Analysen ist. “Garbage in means garbage out” war der allgemein akzeptierte Grundsatz. Dies wirkt sich jedoch auf die Einstellung der Menschen zu synthetischen Daten aus, da sie glauben, dass diese minderwertig sein müssen, weil es sich nicht um echte Daten handelt, was die Akzeptanz verzögert. In Wirklichkeit können synthetische Daten besser sein als reale Daten, und zwar nicht in Bezug auf die Darstellung der aktuellen Welt, sondern in Bezug auf das Training von KI-Modellen für die Arbeit mit der idealen oder zukünftigen Welt.
Alys Woodward
ist Senior Director Analyst bei Gartner.