Sind synthetische Daten eine Alternative zu anonymisierten Daten?
“Traditionelle Verfahren der Anonymisierung funktionieren nicht mehr so gut”, sagt Dr. Tobias Hann, CEO von MOSTLY AI im Interview.
Die Plattform von MOSTLY AI erstellt künstliche Daten. Was ist damit gemeint?
Tobias Hann: Wir stellen synthetische, also künstliche Daten her. Man könnte einwerfen, dass das nicht unbedingt neu klingt. Auch in Excel lassen sich mit einem Zufallszahlengenerator synthetische Daten erzeugen. Aber was wir machen, sind durch Künstliche Intelligenz (KI) – in englisch AI – generierte Daten. Deswegen auch der Name MOSTLY AI.
Wie genau werden die Daten erzeugt?
Über unsere Plattform, die beim Kunden vor Ort installiert ist. Um synthetische Daten zu erzeugen, braucht der Kunde einen bestehenden Datensatz, zum Beispiel Transaktionsdaten im Bankenumfeld. Diese werden in unsere Plattform eingespielt. Unser proprietärer Algorithmus, unsere KI, wird nun mit diesen Daten trainiert.
Das Ganze ist ein Machine Learning-Prozess. Unsere Plattform soll dadurch möglichst viel über die bestehenden Daten lernen. Zum Beispiel statistische Eigenschaften wie Korrelationen zwischen einzelnen Variablen, Zeitabhängigkeiten, Zeitserien. Am Ende liegt dann ein statistisches Modell vor, das unsere Plattform dazu nutzt, um einen völlig neuen, künstlich erstellten Datensatz zu kreieren. Dieser Datensatz ist eine synthetische Kopie der Ursprungsdaten. Das heißt, er sieht aus wie der originale Datensatz und hat dieselben statistischen Eigenschaften der Ursprungsdaten, aber ist vollständig anonymisiert. Persönliche Daten sind vollständig geschützt, und der Datensatz wird damit zum Beispiel den Anforderungen der Datengrundschutzverordnung gerecht. Analysen dieser synthetischen Daten bringen aber dann die fast gleichen – und in manchen Fällen besseren – Ergebnisse als hätte man dafür die Echtdaten genommen.
Aber Daten lassen sich doch auch auf anderen Wegen anonymisieren?
Traditionelle Verfahren der Anonymisierung funktionieren nicht mehr so gut. Durch die Anonymisierung werden Daten verfälscht, modifiziert, teilweise gelöscht oder generalisiert. Dies wirkt sich negativ auf die Datenqualität aus. Und das zweite Problem ist, dass es recht einfach ist, anonymisierte Datensätze und die Individuen dahinter zu reidentifizieren. Ein Beispiel sind im Bankenumfeld die extrem sensiblen Transaktionsdaten. Wenn ich mir anschauen will, wer welches Geld von anderen Konten überwiesen oder in welche Fonds investiert hat, dann reicht es nicht, einfach nur den Namen und die Kontonummer zu löschen. Damit sind Daten noch lange nicht anonym. Das heißt, die angeblich anonymisierten Daten sind in Wirklichkeit gar nicht so anonym. Unsere synthetischen Daten schaffen dagegen den Spagat. Auf der einen Seite bleibt die Datenqualität erhalten und auf der anderen Seite wird wirkliche Anonymität gewährt.
Aber Sie nutzen doch Echtdaten, um synthetische Daten zu erstellen. Sie haben damit als Externer theoretisch Zugriff auf personenbezogene Daten, bevor Sie sie anonymisieren?
Um das zu vermeiden, wird unsere Software-Plattform on prem beim Kunden vor Ort oder in dessen Cloud installiert. Der Prozess läuft also bei den Kunden in deren gesicherte Umgebung ab. Wir sehen die Ursprungsdaten also nicht und wollen sie auch nicht sehen.
Bieten synthetische Daten weitere Vorteile als die reine Anonymisierung? Lassen sich zum Beispiel bessere Erkenntnisse aus diesen Daten erzielen?
Weil synthetische Daten künstlich erstellte Daten sind, macht sie das sehr flexibel. So lassen sie sich während des Anonymisierungsvorgangs modifizieren, anreichern oder so gezielt verändern, dass sie für den letztendlichen Zweck noch relevanter sind. Zum Beispiel im Bereich von Fraud Detection, wo Algorithmen versuchen, Anomalien zu detektieren. Selbst große Datensätze beinhalten in der Regel sehr wenige Fraud-Fälle. Für Analysemodelle ist es schwierig, auf Basis kleiner Fälle Muster in den Daten zu erkennen. Mit unseren synthetischen Daten kann man die Betrugsfälle künstlich upsamplen und neue erstellen. Das hilft dem Modell, Muster zu erkennen.
Wer überprüft denn, dass Ihre Plattform tatsächlich anonyme Daten liefert?
Es gibt kein offizielles Prüfgremium dafür. Die Datenschutzgrundverordnung besagt, dass Daten anonym sind, wenn sie sich mit üblichen technischen Mitteln nicht reidentifizieren lassen. Wir lassen uns allerdings extern validieren. Es gibt Anbieter, die versuchen, unsere Daten zu hacken. Bisher ist das nicht gelungen. Und für jeden Datensatz, den unsere Plattform erstellt, gibt es einen Report, der erstens die Qualität der Daten nachweist und zweitens den spezifischen Datensatz mit den Echtdaten vergleicht und nachweist, ob die Daten wirklich anonym sind.
Wie läuft ein Projekt ab?
Wir sehen uns als Softwareanbieter und verkaufen unsere Software wie viele andere Anbieter zu einem festen Monatspreis. Wir führen also weniger Projekte durch, sondern evaluieren die Kundenanforderungen, machen einen Proof of Concept, und schulen die Mitarbeiter, mit der Software umzugehen. Wenn unsere Plattform in Produktion genommen wird, beraten wir die Kunden bei neuen Use Cases. Alles passiert bei den Kunden vor Ort. Wir sehen die Daten nie. Unsere Kunden sind entsprechend geschult, um die synthetischen Daten selbst zu erstellen.
Data Scientists gibt es nicht wie Sand am Meer. Haben die Unternehmen entsprechendes Know-how, die Software zu bedienen?
Ein gewisses Know-how im Unternehmen muss schon vorhanden sein, um das Thema inhaltlich zu verstehen und die Datenqualität evaluieren zu können. Grundsätzlich ist es aber unser Ziel, unsere Plattform so einfach wie möglich zu machen. Das System soll nicht nur von einem ausgebildeten Data Scientist bedienbar sein, sondern von jedem, der seine Daten versteht.
Aber die Unternehmen in Deutschland scheinen sich mit dem Thema Daten und Datenanalyse noch schwer zu tun?
Das Verständnis von Daten in den Unternehmen ist nicht besonders groß. Wir müssen viel Aufklärungsarbeit leisten, damit dort überhaupt verstanden wird, was sich mit Daten alles machen lässt. Ein Marketingverantwortlicher zum Beispiel sollte seine Marketing-Daten verstehen und wissen, welchen Datenschatz er möglicherweise hat. Aber selbst im Marketing gibt es noch einiges an Aufklärungsarbeit zu leisten. Das gilt übrigens für die meisten Unternehmensbereiche. Wir investieren deswegen Zeit, Ressourcen und Geld in die grundsätzliche Aufklärungsarbeit.
Wie sollten Unternehmen vorgehen, um ihre Datenschätze zu heben?
Das fängt beim internen Datenzugriff and -transfer an. Oft haben nur wenige Leute Zugriff auf Daten. Einer unserer Kunden hat zum Beispiel im Intranet eine simplen Daten-Explorer gebaut, mit dem jeder ein bisschen Data Science spielen und einfache Analysen machen kann. Daraus entstehen immer wieder neue Ideen, wie sich Daten nutzen lassen. Oder im Bereich der Produktentwicklung. Mitarbeiter, die für die Entwicklung der mobilen App für das Onlinebanking verantwortlich waren, hatten keine Daten, um zu lernen, wie die Kunden mit der App umgehen. Das hat dazu geführt, dass sie dann einfach mit ihren eigenen Bankdaten oder mit selbst erstellten 1-Cent-Transaktionsdaten gearbeitet haben. Das ist nicht wahnsinnig aussagekräftig. Ganz anders mit unseren synthetischen Daten. Damit lässt sich herausfinden, wie eine 70-jährige Frau auf dem Land mit der App umgeht, oder die 30-jährige Studentin. Und das mit absolut anonymisierten Daten!
Gibt es weitere Beispiele?
Unsere Software wird auch in der Forschung genutzt, zum Beispiel im medizinischen Bereich. Wir haben eine Ausschreibung des Instituts für Angewandte Gesundheitsforschung InGef in Berlin gewonnen. Dort wird mit anderen Partnern wie dem Fraunhofer Institut oder der Charité im Auftrag des deutschen Gesundheitsministeriums daran geforscht, ob synthetische Daten eine Anonymisierungsalternative sind für die Zukunft in der Forschung. Das Projekt heißt „Künstliche Intelligenz am Forschungsdatenzentrum – Erforschung von Anonymisierungsmöglichkeiten und AI-readiness (KI-FDZ)“. KI-FDZ soll die sichere Nutzung von Gesundheitsdaten zu Forschungszwecken in Deutschland nachhaltig verbessern. Ziel ist die Generierung synthetischer sowie über klassische Methoden anonymisierter Daten, die eine nachträgliche Re-Identifikation der Originaldaten verhindern und dabei gleichzeitig die Nutzbarkeit der Daten wahren.
Was ist Ihr langfristiges Ziel? Welche Rolle sollen synthetische Daten in Zukunft spielen.
Unsere Vision ist, dass synthetische Daten als eine neue Datenquelle im Unternehmen etabliert werden. Das heißt aus unserer Sicht, dass Unternehmen mittelfristig gar nicht mehr mit Echtdaten arbeiten müssen. Sie werden mehr synthetische Daten nutzen, weil es einfach die anonymen und flexibleren Daten sind. Und deshalb auch von allen im Unternehmen genutzt werden können – und nicht nur von wenigen Auserwählten. Wir sprechen also davon, dass synthetische Daten die Treiber für echte Datendemokratisierung sind.
Dr. Tobias Hann
ist seit 2020 CEO von MOSTLY AI. Der Technologie-Enthusiast studierte an der Wirtschaftsuniversität Wien und der Haas School of Business, UC Berkeley, und lebt derzeit in New York. Bevor er zu MOSTLY AI kam, arbeitete er als Unternehmensberater bei der Boston Consulting Group und als Mitbegründer/MD von drei Start-ups.