Tobias Hann: Wir stellen synthetische, also künstliche Daten her. Man könnte einwerfen, dass das nicht unbedingt neu klingt. Auch in Excel lassen sich mit einem Zufallszahlengenerator synthetische Daten erzeugen. Aber was wir machen, sind durch Künstliche Intelligenz (KI) – in englisch AI – generierte Daten. Deswegen auch der Name MOSTLY AI.
Über unsere Plattform, die beim Kunden vor Ort installiert ist. Um synthetische Daten zu erzeugen, braucht der Kunde einen bestehenden Datensatz, zum Beispiel Transaktionsdaten im Bankenumfeld. Diese werden in unsere Plattform eingespielt. Unser proprietärer Algorithmus, unsere KI, wird nun mit diesen Daten trainiert.
Das Ganze ist ein Machine Learning-Prozess. Unsere Plattform soll dadurch möglichst viel über die bestehenden Daten lernen. Zum Beispiel statistische Eigenschaften wie Korrelationen zwischen einzelnen Variablen, Zeitabhängigkeiten, Zeitserien. Am Ende liegt dann ein statistisches Modell vor, das unsere Plattform dazu nutzt, um einen völlig neuen, künstlich erstellten Datensatz zu kreieren. Dieser Datensatz ist eine synthetische Kopie der Ursprungsdaten. Das heißt, er sieht aus wie der originale Datensatz und hat dieselben statistischen Eigenschaften der Ursprungsdaten, aber ist vollständig anonymisiert. Persönliche Daten sind vollständig geschützt, und der Datensatz wird damit zum Beispiel den Anforderungen der Datengrundschutzverordnung gerecht. Analysen dieser synthetischen Daten bringen aber dann die fast gleichen – und in manchen Fällen besseren – Ergebnisse als hätte man dafür die Echtdaten genommen.
Traditionelle Verfahren der Anonymisierung funktionieren nicht mehr so gut. Durch die Anonymisierung werden Daten verfälscht, modifiziert, teilweise gelöscht oder generalisiert. Dies wirkt sich negativ auf die Datenqualität aus. Und das zweite Problem ist, dass es recht einfach ist, anonymisierte Datensätze und die Individuen dahinter zu reidentifizieren. Ein Beispiel sind im Bankenumfeld die extrem sensiblen Transaktionsdaten. Wenn ich mir anschauen will, wer welches Geld von anderen Konten überwiesen oder in welche Fonds investiert hat, dann reicht es nicht, einfach nur den Namen und die Kontonummer zu löschen. Damit sind Daten noch lange nicht anonym. Das heißt, die angeblich anonymisierten Daten sind in Wirklichkeit gar nicht so anonym. Unsere synthetischen Daten schaffen dagegen den Spagat. Auf der einen Seite bleibt die Datenqualität erhalten und auf der anderen Seite wird wirkliche Anonymität gewährt.
Um das zu vermeiden, wird unsere Software-Plattform on prem beim Kunden vor Ort oder in dessen Cloud installiert. Der Prozess läuft also bei den Kunden in deren gesicherte Umgebung ab. Wir sehen die Ursprungsdaten also nicht und wollen sie auch nicht sehen.
Weil synthetische Daten künstlich erstellte Daten sind, macht sie das sehr flexibel. So lassen sie sich während des Anonymisierungsvorgangs modifizieren, anreichern oder so gezielt verändern, dass sie für den letztendlichen Zweck noch relevanter sind. Zum Beispiel im Bereich von Fraud Detection, wo Algorithmen versuchen, Anomalien zu detektieren. Selbst große Datensätze beinhalten in der Regel sehr wenige Fraud-Fälle. Für Analysemodelle ist es schwierig, auf Basis kleiner Fälle Muster in den Daten zu erkennen. Mit unseren synthetischen Daten kann man die Betrugsfälle künstlich upsamplen und neue erstellen. Das hilft dem Modell, Muster zu erkennen.
Es gibt kein offizielles Prüfgremium dafür. Die Datenschutzgrundverordnung besagt, dass Daten anonym sind, wenn sie sich mit üblichen technischen Mitteln nicht reidentifizieren lassen. Wir lassen uns allerdings extern validieren. Es gibt Anbieter, die versuchen, unsere Daten zu hacken. Bisher ist das nicht gelungen. Und für jeden Datensatz, den unsere Plattform erstellt, gibt es einen Report, der erstens die Qualität der Daten nachweist und zweitens den spezifischen Datensatz mit den Echtdaten vergleicht und nachweist, ob die Daten wirklich anonym sind.
Wir sehen uns als Softwareanbieter und verkaufen unsere Software wie viele andere Anbieter zu einem festen Monatspreis. Wir führen also weniger Projekte durch, sondern evaluieren die Kundenanforderungen, machen einen Proof of Concept, und schulen die Mitarbeiter, mit der Software umzugehen. Wenn unsere Plattform in Produktion genommen wird, beraten wir die Kunden bei neuen Use Cases. Alles passiert bei den Kunden vor Ort. Wir sehen die Daten nie. Unsere Kunden sind entsprechend geschult, um die synthetischen Daten selbst zu erstellen.
Ein gewisses Know-how im Unternehmen muss schon vorhanden sein, um das Thema inhaltlich zu verstehen und die Datenqualität evaluieren zu können. Grundsätzlich ist es aber unser Ziel, unsere Plattform so einfach wie möglich zu machen. Das System soll nicht nur von einem ausgebildeten Data Scientist bedienbar sein, sondern von jedem, der seine Daten versteht.
Das Verständnis von Daten in den Unternehmen ist nicht besonders groß. Wir müssen viel Aufklärungsarbeit leisten, damit dort überhaupt verstanden wird, was sich mit Daten alles machen lässt. Ein Marketingverantwortlicher zum Beispiel sollte seine Marketing-Daten verstehen und wissen, welchen Datenschatz er möglicherweise hat. Aber selbst im Marketing gibt es noch einiges an Aufklärungsarbeit zu leisten. Das gilt übrigens für die meisten Unternehmensbereiche. Wir investieren deswegen Zeit, Ressourcen und Geld in die grundsätzliche Aufklärungsarbeit.
Das fängt beim internen Datenzugriff and -transfer an. Oft haben nur wenige Leute Zugriff auf Daten. Einer unserer Kunden hat zum Beispiel im Intranet eine simplen Daten-Explorer gebaut, mit dem jeder ein bisschen Data Science spielen und einfache Analysen machen kann. Daraus entstehen immer wieder neue Ideen, wie sich Daten nutzen lassen. Oder im Bereich der Produktentwicklung. Mitarbeiter, die für die Entwicklung der mobilen App für das Onlinebanking verantwortlich waren, hatten keine Daten, um zu lernen, wie die Kunden mit der App umgehen. Das hat dazu geführt, dass sie dann einfach mit ihren eigenen Bankdaten oder mit selbst erstellten 1-Cent-Transaktionsdaten gearbeitet haben. Das ist nicht wahnsinnig aussagekräftig. Ganz anders mit unseren synthetischen Daten. Damit lässt sich herausfinden, wie eine 70-jährige Frau auf dem Land mit der App umgeht, oder die 30-jährige Studentin. Und das mit absolut anonymisierten Daten!
Unsere Software wird auch in der Forschung genutzt, zum Beispiel im medizinischen Bereich. Wir haben eine Ausschreibung des Instituts für Angewandte Gesundheitsforschung InGef in Berlin gewonnen. Dort wird mit anderen Partnern wie dem Fraunhofer Institut oder der Charité im Auftrag des deutschen Gesundheitsministeriums daran geforscht, ob synthetische Daten eine Anonymisierungsalternative sind für die Zukunft in der Forschung. Das Projekt heißt „Künstliche Intelligenz am Forschungsdatenzentrum – Erforschung von Anonymisierungsmöglichkeiten und AI-readiness (KI-FDZ)“. KI-FDZ soll die sichere Nutzung von Gesundheitsdaten zu Forschungszwecken in Deutschland nachhaltig verbessern. Ziel ist die Generierung synthetischer sowie über klassische Methoden anonymisierter Daten, die eine nachträgliche Re-Identifikation der Originaldaten verhindern und dabei gleichzeitig die Nutzbarkeit der Daten wahren.
Unsere Vision ist, dass synthetische Daten als eine neue Datenquelle im Unternehmen etabliert werden. Das heißt aus unserer Sicht, dass Unternehmen mittelfristig gar nicht mehr mit Echtdaten arbeiten müssen. Sie werden mehr synthetische Daten nutzen, weil es einfach die anonymen und flexibleren Daten sind. Und deshalb auch von allen im Unternehmen genutzt werden können – und nicht nur von wenigen Auserwählten. Wir sprechen also davon, dass synthetische Daten die Treiber für echte Datendemokratisierung sind.
Dr. Tobias Hann
ist seit 2020 CEO von MOSTLY AI. Der Technologie-Enthusiast studierte an der Wirtschaftsuniversität Wien und der Haas School of Business, UC Berkeley, und lebt derzeit in New York. Bevor er zu MOSTLY AI kam, arbeitete er als Unternehmensberater bei der Boston Consulting Group und als Mitbegründer/MD von drei Start-ups.
Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…
Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…
DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).
Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.
IT-Infrastruktur-Trends 2025: Open-Source-Projekte sowie aufwändige regulatorische und Pflichtaufgaben werden das Jahr prägen.
IT-Systeme werden vor Ort in einem hochsicheren IT-Safe betrieben, ohne auf bauliche Maßnahmen wie die…