Categories: Cloud

Big Data entlarvt Kreditkartenbetrüger

In unserer vernetzten Welt geschieht alles sofort. Wir bestellen ein Päckchen und Stunden später wird es geliefert. Wir rufen das Taxi per App und bezahlen mit der Kreditkarte. Doch diese Geschwindigkeit ist noch asymmetrisch: Ein Kreditkartenbetrüger etwa kann zwar unser Geld in wenigen Sekunden ausgeben – doch bis der Betrug entdeckt wird, können Tage vergehen.

Um Schritt zu halten, müssen Unternehmen ständig in Bewegung bleiben und prädiktive Modelle in großem Umfang entwickeln. So können sie frühzeitig auffällige Transaktionen oder Betrugsversuche entdecken und darauf reagieren. Banken und Kreditkartenunternehmen sind mit dieser Aufgabe nicht allein – ähnlich ergeht es allen Organisationen, die personenbezogene Daten verarbeiten, etwa auch Pharma- und Versicherungsunternehmen.

**Jim Stock, der Autor dieses Gastbeitrags für silicon.de, ist Country Manager DACH bei MapR (Bild: MapR)**

Die gute Nachricht ist, dass bereits eine große Zahl erfahrener Machine-Learning-Experten an neuen Techniken, Methoden und analytischen Modellen arbeiten, um potenziell betrügerische Transaktionen, Identitätsdiebstahl und Phishing-Attacken aufzudecken. Doch nicht jede Firma verfügt über ein eigenes Team von Sicherheitsexperten. Möglicherweise muss externe Hilfe zurate gezogen werden, um agile, effektive Modelle zu konstruieren.

Doch die wenigsten Unternehmen werden freiwillig personenbezogenen Daten preisgeben; zugleich ist eine Anonymisierung der Daten mit garantierter Sicherheit nur schwer zu erreichen. Es stellt sich somit die Frage: Können Firmen externe Experten hinzuziehen, ohne ihre vertraulichsten Daten preisgeben zu müssen?

In Zukunft könnte ein neues Verfahren genau dieses Problem lösen. Das Verfahren lässt sich für eine Vielzahl an Situation einsetzen und erlaubt es, selbst Betrugsfälle mit nur einem Angriffspunkt aufzudecken. Im Folgenden wird das Modell anhand eines Beispiels vorgeführt.

Aller Anfang ist schwer zu finden

Eine neue Masche von Betrügern ist es, von großen auf viele kleine Transaktionen zu wechseln, für die sie die gestohlenen Nutzerdaten von mehreren hunderttausend Kunden einsetzen. Ziel ist es, eine große, häufig sechsstellige Summe in Dollar, Pfund oder Euro in kürzester Zeit zu entwenden, ohne dabei entdeckt zu werden.

An die Kontodaten gelangen Betrüger, indem sie eine Website oder einen Onlinehändler angreifen. Im Gegensatz zum Abbuchen eines großen Betrages von einer Kreditkarte können viele kleine Transaktionen von aktueller Sicherheitssoftware nur schwer erkannt werden. Die Betrüger nutzen die Kreditkartendaten daher, um über viele Strohmann-Unternehmen eine große Zahl an Abbuchungen vorzunehmen. Die geringen Summen bleiben zumeist unentdeckt oder werden von den Betroffen ignoriert.

Konfrontiert mit der Herausforderung, potenziellen Betrug aufzudecken, der von einem kompromittierten Händler ausgeht, erarbeitete eine große Bank zusammen mit MapR ein Modell, das diese Form des verteilten Diebstahls erkennen kann. Ziel war es, die Betrugserkennung zu verbessern, um erstens mehr verdächtige Vorgänge zu identifizieren und zweitens dies schneller zu leisten, um die Konten schließen und das Risiko eines finanziellen Verlusts eindämmen zu können. Der Ansatz ermöglicht es zudem, den digitalen Brotkrumen zurück zum Ursprung der gestohlenen Daten zu folgen – zurück zum kompromittierten Onlinehändler.

Die Bank verfügte über eine große Menge an Daten zum Transferverhalten zwischen Händlern und Kunden. MapR ordnete diese anhand von Zeitstrahlen jedem betrogenen Kunden zu, um herauszufinden, mit welchem Händler die Kunden interagierten, bevor die bekannten Betrugsfälle auftraten. Auf diesem Weg ließ sich für jeden Händler ein “Breach Score” bilden, der die relative Wahrscheinlichkeit der Händler ausdrückte, der gemeinsame Ursprung des Betrugs zu sein. Das Problem jedoch war, dass die Bank die Transferdaten nicht mit Außenstehenden teilen konnte – auch nicht zur Betrugserkennung, die sie selbst nicht leisten konnte.

Um dieses Dilemma zu umgehen, entwickelte MapR eine Erweiterung für ein Open-Source-Programm. Dadurch ließen sich Transfers zwischen fingierten Nutzern und Händlern simulieren. In den Experimenten mit den simulierten Daten stach der kompromittierte Händler mit einem sehr hohen “Breach Score” heraus. Das Modell wurde nun den Kunden übergeben, damit der es im eigenen Sicherheitsbereich mit den echten Transaktionsdaten anwenden konnte.

Das Ergebnis der Analyse war spektakulär: Wie bei den simulierten Daten hob sich auch bei den echten Daten ein einzelner Händler mit einem “Breach Score” von mehr als 80 von allen anderen Händlern ab. Ein Abgleich mit den Behörden bestätigte der Bank, dass der ausgemachte Händler tatsächlich Opfer eines massiven Datendiebstahls war.

Das Breach-Modell

Die Eignung der synthetischen Daten für eine bestimmte Situation hängt vom Grad der Übereinstimmung der Leistungskennzahlen ab, die aus der Eingabe der nachgebildeten und realen Daten resultieren. Doch wie lässt sich feststellen, welche Leistungskennzahlen entscheidend sind?

Da die Transaktionshistorie modelliert wird, sind die anzugleichenden Leistungskennzahlen erstens die Verteilung der “Breach Score” sowie zweitens der Grad, mit dem der bestohlene Händler identifiziert werden kann. Zudem müssen einfachere Leistungskennzahlen grob abgeglichen werden – etwa die Anzahl der Konsumenten und Händler sowie die Verteilung der Transaktionen, die Konsumenten tätigen beziehungsweise Händler empfangen.

Das Breach-Modell versucht, den bestohlenen Händler zu finden, indem es überprüft, welche Händler bei betrogenen Kunden überrepräsentiert sind. Alle Händler, die signifikant oft in den Transaktionen auftauchen, bevor ein Betrug festgestellt wurde, sollten als möglicherweise kompromittiert eingestuft werden.

Fazit: Gute Modelle fangen Betrüger

Die Nutzung von synthetisch erstellten Daten ist keine neue Idee. Dennoch werden die Vorteile häufig übersehen. Die vorgestellte Methode nutzt einen neuen Weg, um einfach passende Daten zu erstellen, die die reale Welt abbilden können.

Es ist nicht nötig, die Charakteristika realer Daten perfekt zu kopieren. Es reicht aus, entscheidende Performance-Parameter zwischen imitierten und echten Daten abzugleichen. Die Daten müssen nicht gleich sein, sondern sich nur gleich verhalten, wenn sie gegen KPIs getestet werden. Die Parameter müssen natürlich überlegt ausgewählt werden, um realistisch und von Bedeutung zu sein. Genau dieses Vorgehen macht den Ansatz leistungsfähig und zugleich einfach.

So können Banken ohne Datenschutzbedenken mit externen Experten zusammenarbeiten, inklusive iterativen Zyklen zur Evaluation und Feinjustierung. Big Data Security wird somit zu einem realistischen Werkzeug im Kampf gegen neue Arten des Betrugs und hilft Unternehmen, künftig schneller zu reagieren und die wertvollen Daten sowie das Geld ihrer Kunden besser zu sichern.

Lesen Sie auch : Rekord: Ransomware-Angriffe nehmen im September um 153 Prozent zu

Redaktion