Nadel im Heuhaufen mit Graph Analytics finden

Wer verborgene Muster aufspüren will, braucht entweder sehr viel Geduld oder genügend Rechenleistung. Dominik Ulmer, VP Business Operations EMEA bei Cray Inc, erklärt in einem Gastbeitrag, wie Hochleistungsrechner bei der sprichwörtlichen Suche im Heuhaufen helfen können.

Das Aufdecken relevanter Verbindungen und Muster zwischen Daten gleicht in Anbetracht stetig wachsender Datenmengen immer mehr einer Suche nach der Nadel im Heuhaufen. Denn mit dem Datenvolumen und der Datenvielfalt nimmt auch die Unstrukturiertheit und Komplexität zu. Noch signifikanter ist die Flut an hochgradig vernetzten Daten, die durch das Internet of Things (IoT), soziale Ökosysteme und sogar natürliche und biologische Systeme auf uns einströmen.

Diese schiere Datenmenge und ihre starke Vernetzung, machen es zunehmend schwieriger, Zusammenhänge zwischen Dateneinheiten zu enthüllen bzw. allen Verbindungen zu folgen. Dabei erhalten Unternehmen heutzutage die wertvollsten Erkenntnisse vor allem durch das Verständnis dessen, wie Daten miteinander in Verbindung stehen. Das Wissen um bestimmte Verknüpfungen versetzt Unternehmen in die Lage, die richtigen Fragen auf Basis ihrer Daten zu stellen und beantworten zu können.

Relationale Datenbanken sind als Standard nicht mehr ausreichend

Dominik Ulmer, VP Business Operations EMEA bei Cray Inc.
Dominik Ulmer, der Autor dieses Gastbeitrags für silicon.de, ist VP Business Operations EMEA bei Cray Inc.

Standardmäßig kommen in vielen Unternehmen relationale Datenbanken zum Einsatz. Diese stoßen allerdings an ihre Grenzen, sobald sie nach Beziehungen, Beziehungsmustern oder Interaktionen zwischen Datenelementen suchen müssen. Mit zunehmender Datenmenge müssen für erweiterte Abfragen viele Tabellen miteinander bzw. rekursiv verknüpft werden, was die Abfragen rechenintensiver und zeitaufwändiger macht. Während relationale Datenbanken also gut bei Abfragen funktionieren, die nach detaillierten Informationen über ein spezifisches Element suchen, lassen sich komplexe Beziehungen zwischen Daten mit ihnen nur sehr langsam und ressourcenintensiv untersuchen.

Das liegt teilweise an ihrer tabellenbasierten Struktur, da sie Beziehungen zur Abfragezeit berechnet; da jede Seite einer Beziehung miteinander kombiniert werden muss (zusammen mit den Unterelementen), kann eine komplexe Abfrage sehr schnell sehr prozessor- und speicherintensiv werden.

Ausgewähltes Whitepaper

Studie zu Filesharing im Unternehmen: Kollaboration im sicheren und skalierbaren Umfeld

Im Rahmen der von techconsult im Auftrag von ownCloud und IBM durchgeführten Studie wurde das Filesharing in deutschen Unternehmen ab 500 Mitarbeitern im Kontext organisatorischer, technischer und sicherheitsrelevanter Aspekte untersucht, um gegenwärtige Zustände, Bedürfnisse und Optimierungspotentiale aufzuzeigen. Jetzt herunterladen!

In der Welt von Big Data und IoT gewinnen aus diesem Grund Graph Analytics immer mehr an Bedeutung. Der wohl bekannteste Anwendungsbereich für Graphdatenbanken sind soziale Netzwerke. Hier stellen Graphen Beziehungen zwischen Menschen, deren gemeinsamen Interessen und Beiträgen her und stellen fest, welche Person auf wen Einfluss hat und welche Verbindungen zwischen Personengruppen bestehen, etc. Dadurch können zum Beispiel sehr gezielte Marketingstrategien (wie personalisierte Empfehlungen) erstellt werden.

Auf ähnliche Weise werden Graphdaten auch in Bereichen wie der Strafverfolgung, Betrugserkennung, medizinischen Forschung und Finanzdienstleistung genutzt. Graphdatenbanken stellen den effizientesten Weg dar, innerhalb kürzester Zeit relevante Beziehungen zwischen Daten zu erkennen, mit deren Komplexität umzugehen und einen semantischen Zusammenhang herzustellen. Das liegt daran, dass sie Daten in einer Netzstruktur speichern, in der einzelne Informationselemente durch Knoten und die Beziehungen zwischen diesen Informationen durch Kanten repräsentiert werden. Datenelemente, die in einer relationalen Datenbank im Feld einer Tabelle gespeichert wären, sind bei Graphdatenbanken in den Knoten gesichert und Datendeskriptoren können zu den Kanten des Graphen werden.

Ad-hoc-Abfragen durchführen und komplexe Datenstrukturen durchschauen

Cray nutzt ein semantisches Datenbank-Modell, Resource Description Framework (RDF), das Daten in einem einfachen Subjekt-Verb-Objekt-Tripel speichert. Dabei kann jeder Knoten das Subjekt eines Tripels und das Objekt eines anderen sein, jedes Datenelement kommt also nur einmal im Graph vor. Die Beziehungen zwischen den Daten werden zum Zeitpunkt des Einfügens erzeugt und stehen ab diesem Moment jederzeit zur Verfügung, was diesen Graphdatenbankentyp besonders effizient und flexibel für Ad-hoc-Abfragen macht. Der Mehraufwand zur Realisierung einer Beziehung entsteht nur einmalig zum Zeitpunkt des Einfügens, ganz im Gegensatz zur Berechnung bei jeder Abfrage.

Abfragen beginnen an einem Startknoten und navigieren dann den Graphen, indem sie den Kanten folgen und so auch den Beziehungen zwischen den Knoten. Die Abfragegeschwindigkeit hängt von der Anzahl der konkreten Beziehungen ab, die für die gewünschte Abfrage relevant sind. Auf diese Weise bleibt die Abfragedauer proportional zur Ergebnismenge und nicht zur Gesamtdatenmenge, was wiederum zu schnelleren Ergebnissen bei komplexeren Abfragen führt. So können innerhalb kürzester Zeit relevante Datenmuster und -zusammenhänge erkannt und zurückgemeldet werden.

Webinar

Digitalisierung fängt mit Software Defined Networking an

In diesem Webinar am 18. Oktober werden Ihnen die unterschiedlichen Wege, ein Software Defined Network aufzubauen, aus strategischer Sicht erklärt sowie die Vorteile der einzelnen Wege aufgezeigt. Außerdem erfahren Sie, welche Aspekte es bei der Auswahl von Technologien und Partnern zu beachten gilt und wie sich auf Grundlage eines SDN eine Vielzahl von Initiativen zur Digitalisierung schnell umsetzen lässt.

Graphdatenbanken messen den gespeicherten Daten und den Beziehungen zwischen diesen Daten die gleiche Bedeutung bei, weshalb sie sich besonders gut eignen, um stark vernetzte, unstrukturierte und verrauschte Informationen anschaulich darzustellen, mit der Fähigkeit aus einer Vielzahl von Datenquellen einen umfangreichen semantischen Kontext zu generieren. Da Graphen komplexe Datenstrukturen unterstützen und dabei keinen Beschränkungen unterliegen, sind sie somit bestens für kontinuierliche Datenveränderungen und erweiterte Datensätze geeignet.

Cyber-Attacken frühzeitig erkennen und abwehren

Große Vorteile haben Graphdatenbanken zudem beim Aufspüren von Sicherheitsproblemen und Cyber-Attacken. Zwar können Firewalls und Sicherheitssoftware bekannte Bedrohungssignaturen erkennen, Angriffsmethoden verändern sich aber fortlaufend. Deshalb müssen Analysten neue Bedrohungen entdecken und darauf reagieren, bevor Finanzmärkte, Regierungsgeschäfte und –behörden oder Unternehmen Schaden nehmen. Ein Teil des Problems ist hierbei: Netzwerkdaten werden oft schneller generiert als sie analysiert werden müssen. Das führt dazu, dass nur ein Bruchteil der verfügbaren Daten angemessen untersucht werden kann, kritische Informationen sind oft ohne reguläre Aktivität in unanalysierten Daten verborgen.

Um neuen Arten von Bedrohungen vorzubeugen, müssen Informationen aus einer Vielzahl von Datenquellen und -typen miteinander korreliert und interpretiert werden, und das mit Anomalie-Erkennung im Hinterkopf. Das hat zur Folge, dass Analysten kontinuierlich ihr Abfrageschema modifizieren und/oder erweitern müssen, um verschiedene neue Datenquellen zu integrieren, eine Vielzahl an Abfragen durchzuführen und um den regulären Datenverkehr von Abweichungen abgrenzen zu können.

Ein großes Hindernis ist oft auch die limitierte Skalierbarkeit und Performance der Hardware – viele Abfragen benötigen Stunden oder Tage, um Ergebnisse zu liefern. Mit einer Big Data-Anwendung für Graph Analytics wie der von Cray hingegen kann ein Sicherheitsanalyst schnell Cyber-Angreifer in Echtzeit aufdecken und nach ihnen suchen, durch den Einsatz nicht festgelegter Tabellenschemata-Modelle gelingt ihm das auch mit der dafür benötigten Flexibilität.

Die Krebsforschung macht Fortschritte

Ein weiteres Anwendungsfeld ist im Gesundheitswesen die Analyse von Genomdaten und die Genom-Sequenzierung in der Krebsforschung. Das Broad Institute, ein gemeinsames Non-Profit-Forschungsinstitut des Massachusetts Institute of Technology (MIT) und von Harvard, das sich um ein besseres Verständnis von Krankheiten und den Fortschritt bei deren Behandlung bemüht, konnte mit der agilen Analyselösung von Cray neue Standards erreichen. In der dynamischen Big-Data-Analytics-Plattform Urika-GX, werden die Eigenschaften eines Supercomputers (enorme Rechengeschwindigkeit sowie Skalierungs- und Durchsatzraten) mit jenen einer standardisierten Enterprise-Hardware und einer Open-Source-Software-Umgebung kombiniert.

Ein herausragendes Merkmal von Urika-GX ist die hochperformante Cray Graph Engine, mit der es Wissenschaftlern ermöglicht wird neue Abhängigkeiten und Verbindungen zwischen Daten zu entdecken. Im Falle des Broad Institute können Wissenschaftler mit dem Urika-GX-System mit hohem Durchsatz Daten zur Genom-Sequenzierung analysieren. So konnte es die Zeit, in der es die Quality Score Recalibration (QSR)-Ergebnisse aus seinem Genom-Analyse-Toolkit “GATK4” und der Apache Spark-Pipeline erzielte deutlich verkürzen: von 40 auf neun Minuten.

Lesen Sie auch : Datenmanagement und KI