Categories: Data

So baut man ein datenintensives Ökosystem

Data Lakes, also Datenseen, sind momentan ein wichtiges Buzzword in der Branche – es gibt kaum jemanden, der nicht plant, einen Data Lake zu bauen. Aber ich fürchte, dass der Lake schnell zum Swamp – also, einem Sumpf – wird. Bedenken wir die Richtung, in die wir uns aktuell bewegen, sind Begriffe wie Lakes, Swamps, Reservoirs oder Namen von anderen großen Datenkörpern nicht ganz passend. Sie helfen vielleicht dabei, die Lösung zu visualisieren, am Ende des Tages sorgen sie aber eher für Verwirrung.

Fangen wir doch einfach nochmal von vorne an:

Es ist ein Goodwill-Laden

Ein Goodwill-Laden ist eine Art Second Hand-Geschäft der US-amerikanischen Non-Profit-Gesellschaft Goodwill Industries. Wer hier her kommt, weiß, dass alles gebraucht ist – Klamotten, Kunst, Bücher, Musikinstrumente, Elektrogeräte etc. Dies ist vergleichbar mit Daten, die ihrem Quellensystem bereits Mehrwert geliefert haben und nun nicht mehr exklusiv sein müssen. In anderen Worten: Es ist Zeit für die Daten, für die Community zu arbeiten.

Label schaffen Überblick am Wühltisch

Nicht alles, was Sie spenden, eignet sich auch für den Verkauf. Beachten Sie also ein paar grundlegende Regeln, wenn es um Ihre Daten geht. Was sind das für Regeln? Sie benötigen Metadaten. Jede Eingabe in den Data Lake muss folgende Fragen beantworten können: warum, wer, was, wann, wo und wie? Aber fangen Sie nicht an, logisch Metadaten im Lake zu kreieren – das ist nicht nötig. Das vorgeschaltete System, das die Daten liefert, integriert die Informationen während der Übertragung.

Daten müssen sterben

Haben Sie sich jemals darüber gewundert, warum Finanzwebseiten öffentlich mit 15 Minuten Verzögerung operieren? Das kommt daher, dass die Daten dann bereits “historisch” sind und nicht mehr für den Handel genutzt werden können – sie sind bereits alt. Es ist nicht falsch, alle verfügbaren Daten zu verarbeiten. Die Frage ist eher, was hat man davon? Warum sollte der Lake anders sein? Das Quellensystem sollte einen Zeitpunkt festlegen, der auf Metadaten basiert, der dem Lake mitteilt, wann die Daten ausgemustert werden können. Es liegt also am Lake selbst, die Daten basierend auf seinen Anforderungen auszurangieren.

Bewerten Sie Ihre Daten

Daten sind vielfältig – von Rohdaten bis hin zu bearbeiteten Daten. Die Herausforderung ist es, in der Lage zu sein, die Daten gleichermaßen zu bewerten. Für manche Anwender ist die Qualität der Daten wichtiger, für andere die Quantität. Viele Bewertungsalgorithmen repräsentieren jedoch nur eine Dimension, zum Beispiel den Mehrwert, wie er von der Quelle erfasst wird. Eine Strategie könnte es sein, all diese Bewertungen von Quellen und Anwendern zu sammeln und einen Durchschnittswert zu errechnen – dies wäre aber immer noch eindimensional. Eine andere Strategie könnte die Bewertungen von nur einer einzigen Quelle tracken. Ein Anwender wird auch zum Lieferanten, wenn er den Report (Daten) zurück mit seiner Bewertung zurück in den Lake postet. Ist die Beziehung zwischen Report und Quellendaten einmal hergestellt, wird die Bewertung zweidimensional. Jetzt können Sie sich vorstellen, welche Mengen an Daten und Metadaten in den Lake fließen. Obwohl dies natürlich nicht mit dem Datenvolumen zu vergleichen ist, das durch Twitter fließt – aber für Ihr Unternehmen ist es eine ordentliche Hausnummer.

Damit aus dem Data-Lake kein Sumpf wird, sollte man sich nicht mit Begrifflichkeiten aufhalten, rät Dirk Häussermann von Informatica. Am Ende zählt der Nutzen, den man aus den Daten gewinnt. (Bild: M. Schindler)

Verdienen Sie Ihr Pfadfinderabzeichen

Der Lake ist für jeden, aber nicht für “jedermann”. Wichtig ist, dass die Daten geschützt werden. Natürlich haben Sie eine Perimeter-Verteidigung und verschiedene militärische Zonen eingeplant, um auf Ihre Daten zuzugreifen, aber was ist mit dem Inhalt der Daten? Für Verteidigungsorganisationen gehört dies zum Alltag und sie implementieren Schutzvorkehrungen für jedes einzelne Datenelement. Ihr Unternehmen kann sich diesen Komfort eventuell nicht leisten, da er auch die Performance beeinträchtigt. Aber man kann Peer-to-Peer Datensichtbarkeit implementieren. Sehen Sie es als eine Art Pfadfinderabzeichen an; verfügt der Anwender über ein Anbieterabzeichen, kann er entweder alle Daten sehen oder eben gar keine.

Mein Fazit: Halten Sie sich nicht mit den verschiedenen Begriffen auf. Benennen Sie den Vorgang, wie Sie möchten, solange Sie bekommen, was Sie möchten. Manchmal benötigt Ihr Unternehmen vielleicht eher Daten aus einem Swamp als “saubere Daten, die aus einem Wasserhahn” kommen.

Redaktion