Data Lakes, also Datenseen, sind momentan ein wichtiges Buzzword in der Branche – es gibt kaum jemanden, der nicht plant, einen Data Lake zu bauen. Aber ich fürchte, dass der Lake schnell zum Swamp – also, einem Sumpf – wird. Bedenken wir die Richtung, in die wir uns aktuell bewegen, sind Begriffe wie Lakes, Swamps, Reservoirs oder Namen von anderen großen Datenkörpern nicht ganz passend. Sie helfen vielleicht dabei, die Lösung zu visualisieren, am Ende des Tages sorgen sie aber eher für Verwirrung.
Fangen wir doch einfach nochmal von vorne an:
Ein Goodwill-Laden ist eine Art Second Hand-Geschäft der US-amerikanischen Non-Profit-Gesellschaft Goodwill Industries. Wer hier her kommt, weiß, dass alles gebraucht ist – Klamotten, Kunst, Bücher, Musikinstrumente, Elektrogeräte etc. Dies ist vergleichbar mit Daten, die ihrem Quellensystem bereits Mehrwert geliefert haben und nun nicht mehr exklusiv sein müssen. In anderen Worten: Es ist Zeit für die Daten, für die Community zu arbeiten.
Nicht alles, was Sie spenden, eignet sich auch für den Verkauf. Beachten Sie also ein paar grundlegende Regeln, wenn es um Ihre Daten geht. Was sind das für Regeln? Sie benötigen Metadaten. Jede Eingabe in den Data Lake muss folgende Fragen beantworten können: warum, wer, was, wann, wo und wie? Aber fangen Sie nicht an, logisch Metadaten im Lake zu kreieren – das ist nicht nötig. Das vorgeschaltete System, das die Daten liefert, integriert die Informationen während der Übertragung.
Haben Sie sich jemals darüber gewundert, warum Finanzwebseiten öffentlich mit 15 Minuten Verzögerung operieren? Das kommt daher, dass die Daten dann bereits “historisch” sind und nicht mehr für den Handel genutzt werden können – sie sind bereits alt. Es ist nicht falsch, alle verfügbaren Daten zu verarbeiten. Die Frage ist eher, was hat man davon? Warum sollte der Lake anders sein? Das Quellensystem sollte einen Zeitpunkt festlegen, der auf Metadaten basiert, der dem Lake mitteilt, wann die Daten ausgemustert werden können. Es liegt also am Lake selbst, die Daten basierend auf seinen Anforderungen auszurangieren.
Daten sind vielfältig – von Rohdaten bis hin zu bearbeiteten Daten. Die Herausforderung ist es, in der Lage zu sein, die Daten gleichermaßen zu bewerten. Für manche Anwender ist die Qualität der Daten wichtiger, für andere die Quantität. Viele Bewertungsalgorithmen repräsentieren jedoch nur eine Dimension, zum Beispiel den Mehrwert, wie er von der Quelle erfasst wird. Eine Strategie könnte es sein, all diese Bewertungen von Quellen und Anwendern zu sammeln und einen Durchschnittswert zu errechnen – dies wäre aber immer noch eindimensional. Eine andere Strategie könnte die Bewertungen von nur einer einzigen Quelle tracken. Ein Anwender wird auch zum Lieferanten, wenn er den Report (Daten) zurück mit seiner Bewertung zurück in den Lake postet. Ist die Beziehung zwischen Report und Quellendaten einmal hergestellt, wird die Bewertung zweidimensional. Jetzt können Sie sich vorstellen, welche Mengen an Daten und Metadaten in den Lake fließen. Obwohl dies natürlich nicht mit dem Datenvolumen zu vergleichen ist, das durch Twitter fließt – aber für Ihr Unternehmen ist es eine ordentliche Hausnummer.
Der Lake ist für jeden, aber nicht für “jedermann”. Wichtig ist, dass die Daten geschützt werden. Natürlich haben Sie eine Perimeter-Verteidigung und verschiedene militärische Zonen eingeplant, um auf Ihre Daten zuzugreifen, aber was ist mit dem Inhalt der Daten? Für Verteidigungsorganisationen gehört dies zum Alltag und sie implementieren Schutzvorkehrungen für jedes einzelne Datenelement. Ihr Unternehmen kann sich diesen Komfort eventuell nicht leisten, da er auch die Performance beeinträchtigt. Aber man kann Peer-to-Peer Datensichtbarkeit implementieren. Sehen Sie es als eine Art Pfadfinderabzeichen an; verfügt der Anwender über ein Anbieterabzeichen, kann er entweder alle Daten sehen oder eben gar keine.
Mein Fazit: Halten Sie sich nicht mit den verschiedenen Begriffen auf. Benennen Sie den Vorgang, wie Sie möchten, solange Sie bekommen, was Sie möchten. Manchmal benötigt Ihr Unternehmen vielleicht eher Daten aus einem Swamp als “saubere Daten, die aus einem Wasserhahn” kommen.
Vielfach hat die Coronapandemie bestehende IT-Strukturen aufgebrochen oder gar über den Haufen geworfen – gefühlt.…
Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen…
Nach Angaben der Weltbank fehlt mehr als einer Milliarde Menschen ein offizieller Identitätsnachweis. Ohne den…
Das Thema Nachhaltigkeit ist seit vielen Jahren fester Bestandteil des Selbstverständnisses vieler Unternehmen. Wenig verwunderlich,…
Unternehmen sammeln eine Vielzahl von Daten. Doch IDC Analysten fanden in ihrer aktuellen Studie „IDC‘s…
COVID-19 hat 2020 sowohl Gesellschaft als auch Wirtschaft bestimmt. Unbestritten ist auch die katalytische Wirkung,…