Infrastruktur für Datenanalysen in der Cloud
Datenanalysen gerade unternehmenskritischer Informationen in der Cloud waren bisher tabu. Durch die Technologie des Newcomers MapR könnte sich das ändern. Sie verbindet die Werkzeugkiste von Hadoop mit einem proprietären Filesystem und Management-Features.
Die Datenberge wachsen weiter ungebremst, ausgewertet wird aber nur ein Bruchteil davon. Big-Data-Technologien, also die sekundenschnelle Analyse sehr vieler, aus unterschiedlichsten Quellen stammender Daten, die in Echtzeit einlaufen und in neuartig strukturierten Datenbanken gespeichert werden, sollen das ändern. Doch die nötigen Infrastrukturen sind aufwändig und teuer. Andererseits gilt es bisher aus Sicherheitsgründen als Tabubruch, Daten aus Firmendatenbanken einem Big-Data-System in der Cloud zur Analyse anzuvertrauen.
Denn dem Hadoop DFS (Hadoop Distributed File System), der Open-Source-Standardlösung für diesen Zweck, fehlen viele im professionellen Bereich unverzichtbare Eigenschaften. Dazu gehören beispielsweise sichere Replikation, Mandantenfähigkeit, Deduplizierung oder Snapshots. “Anwender beklagen das seit Jahren, doch dauert es anscheinend einfach zu lange, sie in der Open-Source-Community zu entwickeln”, sagt Zeljko Dodlek, Vertriebsdirektor Dach von MapR, einem Startup aus Großbritannien. Auch Cloudera, ein Unternehmen, das auf professionelle Anwender zielt, habe dieses Manko noch nicht behoben, sondern biete lediglich eine professionellere Benutzeroberfläche.
Der 2009 gegründete britische Spezialist für Datenanalyse mit derzeit 150 Mitarbeitern hat sich diese Marktlücke zunutze gemacht. Der Startup programmierte eine eigene Hadoop-Distribution mit für Hadoop neuartigen Merkmalen. Dessen Grundlage ist ein proprietäres Filesystem, MapR Data Platform. Dazu kommt eine Verwaltungsebene, das MapR Control System. “Darin stecken alle Profi-Eigenschaften, die IT-Manager wollen”, ist Dodlek überzeugt.
Das MapR-Filesystem läuft auf einem 64-Bit-Linux-Betriebssystem und Intel-Standardprozessoren. Alle gängigen Apache-Hadoop-Werkzeuge, zum Beispiel Hive (Data-Warehouse-Funktionen), Mahout (Programmbibliothek für maschinelles Lernen), Whirr (Cloud-Service –Library) laufen darauf wie auf dem normalen Hadoop-Filesystem. Die Lösung hat Standard-Programmierschnittstellen nach außen, unterstützt Protokolle wie NFS (Network File System) oder LDAP (Lightweight Directory Access Protocol). Daten werden über NFS direkt in den Analysebereich gestreamt und der Suchindex in Hadoop statt extern gespeichert. Files dürfen bis ein Terabyte groß sein. Weiter bietet MapR Funktionen wie Hochverfügbarkeit, Mirroring oder Selbstreparatur. Grundsätzlich werden Daten dreimal repliziert und liegen immer auf drei unterschiedlichen Knoten und drei unterschiedlichen Laufwerken. Für überschaubare Speichervolumina sorgt eine Inline-Deduplikation.
“Weil wir durch die Mandantenfähigkeit von MapR auch unternehmenskritische Daten sicher in der Cloud analysieren können, interessieren sich viele große Provider für uns”, sagt Dodlek. “Sie können auf Basis dieser Lösung eigene Services entwickeln, deren Kunden die Infrastruktur nur nach Bedarf anmieten”, erklärt er. Dabei könnte die Analyse der Daten auf einem MapR-Cloud-Knoten erfolgen, die Ergebnisse ließen sich aber über NFS sofort in eine geschlossene Umgebung der Kunden, beispielsweise ein Enterprise Warehouse, überspielen.
Ein Beispiel für Provider, die mit Big-Data-Services aus der Cloud Geschäfte machen wollen, ist Téléfonica. Das Unternehmen arbeitet daran, die strengen Anonymisierungsforderungen des deutschen Rechts so umzusetzen, dass die in Deutschland schon einmal abgekündigten intelligenten Datenauswertungsdienste (SmartSteps) hierzulande doch noch auf den Markt kommen können. Denkbar sind auf dieses Weise Prognosen hinsichtlich des Verkehrsaufkommens auf Straßen, des Wetters oder der Energieverbräuche in Smart Grids.
Auch andere Unternehmen wollen in Zukunft mehr als bisher interne und externe Datenquellen zusammenführen, um neuartige Erkenntnisse zu erzielen. Für diese Zwecke gibt es zwar Lösungen, beispielsweise Inspire von der Fabasoft-Tochter Mindbreeze. Sollen jedoch Daten aus firmeninternen Datenbanken oder ähnlichen öffentlich unzugänglichen Quellen in eine solche Lösung einbezogen werden, muss das Unternehmen eine Appliance installieren. In der Cloud analysiert Mindbreeze mit dem Dienst Insite nur Daten aus Websites und Social Media wie Twitter oder Facebook.
Für Unternehmen, die beides wollen – umfassende Big-Data-Analysen auch von Datenbanken als Cloud-Services – könnten auf MapR-Technologie basierende Angebote eine Lösung sein. Das kostet je nach Version nichts (Freie Version M3), 5000 (M5) oder für die aktuelle Version mit Unternehmens-Features, M7, 7000 Euro pro Monat. Die kostenlose Download-Variante hat rund 1000 Firmenkunden. In Deutschland gibt es zwei zahlende Kunden, die MapR aber nicht nennen darf.
Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.