Infrastruktur für Datenanalysen in der Cloud

Filesystem und Administrationsservices von MapR sind eine sichere Basis für Big-Data-Analysen auch in der Cloud. Quelle: MapR.

Die Datenberge wachsen weiter ungebremst, ausgewertet wird aber nur ein Bruchteil davon. Big-Data-Technologien, also die sekundenschnelle Analyse sehr vieler, aus unterschiedlichsten Quellen stammender Daten, die in Echtzeit einlaufen und in neuartig strukturierten Datenbanken gespeichert werden, sollen das ändern. Doch die nötigen Infrastrukturen sind aufwändig und teuer. Andererseits gilt es bisher aus Sicherheitsgründen als Tabubruch, Daten aus Firmendatenbanken einem Big-Data-System in der Cloud zur Analyse anzuvertrauen.

Denn dem Hadoop DFS (Hadoop Distributed File System), der Open-Source-Standardlösung für diesen Zweck, fehlen viele im professionellen Bereich unverzichtbare Eigenschaften. Dazu gehören beispielsweise sichere Replikation, Mandantenfähigkeit, Deduplizierung oder Snapshots. “Anwender beklagen das seit Jahren, doch dauert es anscheinend einfach zu lange, sie in der Open-Source-Community zu entwickeln”, sagt Zeljko Dodlek, Vertriebsdirektor Dach von MapR, einem Startup aus Großbritannien. Auch Cloudera, ein Unternehmen, das auf professionelle Anwender zielt, habe dieses Manko noch nicht behoben, sondern biete lediglich eine professionellere Benutzeroberfläche.

Der 2009 gegründete britische Spezialist für Datenanalyse mit derzeit 150 Mitarbeitern hat sich diese Marktlücke zunutze gemacht. Der Startup programmierte eine eigene Hadoop-Distribution mit für Hadoop neuartigen Merkmalen. Dessen Grundlage ist ein proprietäres Filesystem, MapR Data Platform. Dazu kommt eine Verwaltungsebene, das MapR Control System. “Darin stecken alle Profi-Eigenschaften, die IT-Manager wollen”, ist Dodlek überzeugt.

Das MapR-Filesystem läuft auf einem 64-Bit-Linux-Betriebssystem und Intel-Standardprozessoren. Alle gängigen Apache-Hadoop-Werkzeuge, zum Beispiel Hive (Data-Warehouse-Funktionen), Mahout (Programmbibliothek für maschinelles Lernen), Whirr (Cloud-Service –Library) laufen darauf wie auf dem normalen Hadoop-Filesystem. Die Lösung hat Standard-Programmierschnittstellen nach außen, unterstützt Protokolle wie NFS (Network File System) oder LDAP (Lightweight Directory Access Protocol). Daten werden über NFS direkt in den Analysebereich gestreamt und der Suchindex in Hadoop statt extern gespeichert. Files dürfen bis ein Terabyte groß sein. Weiter bietet MapR Funktionen wie Hochverfügbarkeit, Mirroring oder Selbstreparatur. Grundsätzlich werden Daten dreimal repliziert und liegen immer auf drei unterschiedlichen Knoten und drei unterschiedlichen Laufwerken. Für überschaubare Speichervolumina sorgt eine Inline-Deduplikation.

“Weil wir durch die Mandantenfähigkeit von MapR auch unternehmenskritische Daten sicher in der Cloud analysieren können, interessieren sich viele große Provider für uns”, sagt Dodlek. “Sie können auf Basis dieser Lösung eigene Services entwickeln, deren Kunden die Infrastruktur nur nach Bedarf anmieten”, erklärt er. Dabei könnte die Analyse der Daten auf einem MapR-Cloud-Knoten erfolgen, die Ergebnisse ließen sich aber über NFS sofort in eine geschlossene Umgebung der Kunden, beispielsweise ein Enterprise Warehouse, überspielen.

Ein Beispiel für Provider, die mit Big-Data-Services aus der Cloud Geschäfte machen wollen, ist Téléfonica. Das Unternehmen arbeitet daran, die strengen Anonymisierungsforderungen des deutschen Rechts so umzusetzen, dass die in Deutschland schon einmal abgekündigten intelligenten Datenauswertungsdienste (SmartSteps) hierzulande doch noch auf den Markt kommen können. Denkbar sind auf dieses Weise Prognosen hinsichtlich des Verkehrsaufkommens auf Straßen, des Wetters oder der Energieverbräuche in Smart Grids.

Auch andere Unternehmen wollen in Zukunft mehr als bisher interne und externe Datenquellen zusammenführen, um neuartige Erkenntnisse zu erzielen. Für diese Zwecke gibt es zwar Lösungen, beispielsweise Inspire von der Fabasoft-Tochter Mindbreeze. Sollen jedoch Daten aus firmeninternen Datenbanken oder ähnlichen öffentlich unzugänglichen Quellen in eine solche Lösung einbezogen werden, muss das Unternehmen eine Appliance installieren. In der Cloud analysiert Mindbreeze mit dem Dienst Insite nur Daten aus Websites und Social Media wie Twitter oder Facebook.

Für Unternehmen, die beides wollen – umfassende Big-Data-Analysen auch von Datenbanken als Cloud-Services – könnten auf MapR-Technologie basierende Angebote eine Lösung sein. Das kostet je nach Version nichts (Freie Version M3), 5000 (M5) oder für die aktuelle Version mit Unternehmens-Features, M7, 7000 Euro pro Monat. Die kostenlose Download-Variante hat rund 1000 Firmenkunden. In Deutschland gibt es zwei zahlende Kunden, die MapR aber nicht nennen darf.

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Redaktion

Recent Posts

Alle Prozesse im Blick: IT-Service Management bei der Haspa

Wo es früher auf Buchhalter, Schreiber und Boten ankam, geht es heute vor allem um…

12 Stunden ago

Wie generative KI das Geschäft rund um den Black Friday verändert

Mit KI-Technologien lässt sich das Einkaufserlebnis personalisieren und der Service optimieren, sagt Gastautor Gabriel Frasconi…

13 Stunden ago

Banken und Versicherer sind KI-Großabnehmer

Ein Großteil der weltweiten KI-Gelder fließt in den Finanzsektor. 2023 wurden in der Branche 87…

1 Tag ago

Siemens legt 10 Milliarden Dollar für Software-Spezialisten auf den Tisch

Die Übernahme des US-amerikanischen Anbieters Altair Engineering soll die Position im Markt für Computational Science…

1 Tag ago

Standortübergreifender KI-Einsatz im OP-Saal

Ein deutsch-französisches Projekt hat hybride Operationssäle entwickelt, die durch 5G-Netz und KI neue Anwendungen ermöglichen.

1 Tag ago

OT-Security braucht zunächst Asset-Transparenz

Unternehmen wissen oft nicht, welche Geräte in der Produktion eine IP-Adresse haben, warnt Peter Machat…

4 Tagen ago