Categories: CybersicherheitDataManagementSoftwareUnternehmen

MapR: Infrastruktur für sichere Datenanalysen in der Cloud

Mit einem eigenen Hadoop-File-System und einer Verwaltungsschicht zähmt das britische Startup MapR die bislang meist sehr fragmentierten Hadoop-Installationen.

Die Datenberge wachsen weiter ungebremst, ausgewertet wird aber nur ein Bruchteil davon. Big-Data-Technologien, also die sekundenschnelle Analyse sehr vieler, aus unterschiedlichsten Quellen stammender Daten, die in Echtzeit einlaufen und in neuartig strukturierten Datenbanken gespeichert werden, sollen das ändern.

Doch die nötigen Infrastrukturen sind aufwändig und teuer. Andererseits gilt es bislang aus Sicherheitsgründen als Tabubruch, Daten aus Firmendatenbanken einem Big-Data-System in der Cloud zur Analyse anzuvertrauen.

Denn dem Hadoop DFS (Hadoop Distributed File System), der Open-Source-Standardlösung für diesen Zweck, fehlen viele im professionellen Bereich unverzichtbare Eigenschaften. Dazu gehören beispielsweise sichere Replikation, Mandantenfähigkeit, Deduplizierung oder Snapshots.

“Anwender beklagen das seit Jahren, doch dauert es anscheinend einfach zu lange, sie in der Open-Source-Community zu entwickeln”, sagt Zeljko Dodlek, Vertriebsdirektor Dach von MapR, einem Startup aus Großbritannien. Auch Cloudera, ein Unternehmen, das auf professionelle Anwender zielt, habe dieses Manko noch nicht behoben, sondern biete lediglich eine professionellere Benutzeroberfläche, behauptet Dodlek.

Der 2009 gegründete britische Spezialist für Datenanalyse mit derzeit 150 Mitarbeitern hat sich diese Marktlücke zunutze gemacht. Der Startup programmierte eine eigene Hadoop-Distribution mit für Hadoop neuartigen Merkmalen. Dessen Grundlage ist ein proprietäres Filesystem, MapR Data Platform. Dazu kommt eine Verwaltungsebene, das MapR Control System. “Darin stecken alle Profi-Eigenschaften, die IT-Manager wollen”, ist Dodlek überzeugt.

Das MapR-Filesystem läuft auf einem 64-Bit-Linux-Betriebssystem und Intel-Standardprozessoren. Alle gängigen Apache-Hadoop-Werkzeuge, zum Beispiel Hive (Data-Warehouse-Funktionen), Mahout (Programmbibliothek für maschinelles Lernen), Whirr (Cloud-Service –Library) laufen darauf wie auf dem normalen Hadoop-Filesystem.

Die Lösung hat Standard-Programmierschnittstellen nach außen, unterstützt Protokolle wie NFS (Network File System) oder LDAP (Lightweight Directory Access Protocol). Daten werden über NFS direkt in den Analysebereich gestreamt und der Suchindex in Hadoop statt extern gespeichert. Files dürfen bis ein Terabyte groß sein. Weiter bietet MapR Funktionen wie Hochverfügbarkeit, Mirroring oder Selbstreparatur. Grundsätzlich werden Daten dreimal repliziert und liegen immer auf drei unterschiedlichen Knoten und drei unterschiedlichen Laufwerken. Für überschaubare Speichervolumina sorgt eine Inline-Deduplikation.

“Weil wir durch die Mandantenfähigkeit von MapR auch unternehmenskritische Daten sicher in der Cloud analysieren können, interessieren sich viele große Provider für uns”, sagt Dodlek. “Sie können auf Basis dieser Lösung eigene Services entwickeln, deren Kunden die Infrastruktur nur nach Bedarf anmieten”, erklärt er. Dabei könnte die Analyse der Daten auf einem MapR-Cloud-Knoten erfolgen, die Ergebnisse ließen sich aber über NFS sofort in eine geschlossene Umgebung der Kunden, beispielsweise ein Enterprise Warehouse, überspielen.

Ein Beispiel für Provider, die mit Big-Data-Services aus der Cloud Geschäfte machen wollen, ist Téléfonica. Das Unternehmen arbeitet daran, die strengen Anonymisierungsforderungen des deutschen Rechts so umzusetzen, dass die in Deutschland schon einmal abgekündigten intelligenten Datenauswertungsdienste (SmartSteps) hierzulande doch noch auf den Markt kommen können. Denkbar sind auf dieses Weise Prognosen hinsichtlich des Verkehrsaufkommens auf Straßen, des Wetters oder der Energieverbräuche in Smart Grids.

Auch andere Unternehmen wollen in Zukunft mehr als bisher interne und externe Datenquellen zusammenführen, um neuartige Erkenntnisse zu erzielen. Für diese Zwecke gibt es zwar Lösungen, beispielsweise Inspire von der Fabasoft-Tochter Mindbreeze. Sollen jedoch Daten aus firmeninternen Datenbanken oder ähnlichen öffentlich unzugänglichen Quellen in eine solche Lösung einbezogen werden, muss das Unternehmen eine Appliance installieren. In der Cloud analysiert Mindbreeze mit dem Dienst Insite nur Daten aus Websites und Social Media wie Twitter oder Facebook.

Für Unternehmen, die beides wollen umfassende Big-Data-Analysen auch von Datenbanken als Cloud-Services – könnten auf MapR-Technologie basierende Angebote eine Lösung sein. Das kostet je nach Version nichts (Freie Version M3), 5000 (M5) oder für die aktuelle Version mit Unternehmens-Features, M7, 7000 Euro pro Monat. Die kostenlose Download-Variante hat rund 1000 Firmenkunden. In Deutschland gibt es zwei zahlende Kunden, die MapR aber nicht nennen darf.

Lesen Sie auch : Hadoop und SAP HANA wachsen zusammen

Redaktion

NextMicrosofts App-Offensive für Windows Phone »

Previous « EU senkt Roaming-Gebühren ab 1. Juli

MapR: Infrastruktur für sichere Datenanalysen in der Cloud

Recent Posts

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Pure Storage: Cloud, KI und Energieeffizienz

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

Stadt Kempen nutzt Onsite Colocation-Lösung

MapR: Infrastruktur für sichere Datenanalysen in der Cloud

Related Post

Recent Posts

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Pure Storage: Cloud, KI und Energieeffizienz

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

Stadt Kempen nutzt Onsite Colocation-Lösung

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud