MapR: Infrastruktur für sichere Datenanalysen in der Cloud

Mit einem eigenen Hadoop-File-System und einer Verwaltungsschicht zähmt das britische Startup MapR die bislang meist sehr fragmentierten Hadoop-Installationen.

Die Datenberge wachsen weiter ungebremst, ausgewertet wird aber nur ein Bruchteil davon. Big-Data-Technologien, also die sekundenschnelle Analyse sehr vieler, aus unterschiedlichsten Quellen stammender Daten, die in Echtzeit einlaufen und in neuartig strukturierten Datenbanken gespeichert werden, sollen das ändern.

Doch die nötigen Infrastrukturen sind aufwändig und teuer. Andererseits gilt es bislang aus Sicherheitsgründen als Tabubruch, Daten aus Firmendatenbanken einem Big-Data-System in der Cloud zur Analyse anzuvertrauen.

Denn dem Hadoop DFS (Hadoop Distributed File System), der Open-Source-Standardlösung für diesen Zweck, fehlen viele im professionellen Bereich unverzichtbare Eigenschaften. Dazu gehören beispielsweise sichere Replikation, Mandantenfähigkeit, Deduplizierung oder Snapshots.

“Anwender beklagen das seit Jahren, doch dauert es anscheinend einfach zu lange, sie in der Open-Source-Community zu entwickeln”, sagt Zeljko Dodlek, Vertriebsdirektor Dach von MapR, einem Startup aus Großbritannien. Auch Cloudera, ein Unternehmen, das auf professionelle Anwender zielt, habe dieses Manko noch nicht behoben, sondern biete lediglich eine professionellere Benutzeroberfläche, behauptet Dodlek.

Der 2009 gegründete britische Spezialist für Datenanalyse mit derzeit 150 Mitarbeitern hat sich diese Marktlücke zunutze gemacht. Der Startup programmierte eine eigene Hadoop-Distribution mit für Hadoop neuartigen Merkmalen. Dessen Grundlage ist ein proprietäres Filesystem, MapR Data Platform. Dazu kommt eine Verwaltungsebene, das MapR Control System. “Darin stecken alle Profi-Eigenschaften, die IT-Manager wollen”, ist Dodlek überzeugt.

Das MapR-Filesystem läuft auf einem 64-Bit-Linux-Betriebssystem und Intel-Standardprozessoren. Alle gängigen Apache-Hadoop-Werkzeuge, zum Beispiel Hive (Data-Warehouse-Funktionen), Mahout (Programmbibliothek für maschinelles Lernen), Whirr (Cloud-Service –Library) laufen darauf wie auf dem normalen Hadoop-Filesystem.

Die Lösung hat Standard-Programmierschnittstellen nach außen, unterstützt Protokolle wie NFS (Network File System) oder LDAP (Lightweight Directory Access Protocol). Daten werden über NFS direkt in den Analysebereich gestreamt und der Suchindex in Hadoop statt extern gespeichert. Files dürfen bis ein Terabyte groß sein. Weiter bietet MapR Funktionen wie Hochverfügbarkeit, Mirroring oder Selbstreparatur. Grundsätzlich werden Daten dreimal repliziert und liegen immer auf drei unterschiedlichen Knoten und drei unterschiedlichen Laufwerken. Für überschaubare Speichervolumina sorgt eine Inline-Deduplikation.

“Weil wir durch die Mandantenfähigkeit von MapR auch unternehmenskritische Daten sicher in der Cloud analysieren können, interessieren sich viele große Provider für uns”, sagt Dodlek. “Sie können auf Basis dieser Lösung eigene Services entwickeln, deren Kunden die Infrastruktur nur nach Bedarf anmieten”, erklärt er. Dabei könnte die Analyse der Daten auf einem MapR-Cloud-Knoten erfolgen, die Ergebnisse ließen sich aber über NFS sofort in eine geschlossene Umgebung der Kunden, beispielsweise ein Enterprise Warehouse, überspielen.

Ein Beispiel für Provider, die mit Big-Data-Services aus der Cloud Geschäfte machen wollen, ist Téléfonica. Das Unternehmen arbeitet daran, die strengen Anonymisierungsforderungen des deutschen Rechts so umzusetzen, dass die in Deutschland schon einmal abgekündigten intelligenten Datenauswertungsdienste (SmartSteps) hierzulande doch noch auf den Markt kommen können. Denkbar sind auf dieses Weise Prognosen hinsichtlich des Verkehrsaufkommens auf Straßen, des Wetters oder der Energieverbräuche in Smart Grids.

Auch andere Unternehmen wollen in Zukunft mehr als bisher interne und externe Datenquellen zusammenführen, um neuartige Erkenntnisse zu erzielen. Für diese Zwecke gibt es zwar Lösungen, beispielsweise Inspire von der Fabasoft-Tochter Mindbreeze. Sollen jedoch Daten aus firmeninternen Datenbanken oder ähnlichen öffentlich unzugänglichen Quellen in eine solche Lösung einbezogen werden, muss das Unternehmen eine Appliance installieren. In der Cloud analysiert Mindbreeze mit dem Dienst Insite nur Daten aus Websites und Social Media wie Twitter oder Facebook.

Für Unternehmen, die beides wollen umfassende Big-Data-Analysen auch von Datenbanken als Cloud-Services – könnten auf MapR-Technologie basierende Angebote eine Lösung sein. Das kostet je nach Version nichts (Freie Version M3), 5000 (M5) oder für die aktuelle Version mit Unternehmens-Features, M7, 7000 Euro pro Monat. Die kostenlose Download-Variante hat rund 1000 Firmenkunden. In Deutschland gibt es zwei zahlende Kunden, die MapR aber nicht nennen darf.

Redaktion

Recent Posts

KI auf dem Prüfstand

LLMs besitzen einerseits innovative neue Fähigkeiten, stellen Unternehmen allerdings auch vor diverse Herausforderungen: ob EU…

14 Stunden ago

Rechenzentren: Deutschland verliert Anschluss

Server-Ausbau in den USA und China macht große Fortschritte, deutscher Weltmarktanteil sinkt. Lichtblicke in Frankfurt…

19 Stunden ago

KI steigert Nachfrage nach hybriden Workplace-Umgebungen

Der Markt für Workplace Services gerät in Bewegung. Das bestmögliche digitale Nutzererlebnis gilt als Schlüssel…

20 Stunden ago

Hagebau erreicht E-Mail-Sicherheit mit der NoSpamProxy Cloud

Schutz für 10.000 Postfächer über rund 200 Domains: Private-Stack-Variante kombiniert Vorteile einer Cloud-Lösung mit Sicherheit…

2 Tagen ago

Rechenzentrumsnetzwerke als Schlüssel für Desaster Recovery

Huawei Connect Paris: Innovationen rund um Data Center, Storage und IT-Sicherheit.

2 Tagen ago

Cybersecurity mit KI: Strategischer Vorteil oder Sicherheitsrisiko?

Mit KI optimieren Hacker ihre Angriffsversuche. Ist CIAM eine Lösung, mit der sich Unternehmen vor…

2 Tagen ago