Infrastruktur für Datenanalysen in der Cloud

Filesystem und Administrationsservices von MapR sind eine sichere Basis für Big-Data-Analysen auch in der Cloud. Quelle: MapR.

Die Datenberge wachsen weiter ungebremst, ausgewertet wird aber nur ein Bruchteil davon. Big-Data-Technologien, also die sekundenschnelle Analyse sehr vieler, aus unterschiedlichsten Quellen stammender Daten, die in Echtzeit einlaufen und in neuartig strukturierten Datenbanken gespeichert werden, sollen das ändern. Doch die nötigen Infrastrukturen sind aufwändig und teuer. Andererseits gilt es bisher aus Sicherheitsgründen als Tabubruch, Daten aus Firmendatenbanken einem Big-Data-System in der Cloud zur Analyse anzuvertrauen.

Denn dem Hadoop DFS (Hadoop Distributed File System), der Open-Source-Standardlösung für diesen Zweck, fehlen viele im professionellen Bereich unverzichtbare Eigenschaften. Dazu gehören beispielsweise sichere Replikation, Mandantenfähigkeit, Deduplizierung oder Snapshots. “Anwender beklagen das seit Jahren, doch dauert es anscheinend einfach zu lange, sie in der Open-Source-Community zu entwickeln”, sagt Zeljko Dodlek, Vertriebsdirektor Dach von MapR, einem Startup aus Großbritannien. Auch Cloudera, ein Unternehmen, das auf professionelle Anwender zielt, habe dieses Manko noch nicht behoben, sondern biete lediglich eine professionellere Benutzeroberfläche.

Der 2009 gegründete britische Spezialist für Datenanalyse mit derzeit 150 Mitarbeitern hat sich diese Marktlücke zunutze gemacht. Der Startup programmierte eine eigene Hadoop-Distribution mit für Hadoop neuartigen Merkmalen. Dessen Grundlage ist ein proprietäres Filesystem, MapR Data Platform. Dazu kommt eine Verwaltungsebene, das MapR Control System. “Darin stecken alle Profi-Eigenschaften, die IT-Manager wollen”, ist Dodlek überzeugt.

Das MapR-Filesystem läuft auf einem 64-Bit-Linux-Betriebssystem und Intel-Standardprozessoren. Alle gängigen Apache-Hadoop-Werkzeuge, zum Beispiel Hive (Data-Warehouse-Funktionen), Mahout (Programmbibliothek für maschinelles Lernen), Whirr (Cloud-Service –Library) laufen darauf wie auf dem normalen Hadoop-Filesystem. Die Lösung hat Standard-Programmierschnittstellen nach außen, unterstützt Protokolle wie NFS (Network File System) oder LDAP (Lightweight Directory Access Protocol). Daten werden über NFS direkt in den Analysebereich gestreamt und der Suchindex in Hadoop statt extern gespeichert. Files dürfen bis ein Terabyte groß sein. Weiter bietet MapR Funktionen wie Hochverfügbarkeit, Mirroring oder Selbstreparatur. Grundsätzlich werden Daten dreimal repliziert und liegen immer auf drei unterschiedlichen Knoten und drei unterschiedlichen Laufwerken. Für überschaubare Speichervolumina sorgt eine Inline-Deduplikation.

“Weil wir durch die Mandantenfähigkeit von MapR auch unternehmenskritische Daten sicher in der Cloud analysieren können, interessieren sich viele große Provider für uns”, sagt Dodlek. “Sie können auf Basis dieser Lösung eigene Services entwickeln, deren Kunden die Infrastruktur nur nach Bedarf anmieten”, erklärt er. Dabei könnte die Analyse der Daten auf einem MapR-Cloud-Knoten erfolgen, die Ergebnisse ließen sich aber über NFS sofort in eine geschlossene Umgebung der Kunden, beispielsweise ein Enterprise Warehouse, überspielen.

Ein Beispiel für Provider, die mit Big-Data-Services aus der Cloud Geschäfte machen wollen, ist Téléfonica. Das Unternehmen arbeitet daran, die strengen Anonymisierungsforderungen des deutschen Rechts so umzusetzen, dass die in Deutschland schon einmal abgekündigten intelligenten Datenauswertungsdienste (SmartSteps) hierzulande doch noch auf den Markt kommen können. Denkbar sind auf dieses Weise Prognosen hinsichtlich des Verkehrsaufkommens auf Straßen, des Wetters oder der Energieverbräuche in Smart Grids.

Auch andere Unternehmen wollen in Zukunft mehr als bisher interne und externe Datenquellen zusammenführen, um neuartige Erkenntnisse zu erzielen. Für diese Zwecke gibt es zwar Lösungen, beispielsweise Inspire von der Fabasoft-Tochter Mindbreeze. Sollen jedoch Daten aus firmeninternen Datenbanken oder ähnlichen öffentlich unzugänglichen Quellen in eine solche Lösung einbezogen werden, muss das Unternehmen eine Appliance installieren. In der Cloud analysiert Mindbreeze mit dem Dienst Insite nur Daten aus Websites und Social Media wie Twitter oder Facebook.

Für Unternehmen, die beides wollen – umfassende Big-Data-Analysen auch von Datenbanken als Cloud-Services – könnten auf MapR-Technologie basierende Angebote eine Lösung sein. Das kostet je nach Version nichts (Freie Version M3), 5000 (M5) oder für die aktuelle Version mit Unternehmens-Features, M7, 7000 Euro pro Monat. Die kostenlose Download-Variante hat rund 1000 Firmenkunden. In Deutschland gibt es zwei zahlende Kunden, die MapR aber nicht nennen darf.

Tipp: Wie gut kennen Sie sich mit der europäischen Technologie-Geschichte aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Redaktion

Recent Posts

Studie: Rund ein Drittel der APIs sind ungeschützt

Angriffe auf APIs und Webanwendungen sind zwischen Januar 2023 und Juni 2024 von knapp 14…

2 Stunden ago

Universitätsmedizin Essen setzt für E-Mail-Sicherheit auf NoSpamProxy

Mit täglich über 45.000 eingehenden E-Mails ist die IT-Abteilung des Klinikums durch Anhänge und raffinierte…

2 Stunden ago

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

2 Tagen ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

3 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

4 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

4 Tagen ago