Big Data: Wer braucht eigentlich Hadoop?

Yahoo, IBM und Facebook nutzen Hadoop, ein Projekt das nicht umsonst einen Elefanten im Logo hat. Allerdings bringen die bis in den Petabyte-Bereich skalierbare Cloud-Technologie für unstrukturierte Inhalte und die eingebetteten Advanced-Analytics-Funktionen auch einige Probleme mit sich. Die wenigsten Anwender beherrschen damit zusammenhängende Technologien, wie etwa Googles Algorithmus MapReduce.

In einem Blog erklärt der Forrester-Analyst James Kobielus, dass Hadoop zwar in einigen Unternehmen bereits Realität ist, dass aber diese Implementierungen bislang neben MapReduce als Modelierungs-Abstraktionsschicht, kaum Gemeinsamkeiten aufweisen. Trotz einiger Hindernisse lässt Kobielus keinen Zweifel aufkommen, dass Hadoop die Cloud-Data-Warehousing-Technologie der Zukunft ist.

Was gibt es noch zu tun? Die Standardisierung fehlt bislang. Die Apache Software Foundation, die diese Technologie inzwischen zu einem Top-Level-Projekt erhoben hat, sollte einen Standardisierungsprozess initiieren. Der Grad der Standardisierung, den die SOA-Welt schon vorweisen könne, müsse im Bereich Big Data erst noch vollzogen werden.

Ein weiteres Problem ist, dass derzeit noch zu wenige Anbieter Hadoop-Kerntechnologien wie Hadoop Distributed File System (HDFS), Hive oder Pig unterstützten. Bislang unterstützten nur IBM und EMC Greenplum Hadoop mit zentralen Lösungen. “Andere führende EDW-Vendors (Enterprise Data Warehouse) haben Hadoop-Schnittstellen, die nur eine Armlänge weit reichen”, kritisierte Kobielus. Auch das sei ein schwerer Hinderungsgrund für eine großflächige Verbreitung.

An anderer Stelle erklärt Kobielus: “Wenn wir sehen, wie viel an allermodernster Cloud-Analytic in Hadoop-Clustern passiert, dann ist es nur eine Frage der Zeit, bis alle EDW-Vendors Hadoop zum Herzstück ihrer Architekturen machen.” Spätestens in ein bis zwei Jahren werde es laut Ansicht von Kobielus so weit sein. In einem ersten Schritt aber werden es zunächst Konnektoren sein, mit denen die Hersteller ihre Produkte mit Hadoop-Technologien verbinden. Hersteller, die diesen Schritt nicht freiwillig gehen, werde die Gegebenheiten des Marktes zwingen, entsprechende Schnittstellen einzubauen, glaubt Kobielus.

Neben IBM und ECM ist Informatica einer der ersten Hersteller, die einen derartigen Konnektor anbieten. Eine Hadoop-Schnittstelle ist nun auch Bestandteil von Informatica 9.1. So verfügt diese Version über einen Konnektor für HDFS, der Anwendern erlaubt, Daten über einen Hadoop-Cluster zu verarbeiten. Damit entfalle auch die Notwenigkeit von speziellen Kenntnissen über Hadoop, wirbt Informatica, das sich mit dieser Veröffentlichung ganz dem Big Data verschrieben hat. Anders aber als die Integration mit Datenbanken wie Oracle oder DB2, müssen die Konnektoren für Hadoop und für soziale Netze wie Facebook, Twitter oder LinkedIn gesondert erworben werden.

Hadoop steht also noch in einem recht frühen Stadium. Und dem Vorbild von Informatica werden vermutlich noch andere Anbieter in den nächsten Wochen und Monaten folgen. Was Kobielus außerdem fordert, sind IDEs (Integrated Development Environments) für Hadoop von Herstellern wie Informatica.

Aber wenn es erst einmal so weit ist, dann werden “Entwickler Inline-Analytics-Modelle schaffen, die eine schwindelerregende Bandbreite von Clouds, Event Streams, Dateisystemen, Datenbanken, Complex-Event-Processing-Plattformen, Business-Process-Management-Systeme und Information-as-a-Services mit einbeziehen”.

Silicon-Redaktion

View Comments

  • Hadoop überschätzt
    Meiner Meinung nach wird Hadoop derzeit massiv gehyped und überschätzt. Hadoop ist prima für die eher batch-mäßige Verarbeitung von großen Datenmengen, kann aber keine kurzen Antwortzeiten (Near-Realtime-Analytics) liefern. Dies hat mittlerweile auch Google zugegeben, die ja eigentlich den ganzen Map Reduce Hype ausgelöst hatten. Für Abfragen setzt Google eine Architektur namens Dremel ein. Zusätzlich ist Hadloop ziemlich komplex. Man muss verschiedenste Module aus dem "Hadoop-Ecosystem" installieren, konfigurieren etc. um die Funktionalitäten bereitzustellen, die ein klassisches DBMS von Hause aus mitliefert. Map Reduce ist ein einfaches, effiektives System um Aufgaben zu parallelisieren. Effizient ist es wohl eher nicht. Die klassischen bekannten Installationen bei den großen Anwender verfügen daher über hunderte, tausende oder noch mehr Servern. Für die Analyse von großen Datenmengen sollte man daher unbeding auch auf diese Aufgabe spezialisierte Lösungen wie z.B.Vertica, Netezza oder ParStream berücksichtigen.

Recent Posts

Studie: Rund ein Drittel der APIs sind ungeschützt

Angriffe auf APIs und Webanwendungen sind zwischen Januar 2023 und Juni 2024 von knapp 14…

3 Tagen ago

Universitätsmedizin Essen setzt für E-Mail-Sicherheit auf NoSpamProxy

Mit täglich über 45.000 eingehenden E-Mails ist die IT-Abteilung des Klinikums durch Anhänge und raffinierte…

3 Tagen ago

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

5 Tagen ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

6 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

7 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

7 Tagen ago