Hadoop 2.0 lässt Batch-Verarbeitung hinter sich

Hortonworks stellt eine Preview auf Hadoop 2.0 vor: Wichtigster neuer Baustein ist hier YARN, das parallele Analyse-Prozesse innerhalb eines Cluster ermöglicht. Quelle: Hortonworks
Hortonworks stellt eine Preview auf Hadoop 2.0 vor: Wichtigster neuer Baustein ist hier YARN, das parallele Analyse-Prozesse innerhalb eines Cluster ermöglicht. Quelle: Hortonworks

Mit HDP 2.0 stellt das Unternehmen eine architekturelle Neuausrichtung von Hadoop vor. Wichtigste Neuerung dürfte YARN sein. YARN steht für (Yet Another Resouce Negotiator). Dieses Tool ist eine Weiterentwicklung des MapReduce-Job-Scheduler.


YARN erweitert die Fähigkeiten von MapReduce, das eigentlich hauptsächlich Batch-Prozesse verwaltet, analysiert und dann die Ergebnisse zurück gibt.

YARN hingegen ist laut Hortonworks vielmehr ein Framework, das nicht nur Batch-Prozesse analysieren kann, sondern auch Daten-Streams und zudem interaktive Abfragen analysieren kann. So könnten jetzt ein Batch-Prozess und eine interaktive SQL-Abfrage in YARN parallel laufen.

Um mit Hadoop 1.0 verschiedene Jobs erledigen zu können, mussten mehrere Hadoop-Cluster vorgehalten werden. Mit YARN können innerhalb eines Clusters mehrere Jobs parallel laufen, ohne, dass ein Job sämtliche Ressourcen für sich beansprucht.

Neu ist auch Apache Tez, das MapReduce erweitert, so dass damit auch DAG-Prozesse möglich sind (Directed Acyclic Graph). Tez ermögliche damit laut Hortonworks, dass Apache Pig und Hive sehr schnelle Antwortzeiten liefern und dass diese Technologien mit Daten im Petabyte-bereich zurechtkommen. Mit Stinger könne Hive die Performance von Abfragen um den Faktor 50 beschleunigen. Zudem erweitere Stinger den Bereich der SQL-Semantics in Hadoop. Das ermögliche auch SQL-Abfragen gegen ein Hadoop-Repository zu fahren.

Mit diesen neuen Funktionen behebt Hortonsworks ein Problem, das aus der Geschichte Hadoops stammt. Ursprünglich wurde diese Plattform vor allem verwendet, um Inhalte im Web zu analysieren. Jetzt aber werde Hadoop viel breiter eingesetzt.

Die Testversion ist für Oracle Virtual Box und VMware verfügbar.

Redaktion

Recent Posts

Effizienteres KI-Training

Neuronale Netze trainieren erfordert enorme Rechenressourcen. Bisher. Ein neues Verfahren soll nun jede Menge Strom…

1 Tag ago

Private Apps und genKI bleiben hohes Risiko im Finanzdienstleistungssektor

Der aktuelle Threat Labs Report von Netskope zeigt die Hauptrisiken und enthüllt die wichtigsten Angreifergruppen.

2 Tagen ago

Biometrische Merkmale als Schlüssel für die sichere Authentifizierung

Unternehmen sind branchenübergreifend auf biometrische Identifizierungssysteme angewiesen, um Zugänge möglichst sicher und komfortabel zu gestalten.

2 Tagen ago

Qualitätssicherung: Wenn KI die KI testet

Bei der Qualitätssicherung generativer KI reichen herkömmliche Methoden nicht mehr aus. Da hilft nur eine…

3 Tagen ago

Deutschland auf Platz 2 der Cyberattacken

Analyse von Webhosting-Dienstleister Hostinger: Microsoft, Meta und OpenAI verzeichnen die meisten gemeldeten Cyberattacken.

3 Tagen ago

GEBHARDT Intralogistics setzt bei IT-Transformation auf S/4HANA

Mit SAP S/4HANA und Cloud-Technologien legt der Intralogistik-Spezialist Basis für eine zukunftsweisende IT-Architektur.

6 Tagen ago