Categories: Cloud

Hadoop wird mit In-Memory-Framework Spark zum Echtzeit-Tool

Die Apache Software Foundation hat mitgeteilt, dass das Framework Spark das Inkubationsprogramm verlassen hat und in Zukunft als Projekt der höchsten Stufe geführt wird. Spark ist ein In-Memory-Framework für verteiltes, clusterbasiertes Computing. Es basiert auf dem anderen wichtigen Apache-Projekt Hadoop.

Mit Spark wird aus Hadoop eine voll interaktive, verteilte In-Memory-Lösung. Programme sollen der Spark-Homepage zufolge “im Speicher bis zu 100-mal schneller als Hadoop MapReduce – und auf Disk immer noch 10-mal schneller” laufen können. Somit wird Hadoop zur Echtzeit-Engine.

Die Big-Data-Community hat den Schritt von Apache schon länger erwartet. Für die Community ist Spark ein wichtiger Trend. Das Framework soll dieses Jahr seinen Durchbruch erreichen. Das Projekt entstammt aus AMPLab der University of California in Berkeley. Durch das Start-up Databricks hat es mittlerweile kommerzielle Förderung erhalten. Darüber hinaus hat der führende Hadoop-Distributor Cloudera Spark ind die CDH aufgenommen. CDH steht für “Cloudera Distribution including Apache Hadoop”.

Erst im Juni 2013 hatte die Apache Software Foundation Spark in das Inkubationsprogramm aufgenommen. Die Stärken von Spark sind, dass es die Hadoop-2.0-Komponente YARN und das verwandte Projekt Shark nutzen kann. Zudem implementiert es eine SQL-on-Hadop-Engine, deren Syntax kompatibel zu Apache Hive ist. Dabei bietet es die gleichen Performancevorteilen wie gegenüber MapReduce.

Weitere Vorteile listet die Apache Software Foundation in einer Pressemeldung auf: So ermöglichen es Sparks APIs, Anwendungen schnell in Java, Python oder Scala zu schreiben. Und weiter heißt es: “Spark ist gut für maschinelles Lernen geeignet, für interaktive Daten-Abfragen und Stream-Processing. Es kann Daten aus HDFS, HBase, Cassandra ebenso wie aus beliebigen Hadoop-Datenquellen lesen.”

[mit Material von Florian Kalenda, ZDNet.de]

Tipp: Wie gut kennen Sie sich mit Open Source aus? Überprüfen Sie Ihr Wissen – mit 15 Fragen auf silicon.de.

Andre Borbe

Andre ist Jahrgang 1983 und unterstützte von September 2013 bis September 2015 die Redaktion von silicon.de als Volontär. Erste Erfahrungen sammelte er als Werkstudent in den Redaktionen von GMX und web.de. Anschließend absolvierte er ein redaktionelles Praktikum bei Weka Media Publishing. Andre hat erfolgreich ein Studium in politischen Wissenschaften an der Hochschule für Politik in München abgeschlossen. Privat interessiert er sich für Sport, Filme und Computerspiele. Aber die größte Leidenschaft ist die Fotografie.

Recent Posts

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

1 Tag ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

2 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

3 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

3 Tagen ago

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

IT-Infrastruktur-Trends 2025: Open-Source-Projekte sowie aufwändige regulatorische und Pflichtaufgaben werden das Jahr prägen.

3 Tagen ago

Stadt Kempen nutzt Onsite Colocation-Lösung

IT-Systeme werden vor Ort in einem hochsicheren IT-Safe betrieben, ohne auf bauliche Maßnahmen wie die…

4 Tagen ago