AWS integriert Spark in Elastic MapReduce
Mit der Unterstützung von Spark durch Amazons Webdienst sollen Unternehmen die Möglichkeit erhalten, die Verarbeitungs-Engine zu nutzen ohne eine eigene Infrastruktur aufzubauen. Auch IBM engagiert sich bei Apache Spark.
Amazon Web Services hat den Webdienst Elastic MapReduce (EMR) um eine Unterstützung von Apache Spark erweitert. Nutzer können die Verarbeitungs-Engine auf Amazon Elastic Compute Cloud (EC2) Instanzen erstellen, verwalten und skalieren.
Spark nutzt AWS zufolge die Vorteile von Amazon EMR FS (EMRFS), um direkt auf Daten in Amazon Simple Storage Service (S3) und Kosten für die Verwendung von EC2-Kapazitäten zu senken.
EMR unterstützt die Spark-Version 1.3.1 und nutzt Hadoop Yarn als Cluster-Manager. Zwar konnte bereits zuvor Spark auf EMR eingesetzt werden, aber durch die integrierte Unterstützung soll die Verwendung der Engine vereinfacht werden Administratoren können beispielsweise über die AWS Management-Konsole direkt einen Cluster erstellen.
Spark beinhaltet Spark SQL, MLlib, Spark Streaming und GraphX. Nutzer können auch Ganglia auf Amazon EMR installieren, um mehr Überwachungsmöglichkeiten in Sparks zu integrieren. Unter anderem ist es möglich Arbeitslasten zu Spark zu senden.
Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. 2010 erfolgte die Offenlegung des Codes. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler anbietet.
Bereits Anfang der Woche hatte IBM bekanntgegeben, dass es sich bei Apache Spark engagieren will. So sollen sich künftig bei IBM bis zu 3500 Entwickler mit Projekten rund um Spark beschäftigen. Zur gleichen Zeit ist auch Version 1.4 der quelloffenen In-memory-Datenverarbeitungs-Engine erschienen.
In der Version Spark 1.4 führt Spark die Unterstützung für Python 3 und die Statistik-Sprache R ein. Mit einer Dataframe API lassen Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitern, über die sich Statistiken auswerten lassen.