Categories: Data

AWS integriert Spark in Elastic MapReduce

Amazon Web Services hat den Webdienst Elastic MapReduce (EMR) um eine Unterstützung von Apache Spark erweitert. Nutzer können die Verarbeitungs-Engine auf Amazon Elastic Compute Cloud (EC2) Instanzen erstellen, verwalten und skalieren.

Spark nutzt AWS zufolge die Vorteile von Amazon EMR FS (EMRFS), um direkt auf Daten in Amazon Simple Storage Service (S3) und Kosten für die Verwendung von EC2-Kapazitäten zu senken.

EMR unterstützt die Spark-Version 1.3.1 und nutzt Hadoop Yarn als Cluster-Manager. Zwar konnte bereits zuvor Spark auf EMR eingesetzt werden, aber durch die integrierte Unterstützung soll die Verwendung der Engine vereinfacht werden Administratoren können beispielsweise über die AWS Management-Konsole direkt einen Cluster erstellen.

Spark beinhaltet Spark SQL, MLlib, Spark Streaming und GraphX. Nutzer können auch Ganglia auf Amazon EMR installieren, um mehr Überwachungsmöglichkeiten in Sparks zu integrieren. Unter anderem ist es möglich Arbeitslasten zu Spark zu senden.

Spark war 2009 an der Universität Berkeley als Forschungsprojekt gestartet worden, um ein Cluster-Computing-Framework für Arbeitslasten zu schaffen, für die Hadoop schlecht geeignet ist. 2010 erfolgte die Offenlegung des Codes. 2014 trugen mehr als 450 Unterstützer Quelltext bei. Die Erfinder von Spark haben inzwischen das Unternehmen Databricks gegründet, das als Distributor von Spark eine Komplettlösung für Datenwissenschaftler und Entwickler anbietet.

Bereits Anfang der Woche hatte IBM bekanntgegeben, dass es sich bei Apache Spark engagieren will. So sollen sich künftig bei IBM bis zu 3500 Entwickler mit Projekten rund um Spark beschäftigen. Zur gleichen Zeit ist auch Version 1.4 der quelloffenen In-memory-Datenverarbeitungs-Engine erschienen.

In der Version Spark 1.4 führt Spark die Unterstützung für Python 3 und die Statistik-Sprache R ein. Mit einer Dataframe API lassen Spark SQL und die DataFrame-Library auch um Fensterfunktionen erweitern, über die sich Statistiken auswerten lassen.

Andre Borbe

Andre ist Jahrgang 1983 und unterstützte von September 2013 bis September 2015 die Redaktion von silicon.de als Volontär. Erste Erfahrungen sammelte er als Werkstudent in den Redaktionen von GMX und web.de. Anschließend absolvierte er ein redaktionelles Praktikum bei Weka Media Publishing. Andre hat erfolgreich ein Studium in politischen Wissenschaften an der Hochschule für Politik in München abgeschlossen. Privat interessiert er sich für Sport, Filme und Computerspiele. Aber die größte Leidenschaft ist die Fotografie.

Recent Posts

KI auf dem Prüfstand

LLMs besitzen einerseits innovative neue Fähigkeiten, stellen Unternehmen allerdings auch vor diverse Herausforderungen: ob EU…

17 Stunden ago

Rechenzentren: Deutschland verliert Anschluss

Server-Ausbau in den USA und China macht große Fortschritte, deutscher Weltmarktanteil sinkt. Lichtblicke in Frankfurt…

21 Stunden ago

KI steigert Nachfrage nach hybriden Workplace-Umgebungen

Der Markt für Workplace Services gerät in Bewegung. Das bestmögliche digitale Nutzererlebnis gilt als Schlüssel…

22 Stunden ago

Hagebau erreicht E-Mail-Sicherheit mit der NoSpamProxy Cloud

Schutz für 10.000 Postfächer über rund 200 Domains: Private-Stack-Variante kombiniert Vorteile einer Cloud-Lösung mit Sicherheit…

2 Tagen ago

Rechenzentrumsnetzwerke als Schlüssel für Desaster Recovery

Huawei Connect Paris: Innovationen rund um Data Center, Storage und IT-Sicherheit.

2 Tagen ago

Cybersecurity mit KI: Strategischer Vorteil oder Sicherheitsrisiko?

Mit KI optimieren Hacker ihre Angriffsversuche. Ist CIAM eine Lösung, mit der sich Unternehmen vor…

2 Tagen ago