IBM liefert Apache Spark über die Cloud

IBM Logo (Bild: IBM)

Als Teil der Bluemix-Cloud bietet IBM ab sofort einen Spark-as-a-Service an. Schon vor einigen Monaten hatte IBM deutlich gemacht, dass es große Stücke auf die Apache-Technologie hält.

IBM stellt Analytics on Apache Spark vor. Den Spark-Service hat IBM auf der IBM Insigh in Las Vegas gemacht. Bereits im Sommer hatte IBM angekündigt, 300 Millionen Dollar in diese Technologie investieren zu wollen. Neben einem eigenen Spark-Technology-Center in San Francisco hat IBM auch 3500 Entwickler für die Weiterentwicklung der Technologie bereitgestellt. Eine der nächsten größeren Projekte ist es laut IBM die Maschinenlernen-Technologie IBM SystemML in Spark zu bringen.

IBM_Spark-300x411

Indem IBM Spark in das Blumix-Ökosystem integriert, kann diese Big-Data-Technologie nun auch mit anderen analytischen Services kombiniert werden, so zum Beispiel mit Cloudant NoSQL oder dem dashDB Cloud Data Warehouse Service.

Zusammen mit dem neuen Spark-Angebot zeigt IBM auch den Insight Cloud Service, der nun auch externe Daten über Menschen, Events, Regionen und Unternehmen aus Quellen wie Twitter oder The Weather Company mit in Analysen einbezieht. Damit versucht IBM eine vollständige Analytics-Workbench anzubieten, die außerdem die Möglichkeit liefert, interne Daten mit externen Daten-Feeds zu kombinieren. Anwender können dann diese angereicherten Daten über die verschiedenen Spark-Tools auswerten.

Der Spark-Stack. (Bild: Spark)
Der Spark-Stack. (Bild: Spark)

Zudem ist Spark nicht nur eine Big-Data-Processing-Plattform, sondern unterstützt auch SQL, Graph Engine Analysis, Maschinenlernen und mit gewissen Einschränkungen auch Streaming-Data-Analytics. Dadurch ergänzt Spark das Analytics-Portfolio von IBM. Wie Derek Schoettle, General Manager des IBM Cloud Data Services (CDS)  gegenüber ZDNet.com erklärt, hat IBM bereits rund 15 Commerce- und Analytics-Produkte auf Spark migriert. Als Beispiel nennt Schoettle die DataWorks, dem IBM-Produkt für ETL und Datenvorbereitung, das dank Spark nun nur noch 5 statt 40 Millionen Code-Zeilen umfasst.