Categories: Cloud

Googles MapReduce-Alternative Dataflow jetzt als Open Source

Das Cloud-Dataflow-SDK für Java hat Google jetzt als Open Source freigegeben. Im Sommer hat Google Cloud Dataflow auf der Entwicklerkonferenz Google I/O das Big-Data-Analyse-Tool zum ersten Mal der Öffentlichkeit vorgestellt. Google will damit eine “Plattform zur Demokratisierung der Datenverarbeitung im großen Maßstab” anbieten. Datenforscher, Datenanalysten und datenzentrierte Entwickler sollen damit einfacheren und besser skalierbaren Zugang zu Informationen erhalten.

Der Cloud-Dienst Dataflow ist aus der Java-Bibliothek Flume und dem Framework MillWheel hervorgegangen, die beide intern von Google-Entwicklern genutzt wurden. “Wir haben viel darüber gelernt, wie aus Daten Einsichten entstehen, während die ursprünglichen Programmiermodelle von FlumeJava (Grundlage für Cloud Dataflow) sich intern bei Google entwickelten”, So der Google Softwareentwickler Sam McVeety im Google Cloud Platform Blog.

Im Sommer hatte Urs Hölzle, Senior Vice President for Technical Infrastructure bei Google, mitgeteilt, Dataflow habe intern das zuvor im Unternehmen entwickelte MapReduce ersetzt, das lange als unverzichtbar bei der Verarbeitung großer Datenmengen auf Computerclustern galt.

Mit Cloud Dataflow als Lösung für Big-Data-Analyse tritt Google in Konkurrenz zu Angeboten wie dem Data-Warehouse-Dienst AWS Redshift und dem Hadoop-Dienst AWS Elastic MapReduce. Die Dataflow-Anwendungen können auf der Google Cloud Platform laufen, die dafür die gesamte benötigte Infrastruktur bereitstellt. Ein Managed Service sorgt für die Verarbeitung im Streaming- oder im Batch-Modus.

Das quelloffene Software Development Kit für Cloud Dataflow erlaubt aber auch lokale Anwendungen oder den Einsatz in anderen Clouds. Das Programmiermodell ist zudem nicht an eine bestimmte Sprache gebunden. “Wir arbeiten derzeit an einer Python-3-Version des SDKs, um Entwicklern noch mehr Wahlmöglichkeiten zu geben und Dataflow für weitere Anwendungen verfügbar zu machen”, schreibt McVeety weiter.

Das Google-Dataflow-SDK für Java ist auf GitHub verfügbar.

[mit Material von Bernd Kling, ZDNet.de]

Redaktion

Recent Posts

IT 2025: IT-Führungskräfte erwarten massiven KI-Ruck

Einsatz von KI-Lösungen wirbelt auch in deutschen Unternehmen die Liste der Top-Technologieanbieter durcheinander.

1 Tag ago

Sofortzahlungen im Wandel: Sicherheit und KI als treibende Kräfte

Echtzeitüberweisungen erfüllen die Erwartungen der Nutzer an Geschwindigkeit, sind jedoch anfällig für spezifische Sicherheits- und…

1 Tag ago

Blockaden und Risiken bei APM-Projekten vermeiden

Application Portfolio Management (APM) verspricht Transparenz, mehr IT-Leistung und Effizienz – theoretisch.

3 Tagen ago

BSI-Bericht: Sicherheitslage im Cyberraum bleibt angespannt

Im Berichtszeitraum Mitte 2023 bis Mitte 2024 wurden täglich durchschnittlich 309.000 neue Schadprogramm-Varianten bekannt.

4 Tagen ago

KI-Hype in der Cybersicherheit – oder besser doch nicht?

KI kommt in der Cybersicherheit zum Einsatz, etwa um Abweichungen im Netzwerkverkehr zu identifizieren. Ist…

4 Tagen ago

Netzwerksegementierung schützt vor Angriffen über die OT

Ungepatchte und veraltetete Maschinen-Software ist ein beliebtes Einfallstor für Hacker, warnt Nils Ullmann von Zscaler…

5 Tagen ago