Batch- und Echzeitverarbeitung müssen nicht unbedingt zwei verschiedenen Welten angehören, findet Harald Weimer von Talend.
Die Big-Data-Verarbeitungsplattformen von Hadoop verfügen über zwei Integrationsmodi, die unterschiedlichen Nutzungstypen entsprechen, aber zunehmend austauschbar eingesetzt werden. Der “Batch”- oder “asynchrone” Modus ermöglicht das Programmieren typischer Datenverarbeitungsfunktionen über Nacht.
Beispiele für die Integration des Batch-Modus: eine Bankfiliale, die die täglichen Einzahlungen verbucht, ein Distributionsunternehmen, das eine neue Produktnomenklatur verwendet oder aktualisiert oder ein Unternehmenseigentümer, der den gesamten Umsatz für alle Zweigstellen und einen bestimmten Zeitraum konsolidiert. Die Hauptvorteile der Verwendung des Batch-Modus sind die Möglichkeit, riesige Datensätze zu verarbeiten und gleichzeitig die meisten herkömmlichen Unternehmensanalyseanforderungen zu erfüllen (Geschäftsmanagement, Kunden- und Marketingexpertise, Entscheidungsunterstützung usw.).
Eine der Einschränkungen der Batch-Verarbeitung ist aber die Latenzzeit, die eine Echtzeit-Integration unmöglich macht. Das stellt für Unternehmen, die Kundenanforderungen sofort erfüllen müssen, ein schwieriges Problem dar, beispielsweise wenn einem Internetbenutzer während eines Kaufs eine Empfehlung gemacht wird (zum Beispiel bei Amazon), wenn eine Anzeige innerhalb von Millisekunden auf einer Website veröffentlicht wird, die sich an einen bestimmten Internetnutzer richtet, wenn sofort unterschiedliche Elemente berücksichtigt werden müssen, um die Entscheidungsfindung zu verbessern (wie zum Beispiel Witterungs- oder Verkehrsbedingungen) oder wenn Betrug entdeckt werden muss.
Im Hadoop-Ökosystem gibt es jetzt eine neue Lösung für dieses Problem: Das von der Apache Foundation entwickelte Produkt Spark bietet jetzt einen synchronen Integrationsmodus (fast in Echtzeit), der auch als “Streaming” bezeichnet wird. Diese Multifunktionsanalyse-Engine ist hervorragend an die schnelle Verarbeitung großer Datensätze angepasst und umfasst die gleichen Funktionen wie MapReduce, allerdings bei einer viel besseren Performance. Sie ermöglicht die Verwaltung sowohl der Datenerfassung als auch der Datenverarbeitung und bietet gleichzeitig eine 50 bis 100 Mal schnellere Verarbeitungsgeschwindigkeitist als MapReduce.
Derzeit unterstützt Talend beide Integrationsmodi und ermöglicht es, auf transparente Weise von einem auf den anderen zu wechseln, während die meisten Lösungen auf dem Markt eine Generalüberholung der Datenintegrations-Layer erfordern. Dies vereinfacht nicht nur die Verarbeitungsentwicklung, sondern auch die Verarbeitung des gesamten Lebenszyklus (Updates, Änderungen, Wiederverwendung). Angesichts der zunehmenden Komplexität von Technologieangeboten im Bereich von Big Data war Talend bemüht, zu gewährleisten, dass alle Hadoop-Marktdistributionen (insbesondere die neuesten Versionen) unterstützt werden, während gleichzeitig deren Komplexität durch eine einfache und intuitive Oberfläche maskiert wird. Spark ist jetzt das Herz des Batch- und Echtzeit-Integrationsangebots von Talend.
Darüber hinaus bietet Spark neue Funktionen, die vor dem Hintergrund von Echtzeitaktivitäten Unternehmen expandierende Optionen bieten. Ein Beispiel ist die Funktionsunterstützung für das “maschinelle Lernen”, derzeit ein natives Spark-Feature. Der Hauptvorteil des maschinellen Lernens ist die Verbesserung der Verarbeitung aufgrund des Lernens.
Die Kombination von Batch- und Echtzeitverarbeitung zur Erfüllung der Anforderungen von Unternehmen von heute steht ebenfalls direkt bevor: die Einrichtung einer Verarbeitungskette, die wöchentliche (Batch-) Umsatzzahlen nutzt, um prädiktive Funktionen zu entwickeln, die von diesen Informationen unterstützt werden, sowie die Beschleunigung der Entscheidungsfindung im Echtzeitmodus, um das Verpassen von Gelegenheiten, die in Echtzeit auftreten, zu vermeiden.
Die Vorteile für E-Commerce-(Empfehlungs-) Websites sind offensichtlich, wie auch für das Marketing insgesamt: Kombination von Browsing-Verlaufsdaten mit den neuesten Informationen aus den sozialen Netzen. Für Banken kann die Erstellung eines “Datensees” (“Data Lake“), in dem alle Marktdaten (intern und extern) ohne Volumenbeschränkungen kompiliert werden, die Entwicklung eines prädiktiven Programms durch die Integration anderer Datentypen ermöglichen. Im Bankwesen ermöglicht diese Lösung auch, dass riesige Datenvolumen mit wichtigen Informationen extrahiert werden können, um unterschiedliche Szenarien zu prognostizieren (prädiktive Pflege).
Letztendlich betrifft dies alle Geschäftssektoren, von der Landwirtschaft bis zur Großhandelsdistribution, von der Bereitstellung von Dienstleistungen bis zu digitalen Dienstanbietern, von der Fertigung bis zum öffentlichen Sektor und so weiter. Durch die Einführung dieses neuen Tools erhalten Unternehmen ein bisher unerreichtes Analysepotenzial, und sie können sich präziser mit ihrer aktuellen Geschäftsrealität ausrichten.
Talend ist der einzige Akteur im Big-Data-Bereich, der einerseits eine Umwandlungslösung und schriftliche Datenverarbeitung anbietet, die speziell auf die Nutzung sowohl von Batch- als auch Echtzeit-Datenintegrationsfunktionen abzielen, und andererseits Big Data bietet, welches alle herkömmlichen Integrationsfunktionen (Datenqualität, MDM, Daten-Governance) integriert und dadurch die Anforderungen der größten IT-Managementunternehmen anspricht, für die eine Enterprise Ready-Lösung einfach keine Option darstellt.