Categories: Cloud

Echtzeit- und Batch-Integration eröffnet neue Wege

Die Big-Data-Verarbeitungsplattformen von Hadoop verfügen über zwei Integrationsmodi, die unterschiedlichen Nutzungstypen entsprechen, aber zunehmend austauschbar eingesetzt werden. Der “Batch”- oder “asynchrone” Modus ermöglicht das Programmieren typischer Datenverarbeitungsfunktionen über Nacht.

Beispiele für die Integration des Batch-Modus: eine Bankfiliale, die die täglichen Einzahlungen verbucht, ein Distributionsunternehmen, das eine neue Produktnomenklatur verwendet oder aktualisiert oder ein Unternehmenseigentümer, der den gesamten Umsatz für alle Zweigstellen und einen bestimmten Zeitraum konsolidiert. Die Hauptvorteile der Verwendung des Batch-Modus sind die Möglichkeit, riesige Datensätze zu verarbeiten und gleichzeitig die meisten herkömmlichen Unternehmensanalyseanforderungen zu erfüllen (Geschäftsmanagement, Kunden- und Marketingexpertise, Entscheidungsunterstützung usw.).

Eine der Einschränkungen der Batch-Verarbeitung ist aber die Latenzzeit, die eine Echtzeit-Integration unmöglich macht. Das stellt für Unternehmen, die Kundenanforderungen sofort erfüllen müssen, ein schwieriges Problem dar, beispielsweise wenn einem Internetbenutzer während eines Kaufs eine Empfehlung gemacht wird (zum Beispiel bei Amazon), wenn eine Anzeige innerhalb von Millisekunden auf einer Website veröffentlicht wird, die sich an einen bestimmten Internetnutzer richtet, wenn sofort unterschiedliche Elemente berücksichtigt werden müssen, um die Entscheidungsfindung zu verbessern (wie zum Beispiel Witterungs- oder Verkehrsbedingungen) oder wenn Betrug entdeckt werden muss.

Im Hadoop-Ökosystem gibt es jetzt eine neue Lösung für dieses Problem: Das von der Apache Foundation entwickelte Produkt Spark bietet jetzt einen synchronen Integrationsmodus (fast in Echtzeit), der auch als “Streaming” bezeichnet wird. Diese Multifunktionsanalyse-Engine ist hervorragend an die schnelle Verarbeitung großer Datensätze angepasst und umfasst die gleichen Funktionen wie MapReduce, allerdings bei einer viel besseren Performance. Sie ermöglicht die Verwaltung sowohl der Datenerfassung als auch der Datenverarbeitung und bietet gleichzeitig eine 50 bis 100 Mal schnellere Verarbeitungsgeschwindigkeitist als MapReduce.

Derzeit unterstützt Talend beide Integrationsmodi und ermöglicht es, auf transparente Weise von einem auf den anderen zu wechseln, während die meisten Lösungen auf dem Markt eine Generalüberholung der Datenintegrations-Layer erfordern. Dies vereinfacht nicht nur die Verarbeitungsentwicklung, sondern auch die Verarbeitung des gesamten Lebenszyklus (Updates, Änderungen, Wiederverwendung). Angesichts der zunehmenden Komplexität von Technologieangeboten im Bereich von Big Data war Talend bemüht, zu gewährleisten, dass alle Hadoop-Marktdistributionen (insbesondere die neuesten Versionen) unterstützt werden, während gleichzeitig deren Komplexität durch eine einfache und intuitive Oberfläche maskiert wird. Spark ist jetzt das Herz des Batch- und Echtzeit-Integrationsangebots von Talend.

Darüber hinaus bietet Spark neue Funktionen, die vor dem Hintergrund von Echtzeitaktivitäten Unternehmen expandierende Optionen bieten. Ein Beispiel ist die Funktionsunterstützung für das “maschinelle Lernen”, derzeit ein natives Spark-Feature. Der Hauptvorteil des maschinellen Lernens ist die Verbesserung der Verarbeitung aufgrund des Lernens.

Die Kombination von Batch- und Echtzeitverarbeitung zur Erfüllung der Anforderungen von Unternehmen von heute steht ebenfalls direkt bevor: die Einrichtung einer Verarbeitungskette, die wöchentliche (Batch-) Umsatzzahlen nutzt, um prädiktive Funktionen zu entwickeln, die von diesen Informationen unterstützt werden, sowie die Beschleunigung der Entscheidungsfindung im Echtzeitmodus, um das Verpassen von Gelegenheiten, die in Echtzeit auftreten, zu vermeiden.

Die Vorteile für E-Commerce-(Empfehlungs-) Websites sind offensichtlich, wie auch für das Marketing insgesamt: Kombination von Browsing-Verlaufsdaten mit den neuesten Informationen aus den sozialen Netzen. Für Banken kann die Erstellung eines “Datensees” (“Data Lake“), in dem alle Marktdaten (intern und extern) ohne Volumenbeschränkungen kompiliert werden, die Entwicklung eines prädiktiven Programms durch die Integration anderer Datentypen ermöglichen. Im Bankwesen ermöglicht diese Lösung auch, dass riesige Datenvolumen mit wichtigen Informationen extrahiert werden können, um unterschiedliche Szenarien zu prognostizieren (prädiktive Pflege).

Letztendlich betrifft dies alle Geschäftssektoren, von der Landwirtschaft bis zur Großhandelsdistribution, von der Bereitstellung von Dienstleistungen bis zu digitalen Dienstanbietern, von der Fertigung bis zum öffentlichen Sektor und so weiter. Durch die Einführung dieses neuen Tools erhalten Unternehmen ein bisher unerreichtes Analysepotenzial, und sie können sich präziser mit ihrer aktuellen Geschäftsrealität ausrichten.

Talend ist der einzige Akteur im Big-Data-Bereich, der einerseits eine Umwandlungslösung und schriftliche Datenverarbeitung anbietet, die speziell auf die Nutzung sowohl von Batch- als auch Echtzeit-Datenintegrationsfunktionen abzielen, und andererseits Big Data bietet, welches alle herkömmlichen Integrationsfunktionen (Datenqualität, MDM, Daten-Governance) integriert und dadurch die Anforderungen der größten IT-Managementunternehmen anspricht, für die eine Enterprise Ready-Lösung einfach keine Option darstellt.

Redaktion

Recent Posts

Cloud-Beschleuniger Covid

Vielfach hat die Coronapandemie bestehende IT-Strukturen aufgebrochen oder gar über den Haufen geworfen – gefühlt.…

4 Jahre ago

Trends 2021 – Vier Entwicklungen bei (Graph)Datenbanken und Datenanalyse

Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen…

4 Jahre ago

Ein globales digitales Identitätssystem muss Vertrauen und Transparenz schaffen

Nach Angaben der Weltbank fehlt mehr als einer Milliarde Menschen ein offizieller Identitätsnachweis. Ohne den…

4 Jahre ago

Nachhaltigkeit wird zu einem der Schlüsselkriterien in der Tech-Industrie

Das Thema Nachhaltigkeit ist seit vielen Jahren fester Bestandteil des Selbstverständnisses vieler Unternehmen. Wenig verwunderlich,…

4 Jahre ago

Chief Data Officer: Garanten für eine stärkere Datennutzung in Unternehmen

Unternehmen sammeln eine Vielzahl von Daten. Doch IDC Analysten fanden in ihrer aktuellen Studie „IDC‘s…

4 Jahre ago

Ethik, Regulierungen, Cloud: Der Nebel lichtet sich

COVID-19 hat 2020 sowohl Gesellschaft als auch Wirtschaft bestimmt. Unbestritten ist auch die katalytische Wirkung,…

4 Jahre ago