Wie transformiert man Daten zu Erkenntnissen? Diese Frage stand im Mittelpunkt des Pentaho Community Meetings in Bologna. Auf dem Event, das zum elften Mal stattfand, tauschten sich 220 Anwender aus 25 Ländern zu der Datenintegrations- und Big Data Analytics-Plattform aus. Im Mittelpunkt standen Themen wie Smart City, IoT Analytics und Machine Learning.
Pentaho wurde 2016 von Hitachi Vantara gekauft und wird seitdem im Big Data Analytics- und IoT-Bereich weiterentwickelt. Die Plattform soll die bestehenden Lücken zwischen der Integration der Informationen und Verarbeitung bis zur Erkenntnisgewinnung in der Datenpipeline schließen. Fast die Hälfte des 2,8 Milliarden Dollar umfassenden Forschungsetats geht in IoT und Big Data, wo Hitachi 2.500 Patente hält. Thomson Reuter zählt das Unternehmen zu den Top 100 Global Innovators.
Auf dem Community Meeting trafen sich Pentaho-Anwender aus der ganzen Welt, um sich drei Tage lang zu Weiterentwicklungen, Trends und Erkenntnissen zu auszutauschen. Das Treffen wurde von Hitachi Vantara und Partner it-novum organisiert.
Pedro Alves, der von seiner früheren Rolle als Pentaho Community Manager bei Hitachi Vantara zum Leiter Produktdesign aufgestiegen und damit immer noch verantwortlich für Pentaho ist, stellte die wichtigsten Ziele für die Weiterentwicklung von Pentaho vor: die Integration ins Hitachi-Ökosystem, die bessere Anbindung von Daten in der Cloud sowie optimierte Auswertungen und Visualisierungen.
Datenprozesse in der weltweit größten Forschungsinstitution CERN
Das CERN ist einer der größten Anwender von Pentaho. Gabriele Thiede und Jan Janke stellten das komplexe Projekt vor. Mit 23.000 Mitarbeitern ist das CERN nicht nur eine riesige Forschungsorganisation, sondern auch eine eigene Welt für sich: es betreibt nicht nur Banken, Postfilialen und Feuerwehrwachen, sondern besitzt auch ein eigenes Sozialversicherungs- und Rentensystem und Servicestellen für die Beantragung von Arbeits- und Aufenthaltsgenehmigungen, Kfz-Zulassungen etc. der Mitarbeiter.
Mit Pentaho verarbeitet das CERN die hier anfallenden Daten(prozesse). Informationen aus Personal-, Finanz-, Logistik-, ERP- und weiteren Systemen werden in einem Data Warehouse gespeichert und in Fast-Echtzeit mit einer Verzögerung von 2-15 Minuten gehalten. Für die vielen ETL-Prozesse setzt das CERN ausschließlich Pentaho Data Integration ein, für Auswertungen und Visualisierungen kommen Pentaho Business Analytics und CTools zum Einsatz.
Self-Service Analysen und Reports
Direkt mit Pentaho arbeiten einige hundert Fachanwender beim CERN. Die mit Pentaho erstellten Auswertungen, Formulare und offizielle Dokumente stehen jedoch der gesamten Organisation zur Verfügung. Das sind z.B. Berichte, Zertifikate und Bescheinigungen wie die jährliche Personalstatistik für die Mitgliederstaaten oder die zahlreichen Formulare für die Zollbestimmungen. Für Self-Service-Auswertungen für alle Mitarbeiter steht ein eigenes Portal bereit. Auch im Einkauf nutzt das CERN Pentaho, um in einem Live-Dashboard die Ausgaben für Material und Services pro Lieferantenland zu überwachen.
Zeitreisen mit PDI
In einer so großen und komplexen Organisation wie dem CERN steht die Verarbeitung und Auswertung von Daten ständig vor neuen Herausforderungen. Beispielsweise bildet die Datenbasis nicht immer die Realität ab, da es zu rückwärtigen Datenveränderungen kommen kann. Um dennoch reproduzierbare Statistiken und Berichte erstellen zu können, reist das CERN regelmäßig zurück in die Zeit: ein bitemporales Datenmodell im Data Warehouse bildet eine zweite Zeitdimension und damit zwei Wirklichkeiten ab, eine geschäftliche und eine technische. Auf diese Weise ist es möglich, den Stand der Daten zu einem beliebigen Zeitpunkt nachzuvollziehen.
Weitere Herausforderungen betreffen die Einbindung von Daten aus der Cloud und die Einführung von Predictive Analytics. Das CERN plant zudem, Machine Learning-Algorithmen einzusetzen, die auf Modellen mit historischen Daten basieren.
Das größte Kontrollzentrum Asiens basiert auf Pentaho
In einer ähnlichen Größenordnung wie das CERN befindet sich das Realtime Governance-Projekt, das Gianluca Andreis vorstellte, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi. Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. Im riesigen Real-Time Governance Center (RTG) wertet die Regierung große Datenmengen aus, um die öffentliche Infrastruktur, Sozialprogramme, Verkehr, Wetter, Bodenbeschaffenheit etc. zu überwachen, bei Problemen rechtzeitig Maßnahmen treffen und natürliche Ressourcen besser nutzen zu können.
Das RTG ist die Reaktion auf die rasant zugenommene Landflucht und Bevölkerungsverschiebung von anderen Teilen Indiens nach Andhra Pradesh. Mit einer Fläche kleiner als Italien steht der Bundesstaat unter starkem Handlungsdruck, weiterhin die Versorgung der Bevölkerung und die öffentliche Sicherheit gewährleisten zu können. Das System führt Daten zusammen, die Sensoren und Kameras (teils in Drohnen zur Monsunüberwachung) sammeln und die in Pentaho integriert und aufbereitet werden. Die Visualisierung in Ad-Hoc Dashboards erfolgt über die Hitachi Visualization Suite. Beim RTG handelt es sich um das größte Datenkontrollzentrum in Asien.
Kostenoptimierungen im Gesundheitsbereich
Pentaho als effizienter Wegweiser im (Daten)dschungel des stark regulierten Gesundheitssektors Italiens war Inhalt des Vortrags von Giorgio Grillini und Virgilio Pierini. Die beiden Softwarearchitekten erstellten für ein Budget von nur 40.000 Euro eine Data Warehouse- und Reportinglösung für die Akteure im italienischen Gesundheitssystem, die einen zentralen Zugriff auf medizinische Daten und Auswertungen aus 30 Datensystemen bietet.
Gesundheitsämter, Krankenhäuser und Arztpraxen können über ein Analysefrontend eigenständig und datenbasiert therapeutische Entscheidungen treffen. Betroffen sind nicht nur Abwägungen zwischen wirksamen und weniger wirksamen Medikamenten, sondern auch ob sich mit günstigen Generika der gleiche Therapieeffekt einstellt wie mit teuren Markenprodukten. So ist es z.B. möglich, den genauen Wirkungsgrad einer Arznei innerhalb einer bestimmten Altersgruppe mit festgelegten Eigenschaften herauszufinden, z.B. hoher Cholesterinspiegel, Übergewicht oder Geschlecht.
Die Herausforderungen des Projekts lagen vor allem in den gesetzlichen Rahmenbedingungen, die der Umgang mit medizinischen Daten unterliegt. Aufgrund verschiedener regionaler, nationaler und europäischer (DSGVO) Vorgaben lagen die Daten in unterschiedlichen Formaten und Nutzungsbestimmungen vor und mussten auf ein einheitliches, rechtskonformes Format gebracht werden. Um zudem Datenauswertungen in der Cloud ermöglichen zu können, anonymisiert ein eigens entwickeltes Kodierprogramm auf einer Anonymisierungsinstanz die Daten.
Ein weiterer Usecase aus dem Gesundheitsbereich zeigte, wie ETL den Wert eines Softwareprodukts enorm steigern kann. Dental Trey, ein italienisches Unternehmen mit einem Umsatz von 40 Millionen Euro im Bereich Zahnprodukte, hat seine Software um Pentaho-basierte ETL-Strecken erweitert, die Daten aus verschiedenen Wettbewerberlösungen integrieren. Die Anwender der Software profitieren dadurch von einer stark erweiterten Datenbasis für ihre Auswertungen, z.B. zum Einsatz und Nutzen von Medikamenten.
Eine Zusammenfassung aller Vorträge findet sich im Live-Blog vom Event.
Weitere Entwicklungen und Vorträge umfassten unter anderem:
- Integration und Auswertung von Daten aus IT Service Management-Systemen für Multiprovider-Anbieter: Über die offenen Schnittstellen von Pentaho können Informationen aus verschiedensten Helpdesk-, IT-Monitoring- oder IT-Dokumentationssystemen in ein Data Warehouse geladen und dort mit anderen Daten integriert werden. Die Plattform openLighthouse erlaubt einen ganzheitlichen Blick auf alle IT-Services, auch auf die in der Cloud.
- Auswertung von Daten aus SAP-Systemen: Mit Pentaho lassen sich Informationen aus SAP (ERP, BW, HANA) integrieren und mit anderen Daten, z.B. aus der SAP Cloud Platform oder Drittsystemen integrieren. Der SAP/Pentaho Connector unterstützt derzeit die SAP Steps SAP ERP Table Input, SAP BW/ERP RFC Executor und SAP BW DSO Input, weitere Steps sind in Vorbereitung.
- Big Data OLAP mit Pentaho, Kylin und Hadoop: Der Aufbau von Big Data-Landschaften gehört zu den komplexesten IT-Projekten. Ein Modell für eine vollständig aus offenen Technologien bestehende Big Data-Landschaft stellte das spanische Softwarehaus strateBI vor. Mit Pentaho, Apache Kylin, PostgreSQL und einem Hadoop-Cluster können skalierbare und hochperformante Systeme für große Datenmengen erstellt werden. Eine Online-Demo und Benchmark zur Abfragenperformanz ist hier abrufbar.
- Realtime Streaming mit Raspberry PI und PDI: Aus dem Musikbereich stammte der Usecase zum Echtzeit-Streamen von Daten bei Millionen gleichzeitiger Anwender. Mit einer einfachen und zudem kostengünstigen Kombination aus Pentaho Data Integration und der verteilten Streaming-Plattform Apache Kafka (genutzt u.a. von Twitter, Netflix und Airbnb) auf einem Raspberry PI ist es möglich, ein Realtime Streaming mit hoher Leistung und Skalierung bei geringem Budget umzusetzen.
- Self-Service BI für Fachanwender: Die Bedürfnisse von Fachabteilungen und technischen Usern lassen sich selten miteinander in Einklang bringen. Das von Nuno Pereira, Hitachi Vantara, präsentierte Self-Service Dashboard schafft es, die Anforderungen beider Gruppen abzudecken. Entwickelt für einen Kunden aus dem Telematikbereich zur Auswertung von Verkehrsdaten, deckt das Dashboard durch den Einsatz von Analyse-Widgets die Wünsche aller Nutzergruppen im Unternehmen ab: Entwickler können eigene Widgets selbst erstellen, anpassen und eine Widget-Bücherei anlegen, während Fachanwender in Eigenregie Dashboards und Auswertungen erstellen und beliebig anpassen können. Realisiert wurde die Plattform mit den offenen Visualisierungswerkzeugen CTools.
- Video Analytics: Videos werden immer stärker zur Verbesserung der öffentlichen Sicherheit und Infrastruktur herangezogen. Videodaten allein sind aber nutzlos, sie müssen mit weiteren Informationen zusammengebracht und ausgewertet werden. Der Pentaho/HVA Connector integriert Informationen aus Bewegtbildern mit Daten aus anderen Systemen und eröffnet dadurch z.B. Städten ganz neue Möglichkeiten, Verkehrsflüsse zu gestalten und zu optimieren.
- Nützliche Plugins für Kettle Plugins: Matt Casters, Entwickler des am häufigsten eingesetzten Open Source ETL Tools Kettle (heute Pentaho Data Integration) stellte Plugins vor, die bei der Erstellung und Verwaltung von ETL-Prozessen nützlich sein können. Eine vollständige Liste findet sich auf dieser Seite.