Pentaho wurde 2016 von Hitachi Vantara gekauft und wird seitdem im Big Data Analytics- und IoT-Bereich weiterentwickelt. Die Plattform soll die bestehenden Lücken zwischen der Integration der Informationen und Verarbeitung bis zur Erkenntnisgewinnung in der Datenpipeline schließen. Fast die Hälfte des 2,8 Milliarden Dollar umfassenden Forschungsetats geht in IoT und Big Data, wo Hitachi 2.500 Patente hält. Thomson Reuter zählt das Unternehmen zu den Top 100 Global Innovators.
Auf dem Community Meeting trafen sich Pentaho-Anwender aus der ganzen Welt, um sich drei Tage lang zu Weiterentwicklungen, Trends und Erkenntnissen zu auszutauschen. Das Treffen wurde von Hitachi Vantara und Partner it-novum organisiert.
Pedro Alves, der von seiner früheren Rolle als Pentaho Community Manager bei Hitachi Vantara zum Leiter Produktdesign aufgestiegen und damit immer noch verantwortlich für Pentaho ist, stellte die wichtigsten Ziele für die Weiterentwicklung von Pentaho vor: die Integration ins Hitachi-Ökosystem, die bessere Anbindung von Daten in der Cloud sowie optimierte Auswertungen und Visualisierungen.
Das CERN ist einer der größten Anwender von Pentaho. Gabriele Thiede und Jan Janke stellten das komplexe Projekt vor. Mit 23.000 Mitarbeitern ist das CERN nicht nur eine riesige Forschungsorganisation, sondern auch eine eigene Welt für sich: es betreibt nicht nur Banken, Postfilialen und Feuerwehrwachen, sondern besitzt auch ein eigenes Sozialversicherungs- und Rentensystem und Servicestellen für die Beantragung von Arbeits- und Aufenthaltsgenehmigungen, Kfz-Zulassungen etc. der Mitarbeiter.
Mit Pentaho verarbeitet das CERN die hier anfallenden Daten(prozesse). Informationen aus Personal-, Finanz-, Logistik-, ERP- und weiteren Systemen werden in einem Data Warehouse gespeichert und in Fast-Echtzeit mit einer Verzögerung von 2-15 Minuten gehalten. Für die vielen ETL-Prozesse setzt das CERN ausschließlich Pentaho Data Integration ein, für Auswertungen und Visualisierungen kommen Pentaho Business Analytics und CTools zum Einsatz.
Direkt mit Pentaho arbeiten einige hundert Fachanwender beim CERN. Die mit Pentaho erstellten Auswertungen, Formulare und offizielle Dokumente stehen jedoch der gesamten Organisation zur Verfügung. Das sind z.B. Berichte, Zertifikate und Bescheinigungen wie die jährliche Personalstatistik für die Mitgliederstaaten oder die zahlreichen Formulare für die Zollbestimmungen. Für Self-Service-Auswertungen für alle Mitarbeiter steht ein eigenes Portal bereit. Auch im Einkauf nutzt das CERN Pentaho, um in einem Live-Dashboard die Ausgaben für Material und Services pro Lieferantenland zu überwachen.
In einer so großen und komplexen Organisation wie dem CERN steht die Verarbeitung und Auswertung von Daten ständig vor neuen Herausforderungen. Beispielsweise bildet die Datenbasis nicht immer die Realität ab, da es zu rückwärtigen Datenveränderungen kommen kann. Um dennoch reproduzierbare Statistiken und Berichte erstellen zu können, reist das CERN regelmäßig zurück in die Zeit: ein bitemporales Datenmodell im Data Warehouse bildet eine zweite Zeitdimension und damit zwei Wirklichkeiten ab, eine geschäftliche und eine technische. Auf diese Weise ist es möglich, den Stand der Daten zu einem beliebigen Zeitpunkt nachzuvollziehen.
Weitere Herausforderungen betreffen die Einbindung von Daten aus der Cloud und die Einführung von Predictive Analytics. Das CERN plant zudem, Machine Learning-Algorithmen einzusetzen, die auf Modellen mit historischen Daten basieren.
In einer ähnlichen Größenordnung wie das CERN befindet sich das Realtime Governance-Projekt, das Gianluca Andreis vorstellte, Engineering Head Coach im Bereich Smart Spaces and Video Intelligence von Hitachi. Der indische Bundesstaat Andhra Pradesh hat einen „Echtzeitkontrollraum“ zur besseren Versorgung seiner 50 Millionen Einwohner eingeführt. Im riesigen Real-Time Governance Center (RTG) wertet die Regierung große Datenmengen aus, um die öffentliche Infrastruktur, Sozialprogramme, Verkehr, Wetter, Bodenbeschaffenheit etc. zu überwachen, bei Problemen rechtzeitig Maßnahmen treffen und natürliche Ressourcen besser nutzen zu können.
Das RTG ist die Reaktion auf die rasant zugenommene Landflucht und Bevölkerungsverschiebung von anderen Teilen Indiens nach Andhra Pradesh. Mit einer Fläche kleiner als Italien steht der Bundesstaat unter starkem Handlungsdruck, weiterhin die Versorgung der Bevölkerung und die öffentliche Sicherheit gewährleisten zu können. Das System führt Daten zusammen, die Sensoren und Kameras (teils in Drohnen zur Monsunüberwachung) sammeln und die in Pentaho integriert und aufbereitet werden. Die Visualisierung in Ad-Hoc Dashboards erfolgt über die Hitachi Visualization Suite. Beim RTG handelt es sich um das größte Datenkontrollzentrum in Asien.
Pentaho als effizienter Wegweiser im (Daten)dschungel des stark regulierten Gesundheitssektors Italiens war Inhalt des Vortrags von Giorgio Grillini und Virgilio Pierini. Die beiden Softwarearchitekten erstellten für ein Budget von nur 40.000 Euro eine Data Warehouse- und Reportinglösung für die Akteure im italienischen Gesundheitssystem, die einen zentralen Zugriff auf medizinische Daten und Auswertungen aus 30 Datensystemen bietet.
Gesundheitsämter, Krankenhäuser und Arztpraxen können über ein Analysefrontend eigenständig und datenbasiert therapeutische Entscheidungen treffen. Betroffen sind nicht nur Abwägungen zwischen wirksamen und weniger wirksamen Medikamenten, sondern auch ob sich mit günstigen Generika der gleiche Therapieeffekt einstellt wie mit teuren Markenprodukten. So ist es z.B. möglich, den genauen Wirkungsgrad einer Arznei innerhalb einer bestimmten Altersgruppe mit festgelegten Eigenschaften herauszufinden, z.B. hoher Cholesterinspiegel, Übergewicht oder Geschlecht.
Die Herausforderungen des Projekts lagen vor allem in den gesetzlichen Rahmenbedingungen, die der Umgang mit medizinischen Daten unterliegt. Aufgrund verschiedener regionaler, nationaler und europäischer (DSGVO) Vorgaben lagen die Daten in unterschiedlichen Formaten und Nutzungsbestimmungen vor und mussten auf ein einheitliches, rechtskonformes Format gebracht werden. Um zudem Datenauswertungen in der Cloud ermöglichen zu können, anonymisiert ein eigens entwickeltes Kodierprogramm auf einer Anonymisierungsinstanz die Daten.
Ein weiterer Usecase aus dem Gesundheitsbereich zeigte, wie ETL den Wert eines Softwareprodukts enorm steigern kann. Dental Trey, ein italienisches Unternehmen mit einem Umsatz von 40 Millionen Euro im Bereich Zahnprodukte, hat seine Software um Pentaho-basierte ETL-Strecken erweitert, die Daten aus verschiedenen Wettbewerberlösungen integrieren. Die Anwender der Software profitieren dadurch von einer stark erweiterten Datenbasis für ihre Auswertungen, z.B. zum Einsatz und Nutzen von Medikamenten.
Eine Zusammenfassung aller Vorträge findet sich im Live-Blog vom Event.
Vielfach hat die Coronapandemie bestehende IT-Strukturen aufgebrochen oder gar über den Haufen geworfen – gefühlt.…
Das Covid-Jahr 2020 konnte die digitale Transformation nicht ausbremsen. Sogar ganz im Gegenteil: Viele Unternehmen…
Nach Angaben der Weltbank fehlt mehr als einer Milliarde Menschen ein offizieller Identitätsnachweis. Ohne den…
Das Thema Nachhaltigkeit ist seit vielen Jahren fester Bestandteil des Selbstverständnisses vieler Unternehmen. Wenig verwunderlich,…
Unternehmen sammeln eine Vielzahl von Daten. Doch IDC Analysten fanden in ihrer aktuellen Studie „IDC‘s…
COVID-19 hat 2020 sowohl Gesellschaft als auch Wirtschaft bestimmt. Unbestritten ist auch die katalytische Wirkung,…