Wie künstliche Intelligenz Probleme in komplexen IT-Umgebungen nicht nur identifizieren, sondern auch beheben kann und was das Zeitalter von AIOps ausmacht, erklärt Gregor Keller von AppDynamics in diesem Beitrag.
Unsere Welt ist längst digital – ebenso wie viele Geschäftsmodelle oder Prozesse in Unternehmen. Um ihren Kunden möglichst bequeme, schnelle und moderne Produkte oder Services zu bieten, setzen Unternehmen eine Vielzahl von digitalen Prozessen, Systemen und Applikationen ein. Sie setzen auf agile Modelle, die auf Multi-Cloud- und IoT-Umgebungen basieren, verteilte Dienste und Mikroservices, APIs und laufende Code-Releases – denn nur so können sie bei Innovationsthemen vorne mitspielen.
In der Konsequenz sind vielerorts hochkomplexe IT-Umgebungen entstanden. Ein einziger Fingertipp auf dem Smartphone kann beispielsweise Dutzende von Servern und Diensten und Millionen von Zeilen Code betreffen. Das ist alles schön und gut, so lange alles läuft. Kommt es aber in einem solch vernetzten System mit unzähligen Abhängigkeiten zu einem Problem, ist es für den IT-Betrieb eine enorme Herausforderung, die Quelle zu identifizieren und rechtzeitig Gegenmaßnahmen einzuleiten. Dabei ist Zeit ein besonders kritischer Faktor, denn im digitalen Zeitalter wartet kein Kunde gern.
Komplexe Systeme schwer zu überschauen
Vor diesem Hintergrund ist es enorm wichtig, dass Fehler entdeckt und behoben werden, ehe sie Auswirkungen auf den Kunden haben. Aber: Kein IT-Experte der Welt kann die Millionen von Metriken und Ereignissen durchsuchen, die heutzutage auf ihn einprasseln. Darum setzen Unternehmen ihre Hoffnung auf künstliche Intelligenz (KI) und Machine Learning. Das Versprechen: Die KI verschafft Echtzeit-Insights, mit denen umgehend passende Maßnahmen eingeleitet werden können – am besten automatisiert.
Damit ein intelligentes System effektiv arbeiten kann, benötigt es Echtzeitinformationen aus allen Bereichen, die Einfluss auf die Kundenerfahrung haben. Dabei kann es sich um Daten von Applikationen und Prozessen handeln, die auf Multi-Cloud-, Container- und serverlosen Umgebungen zum Einsatz kommen, aber auch um Erkenntnisse zur Netzwerkperformance. Diese kommen aus unterschiedlichen Quellen, müssen aber in ihrer Gesamtheit erfasst und auf einer einheitlichen Plattform kombiniert werden. Diese muss dann wiederum in der Lage sein, mittels leistungsstarker, selbstlernender Tools große Mengen an Daten zu verarbeiten, miteinander zu korrelieren, Inkonsistenzen zu erkennen und schließlich auch auszuwerten.
Der Einzug künstlicher Intelligenz in die IT-Operations macht aktuell als AIOps Schlagzeilen. Experten sprechen sogar schon vom anbrechenden Zeitalter der AIOps. Doch was heißt das nüchtern betrachtet? Eine AIOps-Plattform muss vor allem drei Dinge beherrschen:
1. Intelligente Anomalieerkennung
Eine AIOps-Plattform muss sich ständig weiterentwickeln. Dazu muss sie Daten aus unterschiedlichsten Quellen, die mittels Streaming-Analytik ins System gelangen, in Echtzeit integrieren und bewerten. Dabei gilt es, automatisch Wechselwirkungen zwischen Metriken zu erkennen und Inkonsistenzen zwischen Datensätzen zu identifizieren. So lernt die KI zunächst von selbst, was richtiges und intendiertes Verhalten der Systeme ist – ganz ohne manuelle Vorgaben oder Schwellenwerte. Sind diese Grundlagen gelegt, können Abweichungen und Probleme wesentlich genauer und schneller identifiziert werden.
2. Automatisierte Ursachenanalyse
Schlägt die intelligente Anomalieerkennung an, geht es vor allem um eine Frage: Was ist die Ursache? Hierzu mussten bislang oft stundenlang mühsam aufbereitete Daten analysiert werden. In der Ära von AIOps lassen sich vom normalen Verhalten abweichende Kennzahlen automatisch anhand maschinell erlernter Korrelationen isolieren. Eine AIOps-Plattform präsentiert dann ganz automatisch die wichtigsten Verdächtigen für die Ursache eines Problems mit einer Anwendung und zeigt klar auf, welche konkreten Auswirkungen die Abweichungen hat. So müssen Unternehmen deutlich weniger Ressourcen für die Ursachenanalyse aufwenden und kein spezielles Know-how für die Leistungsüberwachung bereithalten.
3. Automatisierte Fehlerbehebung
Ist ein Problem identifiziert und sind die möglichen Ursachen isoliert, kümmert sich die AIOps-Plattform im besten Fall auch selbstständig um die Lösung des Problems, denn sie kann selbstständig Aktionen anstoßen. Das kann in der Zukunft von offensichtlichen Schritten wie Workload-Balancing oder der Änderung einer Netzwerk-Richtlinie bis hin zum vollautomatischen Reparieren fehlerhaften Codes gehen. Je nachdem, welche Automatisierungsdienste in die Plattform eingebunden sind. Dabei ist natürlich zu überlegen, in welchen Parametern man der KI freie Hand lässt und an welcher Stelle ein Mensch eingreifen oder zumindest informiert werden sollte. In letzterem Fall würde dann einfach ein Ticket oder eine E-Mail generiert – so wie es schon seit jeher üblich ist.
Fazit
Unternehmen sind heutzutage auf hochkomplexe IT-Systeme angewiesen. Das macht eine schnelle Fehlerbehebung umso wichtiger, aber auch umso schwieriger. KI in Form einer AIOps-Plattform kann dabei helfen. AIOps hat das Potenzial, eine zentrale Schnittstelle – vergleichbar mit dem Nervensystem eines Menschen – für eine Vielzahl verbundener Datenquellen zu schaffen. Die besten AIOps-Plattformen stehen Drittanbietern offen, um Probleme nicht nur mit der Anwendung selbst, sondern auch mit dem Netzwerk und der Infrastruktur zu überwachen, zu analysieren und zu beheben.
Bei AppDynamics zum Beispiel wenden wir KI und Machine Learning an, um Probleme zu verstehen und letztlich automatisierte Aktionen durch Drittsysteme wie Cisco ACI, ServiceNow und Kubernetes auszulösen. Doch bei allen spannenden zusätzlichen Möglichkeiten, die eine intelligente AIOps-Plattform mit sich bringt, muss sie vor allem Erkenntnisse im Businesskontext einordnen können. Denn letztlich ist am Ende entscheidend, welche Auswirkung ein Ereignis und seine Behebung im IT-System auf einen Geschäftsvorgang oder das Geschäft insgesamt hat.