Kein Vorfall hat die Branche so aufgerüttelt wie der globale Ausfall bei CrowdStrike. Millionen von Geräten waren betroffen, weltweit waren Systeme nicht operabel und kritische Infrastruktur lag über Stunden brach. Ein klarer Fingerzeig, wie verwundbar und voneinander abhängig Unternehmen und staatliche Einrichtungen von kritischer Software sind. Selbst kleine Nachlässigkeiten bei Software-Updates, Testansätzen und der Auswahl der Anbieter können riesige Folgen haben. Und so gilt, wer die vergangenen Fehler ignoriert, ist dazu verdammt, sie zu wiederholen. Doch wie können sich Unternehmen schützen?
Der CrowdStrike-Ausfall unterstreicht, wie wichtig eine gründliche Dokumentation und solide Prozesssteuerung sind. Fehlen bei Änderungen an kritischer Infrastruktur, die richtigen Dokumentationen oder Prüfungen, können selbst kleine Fehler schnell zu erheblichen Ausfällen führen.
Ein Beispiel: Wenn eine Konfigurationsänderung bei einem weit verbreiteten Sicherheitsprodukt nicht ausreichend dokumentiert oder von Kollegen überprüft wird, kann dies in kürzester Zeit Millionen von Endpunkte betreffen und die Wiederherstellung zusätzlich erschweren. Eine lückenlose Dokumentation hilft nicht nur, Fehler zu vermeiden, sondern beschleunigt auch den Reaktions- und Lösungsprozess. Eine gut durchdachte Prozesssteuerung, einschließlich standardisierter Prüfungen, Risikoanalysen und Peer-Evaluierungen, schafft ein wertvolles Sicherheitsnetz. Unternehmen mit klar dokumentierten Verfahren sind weit besser darauf vorbereitet, schnell auf Probleme zu reagieren und Schäden sowie Unterbrechungen des Geschäftsablauf zu minimieren.
Der Vorfall verdeutlicht auch die Gefahren unzureichender Tests vor der Veröffentlichung von Updates. Auch wenn nicht bekannt ist, wie gründlich die Tests bei CrowdStrike tatsächlich waren, ist das Ausmaß des Ausfalls ein deutlicher Hinweis darauf, dass das Testverfahren nicht ausreichend waren. Ein branchenweites Problem, denn Updates werden zu oft ohne ausreichende Tests ausgerollt.
Ein häufiger Fehler ist das Fehlen diversifizierter Testbedingungen, wie zum Beispiel unterschiedliche Hardware-Konfigurationen, Software-Versionen und regionale Besonderheiten. Um großflächige Ausfälle zu vermeiden, sollten Teams umfassende Regressionstests durchführen – nicht nur in den direkt betroffenen Bereichen der Software. Sandbox-Umgebungen sollten ausreichend groß sein und realistische Szenarien nachbilden. Nur durch Tests in verschiedenen Betriebssystemen und geografischen Regionen kann sichergestellt werden, dass auch kleine Updates keine unvorhergesehenen Fehler einführen.
Stufenweise Rollouts, wie A/B-Tests oder Canary-Tests, sind effektive Schutzmaßnahmen gegen weitreichende Fehler. Bei CrowdStrike wurde das Update scheinbar nicht schrittweise eingeführt, andernfalls wäre ein frühzeitiges Erkennen von Problemen möglich gewesen.
Stufenweise Rollouts begrenzen nicht nur die Fehlerreichweite, sondern ermöglichen es auch, subtile Probleme zu identifizieren, die bei ersten Tests möglicherweise unentdeckt bleiben. Canary-Tests, bei denen eine neue Version einer Anwendung zunächst nur für eine kleine Nutzergruppe bereitgestellt wird, können Fehler in realen Umgebungen erkennen und ermöglichen so eine sofortige und automatische Rücknahme des Updates, bevor die gesamte Kundschaft betroffen ist. Für Unternehmen mit Millionen von Endpunkten ist es entscheidend, Rückfallmechanismen in die Release-Strategie zu integrieren, um bei Bedarf schnell handeln zu können.
Eine weitere wichtige Erkenntnis aus dem CrowdStrike-Ausfall ist das Risiko einer zu starken Abhängigkeit von nur einem Anbieter. Die Kunden, die sich ausschließlich auf CrowdStrike verlassen haben, waren am härtesten betroffen, da sie keine Alternativen zur Verfügung hatten. Diese Schwäche unterstreicht die Notwendigkeit, kritische Systeme wie Sicherheits- und Endpunktlösungen auf mehrere Anbieter zu verteilen.
Eine Multi-Vendor-Strategie senkt nicht nur das Risiko bei einem Ausfall, sondern gibt Unternehmen auch mehr Kontrolle über ihre Infrastruktur. Durch eine flexible Anbieterstrategie können Unternehmen im Falle eines Ausfalls oder einer Geschäftsaufgabe schnell auf andere Anbieter umsteigen und die operative Resilienz sicherstellen. Diese Strategie fördert auch den Wettbewerb unter den Anbietern und sorgt für Innovation, faire Preise und hohe Standards.
Der CrowdStrike-Ausfall war ein Weckruf und zeigt, wie schnell ein kleiner Fehler zu einem milliardenschweren Problem werden kann. Solche Ausfälle sind kein Einzelfall und können auch andernorts zu weitreichenden Schäden und Einnahmeverlusten führen.
Kunden und Anbieter sollten auf eine lückenlose Dokumentation setzen, in umfassende Tests investieren und bewährte Praktiken für Releases anwenden, um die Auswirkungen solcher Fehler zu minimieren. Externe Tester:innen ermöglichen weitreichendere Tests und bieten wertvolle neue Blickwinkel.
Rob Mason
ist Chief Technology Officer bei Applause.
Studie von Huawei und Roland Berger beleuchtet Schlüsseltrends und neue Anforderungen an Datenspeicherlösungen im KI-Zeitalter.
PwC-Studie zeigt: KI hilft vielen Unternehmen dabei, die Effizienz zu steigern, Kosten zu senken und…
Wo es früher auf Buchhalter, Schreiber und Boten ankam, geht es heute vor allem um…
Mit KI-Technologien lässt sich das Einkaufserlebnis personalisieren und der Service optimieren, sagt Gastautor Gabriel Frasconi…
Ein Großteil der weltweiten KI-Gelder fließt in den Finanzsektor. 2023 wurden in der Branche 87…
Die Übernahme des US-amerikanischen Anbieters Altair Engineering soll die Position im Markt für Computational Science…