Den Milliarden-Dollar-Bug vermeiden

(Bild: Shutterstock.com/bofotolux)

Der Ausfall bei CrowdStrike ist nur ein Symptom eines größeren Problems, wenn Unternehmen es versäumen, aus der Vergangenheit zu lernen, sagt Rob Mason von Applause.

Kein Vorfall hat die Branche so aufgerüttelt wie der globale Ausfall bei CrowdStrike. Millionen von Geräten waren betroffen, weltweit waren Systeme nicht operabel und kritische Infrastruktur lag über Stunden brach. Ein klarer Fingerzeig, wie verwundbar und voneinander abhängig Unternehmen und staatliche Einrichtungen von kritischer Software sind. Selbst kleine Nachlässigkeiten bei Software-Updates, Testansätzen und der Auswahl der Anbieter können riesige Folgen haben. Und so gilt, wer die vergangenen Fehler ignoriert, ist dazu verdammt, sie zu wiederholen. Doch wie können sich Unternehmen schützen?

Effektive Dokumentation und Prozesssteuerung

Der CrowdStrike-Ausfall unterstreicht, wie wichtig eine gründliche Dokumentation und solide Prozesssteuerung sind. Fehlen bei Änderungen an kritischer Infrastruktur, die richtigen Dokumentationen oder Prüfungen, können selbst kleine Fehler schnell zu erheblichen Ausfällen führen.

Ein Beispiel: Wenn eine Konfigurationsänderung bei einem weit verbreiteten Sicherheitsprodukt nicht ausreichend dokumentiert oder von Kollegen überprüft wird, kann dies in kürzester Zeit Millionen von Endpunkte betreffen und die Wiederherstellung zusätzlich erschweren. Eine lückenlose Dokumentation hilft nicht nur, Fehler zu vermeiden, sondern beschleunigt auch den Reaktions- und Lösungsprozess. Eine gut durchdachte Prozesssteuerung, einschließlich standardisierter Prüfungen, Risikoanalysen und Peer-Evaluierungen, schafft ein wertvolles Sicherheitsnetz. Unternehmen mit klar dokumentierten Verfahren sind weit besser darauf vorbereitet, schnell auf Probleme zu reagieren und Schäden sowie Unterbrechungen des Geschäftsablauf zu minimieren.

Umfassende Regressionstests

Der Vorfall verdeutlicht auch die Gefahren unzureichender Tests vor der Veröffentlichung von Updates. Auch wenn nicht bekannt ist, wie gründlich die Tests bei CrowdStrike tatsächlich waren, ist das Ausmaß des Ausfalls ein deutlicher Hinweis darauf, dass das Testverfahren nicht ausreichend waren. Ein branchenweites Problem, denn Updates werden zu oft ohne ausreichende Tests ausgerollt.

Ein häufiger Fehler ist das Fehlen diversifizierter Testbedingungen, wie zum Beispiel unterschiedliche Hardware-Konfigurationen, Software-Versionen und regionale Besonderheiten. Um großflächige Ausfälle zu vermeiden, sollten Teams umfassende Regressionstests durchführen – nicht nur in den direkt betroffenen Bereichen der Software. Sandbox-Umgebungen sollten ausreichend groß sein und realistische Szenarien nachbilden. Nur durch Tests in verschiedenen Betriebssystemen und geografischen Regionen kann sichergestellt werden, dass auch kleine Updates keine unvorhergesehenen Fehler einführen.

Stufenweise Rollouts und Rückfallmechanismen

Stufenweise Rollouts, wie A/B-Tests oder Canary-Tests, sind effektive Schutzmaßnahmen gegen weitreichende Fehler. Bei CrowdStrike wurde das Update scheinbar nicht schrittweise eingeführt, andernfalls wäre ein frühzeitiges Erkennen von Problemen möglich gewesen.

Stufenweise Rollouts begrenzen nicht nur die Fehlerreichweite, sondern ermöglichen es auch, subtile Probleme zu identifizieren, die bei ersten Tests möglicherweise unentdeckt bleiben. Canary-Tests, bei denen eine neue Version einer Anwendung zunächst nur für eine kleine Nutzergruppe bereitgestellt wird, können Fehler in realen Umgebungen erkennen und ermöglichen so eine sofortige und automatische Rücknahme des Updates, bevor die gesamte Kundschaft betroffen ist. Für Unternehmen mit Millionen von Endpunkten ist es entscheidend, Rückfallmechanismen in die Release-Strategie zu integrieren, um bei Bedarf schnell handeln zu können.

Multi-Vendor-Strategie

Eine weitere wichtige Erkenntnis aus dem CrowdStrike-Ausfall ist das Risiko einer zu starken Abhängigkeit von nur einem Anbieter. Die Kunden, die sich ausschließlich auf CrowdStrike verlassen haben, waren am härtesten betroffen, da sie keine Alternativen zur Verfügung hatten. Diese Schwäche unterstreicht die Notwendigkeit, kritische Systeme wie Sicherheits- und Endpunktlösungen auf mehrere Anbieter zu verteilen.

Eine Multi-Vendor-Strategie senkt nicht nur das Risiko bei einem Ausfall, sondern gibt Unternehmen auch mehr Kontrolle über ihre Infrastruktur. Durch eine flexible Anbieterstrategie können Unternehmen im Falle eines Ausfalls oder einer Geschäftsaufgabe schnell auf andere Anbieter umsteigen und die operative Resilienz sicherstellen. Diese Strategie fördert auch den Wettbewerb unter den Anbietern und sorgt für Innovation, faire Preise und hohe Standards.

Den Milliarden-Dollar-Bug vermeiden

Der CrowdStrike-Ausfall war ein Weckruf und zeigt, wie schnell ein kleiner Fehler zu einem milliardenschweren Problem werden kann. Solche Ausfälle sind kein Einzelfall und können auch andernorts zu weitreichenden Schäden und Einnahmeverlusten führen.

Kunden und Anbieter sollten auf eine lückenlose Dokumentation setzen, in umfassende Tests investieren und bewährte Praktiken für Releases anwenden, um die Auswirkungen solcher Fehler zu minimieren. Externe Tester:innen ermöglichen weitreichendere Tests und bieten wertvolle neue Blickwinkel.

Rob Mason

ist Chief Technology Officer bei Applause.