Kein Vorfall hat die Branche so aufgerüttelt wie der globale Ausfall bei CrowdStrike. Millionen von Geräten waren betroffen, weltweit waren Systeme nicht operabel und kritische Infrastruktur lag über Stunden brach. Ein klarer Fingerzeig, wie verwundbar und voneinander abhängig Unternehmen und staatliche Einrichtungen von kritischer Software sind. Selbst kleine Nachlässigkeiten bei Software-Updates, Testansätzen und der Auswahl der Anbieter können riesige Folgen haben. Und so gilt, wer die vergangenen Fehler ignoriert, ist dazu verdammt, sie zu wiederholen. Doch wie können sich Unternehmen schützen?

Effektive Dokumentation und Prozesssteuerung

Der CrowdStrike-Ausfall unterstreicht, wie wichtig eine gründliche Dokumentation und solide Prozesssteuerung sind. Fehlen bei Änderungen an kritischer Infrastruktur, die richtigen Dokumentationen oder Prüfungen, können selbst kleine Fehler schnell zu erheblichen Ausfällen führen.

Ein Beispiel: Wenn eine Konfigurationsänderung bei einem weit verbreiteten Sicherheitsprodukt nicht ausreichend dokumentiert oder von Kollegen überprüft wird, kann dies in kürzester Zeit Millionen von Endpunkte betreffen und die Wiederherstellung zusätzlich erschweren. Eine lückenlose Dokumentation hilft nicht nur, Fehler zu vermeiden, sondern beschleunigt auch den Reaktions- und Lösungsprozess. Eine gut durchdachte Prozesssteuerung, einschließlich standardisierter Prüfungen, Risikoanalysen und Peer-Evaluierungen, schafft ein wertvolles Sicherheitsnetz. Unternehmen mit klar dokumentierten Verfahren sind weit besser darauf vorbereitet, schnell auf Probleme zu reagieren und Schäden sowie Unterbrechungen des Geschäftsablauf zu minimieren.

Umfassende Regressionstests

Der Vorfall verdeutlicht auch die Gefahren unzureichender Tests vor der Veröffentlichung von Updates. Auch wenn nicht bekannt ist, wie gründlich die Tests bei CrowdStrike tatsächlich waren, ist das Ausmaß des Ausfalls ein deutlicher Hinweis darauf, dass das Testverfahren nicht ausreichend waren. Ein branchenweites Problem, denn Updates werden zu oft ohne ausreichende Tests ausgerollt.

Ein häufiger Fehler ist das Fehlen diversifizierter Testbedingungen, wie zum Beispiel unterschiedliche Hardware-Konfigurationen, Software-Versionen und regionale Besonderheiten. Um großflächige Ausfälle zu vermeiden, sollten Teams umfassende Regressionstests durchführen – nicht nur in den direkt betroffenen Bereichen der Software. Sandbox-Umgebungen sollten ausreichend groß sein und realistische Szenarien nachbilden. Nur durch Tests in verschiedenen Betriebssystemen und geografischen Regionen kann sichergestellt werden, dass auch kleine Updates keine unvorhergesehenen Fehler einführen.

Stufenweise Rollouts und Rückfallmechanismen

Stufenweise Rollouts, wie A/B-Tests oder Canary-Tests, sind effektive Schutzmaßnahmen gegen weitreichende Fehler. Bei CrowdStrike wurde das Update scheinbar nicht schrittweise eingeführt, andernfalls wäre ein frühzeitiges Erkennen von Problemen möglich gewesen.

Stufenweise Rollouts begrenzen nicht nur die Fehlerreichweite, sondern ermöglichen es auch, subtile Probleme zu identifizieren, die bei ersten Tests möglicherweise unentdeckt bleiben. Canary-Tests, bei denen eine neue Version einer Anwendung zunächst nur für eine kleine Nutzergruppe bereitgestellt wird, können Fehler in realen Umgebungen erkennen und ermöglichen so eine sofortige und automatische Rücknahme des Updates, bevor die gesamte Kundschaft betroffen ist. Für Unternehmen mit Millionen von Endpunkten ist es entscheidend, Rückfallmechanismen in die Release-Strategie zu integrieren, um bei Bedarf schnell handeln zu können.

Multi-Vendor-Strategie

Eine weitere wichtige Erkenntnis aus dem CrowdStrike-Ausfall ist das Risiko einer zu starken Abhängigkeit von nur einem Anbieter. Die Kunden, die sich ausschließlich auf CrowdStrike verlassen haben, waren am härtesten betroffen, da sie keine Alternativen zur Verfügung hatten. Diese Schwäche unterstreicht die Notwendigkeit, kritische Systeme wie Sicherheits- und Endpunktlösungen auf mehrere Anbieter zu verteilen.

Eine Multi-Vendor-Strategie senkt nicht nur das Risiko bei einem Ausfall, sondern gibt Unternehmen auch mehr Kontrolle über ihre Infrastruktur. Durch eine flexible Anbieterstrategie können Unternehmen im Falle eines Ausfalls oder einer Geschäftsaufgabe schnell auf andere Anbieter umsteigen und die operative Resilienz sicherstellen. Diese Strategie fördert auch den Wettbewerb unter den Anbietern und sorgt für Innovation, faire Preise und hohe Standards.

Den Milliarden-Dollar-Bug vermeiden

Der CrowdStrike-Ausfall war ein Weckruf und zeigt, wie schnell ein kleiner Fehler zu einem milliardenschweren Problem werden kann. Solche Ausfälle sind kein Einzelfall und können auch andernorts zu weitreichenden Schäden und Einnahmeverlusten führen.

Kunden und Anbieter sollten auf eine lückenlose Dokumentation setzen, in umfassende Tests investieren und bewährte Praktiken für Releases anwenden, um die Auswirkungen solcher Fehler zu minimieren. Externe Tester:innen ermöglichen weitreichendere Tests und bieten wertvolle neue Blickwinkel.

Rob Mason

ist Chief Technology Officer bei Applause.

Roger Homrich

Recent Posts

KI auf dem Prüfstand

LLMs besitzen einerseits innovative neue Fähigkeiten, stellen Unternehmen allerdings auch vor diverse Herausforderungen: ob EU…

3 Stunden ago

Rechenzentren: Deutschland verliert Anschluss

Server-Ausbau in den USA und China macht große Fortschritte, deutscher Weltmarktanteil sinkt. Lichtblicke in Frankfurt…

8 Stunden ago

KI steigert Nachfrage nach hybriden Workplace-Umgebungen

Der Markt für Workplace Services gerät in Bewegung. Das bestmögliche digitale Nutzererlebnis gilt als Schlüssel…

9 Stunden ago

Hagebau erreicht E-Mail-Sicherheit mit der NoSpamProxy Cloud

Schutz für 10.000 Postfächer über rund 200 Domains: Private-Stack-Variante kombiniert Vorteile einer Cloud-Lösung mit Sicherheit…

1 Tag ago

Rechenzentrumsnetzwerke als Schlüssel für Desaster Recovery

Huawei Connect Paris: Innovationen rund um Data Center, Storage und IT-Sicherheit.

1 Tag ago

Cybersecurity mit KI: Strategischer Vorteil oder Sicherheitsrisiko?

Mit KI optimieren Hacker ihre Angriffsversuche. Ist CIAM eine Lösung, mit der sich Unternehmen vor…

1 Tag ago