Categories: CloudCloud-Management

Facebook-Ausfall durch Fehlkonfiguration

Facebook sowie WhatsApp und Instagram waren am Montag, den 4. Oktober, von einem weltweiten Ausfall betroffen, der um ca. 17:44 Uhr MESZ begann und sich bis in den Abend hinzog.

In einem anschließenden Blog-Post erklärte Santosh Janardhan, Vizepräsident für Infrastruktur bei Facebook, dass der Ausfall durch ein technisches Problem verursacht wurde, das das Border Gateway Protocol (BCP) Routing-System betraf, das “einen kaskadenartigen Effekt auf die Art und Weise hatte, wie unsere Rechenzentren kommunizieren, und unsere Dienste zum Stillstand brachte”.

Der Ausfall vom Montag betraf auch interne Tools bei Facebook, die die Diagnose und Behebung des Problems erschwerten, so Janardhan. Wie die New York Times berichtet, wurden durch den Ausfall die Zugangskarten der Techniker unbrauchbar, so dass die Mitarbeiter nicht in die Gebäude gelangen konnten, in denen die betroffenen Server untergebracht waren.

“Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben”, so Janardhan.

“Unsere Dienste sind jetzt wieder online und wir arbeiten aktiv daran, sie vollständig in den regulären Betrieb zurückzuführen. Wir möchten an dieser Stelle klarstellen, dass wir glauben, dass die Hauptursache für diesen Ausfall eine fehlerhafte Konfigurationsänderung war.”

BGP wurde ursprünglich entwickelt, um Internetdienstanbieter auf der ganzen Welt miteinander zu verbinden. Heute bildet es das Routing-Backbone des Internets.

Auch Facebook nutzt BGP als Grundlage für sein Routing-Design im Rechenzentrum. In einem im Mai 2021 veröffentlichten Blog-Beitrag erklärten Facebook-Forscher, das Routing-Design solle es dem Unternehmen ermöglichen, “unser Netzwerk schnell aufzubauen und eine hohe Verfügbarkeit unserer Dienste zu gewährleisten, während das Design selbst skalierbar bleibt.”

Die Forscher stellen jedoch auch fest, dass BGP “eine enge Abstimmung mit der Topologie des Rechenzentrums, der Konfiguration, der Switch-Software und der rechenzentrumsweiten Betriebspipeline erfordert.” Ironischerweise wurde die Routing-Konfiguration des Rechenzentrums von Facebook speziell dafür entwickelt, die Auswirkungen von Ausfällen zu minimieren. Laut Facebook wurden durch den Ausfall am Montag keine Nutzerdaten in Mitleidenschaft gezogen.

Redaktion

Recent Posts

IT 2025: IT-Führungskräfte erwarten massiven KI-Ruck

Einsatz von KI-Lösungen wirbelt auch in deutschen Unternehmen die Liste der Top-Technologieanbieter durcheinander.

2 Tagen ago

Sofortzahlungen im Wandel: Sicherheit und KI als treibende Kräfte

Echtzeitüberweisungen erfüllen die Erwartungen der Nutzer an Geschwindigkeit, sind jedoch anfällig für spezifische Sicherheits- und…

2 Tagen ago

Blockaden und Risiken bei APM-Projekten vermeiden

Application Portfolio Management (APM) verspricht Transparenz, mehr IT-Leistung und Effizienz – theoretisch.

4 Tagen ago

BSI-Bericht: Sicherheitslage im Cyberraum bleibt angespannt

Im Berichtszeitraum Mitte 2023 bis Mitte 2024 wurden täglich durchschnittlich 309.000 neue Schadprogramm-Varianten bekannt.

5 Tagen ago

KI-Hype in der Cybersicherheit – oder besser doch nicht?

KI kommt in der Cybersicherheit zum Einsatz, etwa um Abweichungen im Netzwerkverkehr zu identifizieren. Ist…

5 Tagen ago

Netzwerksegementierung schützt vor Angriffen über die OT

Ungepatchte und veraltetete Maschinen-Software ist ein beliebtes Einfallstor für Hacker, warnt Nils Ullmann von Zscaler…

6 Tagen ago