Facebook sowie WhatsApp und Instagram waren am Montag, den 4. Oktober, von einem weltweiten Ausfall betroffen, der um ca. 17:44 Uhr MESZ begann und sich bis in den Abend hinzog.
In einem anschließenden Blog-Post erklärte Santosh Janardhan, Vizepräsident für Infrastruktur bei Facebook, dass der Ausfall durch ein technisches Problem verursacht wurde, das das Border Gateway Protocol (BCP) Routing-System betraf, das “einen kaskadenartigen Effekt auf die Art und Weise hatte, wie unsere Rechenzentren kommunizieren, und unsere Dienste zum Stillstand brachte”.
Der Ausfall vom Montag betraf auch interne Tools bei Facebook, die die Diagnose und Behebung des Problems erschwerten, so Janardhan. Wie die New York Times berichtet, wurden durch den Ausfall die Zugangskarten der Techniker unbrauchbar, so dass die Mitarbeiter nicht in die Gebäude gelangen konnten, in denen die betroffenen Server untergebracht waren.
“Unsere Ingenieurteams haben herausgefunden, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursacht haben, die diese Kommunikation unterbrochen haben”, so Janardhan.
“Unsere Dienste sind jetzt wieder online und wir arbeiten aktiv daran, sie vollständig in den regulären Betrieb zurückzuführen. Wir möchten an dieser Stelle klarstellen, dass wir glauben, dass die Hauptursache für diesen Ausfall eine fehlerhafte Konfigurationsänderung war.”
BGP wurde ursprünglich entwickelt, um Internetdienstanbieter auf der ganzen Welt miteinander zu verbinden. Heute bildet es das Routing-Backbone des Internets.
Auch Facebook nutzt BGP als Grundlage für sein Routing-Design im Rechenzentrum. In einem im Mai 2021 veröffentlichten Blog-Beitrag erklärten Facebook-Forscher, das Routing-Design solle es dem Unternehmen ermöglichen, “unser Netzwerk schnell aufzubauen und eine hohe Verfügbarkeit unserer Dienste zu gewährleisten, während das Design selbst skalierbar bleibt.”
Die Forscher stellen jedoch auch fest, dass BGP “eine enge Abstimmung mit der Topologie des Rechenzentrums, der Konfiguration, der Switch-Software und der rechenzentrumsweiten Betriebspipeline erfordert.” Ironischerweise wurde die Routing-Konfiguration des Rechenzentrums von Facebook speziell dafür entwickelt, die Auswirkungen von Ausfällen zu minimieren. Laut Facebook wurden durch den Ausfall am Montag keine Nutzerdaten in Mitleidenschaft gezogen.
Einsatz von KI-Lösungen wirbelt auch in deutschen Unternehmen die Liste der Top-Technologieanbieter durcheinander.
Echtzeitüberweisungen erfüllen die Erwartungen der Nutzer an Geschwindigkeit, sind jedoch anfällig für spezifische Sicherheits- und…
Application Portfolio Management (APM) verspricht Transparenz, mehr IT-Leistung und Effizienz – theoretisch.
Im Berichtszeitraum Mitte 2023 bis Mitte 2024 wurden täglich durchschnittlich 309.000 neue Schadprogramm-Varianten bekannt.
KI kommt in der Cybersicherheit zum Einsatz, etwa um Abweichungen im Netzwerkverkehr zu identifizieren. Ist…
Ungepatchte und veraltetete Maschinen-Software ist ein beliebtes Einfallstor für Hacker, warnt Nils Ullmann von Zscaler…