Fehlerhaftes Update verursachte Azure-Ausfall

Für den weitreichenden Ausfall des Cloud-Dienste Azure war laut Microsoft-Blog ein Performance-Update für die Azure Storage Services verantwortlich. Fast elf Stunden lang war der Dienst anschließend für Anwender in Europa, USA und Teilen Asiens nicht mehr erreichbar.

Logo Windows Azure

Die Störung begann laut Jason Zander, Corporate Vice President für Windows Azure, am Dienstagabend. Betroffen waren neben Kunden in den USA auch Europa und Teile Asiens. Auch der Zugang zu Xbox Live, MSN.com, Visual Studio Online und Search war demnach beeinträchtigt, weil zumindest Teile dieser Dienste auf Azure angewiesen seien.

Zander bestätigte auch Beschwerden vieler Nutzer, wonach die Status-Site fälschlicherweise während der Störung meldete, Azure arbeite normal. Das sei deswegen der Fall gewesen, weil das Service Health Dashboard und das Azure Management Portal ebenfalls auf dem Azure Storage Services aufbauten. Daher waren diese nicht in der Lage, den korrekten Status der Azure-Dienste wiederzugeben.

Das Performance-Update selbst hat Microsoft nach eigenen Angaben vor der Veröffentlichung über einen Zeitraum von mehreren Wochen mit Nutzern des Azure Tables-Storage-Services getestet. Das eigentliche Problem, dass das Storage Blob Front End in eine Endlosschleife eintrat, habe man allerdings erst nach dem Einspielen des Performance-Updates bemerkt.

“Das Ergebnis war, dass das Front End keinen weiteren Traffic aufnehmen konnte, was wiederum zu den Problemen mit anderen Diensten führte, die darauf aufbauen”, sagte Zander.

Microsoft habe nach der Entdeckung des Fehlers das Update wieder zurückgerollt. Dafür sei es allerdings notwendig gewesen, das Storage Front End neu zu starten, so der Manager weiter. Der Ausfall habe auch deshalb so viele Nutzer betroffen, da das Update entgegen den Standardprotokollen, die eine schrittweise Einführung vorsehen, in kurzer Zeit in viele Regionen installiert worden sei.

Um künftig ähnliche Probleme zu verhindern, will Microsoft nun sicherstellen, dass die Tools zur Installation von Updates die Durchsetzung der Standardprotokolle erzwingen. Auch die Verfahren zur Wiederherstellung von Diensten sollen verbessert werden, um die für einen Neustart benötigte Zeit zu reduzieren. Die Infrastruktur des Service Health Dashboard und der zugehörigen Protokolle soll ebenfalls überarbeitet werden, damit sie künftig trotz einer Störung von Azure korrekte Informationen liefern können. Darüber hinaus arbeitet Microsoft an einem Fix für den Fehler in seinem Performance-Update.

[mit Material von Stefan Beiersmann, ZDNet.com]

Tipp: Sind Sie ein Fachmann in Sachen Cloud Computing? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Redaktion

Recent Posts

Europa will Quantenmacht werden – und plant dafür strategischen Wendepunkt

Mit dem Quantum Act will die EU erstmals eine koordinierte Strategie auf den Weg bringen,…

1 Stunde ago

Durchbruch fürs Quanteninternet

Telekom und Qunnect gelingt stabilste und längste Übertragung von verschränkten Photonen über ein kommerzielles Glasfasernetzwerk.

3 Stunden ago

KI-Strategie: Klarna schafft 1.200 SaaS-Dienste ab

Mit genKI gerät die Ära von Software as a Service ins Wanken. Die Alternative sind…

2 Tagen ago

Verschmelzen zweier Hochtechnologien: Quanten und KI

Event: Anwendertagung und Fachausstellung "Quantum Photonics" am 13. und 14. Mai 2025 in Erfurt.

3 Tagen ago

Vier neue EU-Regelwerke verändern den rechtlichen Rahmen für vernetzte Produkte grundlegend

Mit dem Cyber Resilience Act, dem Data Act, der Produktsicherheitsverordnung und der neuen Produkthaftungsrichtlinie greift…

3 Tagen ago

Deutsches KI-Startup Brain4Data statt digitalen Assistenten für KMU mit genKI-Funktionen aus

Fred, der KI-gesteuerte digitale Assistent, nutzt den Generative AI Service der OCI und die Oracle…

5 Tagen ago