Categories: Cloud

Tippfehler sorgt für AWS-Ausfall

Amazon nennt weitere Details zu der wie der Anbieter es nennt “erhöhten Fehlerrate” des eigenen Cloud-Dienstes S3. Im Zuge dieses Fehlers waren mehrere große Web-Seiten von Problemen geplagt. Nun erklärt Amazon, dass ein Tippfehler bei geplanten Wartungsarbeiten für den Ausfall verantwortlich ist.

Demnach untersuchte das Simple-Storage-Service-Team (S3) einen Fehler, der dazu führte, dass das S3-Abrechnungssystem langsamer arbeitete als erwartet. “Um 9.37 Uhr Westküstenzeit führte ein autorisiertes S3-Teammitglied einen Befehl aus, um eine geringe Anzahl Server eines S3-Subsystems zu entfernen, die für den S3-Abrechnungsprozess benutzt werden”, teilte Amazon mit. “Unglücklicherweise war eine Eingabe des Befehls falsch und es wurde eine größere Anzahl Server entfernt als geplant.”

Tatsächlich deaktivierte der Fehler zwei weitere Subsysteme, die für alle S3-Objekte in der Region US-East-1 benötigt werden. Beide Systeme standen erst nach einem vollständigen Neustart wieder zur Verfügung. Dieser Vorgang habe, zusammen mit den notwendigen Sicherheitsprüfungen, zudem länger benötigt als erwartet, so Amazon weiter.

Während des Neustarts war der S3-Dienst nicht in der Lage, Anfragen zu bearbeiten. Deswegen waren auch Dienste in der Region betroffen, die auf S3-Storage angewiesen sind, darunter die S3-Konsole, der Start neuer Instanzen von Amazon Elastic Compute Cloud (EC2), Amazon Elastic Block Store (EBS) und AWS Lambda.

Webinar

Digitalisierung fängt mit Software Defined Networking an

In diesem Webinar am 18. Oktober werden Ihnen die unterschiedlichen Wege, ein Software Defined Network aufzubauen, aus strategischer Sicht erklärt sowie die Vorteile der einzelnen Wege aufgezeigt. Außerdem erfahren Sie, welche Aspekte es bei der Auswahl von Technologien und Partnern zu beachten gilt und wie sich auf Grundlage eines SDN eine Vielzahl von Initiativen zur Digitalisierung schnell umsetzen lässt.

Das erste Subsystem, das Index-Subsystem, stand um 13.18 Uhr Ortszeit, also nach knapp vier Stunden, wieder zur Verfügung. Das Placement-Subsystem wiederum arbeitete ab 13.54 Uhr normal. Damit war die Störung erst nach mehr als vier Stunden wieder behoben.

Darüber hinaus kündigte Amazon verschiedene Maßnahmen an, um derartige Fehler in der Zukunft zu verhindern. “Obwohl die Entfernung von Kapazitäten ein normaler operativer Vorgang ist, ermöglichte es das Tool, zu viele Kapazitäten zu schnell zu entfernen. Wir haben das Tool so verändert, dass es Kapazitäten langsamer abbaut, und Sicherheitsvorkehrungen eingeführt, um zu verhindern, dass ein Subsystem seine Mindestkapazität unterschreitet”, ergänzte Amazon.

Amazon hat außerdem bereits begonnen, das Index-Subsystem in kleinere Zellen aufzuteilen, um ähnliche Störungen künftig zu vermeiden. Darüber hinaus kann das AWS Service Health Dashboard nun über mehrere Regionen hinweg ausgeführt werden. Es informiert Nutzer über laufende Störungen und Einschränkungen. Da es von dem Vorfall in dieser Woche ebenfalls betroffen war, konnte Amazon die Anwender nur über Twitter auf dem Laufenden halten.

[mit Material von Stefan Beiersmann, ZDNet.de]

Tipp: Sind Sie ein Fachmann in Sachen Cloud Computing? Testen Sie Ihr Wissen – mit dem Quiz auf silicon.de.

Redaktion

Recent Posts

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

1 Tag ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

2 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

3 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

3 Tagen ago

Thomas-Krenn.AG: viele Pflichten, knappe Ressourcen, mehr freie IT-Welt

IT-Infrastruktur-Trends 2025: Open-Source-Projekte sowie aufwändige regulatorische und Pflichtaufgaben werden das Jahr prägen.

3 Tagen ago

Stadt Kempen nutzt Onsite Colocation-Lösung

IT-Systeme werden vor Ort in einem hochsicheren IT-Safe betrieben, ohne auf bauliche Maßnahmen wie die…

4 Tagen ago