Stundenlanger Komplettausfall und diverse Folgeausfälle auf h03/yuma
Samstag, 10.Dezember 2005 15:39
Ursache: zwei defekte Festplatten
Maßnahmen: Zunächst Reboot-Versuche. Dann im Rechenzentrum: Austausch der Festplatten, dann Umzug der Pakete auf cusa und Neustart aller Dienste.
Beginn des Ausfalls: 09.12.2005, 6:39
Ende des Ausfalls:
Email-Dienste: 16:45
ssh: 17:06
mysql: 20:50
http:10.12.2005, 10:18
SSL: 15:09
Datenverlust in manchen Paketen, da letztes Backup um 1:30 stattgefunden hatte.
Konsequenzen aus dem Ausfall:
- Es muss laufend ein vorbereiter Server als Ersatzserver bereitstehen (Cold-Standby).
- Die DRBD-Spiegelung muss vorangegtrieben werden (Hot-Standby).
- Hives müssen in VHosts verlegt werden, um die beiden o.g. Standby-Modi zu vereinfachen.
- Wir brauchen dringend einen fünften Hostmaster.
- Der KnowHow-Austausch zwischen den Hostmastern muss verbessert werden.
- Es müssen Test-Hives für Notfall-Übungen bereitstehen.
- Notfall-Pläne müssen aktuell gehalten werden.
Wirhaben durch diesen Ausfall für Pakete in h03 nur eineVerfügbarkeit von ca. 33% erreicht. Dabei ist der Datenverlust voll alsAusfall gerechnet worden (die Ausfallzeit galt damit praktisch seit demBackup um ca. 1:30h nachts). Die Dienste werden nach Nutzung gewichtet,so dass auch den nach wie vor ausgefallenen Diensten Rechnung getragenwird.
Die Gesamtverfügbarkeit berücksichtigt h03 aufgrund der Last mit 1/5 der Hostsharing Gesamtlast, so dass die Gesamt-Verfügbarkeit deutlich höher ist.
FürPakete auf h03 gab es gestern damit 33% Verfügbarkeit, für die letzteWoche 90,33%, für den letzten Monat 97,73% und für das letzte Jahr99,70%. Bis auf den Tageswert alle Werte für gleitende Zeiträume, nichtfür Kalenderzeiträume. Damit sind die vertraglich zugesichertenVerfügbarkeiten für den gestrigen Tag nicht erfüllt, sehr wohl aber fürdie monatliche und jährliche Verfügbarkeit.
Die rechtliche Konsequenz daraus ist, dass wir für alle Pakete in h03 den gestrigen Tag nicht berechnen werden. Dies gilt nicht für Domains und ähnliche Leistungen, sondern nur für Pakete, Traffic, Speicher etc. Über weitere Entschädigungen können wir auf der heutigen Generalversammlung sprechen.
Da einzelne Pakete durch einen Fehler beim Restore einen längeren Ausfall hatten.
Wirmachen darauf aufmerksam, dass sich unsere Verfügbarkeit auf die DATENbezieht, nicht wie bei den meisten Providern nur auf die DIENSTE. Wirsind nämlich der Ansicht, dass ein laufender Webserver ohne dieKunden-Daten nutzlos ist und Datenverluste durch den zeitlichen Abstandvon Backup und Ausfall ebenfalls als Ausfall aus Kundensicht gezähltwerden müssen.

