22. Mai 2003 23:08h: je nach Dienst 30 bis 82 Minuten Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Ab ca. 23:08h war zumindest der interne mySQL-Server nicht mehr verfügbar, evtl. waren auch einzelne andere Dienste betroffen. Die meisten Dienste, insbesondere HTTP liefen noch bis ca. 23:50h, dann wurden alle Dienste deaktiviert, um einen Umzug durchzuführen. Ab ca. 0:20h waren die meisten, ab ca. 0:30h so gut wie alle Dienste wieder lauffähig.
Ursache
Es gab offenbar Kernel-Dead-Locks, so dass auf zunehmend mehr Bereiche der Festplatten nicht mehr geschrieben werden konnte. Die Ursache dafür ist unbekannt, es konnten noch keine verdächtigen Logfile-Einträge gefunden werden.
Details
Die Hostmaster wurden leider erst ca. 30 Minuten nach Beginn der Probleme benachrichtigt, weil diese Fehlerart nicht von unserem remote-Monitor erfasst wird.
Pomo ist jetzt Produktivserver. Der vorherige Produktivserver Pima musste hart (per Powerswitch) gebootet werden, weil ein Software reboot nicht funktionierte (wurde ignoriert).
Maßnahmen
- Wir benötigen ein Monitoring mit SMS Alarm für mySQL, sowie SMTP/POP3 mit Datenübertragung. (DONE#256)
- Ideal wäre ein Fix für den Bug im Linux ext3 Modul im Zusammenhang mit Quota. (TODO#251)
Aus Folgefehlern haben sich noch folgende Maßnahmen ergeben:
- Beim Aktivieren des Standby-Servers als Produktiv-Server muss do-rsyncs gestoppt werden. (DONE)
- Beim Aktivieren des ehemaligen Produtkiv-Servers als Standby-Server muss do-rsyncs gestartet werden. (DONE)
- Beim Aktivieren des Standby-Servers als Produktiv-Server muss die Quota für alle Pakete gesetzt werden, also `chqota --all`. (TODO)
- Die Quota-Änderungen für Pakete sollten auf dem Standby-Server besser gleich mitgeführt werden. (DONE#257)
Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.
- Michael Hönnig
Hostmaster Hostsharing eG

