Archiv

22. Mai 2003 23:08h: je nach Dienst 30 bis 82 Minuten Ausfall

Liebe Mitglieder und sonstige Hostsharing-Nutzer,

Auswirkung

Ab ca. 23:08h war zumindest der interne mySQL-Server nicht mehr verfügbar, evtl. waren auch einzelne andere Dienste betroffen. Die meisten Dienste, insbesondere HTTP liefen noch bis ca. 23:50h, dann wurden alle Dienste deaktiviert, um einen Umzug durchzuführen. Ab ca. 0:20h waren die meisten, ab ca. 0:30h so gut wie alle Dienste wieder lauffähig.

Ursache

Es gab offenbar Kernel-Dead-Locks, so dass auf zunehmend mehr Bereiche der Festplatten nicht mehr geschrieben werden konnte. Die Ursache dafür ist unbekannt, es konnten noch keine verdächtigen Logfile-Einträge gefunden werden.

Details

Die Hostmaster wurden leider erst ca. 30 Minuten nach Beginn der Probleme benachrichtigt, weil diese Fehlerart nicht von unserem remote-Monitor erfasst wird.

Pomo ist jetzt Produktivserver. Der vorherige Produktivserver Pima musste hart (per Powerswitch) gebootet werden, weil ein Software reboot nicht funktionierte (wurde ignoriert).

Maßnahmen

  • Wir benötigen ein Monitoring mit SMS Alarm für mySQL, sowie SMTP/POP3 mit Datenübertragung. (DONE#256)
  • Ideal wäre ein Fix für den Bug im Linux ext3 Modul im Zusammenhang mit Quota. (TODO#251)

Aus Folgefehlern haben sich noch folgende Maßnahmen ergeben:

  • Beim Aktivieren des Standby-Servers als Produktiv-Server muss do-rsyncs gestoppt werden. (DONE)
  • Beim Aktivieren des ehemaligen Produtkiv-Servers als Standby-Server muss do-rsyncs gestartet werden. (DONE)
  • Beim Aktivieren des Standby-Servers als Produktiv-Server muss die Quota für alle Pakete gesetzt werden, also `chqota --all`. (TODO)
  • Die Quota-Änderungen für Pakete sollten auf dem Standby-Server besser gleich mitgeführt werden. (DONE#257)

Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.

Michael Hönnig
Hostmaster Hostsharing eG