26. November 2003 14:00h: 1 Stunde 20 Minuten DW+SW Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Am Mittwoch, den 26. November, waren unsere SW und DW Pakete praktisch nicht erreichbar. Bis HTTP/SSL wieder lief, dauerte es noch etwas länger.
Ursache
Aus noch unbekannten Gründen stieg die Last auf unserem Hauptserver um ca. 14:00h auf weit über 100. Der Linux-Kernel begann, mindestens 250 mysqld Instanzen zu terminieren, üblicherweise laufen nur ca. 120. Es ist aber duchaus möglich, dass zwischendurch neue gestartet wurden, die dann ebenfalls terminiert werden. Der Server reagierte leider so träge, dass selbst ein "rc mysql stop" erst nach ca. 20 Minuten überhaupt angenommen wurde. Ein Aufruf von top war gar nicht möglich.
Details
Nach dem klar war, dass ein sauberes Terminieren des Servers nicht möglich war, weil dieser zu langsam war, entschieden wir uns einen Hardware-Reset durchzuführen. Die Reparatur der File-Systeme (fsck) und das Wiederherstellen der Quota-Daten dauerte ca. 50 Minuten.
Eine Aktivierung des Standby-Servers haben wir nicht gemacht, weil diese beim derzeitigen Spiegelungs-Verfahren immer mit einem Datenverlust von ca. 1h verbunden ist. Dies lohnt sich unserer Meinung nach erst für Ausfälle ab ca. 4h, bzw. wenn eine solche Ausfallzeit absehbar ist.
Maßnahmen
In Zukunft läuft ein sshd nur für Hostmaster mit höherer Priorität. Dies war eh schon als Vorbereitung für Hives geplant und auf dem Standby-Server sowie dem neuen Server yuma auch bereits so eingerichet. Ob diese höhere Priorität in so einem Fall etwas nützt, ist allerdings noch offen.
Eine weitere Idee wäre die Bereistellung eines Skriptes, welches sämtliche üblichen Server (mysqld, apache und apache-ssl sowie python für Zope etc.) mit kill -9 terminiert. Ein solches hätte es evtl. noch geschafft, den Server schneller wieder bedienbar zu machen.
Sobald der Fehler mit ext3 und Quota unter Last im Linux Kernel sicher behoben ist, sollten wir dieses auch wieder aktivieren, um die Zeit für fsck zu verkürzen.
Bevor wir nicht genaueres über die Ursache wissen, können wir noch keine konkreten Maßnahmen treffen.
Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.
- Michael Hönnig
Hostmaster Hostsharing eG

