02. Juni 2003 13:42h: 33 Minuten HTTP-Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Am 02. Juni gab es ab 13:42h einen Ausfall des HTTP Servers für Dynamik-Web Pakete ohne eigene IP#. Nicht betroffen waren HTTPS, DumpSpace/Static-Web und Pakete mit eigener IP#.
Ursache
Ein Apache-Prozess hatte sich aufgehängt und damit nach kurzer Zeit den betreffenden Master-Apache zum restart gebracht. Der Restart konnte aber nicht ausgeführt werden, weil der hängede Prozess die IP#:80 blockierte.
Details
Leider dauerte es über 20 Minuten, bis die Hostmaster von dem Fehler erfahren haben, weil zu dem Zeitpunkt unser Monitor-Server aufgrund eines defekten Lüfters ausgeschaltet war.
Der defekte Apache Prozess wurde dann hart terminiert und neu gestartet (rc httpd restart ging nicht mehr).
Maßnahmen
- Wir brauchen einen zweiten Monitor-Server, der SMS-Alarme auslöst. (TODO)
Fraglich ist, wie die beiden zusammenarbeiten sollen, um nicht die meisten Alarme doppelt auszulösen. Heartbeat wäre evtl. eine Möglichkeit. - Ein Skript könnte das Terminieren von Prozessen, die eine IP#:Port Kombination blockieren, erleichtern. (DONE)
Siehe/usr/local/sbin/kill-pid4ip. - Noch besser wäre es, wenn ein hängender und IP#:Port blockierender Apache automatisch erkannt werden könnte. (TODO)
Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.
- Michael Hönnig
Hostmaster Hostsharing eG

