Archiv

02. Juni 2003 13:42h: 33 Minuten HTTP-Ausfall

Liebe Mitglieder und sonstige Hostsharing-Nutzer,

Auswirkung

Am 02. Juni gab es ab 13:42h einen Ausfall des HTTP Servers für Dynamik-Web Pakete ohne eigene IP#. Nicht betroffen waren HTTPS, DumpSpace/Static-Web und Pakete mit eigener IP#.

Ursache

Ein Apache-Prozess hatte sich aufgehängt und damit nach kurzer Zeit den betreffenden Master-Apache zum restart gebracht. Der Restart konnte aber nicht ausgeführt werden, weil der hängede Prozess die IP#:80 blockierte.

Details

Leider dauerte es über 20 Minuten, bis die Hostmaster von dem Fehler erfahren haben, weil zu dem Zeitpunkt unser Monitor-Server aufgrund eines defekten Lüfters ausgeschaltet war.

Der defekte Apache Prozess wurde dann hart terminiert und neu gestartet (rc httpd restart ging nicht mehr).

Maßnahmen

  • Wir brauchen einen zweiten Monitor-Server, der SMS-Alarme auslöst. (TODO)
    Fraglich ist, wie die beiden zusammenarbeiten sollen, um nicht die meisten Alarme doppelt auszulösen. Heartbeat wäre evtl. eine Möglichkeit.
  • Ein Skript könnte das Terminieren von Prozessen, die eine IP#:Port Kombination blockieren, erleichtern. (DONE)
    Siehe /usr/local/sbin/kill-pid4ip.
  • Noch besser wäre es, wenn ein hängender und IP#:Port blockierender Apache automatisch erkannt werden könnte. (TODO)

Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.

Michael Hönnig
Hostmaster Hostsharing eG