Archiv

06. November 2003 22:55h: 20 Minuten zentraler HTTP Server

Liebe Mitglieder und sonstige Hostsharing-Nutzer,

Auswirkung

Am 6. November 2003, von 22:55h bis 23:15h war unser zentraler DW-Webserver ausgefallen. Nicht betroffen war HTTP/SSL sowie der Webserver für SW-Pakete (außer je ca. 30 Sekudnen) und Pakete mit eigenem Webserver.

Ursache

Der Apache Webserver hatte sich aufgehängt und ließ sich auch nicht terminieren, bei jedem Versuch wurden neue - sofort hängende - Webserver gestartet.

Details

Ein Hostmaster wurde per SMS benachrichtigt und war binnen wenige Minuten online. Ein Neustart-Versuch war nicht erfolgreich, weil noch Apache-Prozesse hingen und damit die IP#n blockierten.

Anmerkung: Die hängenden Prozesse waren im WAIT auf dem Socket, netstat zeigte auch seltsamerweise keinen Prozessnamen für den Clienten von IP#:Port an.

Versuche die hägenden Prozesse (PPID 1) zu terminieren, führte nur dazu, dass jeweils ein neuer (PPID 1) gestartet wurde, der ebenfalls sofort hing. Erst als sämtliche Prozesse mit dem Owner htttpd terminiert wurden, wurden keine neuen Prozesse mehr gestartet. Dies führte aber zu dem o.g. kurzen Ausfall von HTTP/SSL und SW, bis diese neu gestartet waren.

Maßnahmen

Da die Ursache noch nicht bekannt ist, können Maßnamhmen zur Abwehr noch nicht getroffen werden.

Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.

Michael Hönnig
Hostmaster Hostsharing eG