11. Juli 2003 18:39h: 15 Minuten Dynamik-Web HTTP-Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Am 11. Juli 2003 gab es von 18:39h bis 19:54h einen Ausfall des globalen HTTP Servers für Dynamik-Web-Pakete. Nicht betroffen waren andere Dienste, HTTPS und Pakete mit eigenem Webserver.
Ursache
Aus nicht sicher bekanntem Grund hatte sich der Apache Webserver aufgehängt, also auf Anfragen nicht mehr geantwortet. Ein Neustart konnte nicht erfolgen, weil in mehreren Paketen vom Paket-Admin die ~/var Verzeichnisse gelöscht wurden und daher die var/web.err Error-Logs nicht geöffnet werden konnten.
Ein Hostmaster war nach ca. 2 Minuten online. Ein Neustart des Webservers verzögerte sich jedoch aufgrund des noch laufenden, aber hängenden alten Apache Webservers, der damit die IP# mit Port 80 belegte. Außerdem musste die Ursache für die fehlenden var Verzeichnisse erst geklärt werden.
Details
Der hängede Webserver konnte mit /usr/local/sbin/kill-pid4ip bequem gelöscht werden.
/usr/local/sbin/mk-httpd-conf wurde so angepasst, dass Pakete ohne var Verzeichnis ignoriert werden, für diese also keine Config generiert wird. Falls das Löschen der var Verzeichnisse im Betrieb das Aufhängen verursacht hat, ist dieser Fehler damit aber noch nicht behoben.
ToDo 0000247 (Apache-Config-Syntax überprüfen lassen) hilft hier leider auch nicht, weil die ErrorLog Directories offenbar nicht geprüft werden.
Maßnahmen
- Auslagerung sensitiver Bereiche aus dem Machtbereich der paket-Admins. [TODO].
Mein Vorschlag vom April 2003 bezüglich einer neuen Struktur der Pakete sollte umgesetzt werden. - Robusteres mk-httpd-conf. [DONE]
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
- Michael Hönnig
Hostmaster Hostsharing eG

