Internet, 04. April 2001 5:11h: 7 Minuten HTTP-Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Für alle SUA und MUA Pakete fiel am 4. April 2001 von ca. 5:11h bis 5:18h der HTTP Dienst aus. Für alle Pakete fiel um ca. 5:11h HTTP und SMPT für ca. 1 Minute aus.
Ursache
Wegen eines hohen Load wurden die Webserver kurzfristig automatisch gestoppt. Der HTTP Server für die SUA und MUA Pakete konnte dabei nicht wieder sauber gestartet werden.
Details
Jede Minute wird der Load (die Auslastung) des Servers automatisch geprüft und im Falle eines Load von > 15 werden die HTTP und der SMTP Server gestoppt, um den Server wenigstens für Hostadmins zugänglich zu halten, damit diese eventuelle Probleme (z.B. DoS Attacken) beheben können. Dabei wurde der eine HTTP Server nicht sauber beendet, so dass er nicht mehr reagierte, aber auch nicht automatisch neu gestartet werden konnte.
Maßnahmen
Ein Hostmaster wurde per SMS informiert und hat den fehlerhaften HTTP zunächst von Hand neu gestartet. Eine erneute Analyse ergab, dass der hohe Load offenbar u.a. durch zwei sich überlappende cron Läufe entstand.
Dass der httpd nicht sauber terminiert werden konnte, liegt offenbar an einem Fehler im init-Skript (/etc/rc.d/init.d/httpd), welcher offenbar auch in der Standard-Installation des Cobalt-Linux vorhanden ist.
- Alle cronjobs mit kurzen Laufzeiten müssen davor geschützt werden, mehrfach gestartet zu werden. (DONE)
- httpd-Init-Skript vom Cobalt-Linux fixen: Das kill über pidof statt über das pid-File. (OBSOLETE)
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
- Michael Hönnig
Hostmaster Hostsharing eG i.Gr.

