05. Dezember 2003 17:25h: ca. 40 Minuten DW+DS-Ausfall
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Am Freitag, den 5. Dezember, waren unsere DW und DS Pakete ab 17:25h für ca. 40 Minuten ausgefallen.
Einige Zope-Server scheinen nicht neu gestartet worden zu sein, was zu längeren Ausfällen geführt hat. Für eigene (auch virtuelle) Server trägt Hostsharing jedoch nicht dieselbe Verantwortung wie für die shared Server, weil diese in der Administration der jeweiligen Paket-Inhaber liegen. Weiteres hierzu siehe unten unter Details und Maßnahmen.
Ursache
Der kurz zuvor installierte Linux Kernel 2.4.23 hat sich aus noch unbekanntem Grund aufgehängt. Die letzte Meldung im Logfile lautete:
NETDEV WATCHDOG: eth1: transmit timed out eth1: Transmit timed out: status f048 0c00 at 21034851/21034911 command 000ca00 0. NETDEV WATCHDOG: eth1: transmit timed out eth1: Transmit timed out: status f048 0c00 at 21034911/21034971 command 0001a00 0.
Auch über eth0 und Konsole hat der Server nicht mehr reagiert.
Details
Die Hostmaster waren umgehend informiert und haben einen Neustart per Powerswitch durchgeführt.
Offenbar lief beim Neustart etwas dahingehend schief, dass der Quotacheck (der auch für die lange Reboot-Zeit verantwortlich ist) das File-System readonly belassen hatte. Dies ist evtl. auch der Grund für den nicht erfolgten Start der Zope-Server.
Es kommt nicht selten vor, dass diese sowieso gerade nicht laufen, weil der Paket-Admin gerade experimentiert. Auch wurde bereits mehrfach festgestellt, dass Zope-Server bei einem Neustart nicht laufen, weil der betreffende Paket-Admin etwas fehlerhaft umkonfiguriert hat, jedoch selbst noch keinen Neustart durchgeführ hat. Die Hostmaster können dies i.d.R. nicht von einem echten Ausfall unterscheiden.
Maßnahmen
Zunächst muss die Ursache für das Aufhängen gefunden werden.
Bezüglich nicht laufender Zope-Server sollte je Paket mit eigenen Server ein Test bereitgestellt werden, den die Hostmaster bei Neustarts ausführen können.
Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.
- Michael Hönnig
Hostmaster Hostsharing eG

