Einzelansicht

Ausfälle nach Reboots auf allen Hives

Kategorie: Ausfallbericht

Freitag, 13.Mai 2005 06:28

Von: Oliver Weiss

Alle drei Hives wurden während der Wartungszeit wegen Memory-Leaks im Linux-Kernel rebootet. Danach liefen die Mailserver auf allen Hives bis etwa 6:20 unzuverlässig.

Ursache: Die Mailserver forkten im regulären Betrieb verhältnismäßig viele parallele Prozesse; nachdem ich sie in einer Shell mit zu strikten ulimits neugestartet hatte, konnten sie nicht mehr so viele Prozesse starten, wie konfiguriert. Daher nahmen sie nur sporadisch neue Verbindungen an. Bei h01/pima war dies besonders extrem, da der dortige Mailserver aufgrund höheren Mailaufkommens so konfiguriert ist, dass er mehr Prozesse als die Mailserver der anderen beiden Paketservern startet. Warum das Problem mit den zu strengen ulimits bisher noch nicht aufgefallen war, ist unklar..

Ausfallzeiten durch Reboots: h01/pima: 5:29 - 5:38, h02/pomo: 5:39 - 5:49, h03/yuma: 5:51 - 5:58.

 

Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.

Paul Hink

Hostmaster Hostsharing e.G.