Ausfallberichte
Ausfälle nach Reboots auf allen Hives
Kategorie: AusfallberichtFreitag, 13. Mai 2005
Alle drei Hives wurden während der Wartungszeit wegen Memory-Leaks im Linux-Kernel rebootet. Danach liefen die Mailserver auf allen Hives bis etwa 6:20 unzuverlässig.
Ursache: Die Mailserver forkten im regulären Betrieb verhältnismäßig viele parallele Prozesse; nachdem ich sie in einer Shell mit...
Ausfälle der Web-Server auf h02/pomo
Kategorie: AusfallberichtDonnerstag, 12. Mai 2005
Ausfall des Static Web-Webservers (Timeouts) und des Dynamic Webs-Servers .
Ursache: unbekannt.
Maßnahmen: Hängende Apache-Prozesse wurden per kill beendet.
Ausfallzeit: Static Web von 18:29 bis 18:37 und Dynamic Web von 18:52 bis 18:54
Für den Ausfall bitte ich im Namen der Hostmaster um...
10 Minuten mysql-Ausfall auf h01/pima
Kategorie: AusfallberichtMittwoch, 4. Mai 2005
Ursache: unbekannt.
Ausfallzeit: 15:14-15:24
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
Thomas
Hostmaster Hostsharing e.G.
4 Minuten Totalausfall auf h01/pima
Kategorie: AusfallberichtDonnerstag, 28. April 2005
Ursache: Speicherleck im Linux-Kernel
Maßnahmen: Reboot. Nach dem Reboot lief PostgresSQL nicht mehr. Der Monitor meldete seltsamerweise dennoch Funktionsfähigkeit, weil ein benötigtes Perl-Modul nicht installiert war. Siehe auch ToDo 602.
Ausfallzeit: 5:30-5:34, PostgreSQL von 5:30-6:35.
Für...
18 Minuten Ausfall des zentralen Webservers auf h01/pima
Kategorie: AusfallberichtMittwoch, 27. April 2005
Ursache: Endlosschleife in mod_rewrite Regel
Maßnahmen: harter Neustart
Ausfallzeit: 20:52-21:10
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
Michael Hönnig
Hostmaster Hostsharing e.G.
9 Minuten mysql-Ausfall auf h01/pima
Kategorie: AusfallberichtMittwoch, 27. April 2005
Ursache: unbekannt
Maßnahmen: mysql ließ sich nur noch hart terminieren. Repair-Lauf wurde gestartet, aber abgebrochen, weil dieser mysql für mindestens eine Stunde hätte ausfallen lassen. Selektives online-Repair wurde daher durchgeführt.
Ausfallzeit: 16:02-16:11
Für den Ausfall bitte ich im...
3 Minuten Ausfall des zentralen Webservers auf h01/pima
Kategorie: AusfallberichtMittwoch, 27. April 2005
Ursache: Unbekannt.
Maßnahmen: Der Apache lief wohl von alleine wieder weiter, hing kurz danach aber wieder.
Ausfallzeit: 15:55 - 15:58
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
Michael Hönnig
Hostmaster Hostsharing e.G.
10 Minuten Webserver-Ausfall auf h01/pima
Kategorie: AusfallberichtMittwoch, 27. April 2005
Ursache: Die Überlast und vermutlich auch die Ausfälle kommen vermutlich von einem "Heise-Effekt" einer in h01 gehosteten Website. Eine einzige der Domains in h01 macht ca. 30-50% der Seitenabrufe.
Maßnahmen: Reboot.
Ausfallzeit: 11:19-11:29
Für den Ausfall bitte ich im Namen der Hostmaster...
2 Stunden 4 Minuten Ausfall des zentralen Apache auf h01/pima
Kategorie: AusfallberichtMontag, 25. April 2005
Zentraler Apache-Server reagiert nicht. Laut Monitoring seit 21:51 Uhr - einen SMS-Alarm gab es nicht. Ich wurde um 23:50 Uhr via 0700-HSHALARM informiert.
Ursache: h01 scheint in den letzten Tagen überlastet zu sein, d.h. wir brauchen hier recht bald leistungsfähigere Hardware. Dringend ist daher...
18 Minuten Ausfall des zentralen Apache auf h01/pima
Kategorie: AusfallberichtMontag, 25. April 2005
Ursache: unbekannt.
Maßnahmen: Reboot.
Ausfallzeit: 16:05 Uhr bis 16:23 Uhr
Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.
Thomas
Hostmaster Hostsharing e.G.

