Ausfallberichte

Aktionen der Hostmaster der Hostsharing eG

Bei Ausfällen, Auffälligkeiten oder Arbeiten am System protokollieren die Hostmaster hier ihre Aktionen mit.

Mittwoch, 14.05.2008, 04:54 Uhr: h03: Ausfall des zentralen Webservers von 4:26 Uhr bis 4:49 Uhr (Paul Hink)

Das Problem wurde durch einen Neustart des zentralen Webservers behoben.

.

Sonntag, 04.05.2008, 17:22 Uhr: h01: Ausfall mySQL Server (Thomas Kramer)

Auf h01 müssen die Datenbanken repariert werden. Bis zum Abschluss der Reparatur steht auf dem HIVE kein mySQL zur Verfügung.

  • Sonntag, 04.05.2008, 17:26 Uhr: Reparatur der Datenbanken und Neustart des mySQL Servers (Thomas Kramer)
    Die Datenbanken stehen wieder zur Verfügung

Samstag, 26.04.2008, 05:13 Uhr: h01, h02, h03: Aktualisierung von PostgreSQL (Michael Hierweck)

Entsprechend der Ankündigung aktualisieren wir nun PostgreSQL auf den Hives h01, h02 und h03. Dabei wird es zu einer Unterbrechung der Verfügbarkeit von PostgreSQL kommen, da die Datenübernahme in die neue Version nur offline erfolgen kann. Die Schritte werden hier im Einzelnen bekannt gegeben. Voraussichtlich wird die Maßnahme bis ca. 6 Uhr andauern.

  • Samstag, 26.04.2008, 05:18 Uhr: Sperre PostgreSQL auf h01, h02 und h03 und starte Übernahme der Daten (Michael Hierweck)
    PostgreSQL ist auf den genannten Hives nun zeitweilig nicht mehr verfügbar.
  • Samstag, 26.04.2008, 05:35 Uhr: Die Übernahme wurde auf h02 und h03 inzwischen abgeschlossen. (Michael Hierweck)
    Auf h02 und h03 steht nun PostgreSQL 8.1 produktiv zur Verfügung.
  • Samstag, 26.04.2008, 05:44 Uhr: Die Übernahme auf h01 erfordert auf Grund des erheblich größeren Datenvolumenes mehr Zeit. (Michael Hierweck)
    Dieser Umstand war uns bekannt. Daher wurde die Gesamtdauer bis 6 Uhr angesetzt.
  • Samstag, 26.04.2008, 05:51 Uhr: Die Übernahme wurde auf h01 inzwischen abgeschlossen. (Michael Hierweck)
    Auf h01 steht nun PostgreSQL 8.1 produktiv zur Verfügung.

Die Migration von PotsgreSQL 7.4 auf 8.1 wurde auf den Hives h01, h02 und h03 erfolgreich abgeschlossen. Auf den Hives h04, h51, h52 und h90 wurde die Migration bereits vor einigen Tagen durchgeführt. Die Ausfallzeit von PostgreSQL betrug auf h01 rund 30 Minuten, h02 und h03 rund 15 Minuten.

Dienstag, 22.04.2008, 18:12 Uhr: h02: Extreme Last (Michael Hönnig)

Ursache unbekannt.

  • Dienstag, 22.04.2008, 18:13 Uhr: Ich stoppe mysql und zentralen Webserver, um den Load zu beruhigen. (Michael Hönnig)
    Load fällt
  • Dienstag, 22.04.2008, 18:17 Uhr: Webserver und mysqld wieder gestartet. (Michael Hönnig)
    Last bleibt stabil niedrig, fällt sogar leicht weiter.

Ab ca. 18:00 langsame Server-Reaktion. Ausfallzeit von ca. 18:12 bis 18:17. Die Ursache konnte nicht mehr festgestellt werden, vermutlich eine kurzzeitige Request-Überlast, die dann in einem Stau endete.

Montag, 21.04.2008, 18:26 Uhr: h02: Performance-Probleme (Paul Hink)

Durch starke Auslastung des Arbeitsspeichers des Paketservers h02 gab es Performance-Probleme.

Die Performance-Probleme konnten durch das Beenden von arbeitsspeicherintensiven Prozessen eines Paketusers behoben werden, sie dauerten laut Monitoring von 17:42 Uhr bis 18:04 Uhr.

Sonntag, 20.04.2008, 06:56 Uhr: h01: hohe Last (Paul Hink)

h01 läuft seit ein paar Minuten mit sehr hoher Last.

  • Sonntag, 20.04.2008, 07:00 Uhr: (Paul Hink)
    Der Arbeitsspeicher des Systems ist ungewöhnlich stark ausgelastet, vermutlich liegt darin die Ursache für die Überlast.
  • Sonntag, 20.04.2008, 07:05 Uhr: Stoppe verschiedene Serverprozesse (z.B. MySQL). (Paul Hink)
  • Sonntag, 20.04.2008, 07:07 Uhr: Webserver und MySQL-Server gestoppt (Paul Hink)
    >2 GB RAM sind wieder frei, Load sinkt. Werde versuchen, die beiden Server direkt wieder zu starten.

Die Lastsituation auf h01 hat sich seit einiger Zeit wieder entspannt. Laut Monitoring lag die Kernzeit der Performance-Probleme von h01 zwischen 6:49 Uhr und 7:09 Uhr.

Donnerstag, 17.04.2008, 15:58 Uhr: h03: Mailserver angehalten (Michael Hierweck)

Auf h03 wurde Postfix (SMTP-Server) angehalten, da begründeter Verdacht hinsichtlich des Versands von Spam besteht, welcher über den Account httpd eingeliefert wurde. Alle PHP-Anwendungen, welche von mod_php ausgeführt werden, laufen unter dieser Kennung, was die Untersuchung der Umstände erschwert.

  • Donnerstag, 17.04.2008, 16:02 Uhr: postfix auf h03 angehalten, um weitere Spameinlieferungen zu unterbinden. (Michael Hierweck)
  • Donnerstag, 17.04.2008, 16:03 Uhr: postfix auf yuma angehalten, um weitere Spamauslieferungen zu unterbinden (Michael Hierweck)
  • Donnerstag, 17.04.2008, 16:05 Uhr: Entfernen von Spammails aus der Mailqueue von yuma und h03. (Michael Hierweck)
  • Donnerstag, 17.04.2008, 16:09 Uhr: Postfix auf yuma wieder gestartet. (Michael Hierweck)
    Damit aktuell nur noch das Mailsystem auf h03 abgeschaltet.

Mittwoch, 16.04.2008, 05:46 Uhr: h03: Ausfall des zentralen Webservers (Michael Hönnig)

Ursache noch unbekannt, wird nun überprüft.

  • Mittwoch, 16.04.2008, 05:49 Uhr: Logfile-Überprüfung (Michael Hönnig)
    Um 4:22 endete das Logfile mit: "long lost child came home ... Child ... returned a Fatal error ... Apache is exiting"

Nach dem Neustart des Webservers läuft dieser wieder. Effektive Ausfallzeit ca. 4:22-5:49.

Dienstag, 15.04.2008, 08:57 Uhr: h03: Mailserver angehalten (Michael Hierweck)

Auf h03 wurde Postfix (SMTP-Server) angehalten, da begründeter Verdacht hinsichtlich des Versands von Spam besteht, welcher über den Account httpd eingeliefert wurde. Alle PHP-Anwendungen, welche von mod_php ausgeführt werden, laufen unter dieser Kennung, was die Untersuchung der Umstände erschwert.

Dienstag, 08.04.2008, 08:53 Uhr: alle Systeme: Probleme bei der E-Mail-Zustellung (Paul Hink)

Durch einen Konfigurationsfehler in einem Paket werden zwischen unseren Systemen seit vergangener Nacht große Mengen automatisch generierter E-Mails (Bounces) hin- und hergeschickt. Dies führt zu extrem großen Mailqueues und damit zu verzögerter Zustellung nahezu aller E-Mails, die über eins unserer Systeme laufen. Die Ursache des Problems ist mittlerweile bekannt und behoben; zur Zeit wird versucht, die Mailqueues durch das automatische Löschen der o.g. Bounces wieder von den überflüssigen E-Mail-Massen zu befreien.

  • Dienstag, 08.04.2008, 08:57 Uhr: h01, h02: Mailserver vorübergehend angehalten (Paul Hink)
    Das Löschen der überflüssigen E-Mails aus den Queues geht wesentlich schneller, wenn nicht gleichzeitig der Mailserver läuft. Ich habe die Mailserver auf den Paketservern h01 und h02 daher vorübergehend angehalten.
  • Dienstag, 08.04.2008, 09:14 Uhr: An die Hostmaster: Die SMS-Alarme sind temporär deaktiviert. (Paul Hink)
  • Dienstag, 08.04.2008, 10:09 Uhr: (Paul Hink)
    Die Mailqueues der Paketserver sind nun allesamt leer, der Betrieb sollte normal weiterlaufen. Die SMS-Alarme sind wieder aktiviert.

Zwischen 1:07 Uhr und 10:05 Uhr gab es schwankende Verzögerungen bei der Mailzustellung über Hostsharing-Systeme. Das fehlerhafte Script, das primäre Ursache für die vollen Mailqueues war, wurde mittlerweile vom zuständigen Paketadmin korrigiert.

Displaying results 1 to 10 out of 11

Page 1

Page 2

Next >