Aktionen der Hostmaster der Hostsharing eG
Bei Ausfällen, Auffälligkeiten oder Arbeiten am System protokollieren die Hostmaster hier ihre Aktionen mit.
http://status.hostsharing.net/actions.php
Mittwoch, 14.05.2008, 04:54 Uhr: h03: Ausfall des zentralen Webservers von 4:26 Uhr bis 4:49 Uhr
Das Problem wurde durch einen Neustart des zentralen Webservers behoben.
.
Sonntag, 04.05.2008, 17:22 Uhr: h01: Ausfall mySQL Server
Auf h01 müssen die Datenbanken repariert werden. Bis zum Abschluss der Reparatur steht auf dem HIVE kein mySQL zur Verfügung.
- Sonntag, 04.05.2008, 17:26 Uhr:
Reparatur der Datenbanken und Neustart des mySQL Servers
Die Datenbanken stehen wieder zur Verfügung
Samstag, 26.04.2008, 05:13 Uhr: h01, h02, h03: Aktualisierung von PostgreSQL
Entsprechend der Ankündigung aktualisieren wir nun PostgreSQL auf den Hives h01, h02 und h03. Dabei wird es zu einer Unterbrechung der Verfügbarkeit von PostgreSQL kommen, da die Datenübernahme in die neue Version nur offline erfolgen kann. Die Schritte werden hier im Einzelnen bekannt gegeben. Voraussichtlich wird die Maßnahme bis ca. 6 Uhr andauern.
- Samstag, 26.04.2008, 05:18 Uhr:
Sperre PostgreSQL auf h01, h02 und h03 und starte Übernahme der Daten
PostgreSQL ist auf den genannten Hives nun zeitweilig nicht mehr verfügbar. - Samstag, 26.04.2008, 05:35 Uhr:
Die Übernahme wurde auf h02 und h03 inzwischen abgeschlossen.
Auf h02 und h03 steht nun PostgreSQL 8.1 produktiv zur Verfügung. - Samstag, 26.04.2008, 05:44 Uhr:
Die Übernahme auf h01 erfordert auf Grund des erheblich größeren Datenvolumenes mehr Zeit.
Dieser Umstand war uns bekannt. Daher wurde die Gesamtdauer bis 6 Uhr angesetzt. - Samstag, 26.04.2008, 05:51 Uhr:
Die Übernahme wurde auf h01 inzwischen abgeschlossen.
Auf h01 steht nun PostgreSQL 8.1 produktiv zur Verfügung.
Die Migration von PotsgreSQL 7.4 auf 8.1 wurde auf den Hives h01, h02 und h03 erfolgreich abgeschlossen. Auf den Hives h04, h51, h52 und h90 wurde die Migration bereits vor einigen Tagen durchgeführt. Die Ausfallzeit von PostgreSQL betrug auf h01 rund 30 Minuten, h02 und h03 rund 15 Minuten.
Dienstag, 22.04.2008, 18:12 Uhr: h02: Extreme Last
Ursache unbekannt.
- Dienstag, 22.04.2008, 18:13 Uhr:
Ich stoppe mysql und zentralen Webserver, um den Load zu beruhigen.
Load fällt - Dienstag, 22.04.2008, 18:17 Uhr:
Webserver und mysqld wieder gestartet.
Last bleibt stabil niedrig, fällt sogar leicht weiter.
Ab ca. 18:00 langsame Server-Reaktion. Ausfallzeit von ca. 18:12 bis 18:17. Die Ursache konnte nicht mehr festgestellt werden, vermutlich eine kurzzeitige Request-Überlast, die dann in einem Stau endete.
Montag, 21.04.2008, 18:26 Uhr: h02: Performance-Probleme
Durch starke Auslastung des Arbeitsspeichers des Paketservers h02 gab es Performance-Probleme.
Die Performance-Probleme konnten durch das Beenden von arbeitsspeicherintensiven Prozessen eines Paketusers behoben werden, sie dauerten laut Monitoring von 17:42 Uhr bis 18:04 Uhr.
Sonntag, 20.04.2008, 06:56 Uhr: h01: hohe Last
h01 läuft seit ein paar Minuten mit sehr hoher Last.
- Sonntag, 20.04.2008, 07:00 Uhr:
Der Arbeitsspeicher des Systems ist ungewöhnlich stark ausgelastet, vermutlich liegt darin die Ursache für die Überlast. - Sonntag, 20.04.2008, 07:05 Uhr: Stoppe verschiedene Serverprozesse (z.B. MySQL).
- Sonntag, 20.04.2008, 07:07 Uhr:
Webserver und MySQL-Server gestoppt
>2 GB RAM sind wieder frei, Load sinkt. Werde versuchen, die beiden Server direkt wieder zu starten.
Die Lastsituation auf h01 hat sich seit einiger Zeit wieder entspannt. Laut Monitoring lag die Kernzeit der Performance-Probleme von h01 zwischen 6:49 Uhr und 7:09 Uhr.
Donnerstag, 17.04.2008, 15:58 Uhr: h03: Mailserver angehalten
Auf h03 wurde Postfix (SMTP-Server) angehalten, da begründeter Verdacht hinsichtlich des Versands von Spam besteht, welcher über den Account httpd eingeliefert wurde. Alle PHP-Anwendungen, welche von mod_php ausgeführt werden, laufen unter dieser Kennung, was die Untersuchung der Umstände erschwert.
- Donnerstag, 17.04.2008, 16:02 Uhr: postfix auf h03 angehalten, um weitere Spameinlieferungen zu unterbinden.
- Donnerstag, 17.04.2008, 16:03 Uhr: postfix auf yuma angehalten, um weitere Spamauslieferungen zu unterbinden
- Donnerstag, 17.04.2008, 16:05 Uhr: Entfernen von Spammails aus der Mailqueue von yuma und h03.
- Donnerstag, 17.04.2008, 16:09 Uhr:
Postfix auf yuma wieder gestartet.
Damit aktuell nur noch das Mailsystem auf h03 abgeschaltet.
Mittwoch, 16.04.2008, 05:46 Uhr: h03: Ausfall des zentralen Webservers
Ursache noch unbekannt, wird nun überprüft.
- Mittwoch, 16.04.2008, 05:49 Uhr:
Logfile-Überprüfung
Um 4:22 endete das Logfile mit: "long lost child came home ... Child ... returned a Fatal error ... Apache is exiting"
Nach dem Neustart des Webservers läuft dieser wieder. Effektive Ausfallzeit ca. 4:22-5:49.
Dienstag, 15.04.2008, 08:57 Uhr: h03: Mailserver angehalten
Auf h03 wurde Postfix (SMTP-Server) angehalten, da begründeter Verdacht hinsichtlich des Versands von Spam besteht, welcher über den Account httpd eingeliefert wurde. Alle PHP-Anwendungen, welche von mod_php ausgeführt werden, laufen unter dieser Kennung, was die Untersuchung der Umstände erschwert.
Dienstag, 08.04.2008, 08:53 Uhr: alle Systeme: Probleme bei der E-Mail-Zustellung
Durch einen Konfigurationsfehler in einem Paket werden zwischen unseren Systemen seit vergangener Nacht große Mengen automatisch generierter E-Mails (Bounces) hin- und hergeschickt. Dies führt zu extrem großen Mailqueues und damit zu verzögerter Zustellung nahezu aller E-Mails, die über eins unserer Systeme laufen. Die Ursache des Problems ist mittlerweile bekannt und behoben; zur Zeit wird versucht, die Mailqueues durch das automatische Löschen der o.g. Bounces wieder von den überflüssigen E-Mail-Massen zu befreien.
- Dienstag, 08.04.2008, 08:57 Uhr:
h01, h02: Mailserver vorübergehend angehalten
Das Löschen der überflüssigen E-Mails aus den Queues geht wesentlich schneller, wenn nicht gleichzeitig der Mailserver läuft. Ich habe die Mailserver auf den Paketservern h01 und h02 daher vorübergehend angehalten. - Dienstag, 08.04.2008, 09:14 Uhr: An die Hostmaster: Die SMS-Alarme sind temporär deaktiviert.
- Dienstag, 08.04.2008, 10:09 Uhr:
Die Mailqueues der Paketserver sind nun allesamt leer, der Betrieb sollte normal weiterlaufen. Die SMS-Alarme sind wieder aktiviert.
Zwischen 1:07 Uhr und 10:05 Uhr gab es schwankende Verzögerungen bei der Mailzustellung über Hostsharing-Systeme. Das fehlerhafte Script, das primäre Ursache für die vollen Mailqueues war, wurde mittlerweile vom zuständigen Paketadmin korrigiert.

