Archiv

10. Januar 2002 23:00h: ca. 1-3 Tage Total-Ausfall

Liebe Mitglieder und sonstige Hostsharing-Nutzer,

Auswirkung

von Donnerstag, den 10.01.2002 um 23:00h an hatten wir einen Totalausfall. Dieser dauerte wie folgt an:

  • Mail: bis Freitag, 11.01.2001 gegen 13:45h
  • FTP/HTTP/Shell: bis Samstag, 12.01.2001 gegen 14:00h
  • mySQL: bis Samstag, 12.01.2001 gegen 23:10h

Desweiteren waren aufgrund eines orgaisatorischen Fehlers die Backups zunäscht nicht lesbar. Die Daten konnten ab Montag, 14.01.2001, gegen 22:00h wieder eingespielt werden, dies wird jedoch nur auf Anfrage gemacht, da einge Sites bereits wieder von lokalen Backups aufgespielt wurden. Zu diesem Zweck wurde ein Formular an alle Paket-Inhaber versendet.

Ursache

Nachdem bereits kurz vor Jahreswechsel eine Platte ausgefallen war, und der Umzug auch aufgrund der Einrichtung unseres zweiten Servers crow erst für das Wochenende vom 11.02.2002 geplant war, fiel am Donnerstag um 23:00h eine zweite Platte aus. Damit wurde unser /home Directory readonly gemountet und die meisten Dienste nicht mehr funktionsfähig (noch möglich war für ca. 1 Stunde statisches HTTP).

Details

Da der neue Server bereits bereitstand, wäre der Umzug normalerweise binnen weniger Stunden zu bewerkstelligen gewesen. Jedoch kam es zur richtigen Katastrophe, weil zum einen das Passwort für die verschlüsselten Backups, nicht verfügbar war. Zudem wurde seit ca. 8 Wochen versehentlich kein Backup der Konfiguration (/etc/) und Server-Admin-Skripte (/root/) durchgeführt.

Der Grund für beide fatalen Fehler war, dass vor ca. 8 Wochen unser damals (nicht von uns administrierter) Backup-Server gehackt wurde. In Hektik hatten wir alle unsere Backups von diesem entfernt. Das dabei verwendete Passwort befand sich nur in einer Datei auf unserem Hauptserver, wo es für die Verschlüsselung benötigt wurde. Zwar wurde das entschlüsseln getestet, da das Passwort jedoch danach nie wieder eingegeben weden wurde, wurde es vergessen.

Aus einem 8 Wochen alten Backup der Konfiguration, einigen Dateien, die noch vom defekten RAID-Device kopiert werden konnten, und einigen lokalen Dateien, konnte dennoch innerhalb zweier Tages der Server neu konfiguriert werden. Noch am Freitag-Morgen konnte für die Domains wenigstens ein Redirect auf eine Fehlerseite auf unserem neuen Zweitserver crow eingerichtet werden, so dass Besucher nicht mehr im unklaren über die Sites waren. Das Mailsystem lief bereits ca. 27 Stunden nach dem Ausfall wieder. Parallel versuchten wir mit bis zu 50 Computern, das Passwort für die Backups zu knacken und ebenfalls parallel an die raw-Devices der RAID-Festplatten ranzukommen, die bei unserem Houser in den USA standen. Durch das Wochenede verzögerte sich letzteres.

Nachdem der Upload aus für die Websites bereits am Samstag Mittag wieder lief, benötigten wir noch zwei weitere Tage, um an die Backups heranzukommen. Erfolg brachte das Scannen der raw-Devices mit Heuristkiken, die ca. 1 Million Passwort-Kandidaten lieferten. Diese wurden dann mit einem zwischenzeitlich von einem Mitglied entwickelten Crackprogramm brute-force gegen eine kleine Backup-Datei getestet, und binnen weniger Minuten hatten wir das Passwort.

Da einige Mitglieder bereits wieder ihre Sites per FTP hochgeladen hatten, war das Restore mühsam, denn schließlich sollten keine neueren Dateien überschrieben werden. So wurde von den Hostmastern ein Formular entwickelt, auf dem jede Mitglied auswählen konnte, welche Teile von den Hostmastern und welche Teile es selbst restoren wollte. Die Pakete der Mitglieder, die nicht auf das Formular antworteten und auch keine eigenen Daten hochgespielt hatten, wurden von den Hostmastern am Mittwoch wiederhergestellt.

Im Rahmen des Restores mussten wir feststellen, dass einige andere Daten nicht gesichert waren: der extern zugängliche mySQL-Server, die cronjobs, die POP3-Mailboxen sowie die Hostsharing-eigenen Mailman-Mailinglsiten. Der eingetretene Schaden hält sich jedoch bis zum jetztigen Zeitpunkt in Grenzen.

Maßnahmen

Um auf ähnliche Vorfälle in Zukunft besser vorbereitet zu sein, werden wir diverse Maßnahmen diskutieren und ergreifen:

  • Ein Konzept entwickeln, mit dem wir in Falle eines GAU binnen ca. 1 Stunde wieder online sind. (DONE)

Aufgrund des Umfangs werden die Maßnahmen zunächst auf unseren Mailinglisten diskutiert werden und später hier als ToDo-Tabelle nachgetragen.

Nachtrag: Einen Diskussionsanfang für Maßnahmen findet sich hier. Die Diskussion dazu wird auf unserer Mailingliste global@ geführt werden.

Fest steht schon jetzt, dass ganz im chinesischen Sinne eine Krise auch eine Chance ist. Wir haben aus diesem Unfall viele Dinge gelernt, die uns in Zukunft im Bezug auf Verfügbarkeit sehr weiterhelfen werden.

Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.

Michael Hönnig Hostmaster Hostsharing eG