Hardwarefehler: Offline, ohne Downtime

erschienen am 31.07.2015 — Technik, Verfügbarkeit

Redundanz mittels Hot-Standby-Konzept vermeidet unnötige Downtime bei Hardwarefehlern.

Ein System Management Board meldete den Ausfall eines Lüfters auf einem unserer Server. Aufgrund redundanter Auslegung der Lüfter handelte es sich um eine Störung, aber keinen Notfall. Der Lüfter wurde nach Zusendung des per SLA abgesicherten Ersatzteils von unserem Rechenzentrumsteam in Kooperation mit unseren Admins ausgetauscht, der Server muss für den Austausch offline sein.

Dank unserer Hot-Standby-Technik konnte der Austausch des Lüfters ohne
Beeinträchtigung der gehosteten Angebote unserer Mitglieder und Endkunden erfolgreich gelöst werden.

Ablaufprotokoll zum Austausch des Lüfters

23.07.2015 20:30 Uhr
Zwei Admins migrieren alle virtuellen Maschinen mittels Live Migration auf den dem Produktiv-System zugeordneten Hot-Standby Host.
23.07.2015 21:00 Uhr
Das Rechenzentrumsteam trifft im Rechenzentrum ein. Per Chat wird die Verbindung zum Admin-Team aufgenommen.
23.07.2015 21:30 Uhr
Das Rechenzentrumsteam hat den Host identifiziert und sich vorbereitet, d.h. Arbeitsmaterial zum Rack transportiert. Die Admins fahren das Produktiv-System herunter.
23.07.2015 21:45 Uhr
Die Verkabelung wurde entfernt und der Host aus dem Rack entnommen. Die defekte Komponente wird identifiziert und ausgetauscht.
23.07.2015 21:55 Uhr
Der Host befindet sich wieder im Rack und ist verkabelt. Während der Host bootet, beginnt das Admin-Team mit der Überprüfung des Systems via Remote Management: Ist der Fehler beseitigt? Sind durch die Maßnahme neue Fehler aufgetreten?
23.07.2015 22:05 Uhr
Der Fehler ist beseitigt, Folgefehler sind nicht aufgetreten. Der Host hat erfolgreich gebootet und zeigt keinerlei Software-Probleme. Die Echtzeitreplikation hat innerhalb von zwei Minuten (über 10 GBE) die Synchronisation vollzogen. Das Rechenzentrumsteam verlässt den Schauplatz.
23.07.2015 22:10 Uhr
Die Rückmigration der virtuellen Maschinen per Live Migration läuft.
23.07.2015 22:15 Uhr
Die Rückmigration ist abgeschlossen.

Fazit

Hardwarefehler sind früher oder später zu erwarten. Ohne eine interne Redundanz besteht für den Austausch des Lüfters ein Notfall (hier evtl. Überhitzung), der mit  einem Ausfall aller Dienste von ca. 2 Stunden verbunden ist.

Aufgrund der von der Hostsharing eG vorgehaltenen internen Redundanz auf verschiedenen Ebenen werden Beeinträchtigungen der Mitglieder, Kunden und Nutzer der gehosteten Angebote vermieden.

Das Hot-Standby-Konzept der Hostsharing eG vermeidet den Ausfall der von den Mitgliedern und deren Kunden gehosteten Angebote, außerplanmäßige Wartungsfenster werden vermieden.

Testen Sie Hostsharing 3 Monate lang kostenlos und unverbindlich.