Hardwarefehler: Offline, ohne Downtime

Redundanz mittels Hot-Standby-Konzept vermeidet unnötige Downtime bei Hardwarefehlern.

Ein System Management Board meldete den Ausfall eines Lüfters auf einem unserer Server. Aufgrund redundanter Auslegung der Lüfter handelte es sich um eine Störung, aber keinen Notfall. Der Lüfter wurde nach Zusendung des per SLA abgesicherten Ersatzteils von unserem Rechenzentrumsteam in Kooperation mit unseren Admins ausgetauscht, der Server muss für den Austausch offline sein.

Dank unserer [Hot-Standby-Technik](« ref “features/hochverfuegbare-infrastruktur.md” ») konnte der Austausch des Lüfters ohne
Beeinträchtigung der gehosteten Angebote unserer Mitglieder und Endkunden erfolgreich gelöst werden.

Ablaufprotokoll zum Austausch des Lüfters

23.07.2015 20:30 Uhr
Zwei Admins migrieren alle virtuellen Maschinen mittels Live Migration auf den dem Produktiv-System zugeordneten Hot-Standby Host.
23.07.2015 21:00 Uhr
Das Rechenzentrumsteam trifft im Rechenzentrum ein. Per Chat wird die Verbindung zum Admin-Team aufgenommen.
23.07.2015 21:30 Uhr
Das Rechenzentrumsteam hat den Host identifiziert und sich vorbereitet, d.h. Arbeitsmaterial zum Rack transportiert. Die Admins fahren das Produktiv-System herunter.
23.07.2015 21:45 Uhr
Die Verkabelung wurde entfernt und der Host aus dem Rack entnommen. Die defekte Komponente wird identifiziert und ausgetauscht.
23.07.2015 21:55 Uhr
Der Host befindet sich wieder im Rack und ist verkabelt. Während der Host bootet, beginnt das Admin-Team mit der Überprüfung des Systems via Remote Management: Ist der Fehler beseitigt? Sind durch die Maßnahme neue Fehler aufgetreten?
23.07.2015 22:05 Uhr
Der Fehler ist beseitigt, Folgefehler sind nicht aufgetreten. Der Host hat erfolgreich gebootet und zeigt keinerlei Software-Probleme. Die Echtzeitreplikation hat innerhalb von zwei Minuten (über 10 GBE) die Synchronisation vollzogen. Das Rechenzentrumsteam verlässt den Schauplatz.
23.07.2015 22:10 Uhr
Die Rückmigration der virtuellen Maschinen per Live Migration läuft.
23.07.2015 22:15 Uhr
Die Rückmigration ist abgeschlossen.

Fazit

Hardwarefehler sind früher oder später zu erwarten. Ohne eine interne Redundanz besteht für den Austausch des Lüfters ein Notfall (hier evtl. Überhitzung), der mit  einem Ausfall aller Dienste von ca. 2 Stunden verbunden ist.

Aufgrund der von der Hostsharing eG vorgehaltenen internen Redundanz auf verschiedenen Ebenen werden Beeinträchtigungen der Mitglieder, Kunden und Nutzer der gehosteten Angebote vermieden.

Das Hot-Standby-Konzept der Hostsharing eG vermeidet den Ausfall der von den Mitgliedern und deren Kunden gehosteten Angebote, außerplanmäßige Wartungsfenster werden vermieden.

Genossenschaftliche IT-Betreuung aus einer Hand
Beratung

Kompetente Beratung bei Auswahl und Anwendung von freier Software

Umsetzung

Tatkräftige Unterstützung bei der Umsetzung Ihrer Pläne.

Betrieb

Dienstleistungen für einen reibungslosen IT-Betrieb

Unsere Werte
Digitale Souveränität

Wir schaffen genossenschaftliches Eigentum an digitaler Infrastruktur und gestalten die Digitalisierung in freier Selbstbestimmung.

Digitale Nachhaltigkeit

Für uns hat Nachhaltigkeit drei Dimensionen: eine ökologische, eine technische und eine soziale.

Digitale Exzellenz

Leistungen mit technischem und genossenschaftlichem Mehrwert.