13. Juli 2003 03:00h: 12 Stunden partielle Routing-Probleme
Liebe Mitglieder und sonstige Hostsharing-Nutzer,Auswirkung
Am Sonntag, den 13. Juli 2003 gab es im Zeitraum von ca. 3:00h nachts bis 15:00h nachmittags partielle Routing-Probleme zu unseren Servern. Je nach Internet-Zugangs-Provider war damit keine Verbindung zu unseren Servern möglich oder die Verbindung war sehr schlecht.
Insgesamt ist die Anzahl der Zugriffe auf unsere Server nicht sichtbar geringer als an anderen Sonntagen. Auch wenn dieser Ausfall für einige also wie ein Totalausfall aussah, war er das keinesfalls.
Ursache
Ein Router außerhalb unseres Einflussbereichs (und außerhalb des Einflussbereichs der ISP eG) hatte starke Störungen. Leider waren die Störungen so, dass noch genug IP Pakete übertragen wurden, so dass unsere BGP Router nicht auf eine andere Route umgeschaltet haben.
Details
Dass die Behebung des Problems so lange dauerte, hatte mehrere Ursachen:
- Zwar war auch unser Monitor-Server betroffen, aber die Hostmaster hatten normalen Zugriff auf den Server.
- Auch zeigten Traceroute-Messungen in beide Richtungen, dass das Problem außerhalb unseres Einflussbereichs lag.
- Zudem waren die Zugriffe auf den Server in normaler Höhe.
- Desweiteren bekamen wir erste Beschwerden erst im Laufe des späten Vormittags.
- Beide Notfall-Telefonnummern zur ISP eG waren nicht besetzt, das Händy hatte offenbar keinen Empfang.
- Nicht zuletzt war die Hostsharing Hostmaster Bereitschaft am Sonntag schlecht besetzt.
Die ersten vier Punkte führten dazu, dass uns die Schwere des Problems zunächst gar nicht bekannt war. Effektiv gesehen war es auch für die meisten kein Problem, wie gesagt, die Zugriffszahlen entsprechen ungefähr einem normalen Sonntag.
Die anderen Punkte dazugenommen kam es zu so großen Verzögerungen. Selbst ohne die weiteren Punkte, wäre die Route aber kaum vor 12:00h wieder hergestellt gewesen.
Maßnahmen
- Wir brauchen mindestens zwei weiteren Hostsharing Hostmaster, um eine bessere Bereitschaft zu haben. (TODO)
- Wir brauchen einen weiteren Routing-Experten bei der ISP eG, den evtl. Hostsharing stellen muss. (TODO)
- Wir brauchen einen weiteren Monitor-Server, der über andere Netze angebunden ist. (TODO)
- Die BGP Konfiguration sollte, wenn möglich, diese Art Fehler abfangen können. (TODO)
Es ist fraglich, ob dies überhaupt möglich ist.
Für den Ausfall bitte ich im Namen der Hostmaster um Entschuldigung.
- Michael Hönnig
Hostmaster Hostsharing eG

