Archiv

Internet, 29. März 2001 17:56h: 4 Minuten Total-Ausfall

Liebe Mitglieder und sonstige Hostsharing-Nutzer,

Auswirkung

Alle höheren Dienste ausser Shell-Zugang waren für ca. 4 Minuten nicht verfügbar.

Ursache

Durch ein CPU-intensives Shell-Kommando konnten die niedriger priorisierten Dienste HTTP, mySQL etc. keine Anfragen mehr beantworten. Dadruch entstand ein "Stau" von lauffähigen Prozessen, sprich: der Load stieg an. Bei einem Load von 15 wurden die höheren Dienste bis auf Shell-Zugang abgeschaltet, um den Rechner remote administrierbar zu halten.

Details

Seit dem Vorfall am 12. März liefen auch die httpd mit derselben niederen Priorität wie die mysqld, und zwar um die damaligen Verklemmungen zu verhindern. Genau dadurch entstand diesmal der "Stau". Die zweite Maßnahme gegen den damaligen Ausfall, nämlich das automatische Abschalten der höheren Dienste bei einem Load über 15, legte dann für ca. 4 Minuten eben diese lahm.

Maßnahmen

  • root-SSH mit höchter Priorität, Prio für normale Shells festlegen. (TODO#226)
    Wir sollten uns Gedanken über eine sinnvolle Prioritäten-Verteilung der verschiedenen Dienste machen, in der das Gesamtsystem berücksichtigt wird. Problem dabei ist, dass man interaktive Shell-Nutzung durchaus mit hoher Priorität laufen lassen will, da Tippen sonst träge wäre. Sobald aber in der interaktiven Shell nicht-interaktive Programme (z.B. ein Kopierjob) gestartet werden, sollen diese mit niedrigerer Priorität laufen, um die anderen Dienste, insbesondere HTTP, nicht zu stören. Weitere Diskussion auf der technik@ Liste.

Für den Ausfall bitte ich im Namen der Hostmaster um Verzeihung.

Michael Hönnig Hostmaster Hostsharing eG i.Gr.