Downtime oder Ausfallzeit bezeichnet den Zeitraum, in dem ein System, ein Dienst oder eine Maschine nicht funktioniert oder nicht verfügbar ist. In der Informationstechnologie (IT) bedeutet Downtime, dass Computersysteme, Netzwerke oder Anwendungen nicht erreichbar sind. Dies kann den Betrieb erheblich stören und finanzielle Verluste verursachen.
Downtime kann entweder geplant sein, beispielsweise für Wartungsarbeiten und Upgrades, oder unerwartet auftreten, etwa durch Hardware-Ausfälle, Softwarefehler oder Cyberangriffe.
Um eine Downtime festzustellen, werden Überwachungstools eingesetzt, die in Echtzeit Leistungsmetriken und Systemzustände erfassen. Bei Auffälligkeiten wie hoher Latenz, Dienstausfällen oder Infrastrukturproblemen generieren diese Tools Warnmeldungen. Diese Alarmierungen werden an Incident-Management-Lösungen wie ilert gesendet, um eine schnelle Behebung des Ausfalls zu gewährleisten.
Unter geplanter Downtime versteht man absichtliche Unterbrechungen zur Durchführung von Wartungsarbeiten, Updates oder System-Upgrades. Diese Downtimes werden in der Regel während Zeiten mit wenig Traffic durchgeführt, um betriebliche Beeinträchtigungen zu minimieren. Unternehmen kündigen geplante Wartungszeiten oft im Voraus an. Während dieser Zeit setzen IT-Teams häufig Wartungsfenster, um zu verhindern, dass Überwachungssysteme oder Incident-Management-Plattformen unnötige Warnmeldungen auslösen. Nach Abschluss der geplanten Downtime kehren diese Systeme in ihren Normalbetrieb zurück.
Ungeplante Downtimes sind unerwartete Ausfälle, die durch unvorhersehbare Ereignisse verursacht werden. Dazu gehören Hardware-Ausfälle, Softwareprobleme, menschliche Fehler oder externe Faktoren wie Stromausfälle und Cyberangriffe.
Im Juli 2024 veröffentlichte das Unternehmen für Cybersicherheit “CrowdStrike” ein fehlerhaftes Update für seine Falcon Sensor-Software, was weltweit zum Absturz von etwa 8,5 Millionen Windows-Geräten führte. Der Vorfall betraf zahlreiche Branchen, darunter Fluggesellschaften, das Gesundheitswesen und Finanzinstitute, und verursachte erhebliche betriebliche sowie finanzielle Schäden.
Im Oktober 2024 kam es bei Salesforce, einer CRM-Lösung, zu einer erheblichen Betriebsstörung, die mehrere Dienste betraf, darunter Authentifizierung, Integrationen und die Leistung der Kernanwendung. Der Ausfall hing mit einem unerwarteten Systemverhalten zusammen, das eine Notfallwartung erforderte, um den normalen Betrieb wiederherzustellen.
Downtime wird oft im Zusammenhang mit Service Level Agreements (SLAs) erwähnt. SLAs sind Verträge zwischen Dienstleistern und Kunden, die das erwartete Serviceniveau definieren. Sie legen fest, wie oft ein Dienst verfügbar sein muss, beispielsweise eine Betriebszeit von 99,9 %. Falls diese Anforderungen nicht erfüllt werden, können Strafzahlungen oder Servicegutschriften anfallen. Um Vertragsstrafen zu vermeiden, setzen Anbieter alles daran, Downtimes zu minimieren.
Die finanziellen Auswirkungen von Ausfallzeiten können erheblich sein. Laut einem Bericht von Forbes belaufen sich die Kosten für Ausfallzeiten in großen Unternehmen auf etwa 9.000 US-Dollar pro Minute. Diese Verluste entstehen durch entgangene Einnahmen, verringerte Produktivität und betriebliche Störungen.
Es gibt keine einfache Lösung, um Downtimes zu vermeiden. Unternehmen, die eine Betriebszeit von 99,99 % anstreben, setzen auf verschiedene Strategien:
Durch proaktive Maßnahmen und den gezielten Einsatz von Incident-Management-Plattformen können Unternehmen ihre Systemzuverlässigkeit erhöhen, SLA-Verpflichtungen erfüllen und die finanziellen sowie operativen Auswirkungen von Serviceunterbrechungen minimieren.
Häufig gestellte Fragen: