Glossary

Was bedeutet Downtime (Ausfallzeit)?

ilert glossary term dowtime

Downtime oder Ausfallzeit bezeichnet den Zeitraum, in dem ein System, ein Dienst oder eine Maschine nicht funktioniert oder nicht verfügbar ist. In der Informationstechnologie (IT) bedeutet Downtime, dass Computersysteme, Netzwerke oder Anwendungen nicht erreichbar sind. Dies kann den Betrieb erheblich stören und finanzielle Verluste verursachen.

Downtime kann entweder geplant sein, beispielsweise für Wartungsarbeiten und Upgrades, oder unerwartet auftreten, etwa durch Hardware-Ausfälle, Softwarefehler oder Cyberangriffe.

Um eine Downtime festzustellen, werden Überwachungstools eingesetzt, die in Echtzeit Leistungsmetriken und Systemzustände erfassen. Bei Auffälligkeiten wie hoher Latenz, Dienstausfällen oder Infrastrukturproblemen generieren diese Tools Warnmeldungen. Diese Alarmierungen werden an Incident-Management-Lösungen wie ilert gesendet, um eine schnelle Behebung des Ausfalls zu gewährleisten.

Welche Arten von Downtime (Ausfallzeit) gibt es?

Geplante Downtime

Unter geplanter Downtime versteht man absichtliche Unterbrechungen zur Durchführung von Wartungsarbeiten, Updates oder System-Upgrades. Diese Downtimes werden in der Regel während Zeiten mit wenig Traffic durchgeführt, um betriebliche Beeinträchtigungen zu minimieren. Unternehmen kündigen geplante Wartungszeiten oft im Voraus an. Während dieser Zeit setzen IT-Teams häufig Wartungsfenster, um zu verhindern, dass Überwachungssysteme oder Incident-Management-Plattformen unnötige Warnmeldungen auslösen. Nach Abschluss der geplanten Downtime kehren diese Systeme in ihren Normalbetrieb zurück.

Ungeplante Downtime

Ungeplante Downtimes sind unerwartete Ausfälle, die durch unvorhersehbare Ereignisse verursacht werden. Dazu gehören Hardware-Ausfälle, Softwareprobleme, menschliche Fehler oder externe Faktoren wie Stromausfälle und Cyberangriffe.

Beispiele für Ausfallzeiten

Die “CrowdStrike Falcon”-Störung (Juli 2024)

Im Juli 2024 veröffentlichte das Unternehmen für Cybersicherheit “CrowdStrike” ein fehlerhaftes Update für seine Falcon Sensor-Software, was weltweit zum Absturz von etwa 8,5 Millionen Windows-Geräten führte. Der Vorfall betraf zahlreiche Branchen, darunter Fluggesellschaften, das Gesundheitswesen und Finanzinstitute, und verursachte erhebliche betriebliche sowie finanzielle Schäden.

Die “Salesforce”-Serviceunterbrechung (Oktober 2024)

Im Oktober 2024 kam es bei Salesforce, einer CRM-Lösung, zu einer erheblichen Betriebsstörung, die mehrere Dienste betraf, darunter Authentifizierung, Integrationen und die Leistung der Kernanwendung. Der Ausfall hing mit einem unerwarteten Systemverhalten zusammen, das eine Notfallwartung erforderte, um den normalen Betrieb wiederherzustellen.

Downtime und Service Level Agreements (SLAs)

Downtime wird oft im Zusammenhang mit Service Level Agreements (SLAs) erwähnt. SLAs sind Verträge zwischen Dienstleistern und Kunden, die das erwartete Serviceniveau definieren. Sie legen fest, wie oft ein Dienst verfügbar sein muss, beispielsweise eine Betriebszeit von 99,9 %. Falls diese Anforderungen nicht erfüllt werden, können Strafzahlungen oder Servicegutschriften anfallen. Um Vertragsstrafen zu vermeiden, setzen Anbieter alles daran, Downtimes zu minimieren.

Die Kosten von Downtimes

Die finanziellen Auswirkungen von Ausfallzeiten können erheblich sein. Laut einem Bericht von Forbes belaufen sich die Kosten für Ausfallzeiten in großen Unternehmen auf etwa 9.000 US-Dollar pro Minute. Diese Verluste entstehen durch entgangene Einnahmen, verringerte Produktivität und betriebliche Störungen.

Strategien zur Minimierung von Downtimes

Es gibt keine einfache Lösung, um Downtimes zu vermeiden. Unternehmen, die eine Betriebszeit von 99,99 % anstreben, setzen auf verschiedene Strategien:

  • Regelmäßige Wartung: Durchführung routinemäßiger Systemprüfungen und Updates, um potenzielle Probleme frühzeitig zu erkennen und zu beheben.
  • Redundanz und Failover-Systeme: Implementierung von Backup-Systemen, die bei einem Ausfall des primären Systems automatisch übernehmen, um den Betrieb aufrechtzuerhalten.
  • Schulung von Mitarbeitern: Sensibilisierung der Mitarbeiter für bewährte Verfahren und Protokolle zur Minimierung menschlicher Fehler, die zu Systemausfällen führen könnten.
  • Starke Cybersicherheitsmaßnahmen: Einsatz fortschrittlicher Sicherheitslösungen zum Schutz vor Cyberangriffen, die Downtimes verursachen könnten.
  • Incident-Management-Plattformen: Der Einsatz von Incident-Management-Lösungen wie ilert ermöglicht Unternehmen eine schnellere Erkennung, Eskalation und Behebung von Vorfällen. Diese Plattformen automatisieren Alarmierungen und Bereitschaftspläne, sodass kritische Probleme sofort an die richtigen Techniker weitergeleitet werden. Darüber hinaus bieten sie Echtzeit-Kollaboration und Post-Mortem-Analysen, um Reaktionsstrategien zu verbessern und zukünftige Downtimes zu reduzieren.

Fazit

Durch proaktive Maßnahmen und den gezielten Einsatz von Incident-Management-Plattformen können Unternehmen ihre Systemzuverlässigkeit erhöhen, SLA-Verpflichtungen erfüllen und die finanziellen sowie operativen Auswirkungen von Serviceunterbrechungen minimieren.

Häufig gestellte Fragen:

  • Was bedeutet Downtime? Downtime bezeichnet die Zeit, in der ein IT-System oder eine Anwendung nicht verfügbar ist.
  • Was bedeutet Ausfallzeit? Ausfallzeit ist der deutsche Begriff für Downtime und beschreibt den Zeitraum, in dem ein System nicht funktioniert.
  • Wie kann man Downtime in IT-Operationen reduzieren? Unternehmen setzen auf Wartungspläne, Failover-Systeme, Sicherheitsmaßnahmen und Incident-Management-Lösungen wie ilert, um Ausfallzeiten zu minimieren.

Letzte Beiträge