BLOG

Was ist Alarmmüdigkeit in DevOps und wie kann man sie mit Hilfe von ilert bekämpfen?

Daria Yankevich
January 31, 2024
Table of Contents:

In Ihrem Team-Chat können täglich automatische Alarme in großer Zahl eingehen. Obwohl diese Alarme dazu gedacht sind, Sie auf Probleme aufmerksam zu machen, werden sie oft übersehen, wenn Sie sich durch Dutzende von ihnen durchscrollen. Wenn wir über IT-Alarme sprechen, wird die Sache noch komplizierter, denn sie enthalten viele technische Details, die Sie entschlüsseln müssen. Dies ist eines von vielen einfachen Beispielen für Alarmmüdigkeit. Die Geschichte vom Jungen, der Wolf schrie, endete schlecht, und um diese tragische Legende nicht zu wiederholen, wollen wir uns näher mit der Alarmmüdigkeit befassen und wie DevOps-Mitarbeiter:innen sie vermeiden können.

Was bedeutet Alarmmüdigkeit (Alert Fatigue)?

Alarmmüdigkeit, auch bekannt als Alert Fatigue, Alarm- oder Warnmüdigkeit, ist ein Phänomen, das auftritt, wenn Personen einer großen Anzahl von häufigen Alarmen oder Benachrichtigungen ausgesetzt sind, was dazu führt, dass sie gegenüber diesen Warnungen desensibilisiert werden. Diese Desensibilisierung führt oft dazu, dass die Reaktion auf Alarme nachlässt, einschließlich langsamerer Reaktionszeiten, übersehener Alarme oder des vollständigen Ignorierens wichtiger Alarme. Alarmmüdigkeit ist in verschiedenen Bereichen wie dem Gesundheitswesen, der Luftfahrt und der IT, einschließlich DevOps- und SRE-Teams (Site Reliability Engineering), ein bedeutendes Problem.

Welche Folgen hat Alarmmüdigkeit?

Alarmmüdigkeit wurde als ein beitragender Faktor für die 49 Todesfälle genannt, die durch den Hurrikan Ida verursacht wurden. Einige Tage vor dem Auftreffen Idas auf den amerikanischen Nordosten wurden mehrere Benachrichtigungen an Handys gesendet, die die Menschen vor unmittelbar bevorstehenden gefährlichen Wetterbedingungen warnten. Diese kritischen Alarme gingen inmitten eines Durcheinanders anderer Handybenachrichtigungen verloren und blieben folglich unbemerkt. Das ist ein extremes Beispiel für die Folgen, aber es ist nicht einzigartig und nicht das einzige Mal, dass Alarmmüdigkeit zu einer Katastrophe führte. Ein falsches Sicherheitsgefühl ist eine der Folgen der Alarmüberlastung.

In der IT werden hohe Alarmvolumen ebenfalls immer häufiger, da immer mehr IT-Systeme in die Technik-Stacks von Unternehmen eingeführt werden. Eine Studie aus dem Jahr 2021 ergab, dass Unternehmen etwa 30 % der Cybersicherheitsalarme nicht untersuchten oder vollständig ignorierten. Systemausfälle, Sicherheitsverletzungen, Reputationsschäden, erhöhte Betriebskosten - eine riesige Liste potenzieller Risiken entsteht, wenn Systeme unkontrollierbare Alarme produzieren.

Es gibt auch schwerwiegende Folgen auf Team- und individueller Ebene. Die psychologische und emotionale Belastung durch den unaufhörlichen Strom von Alarmen kann beim IT-Personal zu Burnout führen. Dies kann zu verminderter Arbeitszufriedenheit, reduzierter Leistung und höheren Fluktuationsraten führen, da Mitarbeiter:innen weniger stressige Arbeitsumgebungen suchen. Zudem können ständige Unterbrechungen durch nicht-kritische Alarme den Arbeitsfluss und die Konzentration stören und so die Gesamtproduktivität senken. IT-Profis verbringen möglicherweise übermäßig viel Zeit mit der Verwaltung von Alarmen, anstatt an proaktiven Maßnahmen oder strategischen Projekten zu arbeiten.

Was sind die Gründe für eine redundante Menge an Alarmen?

Jetzt, da wir die negativen Auswirkungen der Alarm- oder Warnmüdigkeit verstehen, stellt sich die Frage, woher sie kommt. Im Kontext von DevOps und IT entsteht Alarmmüdigkeit typischerweise, wenn Systeme und Tools eine übermäßige Anzahl von Alarmen generieren, von denen viele Fehlalarme sein können oder nicht dringend sind.

Hier sind zehn Gründe, warum IT-Teams in Alarmmüdigkeit enden:

  1. Veränderungen in der Umgebung. Häufige Veränderungen in der IT-Umgebung, wie Updates, neue Bereitstellungen oder Konfigurationsänderungen, können unbeabsichtigt die Anzahl der Alarme erhöhen.
  2. Überempfindliche Schwellenwerte. Überwachungstools, die mit zu empfindlichen Schwellenwerten konfiguriert sind, können Alarme für kleinere Probleme oder normale Schwankungen auslösen, was zu einer übermäßigen Anzahl von Benachrichtigungen führt.
  3. Fehlende Alarm-Priorisierung. Ohne angemessene Priorisierung werden alle Alarme als gleich wichtig behandelt, was zu einer großen Anzahl von Alarmen führt, einschließlich vieler, die nicht dringend oder kritisch sind.
  4. Redundante Überwachungstools. Die Verwendung mehrerer Tools, die dieselben Systeme oder Metriken überwachen, kann zu doppelten Alarmen für dasselbe Problem führen.
  5. Schlecht definierte Alarmkriterien. Alarme, die ohne spezifische oder klare Kriterien eingerichtet werden, können Benachrichtigungen für Ereignisse auslösen, die nicht tatsächlich auf Probleme hindeuten.
  6. Ineffiziente Alarmfilterung und -aggregation. Ein Mangel an effektiven Filterungs- und Aggregationsmechanismen führt dazu, dass zahlreiche Alarme für Ereignisse generiert werden, die zu einer einzigen Benachrichtigung zusammengefasst werden könnten.
  7. Fehlende regelmäßige Überprüfung und Optimierung. Das Versäumnis, Alarmkonfigurationen regelmäßig zu überprüfen und zu optimieren, kann dazu führen, dass veraltete oder irrelevante Alarme ausgelöst werden.
  8. Unzureichende Incident-Management-Prozesse. Ohne effektives Incident-Management können weiterhin Alarme für bekannte Probleme generiert werden, die bereits bearbeitet werden.
  9. Fehlendes kontextuelles Bewusstsein. Alarme, die ohne Berücksichtigung des Kontexts, wie Tageszeit oder verwandte Ereignisse, generiert werden, können zum Volumen unnötiger Alarme beitragen.
  10. Ineffektive Alarm-Eskalationsregeln. Schlecht gestaltete Eskalationsregeln können dazu führen, dass Alarme an zu viele Personen gesendet oder wiederholt ohne Lösung gesendet werden.

Während häufige Bereitstellungen ein positives Zeichen für ein schnelllebiges und sich entwickelndes System sind, repräsentieren alle anderen Punkte Bereiche für Verbesserungen.

Wie bekämpft man Alarmmüdigkeit mit ilert?

Ihre Incident-Management-Plattform ist ein zentraler Ort, an dem viele Probleme angegangen werden können. Bevor wir auf spezifische Empfehlungen eingehen, ist es wichtig zu erwähnen, dass ilert eine entscheidende Rolle bei der Verhinderung einer überwältigenden Flut von Alarmen spielt. Die folgende Abbildung zeigt den Kernablauf von ilert zwischen dem Empfang von Ereignissen und dem Senden von Benachrichtigungen und zeigt, wo Grenzwerte, Aggregationen und Unterdrückungen Anwendung finden können. ilert "verwirft" niemals einfach eine Benachrichtigung aufgrund von Grenzwerten oder Unterdrückung, und Sie werden immer einen Eintrag für die Benachrichtigung (unabhängig von ihrem Zustand) im Zeitstrahl des zugehörigen Alarms sehen.

Erfahren Sie mehr über Ereignisabläufe in ilert.

Here are a few recommendations on how to keep your team productive and alerted only when it's needed.

Hier sind einige Empfehlungen, wie Sie Ihr Team produktiv halten und nur dann alarmieren, wenn es notwendig ist.

Verwenden Sie verschiedene Eskalationsrichtlinien. Eskalationsrichtlinien definieren, wem ein Alarm zugewiesen wird, wenn er von einem Überwachungstool ausgelöst wird. Jede Richtlinie ist ein Satz von Regeln, der ein Benachrichtigungsziel — einen Benutzer oder einen Zeitplan — und eine Eskalationszeitüberschreitung festlegt. Wenn Sie viele Überwachungstools haben, die unterschiedliche Aspekte Ihres Systems überwachen, ist es besser, nicht dieselbe Richtlinie für alle zu verwenden und die Regeln abhängig von der Expertise der Teammitglieder, Arbeitszeiten usw. zu spezifizieren.

Priorisieren Sie Alarme. Es ist entscheidend, hochprioritäre Alarme zu identifizieren und sie von weniger dringenden zu unterscheiden. Verwenden Sie in ilert unterschiedliche Benachrichtigungsprioritäten für verschiedene Alarmquellen, indem Sie eine von vier Optionen in den Einstellungen der Alarmquelle wählen.

Bieten Sie Kontext für die Alarme. Je mehr Informationen Sie von Anfang an erhalten, desto einfacher wird es sein, die Quelle des Problems zu identifizieren. In ilert können Sie die Zusammenfassung und Details des Alarms anpassen, abhängig von der Alarmnutzlast und Links bereitstellen. Sie können mehr über Alarmvorlagen und Syntax in der Dokumentation erfahren.

Verwenden Sie eine Alarmgruppierung. Indem Sie die Option für eine Alarmgruppierung in den Einstellungen der Alarmquelle aktivieren, erlauben Sie ilert, verwandte Alarme innerhalb eines definierten Zeitfensters zu gruppieren. Oder als weitere Option, nur einen Alarm pro angegebenem Überwachungstool zu öffnen und nachfolgende zu aggregieren, bis der Alarm entweder akzeptiert oder gelöst wird.

Legen Sie Supportzeiten fest. Das Feature der Supportzeiten definiert die Benachrichtigungspriorität basierend auf der Verfügbarkeit des Personals. "Ruhezeiten", in denen Teams oder einzelne Mitglieder nicht dringende Alarme ignorieren können, sind wichtig für langfristige Produktivität.

Vermeiden Sie Lücken im Bereitschaftsdienstplan. Tritt ein Alarm zu einer Zeit auf, in der Ihr Zeitplan keine Abdeckung bietet, wird der Alarm sofort auf die nächste Eskalationsstufe eskaliert und die übliche Wartezeit für die Eskalationszeitüberschreitung umgangen. Ist niemand in der gesamten Eskalationsrichtlinie verfügbar, wird niemand benachrichtigt, und somit wird der Alarm übersehen.

Alarmmüdigkeit ist einfacher zu verhindern als zu verringern

Die regelmäßige Überprüfung Ihres Überwachungs- und Alarmsystems kann nicht genug betont werden, da es viel einfacher ist, Alarmmüdigkeit zu verhindern, als sie zu reduzieren, wenn sie sich einmal etabliert hat. Ein ganzheitliches Verständnis der Systemalarme könnte zu besseren Interaktionen, weniger Frustration und verbesserten Reaktionszeiten führen.

Mehr dazu im ilert-Blog:

Meisterung der IT-Alerting: Ein kurzer Leitfaden für DevOps-Ingenieure

Was sind IT-Vorfälle und IT Alerting?

Blog-Beiträge, die dir gefallen könnten:

Sind Sie bereit, Ihr Incident-Management zu verbessern?
Start for free
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.