Alarmreduzierung: Alarmprozesse automatisiert durch Terraform konfigurieren
Mit zunehmender Zahl von Alarmen wird es immer schwieriger, sich auf die wichtigsten und kritischen Warnmeldungen zu konzentrieren. Eine Reduzierung von Alarmflut, d. h. die Vermeidung von zu vielen erstellten Alarmen und Nutzerbenachrichtigungen jeglicher Art, ist erforderlich, um eine effiziente Reaktion auf Alarme zu gewährleisten. Während dieses Thema in diesem Blogpost detailliert erläutert wird, kann ein flexibles und automatisiertes Setup für Ihre relevanten Ressourcen mit Terraform unter Verwendung des ilert Terraform Providers erreicht.
Ressourcenerstellung über Terraform
In diesem Beispiel erstellen wir eine Grafana-Alarmquelle und referenzieren dabei eine andere, bereits erstellte Eskalationskette mit einer ‘data source’.
Wir können eingehende Ereignisse je nach ihrem Titel an verschiedene Eskalationsketten weiterleiten, indem wir ein Template für das Routing definieren, um einen Routingschlüssel zu setzen.
Die Einrichtung von Support-Zeiten hilft dabei, Benachrichtigungen außerhalb der Arbeitszeiten zu verhindern und gleichzeitig durch eine hohe Alarmpriorität zu Aktionen während dieser Zeiten zu motivieren.
Weisen Sie diese Supportzeiten der Alarmquelle zu und legen Sie diese Regel für Alarmpriorität fest.
Sie können außerdem eine Zuordnung für die resultierende Priorität des Alarms erstellen, indem Sie ein Template und Zuordnungen in Abhängigkeit von Feldern im Event-Payload wie „Status“ definieren.
Eine flexible und effiziente Möglichkeit, eingehende Events herauszufiltern, ist der Eventfilter. Er ermöglicht komplexe Bedingungen und Prüfungen in vielen Feldern und Eigenschaften des Event-Payloads.
Eine weitere einfache, aber wirksame Methode zur Lärmreduzierung ist die Gruppierung von Alarmen, entweder durch zeitbasierte oder KI-basierte Gruppierung.
Schließlich kann ein Timer für die automatische Auflösung eingestellt werden, um veraltete Alarme zu verhindern (Alarme, die über einen langen Zeitraum im Status „unerledigt“ oder „angenommen“ sind).
Das vollständige Terraform-Skript mit allen oben genannten Ressourcen finden Sie auf unserem öffentlichen Terraform-Playground.