BLOG

Weniger Stress dank intelligenter Alarmierung: mit ilert AIOps gegen Alarm-Fatigue

Daria Yankevich
August 9, 2024
Table of Contents:

Wie Ihnen vielleicht aufgefallen ist, haben wir letztes Jahr eine Reihe von KI-unterstützten Funktionen eingeführt. Intelligent Alert Grouping - das der Reduzierung von Alarm-Müdigkeit dient - ist unser Superstar. 

Mit diesem Feature kombinieren wir alle unsere KI-Funktionen in einem neuen, leistungsstarken Add-On, das Stress reduziert und mehr Klarheit bei IT-Störungen schafft. 

In folgenden Blogartikel geben wir Ihnen eine umfassende Übersicht über die Funktionen des brandneuen AIOps Add-Ons. Wir erklären, wie diese Features aufgebaut sind und wie sie funktionieren. Und wir helfen Ihnen dabei abzuwägen, ob die Investition sich für Sie lohnt.

So löst ilert das Problem von Mehrfach-Benachrichtigungen bei IT-Störungen

Alert Duplication tritt auf, wenn mehrere Alarmierungen für eine Störung von verschiedenen Überwachungssystemen oder redundanten Überprüfungen innerhalb eines Systems generiert werden. Wenn beispielsweise ein Server ausfällt, können Alarmierungen vom Überwachungstool des Servers, dem Netzwerk Monitoring-Tool und dem Application Performance Monitoring-System gesendet werden. Dies führt zu einer Masse an Benachrichtigungen für ein und dasselbe Problem - und zu Überforderung von IT-Teams und Gleichgültigkeit gegenüber Alarmierungen.

Alert Fatigue erhöht das Risiko, dass kritische Alarmierungen übersehen oder ignoriert werden. Dies verlangsamt die Incident-Resolution und verursacht möglicherweise größere Probleme, wenn die zugrunde liegende Störung nicht angegangen wird. Das Management von Duplicate Alerts ist essentiell, um den Fokus auf echte IT-Störungen zu behalten und eine effiziente Incident Response zu gewährleisten.

Die ilert-Plattform an sich ist bereits ein Ansatz, um die Folgen von Alert Noise zu minimieren. Sie bietet zentralisiertes Incident-Management, indem sie Alarmierungen aus verschiedenen Monitoring-Tools zusammenfasst und sicherstellt, dass alle an einem Ort sichtbar sind. Intelligent Alert Grouping ist ein innovativer Schutz - unverzichtbar für Teams, die große Mengen an Alarmierungen handeln müssen.

Intelligent Grouping: Alarmierungen werden von der KI auf Herz und Nieren geprüft

Die intelligente Gruppierungsfunktion von ilert verwendet einen ausgeklügelten Ansatz, um Mehrfach-Alarmierungen zu minimieren, indem sie jeden Alert bis ins kleinste Detail analysiert. Die KI prüft dabei mehr als die reinen Daten: sie untersucht den Kontext und die zugrunde liegenden Details der Alarmierung, um sie intelligent in sinnvollen Gruppen zusammenzufassen.

Dieser neue Ansatz basiert auf Text-Embedding-Modellen, einer Art von Machine Learning, bei der komplexe Daten als dichte Vektoren reeller Zahlen in einem niedrigdimensionalen Raum dargestellt werden. Vector Embeddings stehen für Wörter, Sätze oder Dokumente und erfassen die semantischen Beziehungen zwischen den Datenpunkten, was bedeutet, dass ähnliche Elemente im Vektorraum näher beieinander liegen.

Wenn ein ilert-Nutzer Intelligent Alert Grouping für seine Alarmierungsquelle aktiviert, läuft ein völlig neuartiger Prozess im Hintergrund.

So funktioniert Intelligent Alert Grouping

Es gibt vier Phasen, die Alarmierungen durchlaufen, wenn die intelligente Gruppierung aktiviert ist:

  1. Pre-Processing: Pre-Processing beinhaltet die Normalisierung und Bereinigung von Alarmierungen. Als zentrale Lösung für Incident-Management bringt ilert bereits Alarmierungen aus mehreren Quellen in ein gemeinsames Format. Für das intelligente Alert Grouping entfernen wir Felder, die für die Gruppierung nicht relevant sind, zum Beispiel Zeitstempel oder IDs.
  2. Vektorisierung: Jede eingehende Alarmierung wird in einen Vektor umgewandelt. Das in ilert verwendete Modell ist auf große Datensätze trainiert und kann eine Vielzahl semantischer Bedeutungen erfassen, wodurch es die in Alarmierungen enthaltenen Informationen verschlüsseln kann.
  3. Anpassung an die Deduplication-Logik von ilert: Es gibt verschiedene Anpassungsmöglichkeiten, wie Alarmierungen in Gruppen zusammengefasst werden können. Beispielsweise können ilert-Nutzer genau festlegen, wann zwei Alarmierungen als Duplikate betrachtet werden, indem sie einen Schwellenwert festlegen und eine Vorschau anzeigen, wie sich dieser Schwellenwert basierend auf vergangenen Alarmierungen auf die Gruppierung auswirken würde. Die ilert-KI führt die Deduplikation entsprechend dem angepassten Schwellenwert aus.
  4. Feedback-Schleife: Nutzer können auf einfache Weise Feedback geben, ob eine Alarmierung korrekt gruppiert wurde oder nicht. Wir nutzen dieses Feedback, um das Deduplication-Feature weiter anzupassen und zu verbessern.

Video: So wird Intelligent Alert Grouping aktiviert

Unsere Dokumentation enthält eine Anleitung zum Aktivieren der Funktion. Hier ist unser Video-Tutorial dazu:

Ereignis-Filter: Unwichtige Benachrichtigungen eliminieren

Manchmal reicht es nicht, Alarmierungen als niedrig priorisiert zu markieren: Manche Ereignisse sollen vollständig verworfen werden. Zum Beispiel kann Grafanas DatasourceNoData ein solches Ereignis sein. Aus diesem Grund können Sie eine oder mehrere Ereignisfilter-Gruppen für Ihre Quelle einrichten, um sicherzustellen, dass nur relevante Ereignisse zu Alarmierungen verarbeitet werden.

Die neueste AIOps-Version führt eine erweiterte Filteroption ein, die den Prozess des Incident-Managements optimieren und verbessern soll. Mit dieser neuen Funktion können Nutzer einen Schwellenwert für die Anzahl an Ereignissen für ihre Alarmierungsquelle festlegen, gekoppelt mit einem bestimmten Zeitfenster für die Auslösung von Alarmierungen. Beispielsweise können Sie eine Bedingung definieren wie: "Alarmierung nur generieren, wenn innerhalb von 5 Minuten 10 Alarmierungen auftreten." Diese Schwelle kann an die Wichtigkeit und Häufigkeit der in Ihrer Betriebsumgebung typischen Ereignisse angepasst werden.

Durch die Implementierung dieses auf der Ereignisanzahl basierenden Alarmierungsmechanismus filtert das System effizient unbedeutende Alarmierungen heraus und stellt sicher, dass nur signifikante Ereignisse Benachrichtigungen auslösen. Diese selektive Alarmierung reduziert nicht nur die Anzahl der manuell zu überprüfenden Alarmierungen, sondern ermöglicht es Ihrem Team auch, sich auf die Analyse und Reaktion auf die wichtigsten Störungen zu konzentrieren.

Wenn es brenzlig wird, lassen Sie ilert sprechen

Störungen sind beim Betrieb komplexer Systeme unvermeidlich. Von entscheidender Bedeutung ist die Fähigkeit, während einer Störung effektiv kommunizieren zu können

Deshalb bietet das AIOps-Add-On erweiterte Funktionen für die Incident-Kommunikation. Dazu gehören die schnelle Erstellung einer Incident-Übersicht und die Auflistung der betroffenen Teams. 

Das hat den Vorteil, dass Ihre Techniker nicht nach den richtigen Worten suchen müssen, um die Statusseite zu aktualisieren. Darüber hinaus ist die Unterstützung bei der Erstellung von Postmortem-Dokumenten durch die ilert KI ebenfalls im AIOps-Paket enthalten, um den gesamten Lebenszyklus der Incident-Response abzudecken. 

Mehr über Postmortems und KI-gestützte Incident-Kommunikation erfahren Sie in unserem Blog.

Wann Sie sich für AIOps entscheiden sollten

Um die Entscheidungsfindung Ihres Teams zu vereinfachen, haben wir eine Liste von Hinweisen vorbereitet, die dafür sprechen, dass Sie die erweiterten AIOps-Features für Ihr Incident-Management benötigen:

  • Ihr Team verwendet verschiedene Monitoring-Tools, die sich überschneidende Alarmierungen generieren.
  • Ihre Techniker werden täglich mit einer großen Anzahl von Alarmierungen konfrontiert, was es schwierig macht, wichtige Probleme zu identifizieren und zu priorisieren. Ihre MTTA (Mean Time To Acknowledge) ist zu hoch.
  • Ihr Team ist relativ klein und hat Schwierigkeiten, die große Anzahl von Alarmierungen effektiv zu managen und darauf zu reagieren.
  • Ein großer Teil der Alarmierungen sind Fehlalarme, die zu unnötigen Ablenkungen führen.
  • Ihr Team hat Schwierigkeiten, zwischen kritischen Alarmierungen, die sofortige Aufmerksamkeit erfordern, und weniger wichtigen Benachrichtigungen, die später behandelt werden können, zu unterscheiden.
  • Viele Alarmierungen werden durch vorübergehende Probleme generiert, die sich von selbst lösen und kein Eingreifen erfordern.
  • Ihre Techniker leiden unter Alert Fatigue, was zu Abstumpfung und verpassten kritischen Störungen führt.

Wir hoffen, dass diese Liste Ihnen bei der Abwägung des Für und Wider unseres AIOps-Add-Ons für Ihre Organisation hilfreich ist. Wenn Sie weitere Fragen haben, wenden Sie sich gerne an das ilert Support-Team

Sie möchten wissen, wie all diese KI-Features aufgebaut sind und wie sie funktionieren?  Kürzlich präsentierten wir in Paris eine ausführliche Übersicht über alle technischen Features.

Blog-Beiträge, die dir gefallen könnten:

Sind Sie bereit, Ihr Incident-Management zu verbessern?
Kostenlos starten
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.