Event-Transparenz: Enterprise-Scale Alarm-Debugging mit ilerts Event Explorer
Bei ilert ist der Event Explorer eines der wichtigsten Tools im Debugging-Prozess. Es bietet einen umfassenden Überblick über die eingehenden Events und deren Verarbeitungszyklus. Indem es die Verarbeitung eines Events der Alarmquelle widerspiegelt, ermöglicht der Event Explorer unserem Team, Event-Abläufe nachzuvollziehen, zusammenhängende Daten zu korrelieren und Probleme schnell zu identifizieren. Diese Art der Fehlersuche konzentriert sich auf die Event-Transparenz. Sie hilft uns, die Ursache schnell zu finden und die daraus entstehenden Probleme zu beheben. So gewährleistet ilert die Funktionalität, Stabilität und Zuverlässigkeit der Plattform.
In diesem Beitrag erkläre ich mehr über die Möglichkeiten des Event Explorers.
Die Schwierigkeiten der Fehlersuche ohne Event-Transparenz
Die Fehlersuche in hoch skalierbaren Systemen wird erheblich erschwert, wenn die Systemereignisse nicht vollständig transparent oder leicht zugänglich sind. Auf unserer Plattform können Ereignisse über mehrere verschiedene Komponenten und Systeme verteilt sein, was es schwierig macht, einen klaren, einheitlichen Überblick über das Geschehen zu erhalten. Einige der Hauptschwierigkeiten sind:
- Fragmentierte Daten. Ereignisprotokolle, die über verschiedene Dienste verstreut sind, erschweren ein vollständiges Bild darzustellen.
- Zeitaufwendige Korrelation. Die manuelle Verknüpfung von Ereignissen verlangsamt den Prozess der Fehlerbehebung.
- Fehlender Kontext. Ohne eine einheitliche Ansicht können wichtige Informationen übersehen werden, was die Problemlösung erschwert.
Diese Herausforderungen stellten sich, insbesondere dann, wenn sich Kunden mit speziellen Problemfällen im Zusammenhang mit Alarmquellen meldeten, die zuvor nicht berücksichtigt worden waren.
Funktionen des Event-Explorers
Der Event Explorer ist für alle Alarmquellen verfügbar und zeigt an, was sich mit den eingehenden Event-Inhalten ereignet hat, während sie zu Alarmen verarbeitet wurden. Wir haben ihn entwickelt, um Kunden zu helfen, klare Einblicke zu gewinnen und ereignisbezogene Probleme auf unserer Plattform effizient zu beheben. Gleichzeitig wird unserem Support-Team ermöglicht, schnell und effektiv zu helfen, wenn sich Kunden wegen unerklärlicher Probleme an uns wenden.
Der ilert Event Explorer liefert vollständige Informationen über die eingehende HTTP Anfrage, einschließlich Event-Header und Payload. Tritt bei der Verarbeitung ein Fehler auf, zeigt es die Fehlerinformationen an. Im Erfolgsfall wird das konvertierte Ereignis als Alarm in ilert angezeigt. Zusätzlich gibt es auch Informationen über zusammengefügte Events, z. B. ob sie aufgrund der Einstellungen für die Alarmgruppierung angehängt wurden.
Here is a real-life scenario in which the Event Explorer came into action:
Ein Kunde wandte sich an uns, weil er beim Testen unserer Nagios-Integration keine Benachrichtigungen erhalten hatte. Als wir nach einer Alarm-ID fragten, um unsere Logs zu überprüfen, antwortete er, dass keine Alarme erstellt worden seien. Dies wies auf ein Problem bei der Ereignisverarbeitung hin. Mit Hilfe des ilert Event Explorers entdeckten wir, dass im Payload der eingehenden HTTP Anfrage die notwendigen Keys und Values für die Konvertierung von Nagios-Events in ilert fehlten. Es stellte sich heraus, dass das Makro enable_environment_macros in der Nagios-Konfiguration des Kundens deaktiviert war, was den Zugriff auf diese Variablen verhinderte. Nachdem der Kunde dieses Makro aktiviert hatte, erhielt der Kunde wieder Alarme und Benachrichtigungen.
Von der HTTP Anfrage bis zum Event Explorer: Die Reise eines Events nachverfolgen
Wenn ein HTTP Anfrage an AWS ELB gesendet wird, validiert eine Lambda-Funktion diesen und veröffentlicht eine Nachricht an ein SNS-Topic, das dann an SQS-Warteschlangen übermittelt wird. Von dort aus konsumiert eine andere Lambda-Funktion die Nachricht und speichert die Informationen der HTTP Anfrage in Google BigQuery. In der Zwischenzeit wird das Event von einer EC2-Instanz verarbeitet, die einen Alarm in ilert erzeugt. Der ilert Event Explorer ruft dann zusammenhängende Anfragedaten von Google BigQuery ab.
Fazit
Wir bei ilert glauben, dass Event-Transparenz wichtig ist, um die Fehlersuche zu vereinfachen und die Systemstabilität zu verbessern. Einer unserer Haupt Anwendungsfälle für Event-Transparenz ist der Event Explorer, der die Verarbeitung eines Events der Alarmquelle widerspiegelt, indem er einen detaillierten Einblick in die Verarbeitung von Event-Inhalten bietet. Der Event Explorer bietet sowohl unseren Kunden als auch uns einen Überblick über die eingehenden Events und ermöglicht ein schnelles Finden, Verstehen und Beheben von Problemen.