Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Favoriten aus dem Team

Daria Yankevich

Alarmierung mit Twilio: Verbinden Sie Ihr Monitoring mit der Kommunikationsplattform Nr. 1

Vor- und Nachteile der direkten Benachrichtigung bei kritischen Alarmierungen

Mehr lesen ->
Roman Frey

Bereitstellung der Qdrant-Datenbank in Kubernetes mit Terraform: Eine Schritt-für-Schritt-Anleitung mit Beispielen

Im Internet gibt es keine Terraform-Bereitstellungsanleitung für Qdrant, sondern nur die Helm-Variante, weshalb wir uns entschlossen haben, diesen Artikel zu veröffentlichen.

Mehr lesen ->
Christian Fröhlingsdorf

Wie man die Beobachtbarkeit in der Landschaft der Mikroservices durch OpenTelemetry am Leben erhält

Observability, beyond its traditional scope of logging, monitoring, and tracing, can be intricately defined through the lens of incident response efficiency—specifically by examining the time it takes for teams to grasp the full context and background of a technical incident.

Mehr lesen ->
Daniel Weiß

ITIL vs. DevOps: Was ist das Richtige für Ihr Unternehmen?

Wenn es um die Verwaltung von IT-Diensten geht, gibt es im Wesentlichen zwei Denkschulen: DevOps und ITIL. DevOps ist eine neuere Methode, während es ITIL schon seit Jahrzehnten gibt. Beide haben ihre Vor- und Nachteile, aber welche Methode ist die richtige für Ihr Unternehmen? Ist ITIL in Zeiten von Cloud Computing, künstlicher Intelligenz, Blockchain und IoT noch zeitgemäß?

Mehr lesen ->

Neueste Beiträge

Engineering

Alarmierung mit Twilio: Verbinden Sie Ihr Monitoring mit der Kommunikationsplattform Nr. 1

Vor- und Nachteile der direkten Benachrichtigung bei kritischen Alarmierungen

Daria Yankevich
Aug 06, 2024 • 5 Min. Lesezeit

Das könnte ein wenig überraschend kommen: Warum veröffentlicht ilert, eine Plattform für Alarmierung und Incident-Management, etwas über die direkte - das heißt ohne Umweg über ein Incident-Management-Tool - Verbindung zwischen Monitoring-Lösungen und Twilio? Schaden wir uns nicht selbst damit? Seit wir 2009 mit DevOps Incident-Management begonnen haben, glauben wir, dass jede Lösung ganz spezifische Bedürfnisse erfüllt. In diesem Artikel erklären wir, in welchen Fällen die direkte Alarmierung mit Twilio gut funktionieren kann, wie SieTwilio mit Ihrem Monitoring verbinden und wann es an der Zeit ist, über eine umfassende Incident-Management-Lösung nachzudenken.

Was ist Twilio?

Twilio ist eine Cloud-Kommunikationsplattform, die es Entwicklern ermöglicht, verschiedene Kommunikationsmethoden in ihre Anwendungen zu integrieren. Dazu gehören Sprachnachrichten, Messaging (SMS, MMS, Chat), Video und E-Mail. Twilio ist darauf ausgelegt, Entwicklern die Integration von Kommunikationsfunktionen zu erleichtern, ohne dass sie die Infrastruktur selbst aufbauen müssen.

Twilio ist Branchenführer für diese Tools. Es gibt zwar Konkurrenten wie Vonage (ehemals Nexmo), Plivo, Sinch und MessageBird, aber Stand Juli 2024 ist laut Gartner Twilio die Nummer Eins. Unzählige Entwickler weltweit nutzen Twilio für ihre Produkte. Wenn Sie kürzlich eine Benachrichtigung von Airbnb oder Uber erhalten haben, besteht eine hohe Wahrscheinlichkeit, dass Twilio sie verarbeitet hat. Incident-Management-Plattformen wie PagerDuty, VictorOps und  ilert nutzen ebenfalls Twilio für Benachrichtigungen.

Wie funktioniert Twilio?

Twilio ist eine cloudbasierte Plattform, die verschiedene Kommunikationsmethoden mithilfe einer Reihe von APIs in Anwendungen integriert. Nutzer erstellen zuerst ein Konto auf der Twilio-Website und können dann ihre individuelle Account SID und ihr Auth Token aus der Twilio-Konsole abrufen, welche für die API-Authentifizierung verwendet werden. Anschließend wählt man dann den gewünschten Kommunikationsdienst und kauft gegebenenfalls Telefonnummern über die Twilio-Konsole. Mit den SDKs von Twilio für verschiedene Programmiersprachen kann man Code schreiben, um Anfragen an die API-Endpunkte von Twilio zu senden und Aktionen wie das Senden von SMS, das Tätigen von Sprachanrufen oder das Initiieren von Videokonferenzen zu ermöglichen.

Vorteile: andere Tools umgehen und Monitoring direkt mit Twilio verbinden

Entwickler ziehen die Verwendung von Twilio für die Alarmierung im Incident-Management aus verschiedenen Gründen in Betracht. Hier sind die wichtigsten:

  • Kosteneffektiv: Das Pay-as-you-go-Preismodell von Twilio macht es ideal für Startups, die nicht viele Benachrichtigungen benötigen.
  • Einfachheit: Je weniger man abhängig ist, desto besser. Direkte Integration reduziert die Anzahl der zu verwaltenden Tools und Plattformen und vereinfacht die Systemarchitektur.
  • Volle Kontrolle über den Datenfluss: Sie sehen und verwalten den Ereignisfluss selbst.
  • Einfache Implementierung: Twilio hat eine übersichtliche API und umfangreiche Dokumentation.

Nachteile: Alarmierung ist noch kein Incident-Management

Auch wenn es bequem sein mag, eine Alarmierung direkt vom Monitoring-Tool zu erhalten, gibt es Incident-Management-Protokolle, die ohne geeignete Tools nicht eingehalten werden können. Nicht falsch verstehen: Protokolle ohne praktische Anwendung sind nichts, aber Millionen von IT-Störungen haben der DevOps-Community gezeigt, wie man kritische Situationen angeht und ihre Auswirkungen minimiert. Letztendlich benötigen Techniker Alarmierungen nicht zum Spaß, sondern um über ernsthafte Probleme informiert zu werden, die Auswirkungen auf das Business haben - zum Beispiel auf Erreichbarkeit, Kundenzufriedenheit und Umsatz. Daher geht es um einiges. Hier sind die Nachteile der Verwendung von Twilio als eigenständiges Incident-Management-Tool:

  • Keine Eskalationsmöglichkeiten: Anspruchsvollere Eskalationsrichtlinien wie das Weiterleiten von Alarmierungen basierend auf Dienstplänen oder Schwere der Störung werden nicht standardmäßig unterstützt.
  • Kein zentrales Incident-Management: Im Gegensatz zu speziellen Lösungen bietet Twilio keine Funktionen wie Incident-Tracking, automatische Workflows, Statusseiten oder Post-Incident-Analysen. Entwickler müssen all dies manuell verwalten, was ironischerweise oft den Kauf weiterer Tools erfordert.
  • Eigene Entwicklung und Wartung: Das Einrichten und Warten direkter Integrationen erfordert eigenes Skripting und kontinuierliches Development. Das selbe gilt für die Aktualisierung benutzerdefinierter Integrationen bei Änderungen an Monitoring-Tools oder Twilio-APIs.
  • Skalierbarkeitsprobleme: Obwohl Twilio große Nachrichtenmengen verarbeiten kann, kann das direkte Verwalten und Verarbeiten eines hohen Aufkommens an Alarmierungen herausfordernd sein.
  • Alarm-Müdigkeit: Eine Folge der oben genannten Skalierbarkeitsprobleme. Ohne clevere Filter-, Gruppierungs- und Deduplizierungsfunktionen besteht das Risiko, zu viele Alarmierungen zu erhalten. Stellen Sie sich vor, Sie würden mehrere Nächte hintereinander geweckt oder während Ihres Arbeitstages ständig unterbrochen werden.
  • Begrenzte Kollaborationsfunktionen: Nach dem Erhalt von Alarmierungen müssen Entwickler Maßnahmen ergreifen. In den meisten Fällen werden IT-Störungen nicht von einer einzigen Person allein bearbeitet. Das Fehlen eines zentralen Kommunikationsraums, in dem alle Details der Alarmierung und die Timeline für die Techniker verfügbar sind, kann zu Kommunikationslücken und einer ineffizienten Koordinierung der Reaktion auf Störungen führen.
  • Fehlende entkoppelte Infrastruktur und hohe Verfügbarkeit: Es wird oft übersehen, dass das Hosten von Alarmierungsskripten oder -software auf derselben Hardware oder im selben Rechenzentrum wie andere Software problematisch sein kann. Bei einer Downtime wird das Alarmierungssystem wahrscheinlich ebenfalls betroffen sein, was zu verpassten Alarmierungen führen kann. Zudem wird es schwieriger, eine hohe Verfügbarkeit von über 99,9% zu gewährleisten.
  • Geografische Einschränkungen: Wenn Ihr Team von verschiedenen Orten arbeitet, kann es kompliziert sein, SMS- und Sprachanrufe in vielen Ländern einzurichten. Es gibt unterschiedliche regionale Richtlinien und Beschränkungen, von denen einige das Anrufen oder Zustellen von Nachrichten verbieten.
  • Probleme mit der Einhaltung von SLA-Vereinbarungen: Auch Twilio kann Downtimes haben. In solchen Situationen haben Incident-Management-Plattformen wie ilert einen Backup-Plan und können automatisch zu einem anderen Anbieter wechseln, um die Downtime für Kunden zu minimieren. Sich ausschließlich auf Twilio zu verlassen, macht es schwierig, eine hohe Uptime zu garantieren, da diese stark vom Dienst abhängt.

Sind Sie noch unsicher, ob Sie mit Twilio oder einer fortschrittlicheren Alarmierungs- und Incident-Management-Plattform weitermachen sollen? Wir haben den Entscheidungsprozess für Sie vereinfacht. Unten finden Sie eine kurze Checkliste, die Ihnen dabei hilft. Wenn Sie nicht alle Kästchen abhaken, empfehlen wir, sich für eine Incident-Management-Plattform zu entscheiden.

  • Sie sind ein kleines Unternehmen mit nicht mehr als 2-3 Technikern.
  • Sie haben nur ein Monitoring-Tool und planen nicht, im nächsten Jahr weitere hinzuzufügen.
  • Ihre Monitoring-Tools lösen weniger als 250 Alarmierungen pro Monat aus.
  • Ihre betroffenen Mitarbeiter befinden sich alle in derselben Region.
  • In Ihrem Fall ist keine hohe SLA-Uptime-Vereinbarung im Spiel.

Schritt-für-Schritt-Anleitung zum Senden einer Alarmierung über Twilio

  1. Gehen Sie zur Twilio-Website und erstellen Sie ein Account.
  2. Nach der Anmeldung erhalten Sie Ihre Account SID und das Auth Token. Bewahren Sie diese Anmeldedaten sicher auf.
  3. Stellen Sie sicher, dass Node.js auf Ihrem Computer installiert ist. Sie können es hier herunterladen.
  4. Initialisieren Sie ein neues Node.js-Projekt und installieren Sie die Twilio-Library über npm install twilio.

Richten Sie einen Twilio-Client in Ihrem Skript mit Ihren Anmeldedaten ein:


const twilio = require("twilio");
const client = new twilio("ACCOUNT_SID", "AUTH_TOKEN", {
  autoRetry: true,
  maxRetries: 3,
});

  1. Verwenden Sie den Client, um eine SMS mit Twilio zu senden:

function sendSmsAlert(message, to) {
  client.messages.create({
      body: message,
      to,  // recipient's phone number E164 format
      from: "YOUR_TWILIO_NUMBER"
  })
  .then((message) => console.log(`Alert sent: ${message.sid}`))
  .catch((error) => console.error(`Failed to send alert: ${error.message}`));
}

sendSmsAlert("Server CPU usage is above threshold", "+1234567890");

  1. Oder verwenden Sie den Client, um Anrufe mit Twilio zu tätigen:

function makeVoiceCallAlert(to) {
  client.calls.create({
      url: "http://demo.twilio.com/docs/voice.xml", // URL of TwiML instructions
      to, // recipient's phone number E164 format
      from: "YOUR_TWILIO_NUMBER"
  })
  .then((call) => console.log(`Alert call initiated: ${call.sid}`))
  .catch((error) => console.error(`Failed to initiate alert call: ${error.message}`));
}

makeVoiceCallAlert("+1234567890");

  1. Wenn Sie ein Monitoring-Tool wie Prometheus, Nagios oder ein anderes System verwenden, können Sie die SMS-Sende- oder Anrufinitiierungslogik in den Alarmierungs-Handler integrieren oder einen Webhook verwenden, um die Funktion sendSmsAlert oder makeVoiceCallAlert auszulösen.

Zusammenfassung

Twilio ist eine zuverlässige Lösung mit einer starken Marktpräsenz. In einigen Fällen kann das Tool als Standalone-Lösung für IT- und DevOps-Alarmierungszwecke eine gute Wahl sein. Kleine Teams mit begrenztem Budget, einem geringen Alarmierungsaufkommen und nur einem Monitoring-Tool profitieren von Twilio als Lösung für Alarmierungen. Im Gegensatz dazu sollten Teams, die umfangreiche Ereignisse aus verschiedenen Monitoring-Lösungen bearbeiten, umfassende Kommunikation bei Störungen benötigen und hohe finanzielle und Image-Risiken haben, Incident-Management-Plattformen in Betracht ziehen, um die Auswirkungen von Downtimes zu minimieren.

Zur Erinnerung: ilert bietet einen kostenlosen Plan für kleine Teams an. Damit können Sie bis zu 100 SMS und Sprachnachrichten, unbegrenzte Push- und E-Mail-Benachrichtigungen verwalten, beliebig viele Monitoring-Integrationen nutzen und die Vorteile einer Statusseite genießen. Erfahren Sie mehr über die Preise von ilert.

Produkt

HetrixTools und ilert: Uptime und Blacklist-Monitoring mit leistungsstarkem Incident Management verbessern

ilert-Nutzer können jetzt nahtlos ilert mit den Monitoring-Funktionen von HetrixTools verbinden.

Daria Yankevich
Aug 01, 2024 • 5 Min. Lesezeit

ilert-Nutzer können jetzt nahtlos ilert mit den Monitoring-Funktionen von HetrixTools verbinden. Diese optimierte Integration garantiert einen reibungslosen IT-Betrieb mit minimalen Ausfallzeiten und schnellerer Problemlösung.

Was ist HetrixTools?

HetrixTools bietet Monitoring-Lösungen, die Unternehmen dabei helfen, ihre IT-Infrastruktur umfassend zu überwachen. Das breite Leistungsspektrum umfasst Uptime-, Server- und Blacklist-Monitoring, wodurch Nutzer stets über den Status und die Gesundheit ihrer Systeme informiert bleiben.

Zu den Hauptfunktionen von HetrixTools gehören:

  • Uptime Monitoring: Nutzer können die Verfügbarkeit von Websites und Diensten überwachen, um sicherzustellen, dass sie rund um die Uhr zugänglich sind. HetrixTools überprüft 12 Monitoring-Punkteweltweit, so dass Ausfälle sofort erkannt werden können.
  • Server Monitoring: Kunden von HetrixTools haben die Kontrolle über verschiedene wichtige Metriken wie CPU-Auslastung, RAM-Nutzung, Festplattenspeicher und mehr.
  • Blacklist Monitoring: Die Anwendung überwacht IP-Adressen und Domains in Bezug auf über 100 Blacklists. Dieses Monitoring stellt sicher, dass IT-Teams sofort benachrichtigt werden, wenn eine der IPs oder Domains auf einer Blacklist steht.

Wie HetrixTools-Nutzer von der Integration mit ilert profitieren können

Die Kombination von HetrixTools und ilert bringt eine neue Ebene der Effizienz und Reaktionsfähigkeit in Monitoring- und Incident-Management-Prozesse. Hier sind einige Vorteile, die Nutzer durch diese Integration erhalten:

  1. Verschiedene Kanäle für Alarmierungen: Entwickler erhalten sofort kritische Alarmierungen von HetrixTools über mehrere Kanäle wie zum Beispiel SMS, Telefonanrufe und Push-Benachrichtigungen, selbst wenn Geräte stummgeschaltet sind.
  2. Automatisierung des Bereitschaftsmanagements: ilert eliminiert den manuellen Aufwand und potenzielle Fehler bei der Verwaltung von Bereitschaftsdiensten. Während HetrixTools ein Problem erkennt, stellt ilert sicher, dass immer jemand in Bereitschaft ist, um das Problem umgehend zu überprüfen.
  3. Integration mit mehreren Tools: Nutzer können das HetrixTools–Monitoring mit verschiedenen IT-Service-Management (ITSM)-Tools wie ServiceNow, Jira, Datto Autotask über ilert verbinden. Dies ermöglicht einen kohärenteren und automatisierten Incident-Response-Workflow.
  4. Post Incident Analyse: ilert liefert detaillierte Berichte und Analysen in Kombination mit der gesamten Incident-Kommunikation aus Chat-Tools. So können Nutzerverstehen, was schiefgelaufen ist und wie ähnliche Probleme in Zukunft vermieden werden können. Dieser kontinuierliche Verbesserungszyklus ist entscheidend für die Aufrechterhaltung einer robusten IT-Infrastruktur.

Durch die Kombination der Stärken der beiden Plattformen ilert und HetrixTools können Nutzer sicherstellen, dass ihre IT-Infrastruktur umfassend überwacht und proaktiv verwaltet wird.

Weitere Informationen zur Einrichtung dieser Integration finden Sie in unserem Integrationshandbuch.

Insights

Nutzung von KI für die effiziente Erstellung von Dienstplänen

In diesem Artikel werden die Anwendungsfälle von GenAI in allen Phasen des Incident-Management-Prozesses vorgestellt, beginnend mit der Vorbereitungsphase. Es wird erklärt, wie KI für eine effiziente, effektive und genaue Bereitschaftsplanung genutzt werden kann, einschließlich Beispielen von ilert AI.

Sirine Karray
Jul 26, 2024 • 5 Min. Lesezeit

Einführung

Die Einrichtung und Aufrechterhaltung eines hoch-effizienten Incident-Management-Prozesses ist für Unternehmen jeder Größe von entscheidender Bedeutung, ganz gleich welche Besonderheiten für ihre Branche gelten. Die verschiedenen Anwendungsmöglichkeiten generativer KI in diesem Prozess können die Effizienz, Genauigkeit und Geschwindigkeit der Erkennung, Analyse und Lösung von IT-Störungen erheblich verbessern. GenAI kann in allen Phasen des Incident-Management-Prozesses eingesetzt werden, zum Beispiel in der Vorbereitung, der Reaktion, der Kommunikation und in der Erkenntnisgewinnung.

In diesem Artikel widmen wir uns der Vorbereitungsphase.

Vorbereitung: Einsatz von KI-Assistenten für die Erstellung von Dienstplänen

Die Erstellung von Dienstplänen, die die Bedürfnisse der einzelnen Teammitglieder berücksichtigen und gleichzeitig eine durchgehende Bereitschaft sicherstellen, ist entscheidend für jedes Incident-Management. KI-Assistenten können diesen Prozess rationalisieren. Durch den Einsatz von KI-Assistenten werden komplexe Planungsanforderungen - wie zum Beispiel eine Bereitschaftsplanung nach dem Follow-the-Sun Modell - überschaubar. Eine intuitive Chat-Schnittstelle, die von einem LLM gesteuert wird, kann Nutzer durch die Erstellung ihrer Dienstpläne führen und relevante Fragen stellen, um spezifische Anforderungen und Präferenzen zu verstehen. Dieser KI-gestützte Ansatz vereinfacht das On-Call Scheduling, macht es weniger zeitaufwändig und besser auf die individuelle Dynamik jedes einzelnen Teams zugeschnitten.

Der KI-Assistent führt den Nutzer durch einen Dialog, um die notwendigen Details für den Dienstplan zu erfragen. Dazu gehören Angaben zu den beteiligten Teammitgliedern, den Rotations-Modellen und der erforderlichen Abdeckung. Die Fähigkeit des Assistenten, natürliche Sprache zu analysieren, ermöglicht es ihm, die Antworten des Nutzers zu verstehen und in strukturierte Daten zu kategorisieren, die in den nächsten Schritten verwendet werden können. Der Prozess beginnt mit dem Verstehen der Nutzereingaben und der Ausführung von Funktionen zur Erstellung des Dienstplans.

Schritte zur Erstellung eines Dienstplans

1. Verstehen der Nutzereingaben:

Der Assistent leitet den Prozess ein, indem er den Nutzer durch einen Dialog führt, um alle notwendigen Details für die Erstellung des Dienstplans zu sammeln. Dazu gehören Angaben zu den Teammitgliedern, den Rotations-Modellen und der erforderlichen Abdeckung.

Dank seiner Fähigkeit zur Verarbeitung natürlicher Sprache kann der Assistent die Antworten des Nutzers verstehen und in strukturierte Daten für die nächsten Schritte umwandeln. Die Anweisungen für diesen Dialog werden dem Assistenten zur Verfügung gestellt.

2. Ausführen von Funktionen zur Generierung des Zeitplans:

Nach der Verarbeitung und Organisation der eingegebenen Daten verwendet der Assistent das Function Calling-Feature, um eine benutzerdefinierte Funktion auszuführen, die speziell für die Erstellung von Dienstplänen entwickelt wurde. Diese Funktion übernimmt die vorbereiteten Daten und erstellt den Dienstplan unter Berücksichtigung aller eingegebenen Anforderungen und Einschränkungen. Als Ergebnis erhält der Nutzer ein JSON-Dokument, das den endgültigen Dienstplan darstellt.

Diese Verwendung des Function Calling Features von OpenAI unterstreicht die Fähigkeit des Assistenten, Gesprächseingaben mit programmatischen Ausgaben zu verbinden. Dies ermöglicht die Automatisierung komplexer Aufgaben wie der Erstellung von Dienstplänen innerhalb eines Conversational Interface.

Unten sehen Sie ein Beispiel für eine Konversation mit der ilert KI zur Erstellung eines Follow-the-Sun-Dienstplan:

Neben dem KI-gestützten On-Call Scheduling können LLMs auch zur Reaktion auf IT-Störungen eingesetzt werden, indem sie die Alarmierungs-Überflutung durch intelligentes Alert Grouping reduzieren, die Kommunikation bei Störungen optimieren und aussagefähige Postmortem-Analysen erstellen.

Sind Sie bereit, Ihr Incident-Management zu verbessern?
Kostenlos starten
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.