BLOG

6 Schritte zur Erstellung umsetzbarer Postmortems

Daria Yankevich
June 17, 2024
Table of Contents:

In den Bereichen DevOps und IT-Betrieb ist die Durchführung eines gründlichen Postmortem nach einem Vorfall entscheidend für die kontinuierliche Verbesserung. Dieser Artikel befasst sich mit Best Practices für die Erstellung effektiver Postmortems, die sicherstellen, dass Ihre Vorfallsanalyse nicht in Vergessenheit gerät, sobald die Gefahr vorüber ist, sondern dass sie umfassend und umsetzbar ist.

Was ist ein Postmortem?

Ein Postmortem in DevOps ist ein strukturierter Prozess, der nach einem Vorfall oder Ausfall durchgeführt wird, um zu analysieren, was passiert ist, die Grundursache zu identifizieren und Korrekturmaßnahmen zu implementieren, um zukünftige Vorfälle zu verhindern. Er umfasst eine detaillierte Untersuchung des Zeitablaufs, eine Bewertung der Auswirkungen und der gewonnenen Erkenntnisse und fördert eine Kultur der kontinuierlichen Verbesserung und Transparenz, ohne Schuldzuweisungen vorzunehmen. Das Postmortem-Dokument ist das Endergebnis dieses Prozesses und fasst alle gesammelten Informationen, Analysen und geplanten Maßnahmen zusammen, um sie mit den relevanten Interessengruppen zu teilen.

Vorteile der Durchführung von Postmortems

Durch die Förderung einer Kultur des Lernens und der Verbesserung durch Postmortems können Unternehmen ihre Infrastruktur und ihre Prozesse zur Reaktion auf Vorfälle stärken und sind so besser auf zukünftige Vorfälle vorbereitet. Zu den Vorteilen der Durchführung von Postmortems gehören:

  • Verbesserte Wiederherstellungszeiten.
  • Verbessertes Lernen im Team und Wissensaustausch.
  • Vorbeugung gegen künftige Vorfälle.
  • Aufbau einer Kultur der kontinuierlichen Verbesserung.

ilert interface: Postmortem direkt aus dem Vorfall erstellen
ilert interface: Postmortem direkt aus dem Vorfall erstellen

Postmortem-Schlüsselschritte

Wie im Incident Management Guide von ilert empfohlen, benennt der Leiter der Vorfallsbekämpfung nach der Behebung eines größeren Vorfalls schnell einen der Responder, der den Postmortem-Prozess leitet. 

Schritt 1: Zuweisung eines Postmortem-Eigentümers

Da die Erstellung des Postmortem eine gemeinschaftliche Aufgabe ist, ist die Zuweisung eines bestimmten Eigentümers unerlässlich, um sicherzustellen, dass sie effektiv durchgeführt wird. Der Postmortem-Verantwortliche ist mit mehreren Aufgaben betraut, darunter:

  • Terminierung der Postmortem-Sitzung
  • Untersuchung des Vorfalls (ggf. unter Hinzuziehung des erforderlichen Fachwissens aus anderen Teams)
  • Aktualisierung des Postmortem-Dokuments
  • Erstellung von Folgemaßnahmen zur Vermeidung ähnlicher Vorfälle in der Zukunft.

Schritt 2: Planen Sie ein Treffen

Es ist von entscheidender Bedeutung, Personen mit einschlägiger Erfahrung und Fachkenntnissen einzuladen. Wir empfehlen Ihnen daher dringend, die folgenden Spezialisten einzuladen: 

  • Der Leiter der Vorfallsreaktion
  • Eigentümer der am Vorfall beteiligten Dienste
  • Wichtige Techniker/Referenten, die an der Behebung des Vorfalls beteiligt waren
  • Technik- und Produktmanager für die betroffenen Systeme

Schritt 3: Erstellen Sie einen Zeitplan

Zeitleiste des Vorfalls von ilert
Zeitleiste des Vorfalls von ilert

Dokumentieren Sie die Abfolge der Ereignisse objektiv, ohne die Ursachen des Vorfalls zu interpretieren oder zu beurteilen. Der Zeitplan sollte vor dem Beginn des Vorfalls beginnen und bis zu seiner Behebung fortgesetzt werden, wobei wesentliche Änderungen des Status oder der Auswirkungen sowie die wichtigsten von den Beteiligten ergriffenen Maßnahmen festgehalten werden.

Untersuchen Sie das Ereignisprotokoll in Slack oder Microsoft Teams auf kritische Entscheidungen und Maßnahmen. Nehmen Sie auch Informationen auf, die dem Team während des Vorfalls fehlten, aber im Nachhinein hilfreich gewesen wären. Diese Informationen können in den Überwachungsdaten, Protokollen und Bereitstellungen der betroffenen Dienste zu finden sein.

Schritt 4: Dokumentieren der Auswirkungen

Erfassen Sie die Auswirkungen des Vorfalls aus verschiedenen Blickwinkeln. Notieren Sie die Dauer der beobachtbaren Auswirkung, die Gesamtzahl der betroffenen Kunden, die Anzahl der gemeldeten Probleme und den Schweregrad der Funktionsunterbrechung. Messen Sie die Auswirkungen anhand einer für Ihr Produkt relevanten Geschäftskennzahl, z. B. der Zunahme von API-Fehlern, Leistungseinbußen oder Verzögerungen bei der Zustellung von Benachrichtigungen. Stellen Sie gegebenenfalls eine Liste aller betroffenen Kunden zusammen und teilen Sie diese Ihrem Support-Team für Folgemaßnahmen mit. Die Aufnahme von Kundenfeedback oder Beschwerden, die während des Vorfalls eingegangen sind, ist ebenfalls hilfreich und gibt Aufschluss über die Benutzererfahrung.

Schritt 5: Analyse der Grundursache

Nachdem Sie den zeitlichen Ablauf und die Auswirkungen des Vorfalls gründlich verstanden haben, gehen Sie zur Ursachenanalyse über, um die dazu beitragenden Faktoren zu untersuchen, wobei Sie sich bewusst sind, dass komplexe Systeme häufig aufgrund einer Kombination von zusammenwirkenden Elementen und nicht aufgrund einer einzigen Ursache ausfallen. Beginnen Sie mit der Überprüfung der Überwachungsdaten der betroffenen Dienste und suchen Sie nach Unregelmäßigkeiten wie plötzlichen Spitzen oder Einbrüchen zum Zeitpunkt des Vorfalls. Fügen Sie relevante Abfragen, Befehle, Diagramme oder Links von Überwachungstools ein, um den Prozess der Datenerfassung zu veranschaulichen. Wenn es keine Überwachung für diesen Dienst gibt, führen Sie die Entwicklung einer solchen Überwachung als Aktionspunkt in Ihrem Postmortem auf. Als Nächstes sollten Sie die zugrundeliegenden Ursachen ermitteln, indem Sie untersuchen, warum das Systemdesign den Vorfall zuließ, indem Sie frühere Designentscheidungen untersuchen und indem Sie feststellen, ob sie Teil eines größeren Trends oder eines spezifischen Problems waren. Bewerten Sie die Prozesse und prüfen Sie, ob Zusammenarbeit, Kommunikation und Arbeitsüberprüfungen zu dem Vorfall beigetragen haben, und nutzen Sie diese Phase, um den Reaktionsprozess auf den Vorfall zu verbessern. Fassen Sie Ihre Ergebnisse im Postmortem zusammen und sorgen Sie für eine gründliche Dokumentation, um eine produktive Diskussion während des Postmortem-Meetings zu ermöglichen, und bleiben Sie gleichzeitig offen für zusätzliche Erkenntnisse, die sich ergeben könnten.

Postmortem-Erstellung mit ilert AI
Postmortem-Erstellung mit ilert AI

Schritt 6: Aktionspunkte vorbereiten

Jetzt ist es von entscheidender Bedeutung, Schritte zur Vermeidung ähnlicher Probleme in der Zukunft festzulegen. Auch wenn es nicht immer möglich ist, solche Vorfälle völlig auszuschließen, sollten Sie sich darauf konzentrieren, die Erkennungs- und Abhilfemaßnahmen für zukünftige Ereignisse zu verbessern. Dazu gehören die Verbesserung der Überwachungs- und Warnsysteme und die Entwicklung von Strategien zur Verringerung des Schweregrads oder der Dauer von Zwischenfällen.

Erstellen Sie Tickets für alle vorgeschlagenen Maßnahmen in Ihrem Aufgabenmanagement-Tool und stellen Sie sicher, dass jedes Ticket ausreichend Kontext und eine vorgeschlagene Richtung enthält. Dies hilft dem Produktverantwortlichen bei der Priorisierung der Aufgabe und ermöglicht es dem Beauftragten, sie effizient auszuführen. Jeder Aktionspunkt sollte spezifisch und umsetzbar sein.

Wenn vorgeschlagene Maßnahmen weitere Diskussionen erfordern, sollten sie auf die Tagesordnung der Postmortem-Sitzung gesetzt werden. Dabei kann es sich um Vorschläge handeln, die vom Team validiert oder geklärt werden müssen. Die Erörterung dieser Punkte in der Sitzung wird dazu beitragen, die beste Vorgehensweise zu bestimmen.

Blog-Beiträge, die dir gefallen könnten:

KI-gestützte Incident Management-Kommunikation

Artikel lesen ›

Was ist Alarmmüdigkeit in DevOps und wie kann man sie mit Hilfe von ilert bekämpfen?

Artikel lesen ›

Incident Metrics & KPIs - worauf es wirklich ankommt

Artikel lesen ›

Starten Sie jetzt mit ilert.

Und sie bieten Ihren Kunden ein nahtloses Ergebnis.

Kostenloser Starten
Unsere Cookie-Richtlinie
Wir verwenden Cookies, um Ihre Erfahrung zu verbessern, den Seitenverkehr zu verbessern und für Marketingzwecke. Erfahren Sie mehr in unserem Datenschutzrichtlinie.
Open Preferences
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.
Danke! Deine Einreichung ist eingegangen!
Hoppla! Beim Absenden des Formulars ist etwas schief gelaufen.