DevOps-Ingenieure streben ständig danach, alle Aspekte zu verbessern, die die Leistung und Zuverlässigkeit von Diensten beeinflussen. Kürzlich ist eine neue Kennzahl bekannt geworden, die als Time to Understand (TTU) oder Durchschnittliche Zeit bis zum Verstehen (MTTU) bezeichnet wird. Diese Kennzahl ist ein Fortschritt für Teams, die bereits umfassendere MTTA- und MTTR-Überwachungen integriert haben und nun tiefergehende Incident-Analysen durchführen möchten.
TTU ist die Zeit, die ein Bereitschaftsingenieur oder ein Reaktionsteam benötigt, um Umfang, Auswirkung und Ursache eines Vorfalls zu verstehen. Sie beginnt, wenn ein Vorfall erstmals bemerkt wird, und endet, wenn das Engineering-Team das Problem vollständig erfasst hat. Der Fokus liegt auf der Kognitionsphase der Incident-Reaktion, schließt aber auch die Lernphase nach dem Vorfall mit ein, da viele Vorfälle behoben werden können, bevor das Team ein vollständiges Verständnis für die Ursache des Vorfalls erlangt.
MTTU baut darauf auf, indem der durchschnittliche TTU über eine Reihe von Vorfällen innerhalb eines bestimmten Zeitraums berechnet wird. Dies bietet eine stabilere Kennzahl, die die natürliche Variabilität einzelner Vorfälle berücksichtigt.
Ein tiefes Verständnis für ein Problem ist entscheidend, weil:
Um TTU/MTTU zu minimieren, kann ein DevOps-Team mehrere Strategien anwenden:
Indem sich ein DevOps-Team auf die Reduzierung von TTU/MTTU konzentriert, erhöht es seine Agilität und Fähigkeit, Vorfälle zu bewältigen, was zu einem robusteren und zuverlässigeren Serviceangebot führt.
Während Kennzahlen wie MTTR (Durchschnittliche Zeit bis zur Reparatur) und MTTA (Durchschnittliche Zeit bis zur Anerkennung) im DevOps-Bereich weiterhin entscheidend sind, wird MTTU, insbesondere in verteilten Microservice-Architekturen, oft übersehen. Diese Architekturen teilen Systeme in zahlreiche unabhängige Dienste auf, was die Komplexität der Fehlerdiagnose erhöht. In solchen Fällen kann die MTTU-Kennzahl die Wirksamkeit des Ansatzes zur Incident-Reaktion untermauern und sicherstellen, dass Teams die Komplexität von Microservices effektiv bewältigen. Zusätzlich kann OTel die Beobachtbarkeit in einer Microservice-Architektur verbessern.
Die Integration in die Incident-Management-Praktiken stellt sicher, dass Teams nicht nur schnell reagieren, sondern auch kompetent sind, die Herausforderungen zu verstehen, denen sie gegenüberstehen, was zu nachhaltigeren Lösungen und einem reiferen DevOps-Modell führt.
Erfahren Sie mehr über Incident-Management-Metriken im ilert Guide.