BLOG

Weniger ist mehr: Incident-Management und Monitoring in hybriden IT-Infrastrukturen

Elias Völker

August 2, 2021

Beitrag teilen:

Table of Contents:

Unternehmen modernisieren ihre Infrastruktur. Es gibt hierbei keine Standardschablone für die perfekte IT-Infrastruktur. Fakt ist, dass hybride Infrastrukturen in Unternehmen der Status quo sind. Fast alle Organisationen haben zumindest Teile ihrer Systeme in die Cloud verlagert oder nutzen Applikationen als Cloud-Services. Gleichzeitig möchten Unternehmen ihre IT-Infrastruktur mit der Softwareentwicklung verzahnen und setzen daher auf dynamische Infrastrukturen.

Im Rahmen dieser Veränderungen passen IT-Teams auch ihre Überwachungsansätze an. Einerseits werden On-Premises-Systeme weiterhin von System-Administratoren mit etablierten Monitoring-Lösungen überwacht. Andererseits arbeiten Cloud-Experten, Plattform-Engineers und Entwickler aber verstärkt in dynamischen Infrastrukturen und nutzen dort eigene Tools zur Überwachung, die besser auf ihre individuellen Herausforderungen zugeschnitten sind. Sie monitoren damit vor allem spezifische Applikationen, sowie einzelne Performance-Metriken, die für ihren Arbeitsbereich relevant sind.

Grundsätzlich sind mehrere Überwachungslösungen legitim, um auf unterschiedlichen Anforderungen der einzelnen Teams einzugehen. Trotzdem droht die Gefahr, dass es ohne richtige Abstimmung und Integration der Lösungen zu Informationssilos kommt und die Störungsbeseitigung immer aufwendiger wird. Die Folge sind längere Bearbeitungszeiten von Zwischenfällen und kürzere Verfügbarkeitszeiten.

Die Herausforderung liegt darin, dass man die Monitoring-Verantwortung in einer modernen IT-Infrastruktur in der Regel aufteilt, vernetzte IT-Systeme aber trotzdem voneinander abhängig sind. Während System-Administratoren weiterhin für die Überwachung von On-Premises-Infrastruktur verantwortlich sind, obliegt die Verantwortung für Cloud- und Container-Infrastruktur bei anderen Teams wie zum Beispiel DevOps-Spezialisten oder Entwicklern. Die im Monitoring getrennten Bereiche sind aber trotzdem oft voneinander abhängig. Manche Probleme lassen sich daher nur mit teamübergreifendem Einsatz lösen.

Lösungen wie iLert sind eine wichtige Stütze, um Alarmierungen aus den unterschiedlichsten Quellen an die richtigen Stellen übertragen zu können. Gleichzeitig reichen die Informationen aus einer Alarmierung nicht immer aus, um ein Problem nachhaltig zu lösen. Stattdessen braucht der verantwortliche Mitarbeiter einen unkomplizierten Zugang zu bestimmten Kontextinformationen, um die richtigen Gegenmaßnahmen einleiten oder einen Kollegen aus einem anderen Team instruieren zu können. Findet er die Details nicht im verwendeten Monitoring-Tool, muss er diese auf anderem Wege beschaffen, was unter Umständen wertvolle Zeit kostet.

Monitoring in der hybriden Welt: Was es zu beachten gilt

Ein erster Schritt ist daher die Prüfung der genutzten Überwachungslösungen und deren Konsolidierung. Wie erwähnt, ist es zwar wichtig, dass IT-Teams Überwachungslösungen nutzen können, die sich für ihren Einsatzzweck eignen. Allerdings werden häufig unzureichende Lösungen implementiert oder um zusätzliche Tools ergänzt. Je mehr Überwachungslösungen Unternehmen jedoch parallel nutzen, desto größer ist die Gefahr, dass Informationssilos entstehen und Teams Informationen nicht effizient austauschen können.

Abbildung 1: Mit dem richtigen Monitoring-Tool lassen sich Auswirkungen eines Vorfalls auf andere Systeme schnell erkennen

Ein Beispiel ist die Überwachung von Servern und Netzwerken durch unterschiedliche Teams. Hier lohnt es sich, die Überwachung in einem Tool zu vereinheitlichen, sodass bei Bedarf Beziehungen und Interaktionen einzelner Komponenten umgehend erkennbar sind. Ist ein Switch zum Beispiel überlastet, können die angeschlossenen Server nicht richtig arbeiten. Beim Einsatz von mehreren Überwachungs-Tools bekommen Netzwerk- und Server-Administratoren eine Alarmierung, entweder direkt von ihrem Überwachungs-Tool oder über iLert. Trotzdem sehen sie aber nicht den vollen Umfang des Problems.

Moderne IT-Infrastruktur-Überwachungslösungen wie Checkmk bringen Integrationen für verschiedene Systeme mit und können zudem über eine flexible Nutzerverwaltung die Zugriffe und Administrationsrechte für die einzelnen Bereiche granular steuern. Im konkreten Beispiel würde der Server-Administrator sofort erkennen, dass sein Server eigentlich in Ordnung ist und das Problem am Switch liegt.

Hinzu kommt, dass viele Überwachungsansätze für System-Administratoren nicht für Cloud-Technologien und dynamische Systeme ausgerichtet sind. Es kommt immer wieder vor, dass Monitoring-Teams veraltete Tools zur Überwachung von modernen Systemen einsetzen. Dies macht die Überwachung unzureichend und die Beseitigung von Problemen besonders ineffizient.

Abbildung 2: Bei der Auswahl eines Monitoring-Tools sollte man auf die Unterstützung von gängigen Cloud-Anbietern wie AWS achten

Die nötigen Überwachungs-Tools sinnvoll integrieren

Natürlich sind die Anforderungen von einzelnen IT-Teams zu unterschiedlich, als dass sie sich alle in einem einzigen Monitoring-Tool abbilden lassen könnten. Beispielsweise haben DevOps-Verantwortliche andere Anforderungen als klassische System-Administratoren. In der agilen Software-Entwicklung geht es verstärkt um die Prüfung von Zielvorgaben und Metriken für einzelne Applikationen und Systeme, während beim klassischen Infrastruktur-Monitoring die Überwachung sämtlicher Systeme im Vordergrund steht. Ein System-Admin möchte Assets schnell in die Überwachung aufnehmen können und die manuelle Arbeit pro System möglichst gering halten.

Daher ist es unwahrscheinlich, dass Unternehmen mit nur einem einzigen Monitoring-Tool die unterschiedlichen Anforderungen der verschiedenen IT-Teams befriedigen können. Deshalb sind Integrationen zwischen einzelnen Monitoring-Tools ein guter Ansatz. Sie ermöglichen nicht nur einen automatischen Datenaustausch zwischen verschiedenen Tools, sondern verbessern gleichzeitig die Interaktionsfähigkeit von verschiedenen IT-Teams, besonders bei der Beseitigung von erkannten Problemen.

Die Kombination von Prometheus und Checkmk ist ein Beispiel für eine sinnvolle Integration zweier Monitoring-Lösungen und eignet sich dadurch ideal für die Zusammenarbeit von Entwickler-Teams und IT-Operations. Prometheus ist für DevOps-Teams ein beliebtes Tool für das Monitoring von Kubernetes-Clustern. Gerade Entwickler können mit der Query-Language PromQL gewünschte Metriken gezielt abfragen.

Dagegen wird Checkmk vor allem von Administratoren eingesetzt und eignet sich zur Überwachung von unterschiedlichen On-Premises- und Cloud-Infrastrukturen. Über 3.000 Unternehmen setzen Checkmk zur Überwachung von Servern, Netzwerken, Storage, Datenbanken, Kubernetes, IoT und vielen weiteren Assets ein.

Checkmk kann Überwachungsdaten von Kubernetes-Clustern direkt aus Prometheus abfragen und diese in den richtigen Kontext setzen. Der System-Administrator erkennt so beispielsweise, wenn sich Probleme in der IT-Infrastruktur auf einen Container auswirken, den ein Entwickler gerade nutzt. Es sind keine manuellen Schritte oder ein Wechsel zwischen den einzelnen Tools nötig. Gleichzeitig spart die Integration Ressourcen, da Checkmk die Überwachungsdaten eines Systems aus Prometheus abrufen kann und doppelte Abfragen direkt am überwachten System somit vermeidet.

Sowohl Prometheus als auch Checkmk stellen eine Open-Source-Lösungen zur Verfügung und werden beständig weiterentwickelt. Dadurch ist das Risiko eines Vendor-Lock-ins gering. Aktuell stehen für Checkmk zudem bereits über 2.000 Monitoring-Integrationen bereit, mit denen Checkmk eine große Menge an Systemen von unterschiedlichen Herstellern überwachen kann.

Sowohl Prometheus als auch Checkmk sind mögliche Alarmquellen von iLert. Damit können Sie Alarmierungen von beiden Tools bequem in iLert verwalten. iLert informiert nicht nur die Mitarbeiter in Bereitschaft über mögliche Vorfälle, sondern hilft auch gemeinsame Fortschritte zwischen unterschiedlichen Teams sicherzustellen. Zudem behalten Sie die Arbeitsprozesse von Incidents im Auge und stellen sicher, dass ihre Mitarbeiter Probleme effizient lösen.

Weniger ist mehr: Incident-Management und Monitoring in hybriden IT-Infrastrukturen

Monitoring in der hybriden Welt: Was es zu beachten gilt

Die nötigen Überwachungs-Tools sinnvoll integrieren

Blog-Beiträge, die dir gefallen könnten:

Alarmflut reduzieren durch intelligente Gruppierung von Alarmierungen

Automatisierung von Postmortem-Berichten mit KI

Was Sie über das Digital Operational Resilience Act (DORA) wissen müssen

Die Lösung für Betriebsteams.