Best Practices für das Incident-Management von MSPs
Dieser Artikel wurde ursprünglich im Blog von N-able veröffentlicht. N-able, ein Partner von ilert, bietet IT-Management- und Monitoring-Lösungen speziell für Managed Service Provider (MSPs) und IT-Experten. Die Produktpalette von N-able umfasst Tools für Fernüberwachung, Backup, Schutz von Endgeräten und Netzwerkverwaltung. Diese Lösungen helfen MSPs dabei, ihren IT-Betrieb zu optimieren, die Sicherheit zu erhöhen und zuverlässige Services bereitzustellen. Erfahren Sie mehr über die ilert-Integration für N-able N-central.
Incident-Response-Management bezeichnet einen strukturierten Ansatz zur schnellen Identifizierung, Analyse und Lösung von IT-Störungen. Der Begriff Incidents beschreibt in diesem Kontext Abweichungen vom Normalzustand eines IT-Netzwerks, die den Betrieb, die Kundenerfahrung und letztendlich das gesamte Geschäft beeinträchtigen können. Diese Definition dient dazu, Incidents von technischen Warnmeldungen abzugrenzen, die zwar auf Probleme in der Netzwerk-Infrastruktur hinweisen können, jedoch noch keine Auswirkungen auf den Kunden haben.
Die schnelle und effektive Behebung von Incidents ist entscheidend, damit MSPs (Managed Service Provider) eine positive Kundenerfahrung aufrechterhalten können. Dennoch ist effektives Incident-Management oft ein komplexer Prozess. Während größere MSPs häufig vollständigen Zugriff auf die Infrastruktur ihrer Kunden haben und in kritischen Situationen schnell und eigenständig agieren können, haben kleinere Unternehmen meist nur Zugriff auf einen Teil der Services und des Technologie-Stacks. Dies erschwert eine effektive Reaktion auf Störungen erheblich.
Zusätzlich stehen MSPs regelmäßig vor weiteren Herausforderungen bei der Gewährleistung operativer Exzellenz, darunter:
- Vielfältige Kundenumgebungen: MSPs betreuen unterschiedliche Kunden mit individuellen SLAs (Service-Level-Agreements), die spezifische Reaktions- und Lösungszeiten vorschreiben.
- Remote-Management: Die Diagnose und Lösung von Problemen aus der Ferne erhöht die Komplexität.
- Heterogene Umgebungen: Jeder Kunde verwendet möglicherweise unterschiedliche Software, Hardware und Konfigurationen.
Eine effektive Incident-Response-Strategie ist für MSPs unerlässlich, um die Systeme ihrer Kunden zu schützen, Vertrauen aufzubauen und ihren eigenen Ruf zu wahren. Eine schlecht gehandhabte Störung kann zu einer Vielzahl von Problemen führen, wie zum Beispiel Betriebsunterbrechungen, finanziellen Verlusten, Kundenabwanderung, Reputationsschäden sowie rechtliche und regulatorische Strafen.
Auf der anderen Seite bietet effektives Incident-Response-Management einen echten geschäftlichen Mehrwert für MSPs, indem es Folgendes ermöglicht: Minimierung von Downtimes (Erfüllung von SLAs und Vermeidung von Strafzahlungen), Aufbau von Kundenvertrauen, Einhaltung von Compliance- und Regulierungsanforderungen (speziell für ihre Branche oder für Cyber-Versicherungen), Reputationsschutz, Kostenreduzierung (zum Beispiel Wiederherstellungskosten).
Da sich Cyber-Bedrohungen kontinuierlich weiterentwickeln, ist der Bedarf an schnellen, effizienten und gut koordinierten Reaktionen auf Störungen größer denn je. Doch wie lässt sich ein effektiver Incident-Response-Prozess aufbauen?
ilert ist Mitglied im “N-able Technology Alliance Program" und bietet eine fortschrittliche Plattform für Incident-Management, die sich nahtlos in N-able N-central integrieren lässt. Ich habe mit Daria Yankevich, Partner Marketing Manager bei ilert, darüber gesprochen, welche Erfahrungen das Unternehmen bei der Zusammenarbeit mit MSPs gemacht hat und welche Best Practices für das Incident-Management von MSPs am wichtigsten sind.
Die vier Phasen des Incident-Response-Managements
„Der Incident-Lebenszyklus umfasst vier Phasen“, erklärt Daria: „Vorbereitung, Reaktion, Kommunikation und Lernen. Die Unterteilung der wichtigsten Empfehlungen für das Incident- Management in diese vier Bereiche vereinfacht die Arbeit für Teams und hilft ihnen, ihre Position in kritischen Situationen klar zu verstehen.“
Phase 1: Vorbereitung auf einen Incident
Automatisierung von Incident-Erkennung und Reaktion
„Automatisierung ist eng mit Tools verbunden“, sagt Daria. „Wir sehen vier Schlüsselbereiche, auf die erfahrene MSPs ihren Fokus legen, um Systemprobleme so schnell wie möglich zu erkennen und darauf zu reagieren.“
1. Monitoring und Observability
Tools, die die Systemleistung überwachen, Daten aufzeichnen und das Verhalten von Anwendungen analysieren, bieten einen Überblick in Echtzeit über Ihre IT-Systeme. Dadurch können potenzielle Störungen schnell erkannt werden. Lösungen wie N-able N-central helfen dabei, Multi-Tenant-Umgebungen zu überwachen.
2. Bereitschaftsmanagement
In einer Multi-Client-Umgebung ist es eine Herausforderung, Bereitschaftsdienste über Kalender oder Tabellen zu organisieren. Stellen Sie sicher, dass die Rufbereitschaften ordnungsgemäß zwischen Kunden und dedizierten Teams verteilt sind, die Rotation automatisch erfolgt und Techniker immer wissen, wann ihre Schichten beginnen. Eine bewährte Methode ist der mobile Zugriff auf das On-Call-Managementsystem, um Zeitpläne bei Bedarf auch unterwegs anpassen zu können.
3. Alarmierung
Sobald ein Incident erkannt wird, ist eine schnelle und kanalübergreifende Benachrichtigung der Techniker entscheidend. Alarmierungstools sorgen dafür, dass die richtigen Informationen zur richtigen Zeit bei den richtigen Personen ankommen. Alarmierungsplattformen für MSPs können Alerts aus verschiedenen Mandantenumgebungen anzeigen und klar trennen sowie Eskalationsrichtlinien erstellen, die den SLA-Anforderungen unterschiedlicher Kunden entsprechen. Ihre Alarmierungssysteme sollten so fortschrittlich sein, dass sie Alerts aus verschiedenen Quellen verarbeiten und in Telefonanrufe, SMS, Push-Benachrichtigungen und andere Benachrichtigungstypen umwandeln können. Obwohl maschinell erkannte Alarmierungen für MSPs typisch sind, melden Kunden in vielen Fällen Störungen direkt über Tickets oder Telefonanrufe. Für diese beiden Arten benötigen MSPs zusätzliche Tools.
4. Manuelle Meldung von Störungen
Die Kunden von MSPs benötigen eine schnelle, benutzerfreundliche und vertraute Möglichkeit, Anomalien zu melden. Eine Option ist Call Routing – eine Hotline, über die Kunden eine dedizierte Telefonnummer anrufen können, wodurch direkt eine Alarmierung erstellt wird. Eine weitere Lösung ist ein Ticketing-System. Abhängig von den SLA-Anforderungen können Sie zwischen diesen Optionen wählen oder beide für unterschiedliche Szenarien nutzen.
Einführung eines strukturierten Incident-Response-Plans
„Ein gut durchdachter Reaktionsplan stellt sicher, dass Störungen mit System bearbeitet werden“, ergänzt Daria. „Der beste Weg, dies zu erreichen, besteht nicht nur darin, Anweisungen auf Papier festzuhalten, sondern auch durch tatsächliche Trainingssessions, in denen ein Incident simuliert wird.
Das Training muss die folgenden vier Ziele verfolgen:
- Techniker kennen die Eskalationsverfahren und haben alle Benachrichtigungen korrekt eingerichtet.
- Sie verstehen die Infrastruktur des Kunden genau und wissen, wie sie darauf zugreifen können.
- Sie erhalten praktische Schulungen zur Eindämmung und Bewältigung verschiedener Arten von IT-Störungen, die typisch für einen bestimmten Kunden sind.
- Techniker von MSPs werden mit realistischen, anspruchsvollen Szenarien konfrontiert, in denen sie Aufgaben priorisieren und Ressourcen effektiv zuweisen müssen, um das Treffen von Entscheidungen zu trainieren."
Phase 2: Reaktion
Daria erklärt weiter: „In der Reaktionsphase des Incident-Managements bestimmen zwei entscheidende Faktoren den Erfolg eines MSP-Ansatzes: die Geschwindigkeit, mit der der MSP die Störung bestätigt, und die effiziente Festlegung von Prioritäten, wenn mehrere Incidents bei verschiedenen Kunden gleichzeitig auftreten.
„Eine schnelle Rückmeldung ist von entscheidender Bedeutung, da eine schnelle Reaktion den Kunden versichert, dass das Problem angegangen wird und mögliche Ausfallzeiten reduziert werden. Gleichzeitig ist die Priorisierung unerlässlich, wenn mehrere Vorfälle auftreten.
MSPs sollten ihre Priorisierungen auf SLA-Verpflichtungen und den Auswirkungen der einzelnen Störungen auf die Betriebsabläufe der Kunden basieren. Ein kritischer Serverausfall, der das gesamte Geschäft eines Kunden betrifft, sollte beispielsweise Vorrang vor einem geringfügigen Anwendungsproblem bei einem anderen Kunden haben.“
Phase 3: Kommunikation
Wie bei jeder Kundeninteraktion ist auch hier eine effektive Kommunikation entscheidend. „Es gibt mehrere Möglichkeiten, Kunden auf dem Laufenden zu halten“, sagt Daria. „Eine davon ist die manuelle Übermittlung von Updates per Telefonanruf oder Nachrichten durch einen MSP-Account-Manager. Dieser Ansatz ist jedoch nicht skalierbar und kann zu Kommunikationsfehlern und Missverständnissen führen. Wir empfehlen, eine Statusseite einzurichten, die Kunden abonnieren können.“
Daria empfiehlt, dass MSPs separate Statusseiten für jeden Kunden einrichten sollten, was sich in der Regel gut für kleinere Unternehmen eignet. Dieser Ansatz wird jedoch teurer, je mehr Kunden hinzukommen. Für größere Anbieter wird dringend empfohlen, zielgruppenspezifische Seiten zu verwenden, die nur relevante Daten basierend auf Nutzerparametern anzeigen. Dies reduziert nicht nur die Kosten, sondern minimiert auch die Anzahl der zu wartenden Seiten.
Daria hebt vier wichtige Punkte hervor, die berücksichtigt werden sollten:
- Zeitnähe: Schnelle Kommunikation hilft, Kundenerwartungen zu erfüllen und Unsicherheiten zu minimieren.
- Regelmäßigkeit: Teilen Sie Updates zur Incident-Behandlung in regelmäßigen, vorhersehbaren Intervallen mit – typischerweise alle 30 bis 45 Minuten.
- Realistische Erwartungen: Bieten Sie realistische Zeitpläne für die Lösung und informieren Sie Kunden über mögliche temporäre Workarounds. Falls sich die Situation ändert, passen Sie die Erwartungen an und kommunizieren Sie diese umgehend.
- Klarheit: Vermeiden Sie es, Kunden mit technischem Fachjargon zu überfordern. Geben Sie klare, einfache Erklärungen, um Frustrationen zu minimieren.
Phase 4: Aus Erfahrungen lernen
Abschließend verweist Daria auf zwei wichtige Metriken – MTTA (Mean Time to Acknowledgment) und MTTR (Mean Time to Resolution) – die entscheidend sind, um die Effektivität der Incident Response zu messen.
Diese Metriken können manuell mit den folgenden Formeln berechnet werden oder automatisch von Ihrer Incident-Management-Plattform erfasst werden:
- MTTA = (Gesamtzeit zwischen Alarmierung und Bestätigung) / Anzahl der Incidents für einen bestimmten Kunden
- MTTR = (Gesamtzeit zwischen Alarmierung und Behebung) / Anzahl der Incidents für einen bestimmten Kunden
„Denken Sie unbedingt daran, die bearbeiteten Störungen zu dokumentieren und die Erkenntnisse in Post-Mortem-Dokumenten zusammenzufassen“, schließt Daria. „Dies wird Ihnen helfen, Ihre MTTR und MTTA zu reduzieren und die Einarbeitung neuer Techniker und Account-Manager erleichtern.“
ilert und N‑central: Optimiertes Incident-Management durch RMM-Integration
Laut Daria sind Remote-Monitoring-and-Management-Lösungen (RMM) wie N‑central ein entscheidender Bestandteil eines effektiven Incident-Response-Plans für MSPs. Sie ermöglichen es MSPs, die Systeme ihrer Kunden in Echtzeit zu überwachen und potenzielle Probleme wie Systemausfälle, Netzwerk-Schwachstellen oder ungewöhnliche Aktivitäten, die auf einen Cyberangriff hindeuten könnten, frühzeitig zu erkennen. Eine frühzeitige Erkennung ist entscheidend, um Incidents einzudämmen, bevor sie eskalieren, Downtimes zu minimieren und die Auswirkungen auf die Kunden zu reduzieren.
Durch die Integration von ilert in ihre N‑central-Plattform können MSPs ihre Effektivität in mehreren Bereichen deutlich steigern und ihre Incident-Response wesentlich verbessern:
- Multi-Channel-Benachrichtigungen: Sobald N‑central ein Problem erkennt, kann ilert sofort Benachrichtigungen per SMS, E-Mail, Telefon oder Mobile-App auslösen. So werden die richtigen Teammitglieder schnell informiert, und die Reaktionszeit wird verkürzt. Dieser Multi-Channel-Ansatz stellt sicher, dass kein kritischer Alarm übersehen wird – auch nicht außerhalb der regulären Arbeitszeiten.
- Automatische Rotation von Bereitschaftsdiensten: Die automatische Rotation von Dienstbereitschaften durch ilert gewährleistet, dass immer jemand verfügbar ist, um zu reagieren, ohne dass manuelle Eingriffe erforderlich sind. Dieser optimierte Prozess verhindert, dass Störungen aufgrund von Verzögerungen eskalieren.
- Zielgruppenspezifische Statusseiten: Mit den Statusseiten in ilert können MSPs Kunden in Echtzeit während einer Störung informieren und so Kommunikation und Transparenz verbessern. Durch die Steuerung von Erwartungen und die Bereitstellung von Echtzeit-Updates schaffen MSPs Vertrauen und reduzieren die Frustration der Kunden.
Die Integration von N‑central in ilert ermöglicht es MSPs, schneller zu reagieren, Alarmierung und Bereitschaftsmanagement zu automatisieren sowie die Kommunikation mit den Kunden zu verbessern. Dies führt zu einer effektiveren Incident Resolution und besseren Kundenbeziehungen.