Monitoring und Event Management

Das Zusammenspiel eines Monitoringsystems mit dem Eventmanagement

Nicht jeder Event sollte ein Incident auslösen und ein Monitoringsystem ist nicht einem Eventmanagement System gleichzusetzen. Dies hat natürlich unterschiedliche Gründe, welche direkt im Zusammenhang mit der Optimierung des Monitoringsystems in Bezug auf ein nach ITIL ausgerichtetes IT Servicemanagement System zu tun haben, wobei das Eventmanagement ein Teil dieses IT Servicemanagement Systems ist.

Ein Unternehmen setzt für die Überwachung seiner IT – Landschaft oft ein oder mehrere Monitoringsysteme ein, welche je nach der zu überwachenden Ressource optimiert sind. Wobei hier wiederum alle Monitoringlösungen aus Sicht des Eventmanagementsystems als eine optimierte Lösung zu betrachten sind. Der Fokus aller eingesetzten Monitoringlösungen liegt hierbei immer im frühzeitigen Erkennen von Störungen. Wobei diese Störungen im besten Fall sehr frühzeitig erkannt und automatisch behoben werden sollten, noch bevor es ein Anwender bemerkt. Hierzu werden unzählige Informationen von den Systemen, wie z.B. die Temperatur oder Auslastung der CPU, die Füllstände der Festplatten, Core-Dumps von Betriebssystemen oder Applikationen, Status der laufenden Prozesse und Dienste etc., über das Monitoring automatisiert gesammelt. Jede Änderung des Status kann hierbei je nach gesetztem Schwellwert einen Event auslösen.

Monitoring

Da nur wenige Statusänderungen in den Monitoren eigentlich kritisch bzw. Incidentrelevant sind, sollten auch dementsprechend nicht so viele Incidents generiert werden. Trotz allem neigen eigentlich immer die Administratoren dazu sich bei jedem Event eine Email oder SMS schicken zu lassen. Daher werden sie zu jeder Tages- und Nachtzeit mit Benachrichtigungen aus Events geflutet, wobei die wenigsten eigentlich relevant sind. Teilweise gehen einige Benachrichtigungen über Sammelmails dann gleichzeitig an mehrere Mitarbeiter, wobei wiederum oft unklar ist ob diverse Aktionen einzuleiten sind und wer dann explizit dafür verantwortlich ist. Durch diese Flut an Benachrichtigungen gehen dann oft die wichtigen unter und die „False Positives“ Benachrichtigungen (Fehlalarme) verursachen unnötig viel Arbeit bei den Administratoren. 

Ein Eventmanagement nach ITIL mit einem Monitoring als zentraler Datenlieferant

Das eigentliche Ziel eines Monitorings sollte nicht das reine sammeln von Daten sein. Es sollte vielmehr auf der Filterung und Klassifizierung der Informationen aus dem Monitoring und deren sinnvoller Auswertung und Weiterverarbeitung sein. Der ITIL – Prozess Eventmanagement bezieht sich zwar nicht explizit direkt auf das Monitoring, er unterstützt aber bei der Auswertung und sinnvollen Verwertung der aus dem Monitoring gewonnenen Informationen und Daten für die weitere Verwendung in anderen ITIL-Prozessen. Daher brauchen die Administratoren ein gutes Verständnis aller Eventmanagement Prozesse, um der Datenflut Herr zu werden und gleichzeitig die Servicequalität zu erhöhen. 

Der IT – Administrator sollte seinen Platz in den diversen ITIL – Rollen kennen. ITIL beschreibt im weitesten Sinne Best – Practice – Prozesse im IT – Servicemanagement Umfeld und ist Grundlage diverser ISO Zertifizierungen. Die diversen Rollen und Verantwortlichkeiten werden in ITIL klar definiert. Allerdings muss ein Admin im richtigen Leben oft zahlreiche Rollen und Verantwortlichkeiten in ein und der selben Person übernehmen. Klar wird einem das wenn man z.B. die Stellenbeschreibung „IT – System – Administrator“ in eine ITIL – Rolle übersetzen möchte, was hier keine triviale Aufgabe ist. In ITIL gibt es aktuell ca. 30 Rollen.

In sehr großen IT – Abteilungen von mehreren 100 Mitarbeitern gelingt es meistens noch eine dedizierte ITIL – Rolle einem einzigen Mitarbeiter zuzuordnen. Ist jedoch die Mitarbeiterzahl in einer sich nach ITIL orientierenden IT – Abteilung sehr klein, trägt ein einzelner Mitarbeiter oft mehrere Rollen und Verantwortlichkeiten gleichzeitig. Und genau hier liegt dann auch oft die Ursache der enormen Benachrichtigungsflut, die dem Admin die Mailbox überlaufen lässt. Da er oft mehrere Rollen wie Incident Manager, Change Manager, Problem Manager etc. gleichzeitig trägt. Zudem ist er oft auch noch für die Verbesserung der Servicequalität und der Prozessarchitektur verantwortlich. Daher sind die aus dem Monitoring generierten Information für ihn sehr relevant, allerdings sind diese oft unstrukturiert und nicht nach den entsprechenden Rollen und Prozessen organisiert und daher für den Admin eher kontraproduktiv. Daher ist es sehr wichtig das Filtering und die Korrelation der Events, sowie die Aufbereitung derer zur Weiterverarbeitung in weiteren ITIL – Prozessen, zu verstehen. Die Aufbereitung der Events kann z.B. durch eine Anreicherung von weiteren Informationen aus anderen Datenquellen wie z.B. der CMDB – Datenbank erfolgen. Ein sehr gut implementierter Eventmanagement Prozess aggregiert Monitoring Daten für die Verwendung in weiteren ITIL – Prozessen wie z.B. dem Incident Management und limitiert gleichzeitig das Generieren von Alerts auf das Notwendigste. 

Ein Eventmanagement nach ITIL bringt erst Struktur in die Datenflut

Wie wir aus dem vorangegangenen gelernt haben ist das Monitoring kein eigenständiger Prozess sondern unterstützt vielmehr den ITIL – Prozess Eventmanagement. Allerdings gibt es in ITIL keine dedizierte Rolle eines „Event Managers“, vielmehr ist das Eventmanagement ein Bestandteil des Servicebetriebs und wird vom IT Operation Manager verantwortet. Das Monitoring dient als Unterstützung im IT Operations beim Erkennen, Bewerten und Verarbeiten von Events.

Wie ist allerdings ein Event genau nach ITIL definiert? Laut Definition ist ein Event eine für das IT Service Management relevante Statusänderung an einem CI oder einem Service. Die Statusänderung wird hierbei vom Monitoring erkannt. Die erste Filterung nach der Relevanz des Events übernimmt technisch gesehen auch schon das Monitoring über die konfigurierbaren Schwellwerte im Monitoring. Sollte keine Ausnahme oder Störung vorliegen, sollte das Event zumindest als Information registriert werden. Um z.B. historische Daten zu aggregieren, Verfügbarkeiten von CI’s nachzuweisen (Availability Report) und um Tendenzen zu erkennen (z.B. Festplatten Auslastungen). Die Unterscheidung zwischen reiner Information und Warnung/Ausnahme zur weiteren Bearbeitung im Monitoring nennt man in so einem frühen Stadium nach ITIL „Event-Filterung und 1st Level-Korrelation“ und ist in den meisten Monitroing Tools schon konfigurierbar. 

Umgang mit den „False Positives“ in der Event Korrelation

Als nächsten Schritt sieht ITIL hier die 2nd – Level – Korrelation vor. Am Markt gibt es nur sehr wenige Monitoring Tools die eine weitere Bewertung der Warnungen und Ausnahmen ermöglichen. Läuft z.B. eine Applikation in einem Cluster mit 3 Servernodes, stört der Ausfall eines Nodes nicht unbedingt sofort, da die Applikation ja ungestört weiter laufen kann. Daher ist es nicht unbedingt erforderlich das der Admin direkt per SMS oder Mail benachrichtigt wird. Es reicht lediglich eine Warnung zu schicken, damit der Admin dies bei nächster Gelegenheit bearbeiten kann. 

Ein weiterer Aspekt in der Korrelation ist der zeitliche Aspekt. Fällt z.B. während der täglichen Arbeitszeit ein Service aus, sollte sofort ein Incident eröffnet werden, da möglicherweise die Produktivität der Mitarbeiter gestört sein kann. Ereignet sich dieser Ausfall allerdings außerhalb der Geschäftszeiten dann muss nicht zwingend ein Incident eröffnet werden. 

Der Umgang mit Events sollte schon in der Konzeptphase im Servicedesign erarbeitet und beschrieben werden. Die Monitoring Tools unterstützen da schon weitestgehend bei der automatisierten Umsetzung dieser Konzepte. Die 1st – Level – Korrelation findet wie bereits beschrieben in den Monitoring Tools über die Schwellwerte selbst statt, wobei diese auch einer ständigen Kontrolle unterzogen und gegebenenfalls auch angepasst werden sollten. Die 2nd – Level – Korrelation wird dann mittels anspruchsvolleren Mechanismen im Eventmanagement verarbeitet. Die Events werden hier über eine konfigurierbare Logikengine interpretiert, eingeordnet, mit weiteren Informationen angereichert oder für eine Root Cause Analyse herangezogen. Hierbei werden die notwendigen Aktionen automatisch eingeleitet und unnötige Benachrichtigungen werden unterdrückt.

Finales Fazit

Monitoringsysteme die andauernd Benachrichtigungen über jeden Statuswechsel per Mail verschicken sind sehr kontraproduktiv, da diese Mails oft im Spamordner der Admins landen und daher erfahrungsgemäß die relevanten Meldungen untergehen und somit die Ausfallsicherheit stark gefährdet wird. Ein Tool das eine automatische Event-Korrelation unterstützt kann somit die Benachrichtigungen auf relevante Incidents reduzieren und direkt an den Helpdesk zur weiteren Verarbeitung weiterleiten. Hier findet dann die tatsächliche Aufgabenverteilung anhand von Zuständigkeiten statt. Es werden Reaktionszeiten festgelegt, deren Einhaltung überprüft und gegebenenfalls eskaliert werden. Diese Reduktion der Benachrichtigungen auf tatsächliche Incidents erlaubt es den Fachabteilungen gezielte Maßnahmen einzuleiten und zu dokumentieren. Somit sind die Fachabteilungen nicht mehr damit beschäftigt unzählige Meldungen manuell zu prüfen und auszuwerten. 

Ein sehr gut konzipiertes Eventmanagement System nutzt weiterhin das Monitoring um Informationen von Statusänderungen zu sammeln und für weiterführende Analysen zu verwerten. Das Eventmanagement mit seiner automatischen Event-Korrelation erweitert auch das Monitoring um eine automatische Filterung und Bewertung der gesammelten Daten in Bezug auf gestörte Services. Erst wenn ein dringender Handlungsbedarf analysiert wird, wird ein Incident erstellt. Somit wird auch die Anzahl der „False Positives“ reduziert. Die Bewertung und Korrelation der Meldungen aus dem Monitoring über das Eventmanagement befreit alle Administratoren vor einer Datenflut und ermöglicht ihnen somit ihre Arbeitszeit viel effektiver einzusetzen und sich um die wichtigen Probleme zu kümmern.

Ihre Anforderungen, unser KnowHow

Die SYSM ist Ihr kompetenter Ansprechpartner wenn es um Monitoring und Event Management Lösungen geht. Wir bieten Ihnen umfassende Dienstleistungen und Produkte für die Planung, Umsetzung und Betreuung rund um die Themen einer kompletten Monitoring und Event Management Lösung an. Unser höchstes Ziel ist es den maximalen Mehrwert für Sie zu erzielen und somit gemeinsam Ihre Projekte zum Erfolg zu führen. Dafür stehen wir Ihnen mit unseren Monitoring und Event Management Experten zur Verfügung.

Testen Sie unser KnowHow im Bereich Monitoring und Event Management. Wir stellen Ihnen unsere Monitoring und Event Management Experten gerne zur Verfügung.

Michael Schwab Geschäftsführer