Ein paar irrelevante Tutorials

Überwachung

Überwachung im Zusammenhang mit Servern und Storage-Komponenten ist das regelmäßige Messen betriebsrelevanter Parameter und die Überprüfung von Schwellenwerten. Der englische Begriff Monitoring trifft es besser als der im deutschen Sprachgebrauch übliche Begriff Überwachung. Man kann natürlich immer mal wieder über die Konsole eines Servers einzelne Parameter abrufen und zum Beispiel prüfen, wie es um den freien Plattenplatz bestellt ist. Auf der Linux-Konsole geht das mit dem Befehl "df -h". Auch kann man sich Zustände laufend auf dem Bildschirm ausgeben lassen. Dazu könnte man das Linux-Tool top oder besser htop oder noch besser btop nutzen. Netzwerkdurchsätze kann man mit Tools wie iperf3 prüfen.

Sinnvoller und darum auch üblich ist der Einsatz von Überwachungstools. Für die Überwachung von Servern oder auch anderer IT-Infrastruktur gibt es hervorragende Werkzeuge und viele sind Open Source. Zu nennen sind hier vor allem Nagios bzw. der Fork Icinga, der TIG-Stack (Telegraf, Influx-DB, Grafana) oder CheckMK. Die Systemüberwachung besteht aus den Funktionen Messen, Datensammeln, Visualisieren und Alarmieren. Für das Sammeln von Daten werden dabei oft Agenten auf den Systemen installiert. So ist das z.B. bei Telegraf oder CheckMK. Die gesammelten Daten werden eine Weile vorgehalten, um Verläufe nachvollziehen zu können. Dafür dient z.B. die InfluxDB. Die aktuellen Daten bzw. Verläufe werden mehr oder weniger ansprechend visualisiert. Grafana und CheckMK aber auch Nagios/Icinga bieten hier viele Möglichkeiten. Wenn ungesunde Zustände festgestellt werden, etwa die Überschreitung von Schwellenwerten oder das Fehlen bestimmter Daten, dann muss das irgendwie auffallen, damit man reagieren kann. Ansonsten macht ja die ganze Überwachung keinen Sinn. Die Visualisierung der Monitoring-Tools stellt Systemzustände in irgend einer Form dar und zeigt z.B. rote oder gelbe Status an. Besser als das bloße Anzeigen auf einer grafischen Übersicht, die man sich ggf. ansieht oder auch nicht, ist die aktive Alarmierung bei als kritisch definierten Zuständen. Sonst verhält es sich mit den IT-Systemen wie mit Schrödingers Katze. Solange ich nicht nachsehe, können sie entweder gesund sein oder tot.