Was man nicht misst, kann man nicht steuern. Hier ist der vollstaendige Leitfaden zum Monitoring.
Drei Saeulen der Observability¶
- Metriken – numerische Daten (CPU, Latenz, Fehlerrate)
- Logs – Textaufzeichnungen von Ereignissen
- Traces – der Weg einer Anfrage durch das System
Metriken – Prometheus¶
Der vollstaendige Leitfaden zum Monitoring¶
Counter – monoton steigend (requests_total) Gauge – aktueller Wert (temperature) Histogram – Verteilung (request_duration_seconds) Summary – Perzentile
Logs – Loki¶
Strukturierte JSON-Logs -> zentraler Speicher -> Abfrage und Alerting.
Traces – Jaeger/Tempo¶
Distributed Tracing verfolgt eine Anfrage ueber alle Microservices hinweg. Unverzichtbar fuer das Debugging verteilter Systeme.
SLI/SLO/SLA¶
- SLI (Indicator) – was Sie messen (P99-Latenz, Verfuegbarkeit)
- SLO (Objective) – Ziel (99,9% Verfuegbarkeit)
- SLA (Agreement) – Vertrag mit dem Kunden (99,9% + Strafen)
Error Budgets¶
SLO 99,9% = 43 Minuten Ausfallzeit/Monat = Error Budget. Wenn es aufgebraucht ist, stoppen Sie neue Features und beheben Sie die Zuverlaessigkeit.
Empfohlener Stack¶
- Metriken: Prometheus + Grafana
- Logs: Loki + Promtail + Grafana
- Traces: Tempo oder Jaeger
- Alerting: Alertmanager + PagerDuty/OpsGenie
- All-in-one: Grafana Cloud (Free Tier)
Prinzip¶
Ueberwachen Sie Symptome (Fehlerrate, Latenz), nicht Ursachen (CPU). Alarmieren Sie bei dem, was die Benutzer betrifft.