Observability & SRE
Monitoring sagt Ihnen DASS. Observability sagt Ihnen WARUM.
Drei Saeulen der Observability + SRE-Prozesse. SLO/SLI, Error Budgets, Incident Management, blameless Post-Mortems.
Drei Saeulen der Observability¶
Metriken (Prometheus)¶
Numerische Daten ueber die Zeit. Latenz, Fehlerrate, Durchsatz, Auslastung. Effektiv fuer Alarmierung und Trending.
Logs (Loki / Elasticsearch)¶
Textuelle Event-Aufzeichnungen. Strukturiertes Logging (JSON) mit Kontext (Trace-ID, User-ID, Request-ID). Korrelation mit Traces fuer Ursachenanalyse.
Traces (Jaeger / Tempo)¶
Verteilter Trace ueber den gesamten Anfragepfad. Sie sehen, wie lange jeder Service-Aufruf dauert, wo der Engpass ist, wo es fehlschlaegt. OpenTelemetry fuer herstellerunabhaengige Instrumentierung.
SLO/SLI-Framework¶
SLI (Service Level Indicator): Metrik, die Qualitaet aus Nutzerperspektive misst.
SLO (Service Level Objective): Zielwert fuer SLI. z.B. „99,9 % der Anfragen sind erfolgreich ueber rollende 30 Tage”
Error Budget: SLO = 99,9 % → Error Budget = 0,1 % = ~43 Minuten/Monat. - Error Budget vorhanden → Features shippen, experimentieren, innovieren - Error Budget nahe null → Features stoppen, Zuverlaessigkeit verbessern - Error Budget erschoepft → Deploy-Freeze, Fokus auf Stabilitaet
SRE-Prozesse¶
Incident Management¶
Detection → Triage → Response → Mitigation → Resolution → Post-Mortem
Post-Mortem-Template¶
Timeline, Impact, Root Cause, Contributing Factors, Action Items, Lessons Learned.
Kein Blame. Ziel: Systemische Verbesserung, nicht Schuldige finden.
Häufig gestellte Fragen
Monitoring sagt Ihnen, dass die API langsam ist. Observability zeigt Ihnen den spezifischen Trace: Abfrage auf der Orders-Tabelle dauert 8s wegen eines fehlenden Index. Behebung in 5 Minuten statt 5 Stunden.
Open-Source-Stack (Grafana, Prometheus, Loki, Jaeger): 4-6 Wochen Implementierung. SaaS (Datadog, New Relic): Schnellere Einrichtung, hoehere laufende Kosten. Wir entscheiden basierend auf Budget und Teamfaehigkeit.
Nicht unbedingt ein dediziertes SRE-Team. SRE-Prinzipien (SLO/SLI, Error Budgets, Post-Mortems) koennen von jedem Engineering-Team uebernommen werden. Starten Sie mit Prinzipien, nicht mit organisatorischer Aenderung.