Observability & SRE

Q: Was ist der Unterschied zwischen Monitoring und Observability?

Monitoring sagt Ihnen, dass die API langsam ist. Observability zeigt Ihnen den spezifischen Trace: Abfrage auf der Orders-Tabelle dauert 8s wegen eines fehlenden Index. Behebung in 5 Minuten statt 5 Stunden.

Q: Was kostet ein Observability-Stack?

Open-Source-Stack (Grafana, Prometheus, Loki, Jaeger): 4-6 Wochen Implementierung. SaaS (Datadog, New Relic): Schnellere Einrichtung, hoehere laufende Kosten. Wir entscheiden basierend auf Budget und Teamfaehigkeit.

Q: Brauchen wir ein SRE-Team?

Nicht unbedingt ein dediziertes SRE-Team. SRE-Prinzipien (SLO/SLI, Error Budgets, Post-Mortems) koennen von jedem Engineering-Team uebernommen werden. Starten Sie mit Prinzipien, nicht mit organisatorischer Aenderung.

Monitoring sagt Ihnen DASS. Observability sagt Ihnen WARUM.

Drei Saeulen der Observability + SRE-Prozesse. SLO/SLI, Error Budgets, Incident Management, blameless Post-Mortems.

Observability-Bewertung anfragen Zurueck zu Cloud & Plattform

<5 Min.

MTTD

<30 Min.

MTTR

>99,9%

SLO-Einhaltung

<5%

Falsch-Positiv-Rate

Drei Saeulen der Observability¶

Metriken (Prometheus)¶

Numerische Daten ueber die Zeit. Latenz, Fehlerrate, Durchsatz, Auslastung. Effektiv fuer Alarmierung und Trending.

Logs (Loki / Elasticsearch)¶

Textuelle Event-Aufzeichnungen. Strukturiertes Logging (JSON) mit Kontext (Trace-ID, User-ID, Request-ID). Korrelation mit Traces fuer Ursachenanalyse.

Traces (Jaeger / Tempo)¶

Verteilter Trace ueber den gesamten Anfragepfad. Sie sehen, wie lange jeder Service-Aufruf dauert, wo der Engpass ist, wo es fehlschlaegt. OpenTelemetry fuer herstellerunabhaengige Instrumentierung.

SLO/SLI-Framework¶

SLI (Service Level Indicator): Metrik, die Qualitaet aus Nutzerperspektive misst.

SLO (Service Level Objective): Zielwert fuer SLI. z.B. „99,9 % der Anfragen sind erfolgreich ueber rollende 30 Tage”

Error Budget: SLO = 99,9 % → Error Budget = 0,1 % = ~43 Minuten/Monat. - Error Budget vorhanden → Features shippen, experimentieren, innovieren - Error Budget nahe null → Features stoppen, Zuverlaessigkeit verbessern - Error Budget erschoepft → Deploy-Freeze, Fokus auf Stabilitaet

SRE-Prozesse¶

Incident Management¶

Detection → Triage → Response → Mitigation → Resolution → Post-Mortem

Post-Mortem-Template¶

Timeline, Impact, Root Cause, Contributing Factors, Action Items, Lessons Learned.

Kein Blame. Ziel: Systemische Verbesserung, nicht Schuldige finden.

Häufig gestellte Fragen

Monitoring sagt Ihnen, dass die API langsam ist. Observability zeigt Ihnen den spezifischen Trace: Abfrage auf der Orders-Tabelle dauert 8s wegen eines fehlenden Index. Behebung in 5 Minuten statt 5 Stunden.

Open-Source-Stack (Grafana, Prometheus, Loki, Jaeger): 4-6 Wochen Implementierung. SaaS (Datadog, New Relic): Schnellere Einrichtung, hoehere laufende Kosten. Wir entscheiden basierend auf Budget und Teamfaehigkeit.

Nicht unbedingt ein dediziertes SRE-Team. SRE-Prinzipien (SLO/SLI, Error Budgets, Post-Mortems) koennen von jedem Engineering-Team uebernommen werden. Starten Sie mit Prinzipien, nicht mit organisatorischer Aenderung.

Verwandt mit

Cloud & Platform Engineering {'cs': 'Kubernetes, IaC, CI/CD a provoz v cloudu.', 'en': 'Kubernetes, IaC, CI/CD and cloud operations.', 'de': 'Kubernetes, IaC, CI/CD und Cloud-Betrieb.'}

QA, Testing & Observability {'cs': 'Automatizované testování, monitoring a observability stack.', 'en': 'Automated testing, monitoring and observability stack.', 'de': 'Automatisiertes Testing, Monitoring und Observability-Stack.'}

Haben Sie ein Projekt?

Lassen Sie uns darüber sprechen.

Termin vereinbaren