Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Observability & SRE

Monitoring sagt Ihnen DASS. Observability sagt Ihnen WARUM.

Drei Saeulen der Observability + SRE-Prozesse. SLO/SLI, Error Budgets, Incident Management, blameless Post-Mortems.

<5 Min.
MTTD
<30 Min.
MTTR
>99,9%
SLO-Einhaltung
<5%
Falsch-Positiv-Rate

Drei Saeulen der Observability

Metriken (Prometheus)

Numerische Daten ueber die Zeit. Latenz, Fehlerrate, Durchsatz, Auslastung. Effektiv fuer Alarmierung und Trending.

Logs (Loki / Elasticsearch)

Textuelle Event-Aufzeichnungen. Strukturiertes Logging (JSON) mit Kontext (Trace-ID, User-ID, Request-ID). Korrelation mit Traces fuer Ursachenanalyse.

Traces (Jaeger / Tempo)

Verteilter Trace ueber den gesamten Anfragepfad. Sie sehen, wie lange jeder Service-Aufruf dauert, wo der Engpass ist, wo es fehlschlaegt. OpenTelemetry fuer herstellerunabhaengige Instrumentierung.

SLO/SLI-Framework

SLI (Service Level Indicator): Metrik, die Qualitaet aus Nutzerperspektive misst.

SLO (Service Level Objective): Zielwert fuer SLI. z.B. „99,9 % der Anfragen sind erfolgreich ueber rollende 30 Tage”

Error Budget: SLO = 99,9 % → Error Budget = 0,1 % = ~43 Minuten/Monat. - Error Budget vorhanden → Features shippen, experimentieren, innovieren - Error Budget nahe null → Features stoppen, Zuverlaessigkeit verbessern - Error Budget erschoepft → Deploy-Freeze, Fokus auf Stabilitaet

SRE-Prozesse

Incident Management

Detection → Triage → Response → Mitigation → Resolution → Post-Mortem

Post-Mortem-Template

Timeline, Impact, Root Cause, Contributing Factors, Action Items, Lessons Learned.

Kein Blame. Ziel: Systemische Verbesserung, nicht Schuldige finden.

Häufig gestellte Fragen

Monitoring sagt Ihnen, dass die API langsam ist. Observability zeigt Ihnen den spezifischen Trace: Abfrage auf der Orders-Tabelle dauert 8s wegen eines fehlenden Index. Behebung in 5 Minuten statt 5 Stunden.

Open-Source-Stack (Grafana, Prometheus, Loki, Jaeger): 4-6 Wochen Implementierung. SaaS (Datadog, New Relic): Schnellere Einrichtung, hoehere laufende Kosten. Wir entscheiden basierend auf Budget und Teamfaehigkeit.

Nicht unbedingt ein dediziertes SRE-Team. SRE-Prinzipien (SLO/SLI, Error Budgets, Post-Mortems) koennen von jedem Engineering-Team uebernommen werden. Starten Sie mit Prinzipien, nicht mit organisatorischer Aenderung.

Haben Sie ein Projekt?

Lassen Sie uns darüber sprechen.

Termin vereinbaren