_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
References Technologies Blog Know-how Tools
About Collaboration Careers
CS EN
Let's talk

SRE — Postmortems Best Practices

26. 04. 2024 1 min read intermediate

DevOps Středně pokročilý

SRE — Postmortems Best Practices

SREPostmortemIncident ManagementKultura 5 min read

Blameless postmortems v praxi. Struktura, facilitace, akční plány a budování kultury učení.

Blameless Kultura

Postmortem nikdy nehledá viníka. Hledá systémové příčiny.

  • Lidi dělají chyby — to je normální
  • Pokud člověk může udělat chybu, systém selhal v prevenci
  • Blame → lidé skrývají chyby → horší systémy

Structure Postmortem

# Postmortem: API Outage 2026-02-10

## Summary
90min výpadek API Gateway způsobený OOM v Envoy proxy.

## Impact
- Délka: 90 min
- Zasažení uživatelé: ~12,000
- Error rate: 78%

## Timeline (CET)
- 14:25 — Deploy api-gateway v2.3.1
- 14:30 — Alert: ErrorRateHigh
- 14:40 — Diagnostika: Envoy OOMKilled
- 14:55 — Rollback initiated
- 16:00 — Full recovery

## Root Cause
Regex filter s exponenciální backtracking (ReDoS).

## Action Items
| # | Akce | Owner | Deadline | Priority |
|---|------|-------|----------|----------|
| 1 | Regex complexity check v CI | @platform | 2026-02-17 | P1 |
| 2 | Prodloužit canary na 30 min | @sre | 2026-02-14 | P1 |
| 3 | Snížit Envoy memory limit | @sre | 2026-02-12 | P2 |

Facilitace

  1. Meeting do 48h po incidentu
  2. Facilitátor ≠ účastník incidentu
  3. Projděte timeline — co se stalo, ne kdo
  4. 5× Proč (5 Whys) pro root cause
  5. Definujte konkrétní akce s ownerem a deadline
  6. Publikujte interně — transparentnost

Summary

Postmortems jsou investice do budoucí spolehlivosti. Blameless kultura a konkrétní akce učí celou organizaci.

Need Help with Implementation?

Our team has experience designing and implementing modern architectures. We’re happy to help.

Free Consultation

Share:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.