Checklist
Incident response checklist
Když se stane incident, potřebujete postup, ne paniku.
Detekce
- ☐ Alert přijat a potvrzen
- ☐ Severity posouzena
- ☐ Incident commander určen
- ☐ Komunikační kanál otevřen (#incident-YYYYMMDD)
Assessment
- ☐ Rozsah dopadu (kolik uživatelů?)
- ☐ Jaké služby jsou zasaženy?
- ☐ Od kdy problém existuje?
- ☐ Existuje známý workaround?
Mitigace
- ☐ Rollback pokud nedávný deploy
- ☐ Traffic shift (failover region)
- ☐ Restart služby
- ☐ Scaling up
- ☐ Komunikace uživatelům (status page)
Komunikace
- ☐ Interní update každých 30 minut
- ☐ Status page aktualizována
- ☐ Management informován (P1/P2)
- ☐ Customer support briefován
Resolution
- ☐ Root cause identifikována
- ☐ Fix aplikován
- ☐ Monitoring potvrzuje stabilitu
- ☐ Status page: resolved
After action
- ☐ Postmortem do 48 hodin
- ☐ Action items s vlastníky
- ☐ Follow-up meeting naplánován
- ☐ Metriky: MTTD, MTTR
Klíč
Klid, komunikace, postup. Trénujte incident response pravidelně — game days.