Checklist

Incident response checklist

7 min čtení

IncidentSREDevOps

Když se stane incident, potřebujete postup, ne paniku.

Detekce

☐ Alert přijat a potvrzen
☐ Severity posouzena
☐ Incident commander určen
☐ Komunikační kanál otevřen (#incident-YYYYMMDD)

Assessment

☐ Rozsah dopadu (kolik uživatelů?)
☐ Jaké služby jsou zasaženy?
☐ Od kdy problém existuje?
☐ Existuje známý workaround?

Mitigace

☐ Rollback pokud nedávný deploy
☐ Traffic shift (failover region)
☐ Restart služby
☐ Scaling up
☐ Komunikace uživatelům (status page)

Komunikace

☐ Interní update každých 30 minut
☐ Status page aktualizována
☐ Management informován (P1/P2)
☐ Customer support briefován

Resolution

☐ Root cause identifikována
☐ Fix aplikován
☐ Monitoring potvrzuje stabilitu
☐ Status page: resolved

After action

☐ Postmortem do 48 hodin
☐ Action items s vlastníky
☐ Follow-up meeting naplánován
☐ Metriky: MTTD, MTTR

Klíč

Klid, komunikace, postup. Trénujte incident response pravidelně — game days.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.