Přeskočit na obsah
Checklist

Incident response checklist

7 min čtení
IncidentSREDevOps

Když se stane incident, potřebujete postup, ne paniku.

Detekce

  • ☐ Alert přijat a potvrzen
  • ☐ Severity posouzena
  • ☐ Incident commander určen
  • ☐ Komunikační kanál otevřen (#incident-YYYYMMDD)

Assessment

  • ☐ Rozsah dopadu (kolik uživatelů?)
  • ☐ Jaké služby jsou zasaženy?
  • ☐ Od kdy problém existuje?
  • ☐ Existuje známý workaround?

Mitigace

  • ☐ Rollback pokud nedávný deploy
  • ☐ Traffic shift (failover region)
  • ☐ Restart služby
  • ☐ Scaling up
  • ☐ Komunikace uživatelům (status page)

Komunikace

  • ☐ Interní update každých 30 minut
  • ☐ Status page aktualizována
  • ☐ Management informován (P1/P2)
  • ☐ Customer support briefován

Resolution

  • ☐ Root cause identifikována
  • ☐ Fix aplikován
  • ☐ Monitoring potvrzuje stabilitu
  • ☐ Status page: resolved

After action

  • ☐ Postmortem do 48 hodin
  • ☐ Action items s vlastníky
  • ☐ Follow-up meeting naplánován
  • ☐ Metriky: MTTD, MTTR

Klíč

Klid, komunikace, postup. Trénujte incident response pravidelně — game days.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.