Hacky & Tipy
On-call survival guide
On-call nemusí být noční můra. Tady je jak přežít (a dokonce se zlepšit).
Příprava
- Otestujte alerting systém — dostanete notifikace?
- Mějte VPN/SSH přístup na telefonu
- Přečtěte si runbooky pro kritické služby
- Zjistěte kdo je backup a jak eskalovat
Když zazvoní pager
- Nepodléhejte panice
- Přečtěte si alert a runbook
- Assessujte impact — kolik uživatelů je zasaženo?
- Komunikujte — napište do #incidents kanálu
- Zmírněte dopad (rollback, traffic shift, restart)
- Analyzujte příčinu
- Opravte
- Napište postmortem
Eskalace
Neváhejte eskalovat. Lepší probudit kolegu zbytečně než 2 hodiny řešit něco, co on vyřeší za 5 minut.
Komunikace během incidentu
🔴 INCIDENT: [služba] [symptom]
Impact: [kolik uživatelů/% traffic]
Status: investigating / identified / mitigated / resolved
Next update: za 30 minut
Impact: [kolik uživatelů/% traffic]
Status: investigating / identified / mitigated / resolved
Next update: za 30 minut
Po incidentu
- Napište postmortem do 48 hodin
- Blameless kultura — hledejte systémové příčiny, ne viníky
- Action items s vlastníky a deadliny
Self-care
- Nastavte si klidné časy (po obědě dohnat spánek po nočním incidentu)
- Kompenzace za on-call (peníze nebo volno)
- Rotujte on-call spravedlivě
Tip
Nejlepší on-call je nudný on-call. Investujte do reliability, runbooků a automatizace.