Hacky & Tipy

On-call survival guide

9 min čtení

On-callSREDevOps

On-call nemusí být noční můra. Tady je jak přežít (a dokonce se zlepšit).

Příprava

Otestujte alerting systém — dostanete notifikace?
Mějte VPN/SSH přístup na telefonu
Přečtěte si runbooky pro kritické služby
Zjistěte kdo je backup a jak eskalovat

Když zazvoní pager

Nepodléhejte panice
Přečtěte si alert a runbook
Assessujte impact — kolik uživatelů je zasaženo?
Komunikujte — napište do #incidents kanálu
Zmírněte dopad (rollback, traffic shift, restart)
Analyzujte příčinu
Opravte
Napište postmortem

Eskalace

Neváhejte eskalovat. Lepší probudit kolegu zbytečně než 2 hodiny řešit něco, co on vyřeší za 5 minut.

Komunikace během incidentu

🔴 INCIDENT: [služba] [symptom]
Impact: [kolik uživatelů/% traffic]
Status: investigating / identified / mitigated / resolved
Next update: za 30 minut

Po incidentu

Napište postmortem do 48 hodin
Blameless kultura — hledejte systémové příčiny, ne viníky
Action items s vlastníky a deadliny

Self-care

Nastavte si klidné časy (po obědě dohnat spánek po nočním incidentu)
Kompenzace za on-call (peníze nebo volno)
Rotujte on-call spravedlivě

Tip

Nejlepší on-call je nudný on-call. Investujte do reliability, runbooků a automatizace.

CORE SYSTEMS tým

Enterprise architekti a DevOps inženýři. Stavíme systémy, které fungují.