DevOps Středně pokročilý
On-call Engineering — Best Practices¶
On-callSREAlertingOperations 6 min čtení
Efektivní on-call rotace. Alert quality, eskalace, kompenzace a prevence burnoutu.
Alert Quality¶
Každý alert musí být actionable. Pokud on-call nemůže nic udělat → smazat alert.
- Alert = někdo musí něco udělat TEĎ
- Žádné informační alerty v on-call rotaci
- Max 2-3 alerty za on-call směnu (cíl)
- Každý alert má runbook link
Rotace Design¶
- Minimálně 2 lidi v rotaci (primary + secondary)
- Max 1 týden on-call za měsíc
- Follow-the-sun pro globální týmy
- Handoff meeting na začátku směny — co se děje?
- Shadow on-call pro nové členy týmu
Eskalace¶
# PagerDuty eskalační politika
Level 1: Primary on-call (0 min)
→ Auto-acknowledge: 5 min
→ Auto-escalate: 15 min
Level 2: Secondary on-call (15 min)
→ Auto-escalate: 30 min
Level 3: Engineering Manager (45 min)
# Pravidla
- P1: okamžitě eskalovat pokud nejste schopni řešit
- Nebuďte hrdina — eskalace není selhání
- Lepší probudit dva lidi než mít 2h outage
Prevence Burnoutu¶
- Kompenzace (příplatek nebo volno)
- Sledujte metriky: alerty per shift, MTTR, false positive rate
- Retrospektiva on-call týdne
- Investujte do automatizace (snižte počet alertů)
Shrnutí¶
Zdravý on-call = kvalitní alerty, jasná eskalace, kompenzace a neustálé zlepšování. On-call by neměl být trest.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.