DevOps Pokročilý
On-Call Best Practices¶
On-CallSREAlerting 3 min čtení
Efektivni on-call. Alerting, runbooks, udrzitelnost.
Principy¶
- Jasna rotace
- Dokumentovane runbooks
- Actionable alerts
- Kompenzace
Runbook¶
# Alert: HighErrorRate
## Kroky
1. kubectl get pods -n production
2. kubectl logs -l app=api --tail=100
3. Bad deploy? kubectl rollout undo deploy/api
Jak nastavit udržitelný on-call¶
Zdravý on-call vyžaduje maximálně 1 týden on-call ze 4 (25 %). Pokud tým je příliš malý, on-call se stává neúnosným a vede k burnoutu. Každý alert musí být actionable — pokud alert nevyžaduje okamžitou akci, snižte jeho severity nebo ho odstraňte. Cílem je maximálně 2 alerty za on-call směnu.
Runbooks jsou živé dokumenty, které popisují krok za krokem, jak diagnostikovat a vyřešit konkrétní alert. Měly by obsahovat: co alert znamená, jaké kroky podniknout, kdy eskalovat a kontakty na experty. Automatizujte co nejvíce — pokud runbook obsahuje opakující se kroky, vytvořte skript nebo auto-remediation. Kompenzace za on-call (příplatek nebo náhradní volno) je nezbytná pro férový systém. Po každém incidentu aktualizujte runbook o nové poznatky.
Shrnuti¶
Actionable alerts + runbooks + ferova rotace = udrzitelny on-call.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.