Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

On-Call Best Practices

15. 07. 2025 Aktualizováno: 27. 03. 2026 1 min čtení intermediate

DevOps Pokročilý

On-Call Best Practices

On-CallSREAlerting 3 min čtení

Efektivni on-call. Alerting, runbooks, udrzitelnost.

Principy

  • Jasna rotace
  • Dokumentovane runbooks
  • Actionable alerts
  • Kompenzace

Runbook

# Alert: HighErrorRate
## Kroky
1. kubectl get pods -n production
2. kubectl logs -l app=api --tail=100
3. Bad deploy? kubectl rollout undo deploy/api

Jak nastavit udržitelný on-call

Zdravý on-call vyžaduje maximálně 1 týden on-call ze 4 (25 %). Pokud tým je příliš malý, on-call se stává neúnosným a vede k burnoutu. Každý alert musí být actionable — pokud alert nevyžaduje okamžitou akci, snižte jeho severity nebo ho odstraňte. Cílem je maximálně 2 alerty za on-call směnu.

Runbooks jsou živé dokumenty, které popisují krok za krokem, jak diagnostikovat a vyřešit konkrétní alert. Měly by obsahovat: co alert znamená, jaké kroky podniknout, kdy eskalovat a kontakty na experty. Automatizujte co nejvíce — pokud runbook obsahuje opakující se kroky, vytvořte skript nebo auto-remediation. Kompenzace za on-call (příplatek nebo náhradní volno) je nezbytná pro férový systém. Po každém incidentu aktualizujte runbook o nové poznatky.

Shrnuti

Actionable alerts + runbooks + ferova rotace = udrzitelny on-call.

Potřebujete pomoct s implementací?

Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.

Nezávazná konzultace

Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.