Služby

AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty

Odvětví

Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy

Reference Technologie

Lab

Blog Know-how Nástroje

O nás Spolupráce Kariéra

CS EN DE

Pojďme to probrat

On-call survival guide

20. 07. 2016 Aktualizováno: 24. 03. 2026 1 min čtení intermediate

Tento článek byl publikován v roce 2016. Některé informace mohou být zastaralé.

On-call nemusí být noční můra. Tady je jak přežít (a dokonce se zlepšit).

Příprava¶

Otestujte alerting systém — dostanete notifikace?
Mějte VPN/SSH přístup na telefonu
Přečtěte si runbooky pro kritické služby
Zjistěte kdo je backup a jak eskalovat

Nepodléhejte panice
Přečtěte si alert a runbook
Assessujte impact — kolik uživatelů je zasaženo?
Komunikujte — napište do #incidents kanálu
Zmírněte dopad (rollback, traffic shift, restart)
Analyzujte příčinu
Opravte
Napište postmortem

Eskalace¶

Neváhejte eskalovat. Lepší probudit kolegu zbytečně než 2 hodiny řešit něco, co on vyřeší za 5 minut.

Komunikace během incidentu¶

🔴 INCIDENT: [služba] [symptom]
Impact: [kolik uživatelů/% traffic]
Status: investigating / identified / mitigated / resolved
Next update: za 30 minut

Po incidentu¶

Napište postmortem do 48 hodin
Blameless kultura — hledejte systémové příčiny, ne viníky
Action items s vlastníky a deadliny

Self-care¶

Nastavte si klidné časy (po obědě dohnat spánek po nočním incidentu)
Kompenzace za on-call (peníze nebo volno)
Rotujte on-call spravedlivě

Tip¶

Nejlepší on-call je nudný on-call. Investujte do reliability, runbooků a automatizace.

on-callsredevops

Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Všechny články

Další know-how

SRE maturity — od firefighting k proaktivnímu inženýrství

Site Reliability Engineering praktiky. SLO/SLI/Error budget, blameless postmortemy a toil reduction.

Terraform — infrastruktura jako kód v praxi

Jak Terraform změnil náš přístup k provisioningu infrastruktury. Od ručního klikání v AWS konzoli k verzovaným prostředím.

MLOps s MLflow — od experimentu k produkčnímu modelu

MLflow pro experiment tracking, model registry a reprodukovatelnost. Automatizovaný ML pipeline s Airflow.

Kompletní průvodce CI/CD

CI/CD od teorie po praxi — continuous integration, delivery, deployment.