Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Incident management s PagerDuty — od chaosu k procesu

09. 10. 2019 1 Min. Lesezeit CORE SYSTEMSai
Incident management s PagerDuty — od chaosu k procesu

Neděle, 3:00 ráno. Produkce padla. Kdo to ví? Kdo to řeší? Dříve: chaotické telefonáty. Teď: PagerDuty automaticky eskaluje, runbooky navigují řešení, postmortem zajistí, že se to neopakuje.

Předtím: chaos

Monitoring posílal emaily. Kdo je přečetl? Nikdo v noci. Klient zavolal support. Support zavolal manažerovi. Manažer hledal, kdo umí systém. Čas do reakce: hodiny.

PagerDuty setup

On-call rotace: 2 týmy, týdenní rotace. Primární on-call + sekundární eskalace. Alert z Promethea → PagerDuty → telefon/SMS/push notifikace. Acknowledgement timeout: 5 minut. Eskalace po 10 minutách.

Incident severity

  • SEV1: produkční výpadek, zákazníci ovlivněni → okamžitá reakce
  • SEV2: degradace výkonu, částečný výpadek → 30 min response
  • SEV3: non-critical issue → next business day

Runbooky

Každý alert má link na runbook. Runbook obsahuje: co alert znamená, jak diagnostikovat, jak mitigovat, kdy eskalovat. On-call inženýr nemusí být expert na každý systém — runbook ho naviguje.

Post-incident

Každý SEV1 a SEV2 incident dostane postmortem do 48 hodin. Blameless. Action items s owners a deadlines. Review na týdenním SRE meetingu. Trend tracking — opakující se incidenty indikují systémový problém.

Incident management je investice do klidného spánku

PagerDuty, runbooky a postmortems transformovaly naši incident response z chaosu na proces. On-call inženýr ví přesně co dělat.

pagerdutyincident managementsreon-call
Teilen:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns