Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

On-call survival guide

20. 07. 2016 1 Min. Lesezeit intermediate

On-call nemusí být noční můra. Tady je jak přežít (a dokonce se zlepšit).

Příprava

  • Otestujte alerting systém — dostanete notifikace?
  • Mějte VPN/SSH přístup na telefonu
  • Přečtěte si runbooky pro kritické služby
  • Zjistěte kdo je backup a jak eskalovat

Když zazvoní pager

  1. Nepodléhejte panice
  2. Přečtěte si alert a runbook
  3. Assessujte impact — kolik uživatelů je zasaženo?
  4. Komunikujte — napište do #incidents kanálu
  5. Zmírněte dopad (rollback, traffic shift, restart)
  6. Analyzujte příčinu
  7. Opravte
  8. Napište postmortem

Eskalace

Neváhejte eskalovat. Lepší probudit kolegu zbytečně než 2 hodiny řešit něco, co on vyřeší za 5 minut.

Komunikace během incidentu

🔴 INCIDENT: [služba] [symptom]
Impact: [kolik uživatelů/% traffic]
Status: investigating / identified / mitigated / resolved
Next update: za 30 minut

Po incidentu

  • Napište postmortem do 48 hodin
  • Blameless kultura — hledejte systémové příčiny, ne viníky
  • Action items s vlastníky a deadliny

Self-care

  • Nastavte si klidné časy (po obědě dohnat spánek po nočním incidentu)
  • Kompenzace za on-call (peníze nebo volno)
  • Rotujte on-call spravedlivě

Tip

Nejlepší on-call je nudný on-call. Investujte do reliability, runbooků a automatizace.

on-callsredevops
Teilen:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.