DevOps Pokročilý
Incident Response¶
Incident ResponseSREOn-Call 3 min čtení
Postup pri produkcnim incidentu. Severity, role, komunikace.
Severity¶
- SEV1 - kriticky vypadek, vse
- SEV2 - vyznamny dopad
- SEV3 - mensi, workaround
- SEV4 - minimalni
Workflow¶
- Detect - alert
- Triage - severity, commander
- Mitigate - rollback
- Resolve - root cause
- Postmortem - review
Klíčové role a komunikace¶
Při incidentu definujte jasné role: Incident Commander řídí celý proces a rozhoduje o eskalaci. Tech Lead diagnostikuje problém a implementuje opravu. Communicator informuje stakeholdery a aktualizuje status page. Oddělení rolí je klíčové — osoba řešící technický problém by neměla současně komunikovat s managementem.
Komunikace během incidentu probíhá na dedikovaném Slack kanálu s pravidelným updates (každých 15-30 minut). Po vyřešení následuje blameless postmortem — dokument popisující timeline, root cause, impact a action items pro prevenci opakování. Postmortem není o hledání viníka, ale o systémovém zlepšení. Gameday cvičení (simulované incidenty) pravidelně testují připravenost týmu a odhalují slabiny v procesech.
Shrnuti¶
Pripraveny plan = rychlejsi MTTR. Trenujte gamedays.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.