Incident Response
Když zavolá PagerDuty, máte runbook.
SIEM pro detekci, runbooky pro reakci, on-call procesy pro eskalaci, post-mortemy pro učení. Incidenty se stávají — důležité je, co děláte potom.
Proč potřebujete Incident Response¶
Otázka není JESTLI se incident stane, ale KDY. Organizace bez IR procesu:
- Detekují pozdě — průměrný dwell time (útočník v síti bez detekce) je 204 dní
- Reagují chaoticky — kdo má co dělat? Kdo rozhoduje? Kdo komunikuje?
- Opakují chyby — stejný incident za 3 měsíce, protože root cause nebyla opravena
- Eskalují špatně — buď příliš pozdě, nebo na špatné lidi
SIEM & Detekce¶
Sběr dat¶
Centralizujeme security events z celé infrastruktury:
- Infrastructure — Firewally, VPN, load balancery, DNS servery
- Identity — Azure AD/Okta login events, MFA failures, privileged access
- Application — WAF logy, API gateway, application security events
- Endpoint — EDR (CrowdStrike, Defender), antivirus, device compliance
- Cloud — Azure Activity Log, AWS CloudTrail, GCP Audit Log
Korelační pravidla¶
Surová data bez korelace jsou šum. Stavíme detection rules pro:
- Brute force — N failed logins z jedné IP za M minut
- Lateral movement — Unusual service-to-service komunikace
- Privilege escalation — User gains admin role, unusual sudo usage
- Data exfiltration — Large data transfer to unknown destination
- Credential abuse — Login from impossible location (GeoIP), credential stuffing patterns
Anomaly Detection¶
ML modely pro detekci neznámých hrozeb:
- Baseline normálního chování per uživatel, per služba
- Odchylky v access patterns, data volumes, API usage
- Alerting s kontextem — ne „anomálie detected”, ale „user X přistoupil k 500 záznamům v DB, průměr je 20”
Runbooky¶
Struktura runbooku¶
Každý runbook má jednotnou strukturu:
- Detekce — Jak se incident projeví? Jaký alert ho triggerne?
- Triage — Je to skutečný incident nebo false positive? Jaká je severity?
- Containment — Zastavit šíření. Izolace postiženého systému.
- Eradication — Odstranění příčiny. Patch, config change, revokace.
- Recovery — Obnovení normálního provozu. Verifikace.
- Post-incident — Timeline, lessons learned, action items.
Top 10 runbooků¶
Píšeme runbooky pro nejpravděpodobnější a nejimpaktovější scénáře:
- Compromised credentials — Stolen password/token, unauthorized access
- Ransomware — Encrypted files, ransom demand
- DDoS — Service unavailable, traffic spike
- Data breach — Unauthorized data access/exfiltration
- Insider threat — Malicious or negligent employee action
- Phishing — Successful phishing, compromised endpoint
- Supply chain — Compromised dependency, malicious update
- API abuse — Automated scraping, credential stuffing
- Cloud misconfiguration — Exposed storage, public database
- Certificate expiry — TLS certificate expired, service disruption
On-Call Procesy¶
Rotace a eskalace¶
- Primary on-call — Reaguje na alerty. Týdenní rotace.
- Secondary on-call — Backup, pokud primary nereaguje do 5 minut.
- Incident Commander — Pro SEV1/SEV2. Koordinuje response, komunikuje se stakeholdery.
- Eskalační matice — Jasně definované: kdo, kdy, jak. Žádné „zavolám, koho najdu”.
Severity Framework¶
| Severity | Popis | Response Time | Komunikace |
|---|---|---|---|
| SEV1 | Business down, zákazníci postiženi | 15 min | War room, 15-min updates, exec notification |
| SEV2 | Degradovaný výkon, partial outage | 30 min | Slack channel, hourly updates |
| SEV3 | Minor issue, workaround existuje | 4h | Ticket, next business day |
| SEV4 | Cosmetic, no impact | Backlog | Sprint planning |
Kompenzace¶
On-call není zadarmo. Doporučujeme: - Příplatek za on-call dostupnost (i bez incidentu) - Extra kompenzace za noční/víkendové zásahy - „Day off” po noční eskalaci - Rotace, aby zátěž byla rovnoměrná
Post-Mortem¶
Blameless kultura¶
Post-mortem hledá systémové příčiny, ne viníky. „John udělal chybu” není root cause — „systém umožnil Johnovi udělat chybu bez safeguards” je.
Formát¶
- Timeline — Co se stalo, chronologicky, s timestampy
- Impact — Koho to postihlo, jak dlouho, finanční dopad
- Root cause — Proč se to stalo (5 Whys)
- Contributing factors — Co situaci zhoršilo
- What went well — Co fungovalo (detekce, komunikace, recovery)
- Action items — Konkrétní úkoly s vlastníky a deadliny
- Lessons learned — Co se naučíme pro příště
Post-mortem databáze¶
Všechny post-mortemy v jednom místě (Confluence, Notion, Git). Vyhledávatelné, tagované. Nový člen týmu si přečte posledních 10 post-mortemů a ví víc o systému než z jakékoliv dokumentace.
Table-Top Exercises¶
Simulace incidentů bez reálného dopadu:
- Kvartální exercises pro IR tým
- Scénář: „Je pátek 17:00, zákazník nahlásil data breach. Co děláte?”
- Procvičení komunikace, eskalace, rozhodování
- Identifikace gaps v runboocích a procesech
Technologie¶
Elastic SIEM, Microsoft Sentinel, Splunk, Grafana Loki, PagerDuty, OpsGenie, Slack (incident channels), Jira (post-mortem tracking), Confluence (runbook repository), CrowdStrike, Microsoft Defender.
Časté otázky
Začněte třemi věcmi: (1) definujte severity levels, (2) napište runbook pro váš nejčastější incident, (3) nastavte on-call rotaci. Zbytek dostavíte iterativně.
Závisí na velikosti. Pro menší organizace stačí cloud-native logging (CloudWatch, Azure Monitor) s alertingem. Pro větší doporučujeme SIEM (Elastic SIEM, Sentinel, Splunk).