Incident Response

Když zavolá PagerDuty, máte runbook.

SIEM pro detekci, runbooky pro reakci, on-call procesy pro eskalaci, post-mortemy pro učení. Incidenty se stávají — důležité je, co děláte potom.

Chci IR assessment Zpět na Security

<1h

MTTD

<1h

MTTR

Top 20 incidentů

Runbook pokrytí

48h

Post-mortem SLA

Proč potřebujete Incident Response¶

Otázka není JESTLI se incident stane, ale KDY. Organizace bez IR procesu:

Detekují pozdě — průměrný dwell time (útočník v síti bez detekce) je 204 dní
Reagují chaoticky — kdo má co dělat? Kdo rozhoduje? Kdo komunikuje?
Opakují chyby — stejný incident za 3 měsíce, protože root cause nebyla opravena
Eskalují špatně — buď příliš pozdě, nebo na špatné lidi

SIEM & Detekce¶

Sběr dat¶

Centralizujeme security events z celé infrastruktury:

Infrastructure — Firewally, VPN, load balancery, DNS servery
Identity — Azure AD/Okta login events, MFA failures, privileged access
Application — WAF logy, API gateway, application security events
Endpoint — EDR (CrowdStrike, Defender), antivirus, device compliance
Cloud — Azure Activity Log, AWS CloudTrail, GCP Audit Log

Korelační pravidla¶

Surová data bez korelace jsou šum. Stavíme detection rules pro:

Brute force — N failed logins z jedné IP za M minut
Lateral movement — Unusual service-to-service komunikace
Privilege escalation — User gains admin role, unusual sudo usage
Data exfiltration — Large data transfer to unknown destination
Credential abuse — Login from impossible location (GeoIP), credential stuffing patterns

Anomaly Detection¶

ML modely pro detekci neznámých hrozeb:

Baseline normálního chování per uživatel, per služba
Odchylky v access patterns, data volumes, API usage
Alerting s kontextem — ne „anomálie detected”, ale „user X přistoupil k 500 záznamům v DB, průměr je 20”

Runbooky¶

Struktura runbooku¶

Každý runbook má jednotnou strukturu:

Detekce — Jak se incident projeví? Jaký alert ho triggerne?
Triage — Je to skutečný incident nebo false positive? Jaká je severity?
Containment — Zastavit šíření. Izolace postiženého systému.
Eradication — Odstranění příčiny. Patch, config change, revokace.
Recovery — Obnovení normálního provozu. Verifikace.
Post-incident — Timeline, lessons learned, action items.

Top 10 runbooků¶

Píšeme runbooky pro nejpravděpodobnější a nejimpaktovější scénáře:

Compromised credentials — Stolen password/token, unauthorized access
Ransomware — Encrypted files, ransom demand
DDoS — Service unavailable, traffic spike
Data breach — Unauthorized data access/exfiltration
Insider threat — Malicious or negligent employee action
Phishing — Successful phishing, compromised endpoint
Supply chain — Compromised dependency, malicious update
API abuse — Automated scraping, credential stuffing
Cloud misconfiguration — Exposed storage, public database
Certificate expiry — TLS certificate expired, service disruption

On-Call Procesy¶

Rotace a eskalace¶

Primary on-call — Reaguje na alerty. Týdenní rotace.
Secondary on-call — Backup, pokud primary nereaguje do 5 minut.
Incident Commander — Pro SEV1/SEV2. Koordinuje response, komunikuje se stakeholdery.
Eskalační matice — Jasně definované: kdo, kdy, jak. Žádné „zavolám, koho najdu”.

Severity Framework¶

Severity	Popis	Response Time	Komunikace
SEV1	Business down, zákazníci postiženi	15 min	War room, 15-min updates, exec notification
SEV2	Degradovaný výkon, partial outage	30 min	Slack channel, hourly updates
SEV3	Minor issue, workaround existuje	4h	Ticket, next business day
SEV4	Cosmetic, no impact	Backlog	Sprint planning

Kompenzace¶

On-call není zadarmo. Doporučujeme: - Příplatek za on-call dostupnost (i bez incidentu) - Extra kompenzace za noční/víkendové zásahy - „Day off” po noční eskalaci - Rotace, aby zátěž byla rovnoměrná

Post-Mortem¶

Blameless kultura¶

Post-mortem hledá systémové příčiny, ne viníky. „John udělal chybu” není root cause — „systém umožnil Johnovi udělat chybu bez safeguards” je.

Formát¶

Timeline — Co se stalo, chronologicky, s timestampy
Impact — Koho to postihlo, jak dlouho, finanční dopad
Root cause — Proč se to stalo (5 Whys)
Contributing factors — Co situaci zhoršilo
What went well — Co fungovalo (detekce, komunikace, recovery)
Action items — Konkrétní úkoly s vlastníky a deadliny
Lessons learned — Co se naučíme pro příště

Post-mortem databáze¶

Všechny post-mortemy v jednom místě (Confluence, Notion, Git). Vyhledávatelné, tagované. Nový člen týmu si přečte posledních 10 post-mortemů a ví víc o systému než z jakékoliv dokumentace.

Table-Top Exercises¶

Simulace incidentů bez reálného dopadu:

Kvartální exercises pro IR tým
Scénář: „Je pátek 17:00, zákazník nahlásil data breach. Co děláte?”
Procvičení komunikace, eskalace, rozhodování
Identifikace gaps v runboocích a procesech

Technologie¶

Elastic SIEM, Microsoft Sentinel, Splunk, Grafana Loki, PagerDuty, OpsGenie, Slack (incident channels), Jira (post-mortem tracking), Confluence (runbook repository), CrowdStrike, Microsoft Defender.

Časté otázky

Začněte třemi věcmi: (1) definujte severity levels, (2) napište runbook pro váš nejčastější incident, (3) nastavte on-call rotaci. Zbytek dostavíte iterativně.

Závisí na velikosti. Pro menší organizace stačí cloud-native logging (CloudWatch, Azure Monitor) s alertingem. Pro větší doporučujeme SIEM (Elastic SIEM, Sentinel, Splunk).

Máte projekt?

Pojďme si o něm promluvit.

Domluvit schůzku