Alerting, co dává smysl

Každý alert by měl být actionable. Pokud ne, je to šum.

Pravidlo č.1: Alertujte na symptomy, ne příčiny¶

Alert na „CPU > 90%” je šum. Alert na „5xx error rate > 1%” je symptom, který zasahuje uživatele.

Severity levels¶

Critical — uživatelé jsou zasaženi TEĎ → probuď on-call
Warning — brzy to bude problém → opravit v pracovní době
Info — FYI → jen log/dashboard

Co monitorovat¶

Error rate (5xx)
Latence (P95, P99)
Saturation (CPU, memory, disk)
Queue depth
Certificate expiry
Disk space

Anti-patterns¶

Příliš citlivé prahy → alert fatigue
Alerting na věci, co se samy vyřeší
Žádný runbook → nikdo neví co dělat
Duplikátní alerty

Runbook template¶

Alert: HighErrorRate¶

**Severity:** Critical **Meaning:** 5xx error rate > 1% za 5 minut **Impact:** Uživatelé vidí chyby **Steps:** 1. Zkontrolujte deployment historii 2. Podívejte se do logů 3. Rollback pokud nedávný deploy 4. Eskalujte na #oncall

Shrnutí¶

Méně alertů = více pozornosti. Každý alert musí mít runbook a jasnou akci.

alertingmonitoringsre

Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Všechny články

Alerting, co dává smysl

Pravidlo č.1: Alertujte na symptomy, ne příčiny¶

Severity levels¶

Co monitorovat¶

Anti-patterns¶

Runbook template¶

Alert: HighErrorRate¶

Shrnutí¶

CORE SYSTEMS tým

Další know-how

Z Nagiosu na Zabbix — proc jsme presli

SRE v praxi — jak jsme začali měřit spolehlivost

Incident management s PagerDuty — od chaosu k procesu

Thanos — long-term storage a HA pro Prometheus

Odcházíte?