Každý alert by měl být actionable. Pokud ne, je to šum.
Pravidlo č.1: Alertujte na symptomy, ne příčiny¶
Alert na „CPU > 90%” je šum. Alert na „5xx error rate > 1%” je symptom, který zasahuje uživatele.
Severity levels¶
- Critical — uživatelé jsou zasaženi TEĎ → probuď on-call
- Warning — brzy to bude problém → opravit v pracovní době
- Info — FYI → jen log/dashboard
Co monitorovat¶
- Error rate (5xx)
- Latence (P95, P99)
- Saturation (CPU, memory, disk)
- Queue depth
- Certificate expiry
- Disk space
Anti-patterns¶
- Příliš citlivé prahy → alert fatigue
- Alerting na věci, co se samy vyřeší
- Žádný runbook → nikdo neví co dělat
- Duplikátní alerty
Runbook template¶
Alert: HighErrorRate¶
**Severity:** Critical
**Meaning:** 5xx error rate > 1% za 5 minut
**Impact:** Uživatelé vidí chyby
**Steps:**
1. Zkontrolujte deployment historii
2. Podívejte se do logů
3. Rollback pokud nedávný deploy
4. Eskalujte na #oncall
Shrnutí¶
Méně alertů = více pozornosti. Každý alert musí mít runbook a jasnou akci.