Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
Pojďme to probrat

Alerting, co dává smysl

11. 09. 2023 1 min čtení intermediate

Každý alert by měl být actionable. Pokud ne, je to šum.

Pravidlo č.1: Alertujte na symptomy, ne příčiny

Alert na „CPU > 90%” je šum. Alert na „5xx error rate > 1%” je symptom, který zasahuje uživatele.

Severity levels

  • Critical — uživatelé jsou zasaženi TEĎ → probuď on-call
  • Warning — brzy to bude problém → opravit v pracovní době
  • Info — FYI → jen log/dashboard

Co monitorovat

  • Error rate (5xx)
  • Latence (P95, P99)
  • Saturation (CPU, memory, disk)
  • Queue depth
  • Certificate expiry
  • Disk space

Anti-patterns

  • Příliš citlivé prahy → alert fatigue
  • Alerting na věci, co se samy vyřeší
  • Žádný runbook → nikdo neví co dělat
  • Duplikátní alerty

Runbook template

Alert: HighErrorRate

**Severity:** Critical
**Meaning:** 5xx error rate > 1% za 5 minut
**Impact:** Uživatelé vidí chyby
**Steps:**
1. Zkontrolujte deployment historii
2. Podívejte se do logů
3. Rollback pokud nedávný deploy
4. Eskalujte na #oncall

Shrnutí

Méně alertů = více pozornosti. Každý alert musí mít runbook a jasnou akci.

alertingmonitoringsre
Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.