Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

Alerting, co dává smysl

11. 09. 2023 Aktualizováno: 27. 03. 2026 1 min čtení intermediate
Tento článek byl publikován v roce 2023. Některé informace mohou být zastaralé.

Každý alert by měl být actionable. Pokud ne, je to šum.

Pravidlo č.1: Alertujte na symptomy, ne příčiny

Alert na „CPU > 90%” je šum. Alert na „5xx error rate > 1%” je symptom, který zasahuje uživatele.

Severity levels

  • Critical — uživatelé jsou zasaženi TEĎ → probuď on-call
  • Warning — brzy to bude problém → opravit v pracovní době
  • Info — FYI → jen log/dashboard

Co monitorovat

  • Error rate (5xx)
  • Latence (P95, P99)
  • Saturation (CPU, memory, disk)
  • Queue depth
  • Certificate expiry
  • Disk space

Anti-patterns

  • Příliš citlivé prahy → alert fatigue
  • Alerting na věci, co se samy vyřeší
  • Žádný runbook → nikdo neví co dělat
  • Duplikátní alerty

Runbook template

Alert: HighErrorRate

**Severity:** Critical **Meaning:** 5xx error rate > 1% za 5 minut **Impact:** Uživatelé vidí chyby **Steps:** 1. Zkontrolujte deployment historii 2. Podívejte se do logů 3. Rollback pokud nedávný deploy 4. Eskalujte na #oncall

Shrnutí

Méně alertů = více pozornosti. Každý alert musí mít runbook a jasnou akci.

alertingmonitoringsre
Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.