Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
Pojďme to probrat

Kompletní průvodce monitoring

16. 04. 2025 1 min čtení intermediate

Co neměříte, to neřídíte. Tady je kompletní průvodce monitoringem.

Tři pilíře observability

  • Metriky — numerická data (CPU, latence, error rate)
  • Logy — textové záznamy událostí
  • Traces — cesta požadavku přes systém

Metriky — Prometheus

Typy metrik

Counter — monotónně rostoucí (requests_total)
Gauge — aktuální hodnota (temperature)
Histogram — distribuce (request_duration_seconds)
Summary — percentily

Logy — Loki

Strukturované JSON logy → centrální úložiště → query a alerting.

Traces — Jaeger/Tempo

Distributed tracing sleduje request přes všechny microservices. Nezbytné pro debugging distribuovaných systémů.

SLI/SLO/SLA

  • SLI (Indicator) — co měříte (latence P99, availability)
  • SLO (Objective) — cíl (99.9% availability)
  • SLA (Agreement) — smlouva s klientem (99.9% + penále)

Error budgets

SLO 99.9% = 43 minut downtime/měsíc = error budget. Pokud ho vyčerpáte, zastavte nové features a opravujte reliability.

Stack doporučení

  • Metriky: Prometheus + Grafana
  • Logy: Loki + Promtail + Grafana
  • Traces: Tempo nebo Jaeger
  • Alerting: Alertmanager + PagerDuty/OpsGenie
  • All-in-one: Grafana Cloud (free tier)

Princip

Monitorujte symptomy (error rate, latence), ne příčiny (CPU). Alert na to, co ovlivňuje uživatele.

monitoringobservabilitydevops
Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.