_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
References Technologies Blog Know-how Tools
About Collaboration Careers
CS EN
Let's talk

The Complete Guide to Monitoring

16. 04. 2025 1 min read intermediate

Co neměříte, to neřídíte. Tady je kompletní průvodce monitoringem.

Tři pilíře observability

  • Metriky — numerická data (CPU, latence, error rate)
  • Logy — textové záznamy událostí
  • Traces — cesta požadavku přes systém

Metriky — Prometheus

Typy metrik

Counter — monotónně rostoucí (requests_total)
Gauge — aktuální hodnota (temperature)
Histogram — distribuce (request_duration_seconds)
Summary — percentily

Logy — Loki

Strukturované JSON logy → centrální úložiště → query a alerting.

Traces — Jaeger/Tempo

Distributed tracing sleduje request přes všechny microservices. Nezbytné pro debugging distribuovaných systémů.

SLI/SLO/SLA

  • SLI (Indicator) — co měříte (latence P99, availability)
  • SLO (Objective) — cíl (99.9% availability)
  • SLA (Agreement) — smlouva s klientem (99.9% + penále)

Error budgets

SLO 99.9% = 43 minut downtime/měsíc = error budget. Pokud ho vyčerpáte, zastavte nové features a opravujte reliability.

Stack doporučení

  • Metriky: Prometheus + Grafana
  • Logy: Loki + Promtail + Grafana
  • Traces: Tempo nebo Jaeger
  • Alerting: Alertmanager + PagerDuty/OpsGenie
  • All-in-one: Grafana Cloud (free tier)

Principle

Monitorujte symptomy (error rate, latence), ne příčiny (CPU). Alert na to, co ovlivňuje uživatele.

monitoringobservabilitydevops
Share:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.