Co neměříte, to neřídíte. Tady je kompletní průvodce monitoringem.

Tři pilíře observability¶

Metriky — numerická data (CPU, latence, error rate)
Logy — textové záznamy událostí
Traces — cesta požadavku přes systém

Metriky — Prometheus¶

Typy metrik¶

Counter — monotónně rostoucí (requests_total)
Gauge — aktuální hodnota (temperature)
Histogram — distribuce (request_duration_seconds)
Summary — percentily

Logy — Loki¶

Strukturované JSON logy → centrální úložiště → query a alerting.

Traces — Jaeger/Tempo¶

Distributed tracing sleduje request přes všechny microservices. Nezbytné pro debugging distribuovaných systémů.

SLI/SLO/SLA¶

SLI (Indicator) — co měříte (latence P99, availability)
SLO (Objective) — cíl (99.9% availability)
SLA (Agreement) — smlouva s klientem (99.9% + penále)

Error budgets¶

SLO 99.9% = 43 minut downtime/měsíc = error budget. Pokud ho vyčerpáte, zastavte nové features a opravujte reliability.

Stack doporučení¶

Metriky: Prometheus + Grafana
Logy: Loki + Promtail + Grafana
Traces: Tempo nebo Jaeger
Alerting: Alertmanager + PagerDuty/OpsGenie
All-in-one: Grafana Cloud (free tier)

Principle¶

Monitorujte symptomy (error rate, latence), ne příčiny (CPU). Alert na to, co ovlivňuje uživatele.

monitoringobservabilitydevops

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Všechny články

The Complete Guide to Monitoring