DevOps Pokročilý
SRE Golden Signals¶
SREMonitoringGolden Signals 3 min čtení
Ctyri golden signals: Latency, Traffic, Errors, Saturation.
Signaly¶
- Latency - doba odpovedi (p50, p95, p99)
- Traffic - req/s
- Errors - procento 5xx
- Saturation - vyuziti CPU, RAM
Prometheus¶
# Latency p99
histogram_quantile(0.99, rate(http_request_duration_seconds_bucket[5m]))
# Error rate
rate(http_requests_total{status=~"5.."}[5m]) / rate(http_requests_total[5m])
Implementace golden signals¶
Pro efektivní monitoring implementujte všechny čtyři signály pro každou kritickou službu. Latency měřte jako distribuci (percentily p50, p95, p99), ne jako průměr — průměr skrývá problémy, které postihují menšinu uživatelů. Traffic monitorujte jako requests/s rozčleněný podle endpointu a HTTP metody.
Error rate sledujte zvlášť pro klientské chyby (4xx) a serverové chyby (5xx). Pouze 5xx indikuje problém na vaší straně. Saturation měřte pro CPU, paměť, disk I/O a síťovou kapacitu — alertujte na 80 % utilizace, ne na 100 %, protože potřebujete prostor pro spike. Dashboard s těmito čtyřmi panely pro každou službu je první věc, na kterou se podíváte při incidentu. USE metoda (Utilization, Saturation, Errors) doplňuje golden signals pro infrastrukturní komponenty.
Shrnuti¶
Dashboard se 4 golden signals panely = okamzity prehled o zdravi systemu.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.