DevOps Pokročilý
SLO/SLI definice¶
SLOSLISRE 3 min čtení
Service Level Indicators a Objectives. Merit spolehlivost.
SLI a SLO¶
Service: API
SLO: 99.9% availability (mesicne)
SLI: successful_requests / total_requests
Error Budget: 0.1% = ~43 min downtime/mesic
Jak definovat správné SLI a SLO¶
Při definici SLI vycházejte z uživatelského zážitku, ne z interních metrik. Dobrý SLI pro API je poměr úspěšných odpovědí (status < 500) s latencí pod 300ms k celkovému počtu requestů. SLO by mělo být dostatečně ambiciózní, aby zajistilo kvalitu, ale ne tak přísné, aby blokovalo vývoj.
Typické SLO pro různé služby: webová API 99.9 % (43 min downtime/měsíc), interní batch processing 99.5 % (3.6 h/měsíc), kritické finanční služby 99.99 % (4.3 min/měsíc). SLA (Service Level Agreement) je pak smluvní závazek vůči zákazníkovi, který by měl být vždy méně přísný než interní SLO — pokud je SLO 99.9 %, SLA by mělo být 99.5 %. Monitorujte SLI v reálném čase pomocí Prometheus + Grafana a nastavte alerting na burn rate — jak rychle spotřebováváte error budget.
Shrnuti¶
SLO = cilova spolehlivost. SLI = mereni. Error budget = prostor pro inovaci.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.