DevOps Pokročilý
Error Budget¶
Error BudgetSREReliability 3 min čtení
Koncept error budgetu v SRE. Balance spolehlivost a rychlost.
Princip¶
SLO 99.9% = error budget 0.1% = 43 min/mesic. Mate budget? Nasazujte. Dosel? Zpomalte.
- Budget > 50% - deploy freely
- Budget 20-50% - canary releases
- Budget < 20% - jen critical fixes
- Budget = 0 - code freeze
Implementace error budgetu¶
Error budget se počítá z definovaného SLO. Pokud máte SLO 99.9 % availability za měsíc (30 dní), error budget je 0.1 % z celkového času — přibližně 43 minut výpadku. Tento budget se průběžně sleduje a slouží jako objektivní metrika pro rozhodování o rychlosti nasazování změn.
Klíčem je propojení error budgetu s konkrétními akcemi: nad 50 % zbývajícího budgetu tým nasazuje volně, mezi 20-50 % přechází na canary releases, pod 20 % se nasazují pouze kritické opravy a při vyčerpaném budgetu nastává code freeze. Tento framework odstraňuje subjektivní debaty mezi vývojem (chce nasazovat rychle) a operations (chce stabilitu) a nahrazuje je daty. Error budget reporting by měl být automatizovaný a viditelný pro celý tým — Grafana dashboard s aktuálním stavem budgetu je minimum.
Shrnuti¶
Error budget kvantifikuje risk appetite organizace.
Potřebujete pomoct s implementací?¶
Náš tým má zkušenosti s návrhem a implementací moderních architektur. Rádi vám pomůžeme.