Ops tým trávil 70 % času hašením požárů. SRE nám dal framework, jak z tohoto cyklu uniknout. Klíčový koncept: 100 % reliability je špatný cíl.
SLO, SLI a Error Budget¶
Formální SLO pro kritické služby. Error budget (99.9 % = 43 minut výpadku/měsíc) — dokud máme budget, deployujeme rychle. Když vyčerpáme, zastavíme features a soustředíme se na stabilitu.
Blameless postmortemy¶
Po každém významném incidentu: co se stalo, timeline, root cause, action items. Žádné obviňování. Cíl: systémové zlepšení, ne hledání viníka. Postmortemy jsou veřejné v Confluence.
Toil reduction¶
Toil = manuální, opakující se, automatizovatelná práce. Měříme ji. Cíl: max 50 % času na toil. Vše nad to → automatizace. Za 6 měsíců: toil z 70 % na 35 %, incidenty -40 %.
SRE = reliability jako engineering disciplína¶
Přechod od reaktivního hasení k proaktivnímu inženýrství. Error budgets, postmortemy a automatizace mění kulturu.