Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
Pojďme to probrat

SRE maturity — od firefighting k proaktivnímu inženýrství

15. 11. 2021 1 min čtení CORE SYSTEMSdevelopment

Ops tým trávil 70 % času hašením požárů. SRE nám dal framework, jak z tohoto cyklu uniknout. Klíčový koncept: 100 % reliability je špatný cíl.

SLO, SLI a Error Budget

Formální SLO pro kritické služby. Error budget (99.9 % = 43 minut výpadku/měsíc) — dokud máme budget, deployujeme rychle. Když vyčerpáme, zastavíme features a soustředíme se na stabilitu.

Blameless postmortemy

Po každém významném incidentu: co se stalo, timeline, root cause, action items. Žádné obviňování. Cíl: systémové zlepšení, ne hledání viníka. Postmortemy jsou veřejné v Confluence.

Toil reduction

Toil = manuální, opakující se, automatizovatelná práce. Měříme ji. Cíl: max 50 % času na toil. Vše nad to → automatizace. Za 6 měsíců: toil z 70 % na 35 %, incidenty -40 %.

SRE = reliability jako engineering disciplína

Přechod od reaktivního hasení k proaktivnímu inženýrství. Error budgets, postmortemy a automatizace mění kulturu.

srereliabilityslopostmortemdevops
Sdílet:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.