Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

SRE maturity — od firefighting k proaktivnímu inženýrství

15. 11. 2021 1 Min. Lesezeit CORE SYSTEMSdevelopment
SRE maturity — od firefighting k proaktivnímu inženýrství

Ops tým trávil 70 % času hašením požárů. SRE nám dal framework, jak z tohoto cyklu uniknout. Klíčový koncept: 100 % reliability je špatný cíl.

SLO, SLI a Error Budget

Formální SLO pro kritické služby. Error budget (99.9 % = 43 minut výpadku/měsíc) — dokud máme budget, deployujeme rychle. Když vyčerpáme, zastavíme features a soustředíme se na stabilitu.

Blameless postmortemy

Po každém významném incidentu: co se stalo, timeline, root cause, action items. Žádné obviňování. Cíl: systémové zlepšení, ne hledání viníka. Postmortemy jsou veřejné v Confluence.

Toil reduction

Toil = manuální, opakující se, automatizovatelná práce. Měříme ji. Cíl: max 50 % času na toil. Vše nad to → automatizace. Za 6 měsíců: toil z 70 % na 35 %, incidenty -40 %.

SRE = reliability jako engineering disciplína

Přechod od reaktivního hasení k proaktivnímu inženýrství. Error budgets, postmortemy a automatizace mění kulturu.

srereliabilityslopostmortemdevops
Teilen:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns