Přeskočit na obsah
_CORE
Infrastruktura jako kód

Cloud & Platform
Engineering

Migrace bez výpadků. Platforma, která zrychlí delivery.

Stavíme cloud infrastrukturu a interní platformy, které dávají vývojářům superschopnosti — a operations klid.

Platform Engineering — co to je a proč to potřebujete?

Platform engineering znamená vybudovat interní platformu, která vývojářům poskytuje standardní šablony služeb, jednotné logování, metriky a tracing, self-service prostředí a guardrails pro bezpečnost i náklady. Výsledek? Týmy deployují rychleji, bezpečněji a bez toho, aby každý řešil infrastrukturu po svém.

Příklad z praxe: Firma s 8 týmy — každý deploynul jinak. Jeden přes FTP, druhý přes Jenkins, třetí ručně na server. Žádné jednotné logování, žádný monitoring. Po outage nikdo nevěděl, co běží kde, kdo to nasadil a jak to vrátit. Zavedení platformy s IaC, standardizovaným CI/CD a centrální observability snížilo deployment failures o 80 % a MTTR z hodin na minuty.
Kdy to řešit

Poznáte se v některém scénáři?

„Chceme do cloudu" bez strategie

Lift & shift zní jednoduše — dokud nezjistíte, že běžíte v cloudu za trojnásobek nákladů se stejnými problémy. Migrace potřebuje plán, ne jen přesun.

Release bolí

Manuální deploy, strach z pátečních releasů, rollbacky přes SSH. Každý deployment je loterie. CI/CD pipeline to změní.

Snowflake servery

Servery konfigurované ručně, roky upgradů a hotfixů. Nikdo neví, jak je reprodukovat. Když spadnou, začíná archeologie. IaC to řeší.

Cloud cost bez kontroly

Překvapivé účty na konci měsíce, žádný tagging, neidentifikovatelné resources. Governance a cost management nejsou nice-to-have.

Co dodáváme

Od migrace po provozní standard

Migrační plán

Assessment stávající infrastruktury, risk mapping, dependency analýza a realistický timeline. Žádné „přesuneme to za víkend".

Migrace bez překvapení. Assessment začíná inventurou — servery, aplikace, databáze, síťové závislosti. Dependency mapping odhalí skryté vazby, které by jinak migraci zastavily.

Risk scoring: Každý workload dostane risk rating (low/medium/high). Kritické systémy migrujeme posledně, ne první. Postupný approach: lift-and-shift → optimize → re-architect.

Timeline: Realistický harmonogram s milníky, rollback plány a go/no-go kritérii. Paralelní provoz po dobu migrace, automatické smoke testy po každém přesunu.

Cloud architektura (HA/DR)

Multi-AZ deployment, automatický failover, definované RTO/RPO. Architektura navržená pro dostupnost — ne jen pro demo.

Dostupnost není náhoda. Multi-AZ deployment zajistí přežití výpadku celé availability zóny. Active-active nebo active-passive — volíme podle RPO/RTO požadavků a rozpočtu.

Disaster Recovery: Automatický failover, cross-region replikace, pravidelné DR testy. Backup strategie s point-in-time recovery. RTO pod 15 minut pro kritické systémy.

Cost optimization: HA neznamená 2× náklady. Reserved instances, spot fleets, auto-scaling a right-sizing. Monitoring nákladů s alertingem na anomálie.

Infrastructure as Code (IaC)

Terraform, Pulumi, ARM/Bicep. Veškerá infrastruktura verzovaná v Gitu, reprodukovatelná, auditovatelná. Konec snowflake serverů.

Infrastruktura jako software. Každý server, síť, databáze — definované v kódu, verzované v Gitu, nasazené přes pipeline. Reprodukovatelné prostředí za minuty, ne dny.

Terraform vs Pulumi: Terraform pro deklarativní multi-cloud setup. Pulumi když potřebujete programovací jazyk (TypeScript, Python). ARM/Bicep pro čistě Azure prostředí.

GitOps workflow: Pull request → review → plan → apply. Drift detection odhalí ruční změny. State management s remote backendem a state locking.

Modularita: Reusable moduly pro networking, compute, databases. Interní module registry. Nový projekt nastartujete za hodiny, ne za týdny.

CI/CD pipeline

Canary a blue-green deploymenty, automatické rollbacky, feature flags. Zero-downtime deployment jako standard, ne jako aspirace.

Od commitu do produkce za minuty. Automatizovaný build, test, deploy. GitHub Actions, GitLab CI, Azure DevOps — volíme podle vašeho ekosystému.

Deployment strategie: Blue-green pro instant rollback. Canary pro postupné nasazení s automatickou evaluací metrik. Feature flags pro oddělení deploye od release.

Quality gates: Unit testy, integration testy, security scan (SAST/DAST), license check. Pipeline nepustí broken build do produkce. Automatický rollback při degradaci metrik.

Rychlost: Paralelní stage, caching závislostí, incremental builds. Typická pipeline: 5-8 minut od push do production. Hotfix path pod 3 minuty.

Observability

Grafana, Prometheus, ELK, distributed tracing (Jaeger). Vidíte, co se děje v systému — ne až když zavolá zákazník.

Vidět dovnitř systému. Tři pilíře observability: logs (co se stalo), metrics (jak se systém chová), traces (proč je to pomalé). Propojené, prohledávatelné, s alertingem.

Stack: Grafana pro dashboardy, Prometheus/Mimir pro metriky, Loki pro logy, Tempo/Jaeger pro distributed tracing. OpenTelemetry jako jednotný collection framework.

Alerting: Inteligentní pravidla — ne „CPU > 80 %", ale „error rate roste 3× rychleji než obvykle". PagerDuty/OpsGenie integrace s eskalačními politikami.

SRE přístup

SLO/SLI definice, error budgets, blameless postmortems, incident management. Spolehlivost není naděje — je to inženýrská disciplína.

Spolehlivost jako inženýrská disciplína. SRE (Site Reliability Engineering) dává spolehlivosti měřitelný rámec. Definujeme SLO (cíle), měříme SLI (indikátory), řídíme error budget.

Error budgets: Pokud máte SLO 99.9 %, máte 43.8 minut výpadku měsíčně. Dokud je budget kladný, můžete riskovat. Když dojde — freeze na deploye, focus na stabilitu.

Blameless postmortems: Po každém incidentu analýza: co se stalo, proč, jak zabránit opakování. Žádné hledání viníka — hledáme systémové příčiny a automatizujeme prevenci.

Toil reduction: Automatizace opakujících se operačních úloh. Cíl: méně než 50 % času SRE týmu jde na toil, zbytek na engineering.

Cost governance

Tagging strategie, budget alerty, right-sizing, reserved instances. Víte, kolik platíte za co — a máte plán, jak platit méně.

Migrační postup

Z on-prem do cloudu
bez výpadků

5 kroků od stabilizace stávajícího prostředí po plně cloud-native provoz. Iterativně, měřitelně, bez big-bang migrací.

01

Stabilizace & měření

Zavedeme baseline metriky, SLA audit, dependency mapping. Než cokoliv migrujeme, potřebujeme vědět, kde jsme.

02

Hybrid období

Dual-run — nová infrastruktura běží paralelně se stávající. Postupná migrace služeb, validace na reálném provozu.

03

Postupné přepínání

Traffic shifting, canary releases. Přesouváme provoz po malých dávkách — s možností okamžitého rollbacku.

04

Konsolidace

Cleanup legacy infrastruktury, optimalizace cloud resources, finalizace IaC. Žádné zombie servery v pozadí.

05

DR testy & provozní standard

Disaster recovery drill, runbooky, on-call procesy, kapacitní plánování. Cloud infrastruktura má jasný provozní režim.

DORA metriky

Měříme, co doopravdy záleží

Deployment frequency
Kolikrát denně/týdně deployujete — čím víc, tím menší risk na release
Lead time for changes
Čas od commitu po produkci — commit → deploy za minuty, ne dny
Change failure rate
% deployů, co rozbijí produkci — s guardrails pod 5 %
MTTR
Mean time to recovery — z hodin na minuty díky observability a runbookům
Cloud cost efficiency
$/workload — kolik platíte za jednotku práce, ne za idle resources
Technologie

Stack, se kterým pracujeme

Azure AWS GCP Terraform Pulumi Kubernetes Docker Helm ArgoCD GitHub Actions GitLab CI/CD Grafana Prometheus Loki Jaeger Elasticsearch Ansible Packer Vault Istio / Linkerd
FAQ

Často kladené otázky

Záleží na kontextu. Azure je silný v enterprise a Microsoft ekosystému (.NET, AD, M365). AWS má nejširší nabídku služeb a největší komunitu. GCP vyniká v datech a ML. Pomůžeme vybrat na základě vašich požadavků — a navrhneme architekturu, která minimalizuje vendor lock-in.

Závisí na rozsahu. Jednoduchá migrace (pár služeb, IaC, CI/CD) zvládneme za 4–8 týdnů. Komplexní enterprise migrace s desítkami aplikací, compliance požadavky a hybrid provozem je 6–12 měsíců. Klíčové je, že migrujeme iterativně — první služby běží v cloudu za týdny, ne měsíce.

Ne všechno musí být cloud-native hned. Začínáme rehosting (IaaS), pak refactoring a případně rearchitecting. Některé aplikace zůstanou on-prem a komunikují s cloudem přes VPN/ExpressRoute. Důležité je mít strategii — ne nutit vše do kontejnerů za každou cenu.

Infrastructure as Code (Terraform/Pulumi), kontejnerizace (Docker/K8s) a abstrakce nad cloud-specifickými službami. Neříkáme „nikdy nepoužívejte managed services" — říkáme „vědomě se rozhodněte, kde lock-in akceptujete, a kde ne". Dokumentujeme exit strategie.

Ne vždy. K8s dává smysl při desítkách služeb, potřebě auto-scalingu a multi-cloud strategie. Pro menší projekty může stačit App Service, ECS/Fargate nebo serverless. Kubernetes nasazujeme tam, kde jeho komplexita přináší reálnou hodnotu — ne proto, že je to trendy.

Tagging strategie od prvního dne, budget alerty, pravidelné right-sizing review, reserved instances / savings plans. Cost dashboardy pro engineering i management. Zavedeme FinOps kulturu — každý tým vidí, kolik jeho služby stojí, a je odpovědný za optimalizaci.

Hybrid cloud je naše realita, ne výjimka. Citlivá data zůstanou on-prem nebo v sovereign cloudu, zbytek běží v public cloudu. Řešíme networking (VPN, peering), identity (AD federation) a compliance (data residency, šifrování, audit). Regulatory requirements nejsou překážka — jsou designový vstup.

Čísla, která mluví

Měřitelné výsledky

99.95%
Dostupnost platformy
<15 min
Deployment pipeline
40%
Úspora cloud nákladů
24/7
Monitoring & alerting
<5 min
MTTR kritických incidentů
Další krok

Potřebujete platformu, která zrychlí váš delivery?

Ozvěte se nám. Projdeme vaši infrastrukturu, identifikujeme bottlenecky a navrhneme cestu — ať už jde o migraci, platformu, nebo optimalizaci cloud costs.

Kontaktujte nás