Cloud & Platform Engineering

Cloud migrace

Assessment, risk mapping, dependency analýza. Migrace bez výpadků s hybrid bridge — ne 'přesuneme to za víkend a doufáme'. Iterativní přístup s rollback plánem pro každý krok.

Lift & shift je past. Přesunutí on-prem VM do cloudu bez redesignu znamená trojnásobek nákladů se stejnými problémy. Migrujeme strategicky — assessment, prioritizace workloadů, hybrid bridge, postupné přepínání.

5R Assessment Framework: Pro každý workload rozhodujeme: Rehost (lift & shift — jen pro legacy s krátkou životností), Replatform (kontejnerizace, managed services), Refactor (redesign pro cloud-native), Replace (SaaS náhrada), Retire (vypnout). Většina workloadů je mix replatform + refactor.

Hybrid bridge: Starý a nový svět běží paralelně. VPN/ExpressRoute mezi on-prem a cloudem. Postupné přepínání služeb s traffic splitting a automatickým rollbackem. Žádný big bang cutover.

Dependency mapping: Než migrujete cokoliv, musíte vědět, co na čem závisí. Automatický discovery (Azure Migrate, AWS Migration Hub) + manuální validace. Výstup: dependency graf s risk scoring pro každý workload.

Typický timeline: Assessment (2-4 týdny) → Pilot (4-6 týdnů, 2-3 služby) → Wave migration (2-4 služby/měsíc) → Konsolidace (4-6 týdnů). Celkově 3-12 měsíců podle velikosti.

migraceassessmenthybrid

Detail →

Infrastructure as Code

Terraform, Pulumi, GitOps. Infrastruktura verzovaná, testovaná, reprodukovatelná. Nikdy víc 'kdo změnil ten firewall pravidla' — vše je v gitu s code review.

Ruční infrastruktura je technický dluh. Server nakonfigurovaný přes SSH konzoli je snowflake — nikdo neví přesně jak ho reprodukovat, dokumentace je zastaralá, disaster recovery je guessing game. IaC toto eliminuje.

Terraform vs. Pulumi: Terraform (HCL) je průmyslový standard — obrovský ekosystém providerů, mature tooling, velká komunita. Pulumi umožňuje psát infrastrukturu v TypeScript/Python — lepší pro týmy, které nechtějí další jazyk. Volíme podle kontextu týmu.

GitOps workflow: Veškeré změny infrastruktury procházejí přes Pull Request. Code review, automated tests (terraform validate, tflint, checkov pro security), plan preview v PR komentáři. Merge = apply. Audit trail v git historii.

Modularizace: Terraform moduly pro standardní patterny — VPC/VNet, Kubernetes cluster, database, monitoring stack. Interní modul registry. Nový tým dostane production-ready infrastrukturu za hodiny, ne týdny.

State management: Remote state v encrypted storage (S3 + DynamoDB lock, Azure Blob + lock). State locking pro team collaboration. Drift detection — automatická detekce ručních změn.

terraformpulumiiac

Detail →

Kubernetes & kontejnery

AKS, EKS, GKE — managed Kubernetes s Helm charts, ArgoCD pro GitOps a progressive delivery. Od dev prostředí po produkci s konzistentní konfigurací.

Kubernetes není pro každého — ale když ho potřebujete, děláme ho správně. K8s dává smysl při 5+ microservices, potřebě multi-cloud, nebo specifických provozních požadavcích (auto-scaling, service mesh, progressive delivery).

Managed Kubernetes: AKS (Azure), EKS (AWS), GKE (Google). Nestavíme vlastní control plane — managed service eliminuje 80% operational overhead. Focus na workloady, ne na etcd backup.

GitOps s ArgoCD: Deklarativní deployment. Desired state v gitu, ArgoCD synchronizuje cluster. Drift detection — pokud někdo změní něco ručně, ArgoCD to opraví. Self-healing cluster.

Helm + Kustomize: Helm charts pro standardní komponenty (nginx, cert-manager, monitoring). Kustomize pro environment-specific overlays (dev/staging/prod). Templating bez template hell.

Progressive delivery: Argo Rollouts pro canary a blue-green releases. Automated analysis (Prometheus metriky) rozhoduje o rollout/rollback. Istio/Linkerd service mesh pro traffic splitting a mTLS.

kuberneteshelmargocd

Detail →

CI/CD Pipeline

GitHub Actions, GitLab CI, Azure DevOps. Od commitu po produkci za minuty s automatizovanými quality gates, security scany a progressive delivery.

CI/CD není jen build a deploy. Je to celý delivery pipeline — od commitu přes testy, security scany, quality gates, staging validation až po progressive rollout do produkce. Každý krok automatizovaný, měřitelný, auditovatelný.

Pipeline architektura: Build → Unit tests → SAST (security) → Container build → Integration tests → Deploy to staging → E2E tests → Deploy to prod (canary) → Automated analysis → Full rollout. Celý flow < 15 minut pro typickou službu.

Quality gates: Automatické checks, které zastaví deploy při selhání. Test coverage < threshold? Stop. Security vulnerability (critical/high)? Stop. Performance regression > 10%? Stop. Žádný manuální approval pro standard changes.

Monorepo vs. Polyrepo: Podporujeme obojí. Pro monorepo: affected detection (jen changed služby se buildí/deployí). Pro polyrepo: standardizované pipeline templates sdílené přes všechny repos.

Metriky: DORA metriky jako feedback loop. Deployment frequency, lead time, change failure rate, MTTR. Dashboard pro engineering leadership. Trendy, ne snapshoty.

cicdgithub-actionsgitlab

Detail →

Observability & SRE

Grafana, Prometheus, Loki, Jaeger, OpenTelemetry. SLO/SLI, error budgets, runbooky. Víte PROČ je problém, ne jen ŽE je problém — a máte proces pro jeho řešení.

Monitoring říká ŽE. Observability říká PROČ. Tři pilíře: metriky (Prometheus), logy (Loki), traces (Jaeger/Tempo). OpenTelemetry jako standardní instrumentace — vendor-agnostic, jednou instrumentujete, exportujete kamkoliv.

SLO/SLI Framework: Definujeme Service Level Objectives pro každou kritickou službu. SLI (metriky) měří realitu, SLO (cíl) definuje akceptovatelnou kvalitu. Error budget = kolik „chybovosti” si můžete dovolit. Když error budget dojde, stop feature work, fix reliability.

Alerting philosophy: Alertujeme na symptomy, ne na příčiny. „API error rate > 1%” je dobrý alert. „CPU > 80%” je špatný alert (CPU může být 95% a vše funguje). Page jen pro actionable alerts — pokud on-call nemůže nic udělat, není to page.

SRE procesy: On-call rotace, incident management (severity classification, communication protocol, escalation), post-mortem bez blame. Runbooky pro top 10 incidentů. Toil tracking a elimination.

Dashboardy: Executive dashboard (SLO compliance, availability, cost), engineering dashboard (latence, error rate, throughput per služba), on-call dashboard (active incidents, recent deployments, anomaly detection).

observabilitysregrafana

Detail →

FinOps

Cloud cost optimization jako kontinuální proces. Víte kolik platíte za jednotku práce, ne za idle resources. Typicky 30-50% úspora oproti neoptimalizovanému stavu.

Cloud bill není meteorologická zpráva — je to řiditelný proces. Většina firem platí za cloud 30-50% víc, než musí. Reserved instances nevyužité, oversized VMs, forgotten resources, neoptimalizovaný storage tiering.

Cost visibility: Tagging strategy (team, environment, project, cost center). Cost allocation per tým/projekt/služba. Showback/chargeback model — týmy vidí, kolik stojí jejich služby. Když vidíte cenu, chováte se jinak.

Optimalizační techniky: Reserved Instances/Savings Plans (commitment = sleva 30-60%), right-sizing (většina VM je oversized 2-4×), spot/preemptible instances pro non-critical workloady, autoscaling (scale to zero v dev/staging), storage tiering (hot → cool → archive).

Continuous optimization: Měsíční cost review s doporučeními. Automatické alerting na cost anomálie (unexpected spike). Waste detection (unused disks, unattached IPs, idle load balancers). FinOps dashboard s trendy a forecasting.

Unit economics: Cost per transaction, cost per user, cost per API call. Když víte unit cost, můžete optimalizovat smysluplně. „Stojíme 0.003 CZK per API call” je actionable. „Azure stál minulý měsíc 500K” není.

finopscostoptimization

Detail →

Platform Engineering

Vybudování interní platformy, která vývojářům poskytuje standardní šablony služeb, jednotné logování, metriky, tracing, self-service prostředí a guardrails pro bezpečnost i náklady.

Příklad z praxe: Firma s 8 týmy — každý deployoval jinak. Po zavedení platformy: jeden self-service portál, standardní CI/CD, deploy za 10 minut, zero-touch observability.

✓ Self-service pro vývojáře (deploy bez ops tiketu)
✓ Golden paths — standardní šablony služeb
✓ Guardrails pro security a cost
✓ DORA metriky jako feedback loop

99.95%

Dostupnost platformy

<15 min

Deployment pipeline

40%

Úspora cloud nákladů

<5 min

MTTR

Jak to děláme

1

Cloud Assessment

Zhodnotíme současnou infrastrukturu, aplikace a připravenost na migraci do cloudu.

2

Plán migrace

Navrhneme cílovou architekturu, roadmapu a strategii přechodu s minimálním rizikem.

3

Pilot migrace

Přesuneme první workloady, ověříme výkon, bezpečnost a provozní procesy.

4

Full migrace & automatizace

Kompletní přesun zbývajících systémů s IaC, CI/CD a auto-scalingem.

5

Optimalizace & FinOps

Průběžná optimalizace nákladů, výkonu a governance nad cloudovým prostředím.

Kdy potřebujete platform engineering¶

Typické situace¶

„Chceme do cloudu” bez strategie — Lift & shift za trojnásobek nákladů se stejnými problémy.
Release bolí — Manuální deploy, strach z pátečních releasů, rollbacky přes SSH.
Snowflake servery — Servery konfigurované ručně, nikdo neví jak je reprodukovat.
Cloud cost bez kontroly — Překvapivé účty na konci měsíce, žádná visibility.
Každý tým deployuje jinak — 8 týmů, 8 pipeline variant, žádný standard.

Internal Developer Platform¶

Platform engineering není jen infrastruktura — je to produkt pro vaše vývojáře. Self-service portál, kde tým si za minuty vytvoří nové prostředí, nasadí službu, nastaví monitoring — bez tiketu do operations.

Co platforma poskytuje¶

Capability	Bez platformy	S platformou
Nové prostředí	Tiket, 2 týdny	Self-service, 10 minut
Deployment	Manuální, strašidelný	CI/CD, automatický
Monitoring	Každý tým jinak	Standardní, zero-touch
Security	Audit na konci	Guardrails od začátku
Cost visibility	Měsíční faktura	Real-time per tým

Golden Paths¶

Standardní šablony pro typické workloady:

Web API — Kontejner, Kubernetes deployment, ingress, TLS, monitoring, CI/CD
Event consumer — Kafka consumer, dead letter queue, retry logic, monitoring
Scheduled job — CronJob/Azure Function, monitoring, alerting
Static site — CDN, TLS, CI/CD from git

Tým vybere golden path, vyplní parametry, platforma vytvoří vše potřebné. Guardrails zabudované — security best practices, cost limits, naming conventions.

Migrační postup¶

Z on-prem do cloudu bez výpadků — 5 kroků:

Assessment & Planning — 5R analýza (Rehost, Replatform, Refactor, Replace, Retire). Dependency mapping. Risk scoring. Migration roadmap s prioritizací podle business value.
Foundation — Landing zone setup. Networking (VPN/ExpressRoute), IAM, security baseline, monitoring. Terraform modules pro standardní patterny.
Pilot Migration — 2-3 workloady s různým rizikovým profilem. Validace procesu, tooling, rollback. Lessons learned pro další vlny.
Wave Migration — Systematická migrace po vlnách (2-4 workloady/měsíc). Hybrid bridge, traffic shifting, automated validation.
Optimization & Decommission — FinOps optimization, decommission on-prem, SRE procesy, knowledge transfer.

DORA metriky¶

Měříme to, co doopravdy záleží:

Deployment frequency — Kolikrát denně deployujete. Elite: multiple per day.
Lead time for changes — Od commitu po produkci. Elite: < 1 hodina.
Change failure rate — S guardrails pod 5%. Elite: < 5%.
MTTR — Z hodin na minuty díky observability. Elite: < 1 hodina.

Dashboard s trendy, ne snapshoty. Retrospektiva nad DORA metriky každé 2 týdny.

Stack¶

Kategorie	Technologie
Cloud	Azure, AWS, GCP
IaC	Terraform, Pulumi, Crossplane
Container	Docker, Kubernetes (AKS/EKS/GKE), Helm
GitOps	ArgoCD, Flux
CI/CD	GitHub Actions, GitLab CI, Azure DevOps
Observability	Grafana, Prometheus, Loki, Jaeger, OpenTelemetry
Service Mesh	Istio, Linkerd
Security	Vault, cert-manager, Falco, Trivy
FinOps	Kubecost, AWS Cost Explorer, Azure Cost Management

Časté otázky

Záleží na kontextu. Azure je silný v enterprise a Microsoft ekosystému. AWS má nejširší nabídku. GCP vyniká v datech a ML. Pomůžeme vybrat a minimalizovat vendor lock-in.

Jednoduchá migrace: 4–8 týdnů. Komplexní enterprise s compliance: 6–12 měsíců. Migrujeme iterativně — první služba běží v cloudu za týdny.

Ne vždy. Pro jednoduchou aplikaci stačí App Service nebo Lambda. Kubernetes dává smysl při 5+ microservices, potřebě multi-cloud nebo specifických provozních požadavcích.

Typicky 30-50% oproti neoptimalizovanému stavu. Reserved instances, right-sizing, spot instances, automatický scaling. FinOps jako kontinuální proces.

Infrastructure as Code (Terraform) pro portabilitu, kontejnerizace (Docker/K8s) pro runtime agnostičnost, abstrakce nad managed services. 100% vendor neutralita je iluze — ale 80% portability je dosažitelná a stojí za to.

Azure Arc, AWS Outposts, nebo Anthos pro konzistentní management. VPN/ExpressRoute pro konektivitu. Jednotný monitoring a deployment pipeline přes obě prostředí.

Souvisí s

Bezpečnost & compliance Zero Trust, IAM, audit, compliance.

QA, testování & observabilita Automatizované testování, monitoring a observability stack.

Datová platforma & integrace ETL/ELT, data lakehouse, real-time pipelines.

Cloud & Platform Engineering

Cloud migrace

Infrastructure as Code

Kubernetes & kontejnery

CI/CD Pipeline

Observability & SRE

FinOps

Platform Engineering

Jak to děláme

Cloud Assessment

Plán migrace

Pilot migrace

Full migrace & automatizace

Optimalizace & FinOps

Kdy potřebujete platform engineering¶

Typické situace¶

Internal Developer Platform¶

Co platforma poskytuje¶

Golden Paths¶

Migrační postup¶

DORA metriky¶

Stack¶

Časté otázky

Souvisí s

Máte projekt?

Odcházíte?