Migrace bez výpadků. Platforma, která zrychlí delivery.
Stavíme cloud infrastrukturu a interní platformy, které dávají vývojářům superschopnosti — a operations klid.
Platform engineering znamená vybudovat interní platformu, která vývojářům poskytuje standardní šablony služeb, jednotné logování, metriky a tracing, self-service prostředí a guardrails pro bezpečnost i náklady. Výsledek? Týmy deployují rychleji, bezpečněji a bez toho, aby každý řešil infrastrukturu po svém.
Lift & shift zní jednoduše — dokud nezjistíte, že běžíte v cloudu za trojnásobek nákladů se stejnými problémy. Migrace potřebuje plán, ne jen přesun.
Manuální deploy, strach z pátečních releasů, rollbacky přes SSH. Každý deployment je loterie. CI/CD pipeline to změní.
Servery konfigurované ručně, roky upgradů a hotfixů. Nikdo neví, jak je reprodukovat. Když spadnou, začíná archeologie. IaC to řeší.
Překvapivé účty na konci měsíce, žádný tagging, neidentifikovatelné resources. Governance a cost management nejsou nice-to-have.
Assessment stávající infrastruktury, risk mapping, dependency analýza a realistický timeline. Žádné „přesuneme to za víkend".
Migrace bez překvapení. Assessment začíná inventurou — servery, aplikace, databáze, síťové závislosti. Dependency mapping odhalí skryté vazby, které by jinak migraci zastavily.
Risk scoring: Každý workload dostane risk rating (low/medium/high). Kritické systémy migrujeme posledně, ne první. Postupný approach: lift-and-shift → optimize → re-architect.
Timeline: Realistický harmonogram s milníky, rollback plány a go/no-go kritérii. Paralelní provoz po dobu migrace, automatické smoke testy po každém přesunu.
Multi-AZ deployment, automatický failover, definované RTO/RPO. Architektura navržená pro dostupnost — ne jen pro demo.
Dostupnost není náhoda. Multi-AZ deployment zajistí přežití výpadku celé availability zóny. Active-active nebo active-passive — volíme podle RPO/RTO požadavků a rozpočtu.
Disaster Recovery: Automatický failover, cross-region replikace, pravidelné DR testy. Backup strategie s point-in-time recovery. RTO pod 15 minut pro kritické systémy.
Cost optimization: HA neznamená 2× náklady. Reserved instances, spot fleets, auto-scaling a right-sizing. Monitoring nákladů s alertingem na anomálie.
Terraform, Pulumi, ARM/Bicep. Veškerá infrastruktura verzovaná v Gitu, reprodukovatelná, auditovatelná. Konec snowflake serverů.
Infrastruktura jako software. Každý server, síť, databáze — definované v kódu, verzované v Gitu, nasazené přes pipeline. Reprodukovatelné prostředí za minuty, ne dny.
Terraform vs Pulumi: Terraform pro deklarativní multi-cloud setup. Pulumi když potřebujete programovací jazyk (TypeScript, Python). ARM/Bicep pro čistě Azure prostředí.
GitOps workflow: Pull request → review → plan → apply. Drift detection odhalí ruční změny. State management s remote backendem a state locking.
Modularita: Reusable moduly pro networking, compute, databases. Interní module registry. Nový projekt nastartujete za hodiny, ne za týdny.
Canary a blue-green deploymenty, automatické rollbacky, feature flags. Zero-downtime deployment jako standard, ne jako aspirace.
Od commitu do produkce za minuty. Automatizovaný build, test, deploy. GitHub Actions, GitLab CI, Azure DevOps — volíme podle vašeho ekosystému.
Deployment strategie: Blue-green pro instant rollback. Canary pro postupné nasazení s automatickou evaluací metrik. Feature flags pro oddělení deploye od release.
Quality gates: Unit testy, integration testy, security scan (SAST/DAST), license check. Pipeline nepustí broken build do produkce. Automatický rollback při degradaci metrik.
Rychlost: Paralelní stage, caching závislostí, incremental builds. Typická pipeline: 5-8 minut od push do production. Hotfix path pod 3 minuty.
Grafana, Prometheus, ELK, distributed tracing (Jaeger). Vidíte, co se děje v systému — ne až když zavolá zákazník.
Vidět dovnitř systému. Tři pilíře observability: logs (co se stalo), metrics (jak se systém chová), traces (proč je to pomalé). Propojené, prohledávatelné, s alertingem.
Stack: Grafana pro dashboardy, Prometheus/Mimir pro metriky, Loki pro logy, Tempo/Jaeger pro distributed tracing. OpenTelemetry jako jednotný collection framework.
Alerting: Inteligentní pravidla — ne „CPU > 80 %", ale „error rate roste 3× rychleji než obvykle". PagerDuty/OpsGenie integrace s eskalačními politikami.
SLO/SLI definice, error budgets, blameless postmortems, incident management. Spolehlivost není naděje — je to inženýrská disciplína.
Spolehlivost jako inženýrská disciplína. SRE (Site Reliability Engineering) dává spolehlivosti měřitelný rámec. Definujeme SLO (cíle), měříme SLI (indikátory), řídíme error budget.
Error budgets: Pokud máte SLO 99.9 %, máte 43.8 minut výpadku měsíčně. Dokud je budget kladný, můžete riskovat. Když dojde — freeze na deploye, focus na stabilitu.
Blameless postmortems: Po každém incidentu analýza: co se stalo, proč, jak zabránit opakování. Žádné hledání viníka — hledáme systémové příčiny a automatizujeme prevenci.
Toil reduction: Automatizace opakujících se operačních úloh. Cíl: méně než 50 % času SRE týmu jde na toil, zbytek na engineering.
Tagging strategie, budget alerty, right-sizing, reserved instances. Víte, kolik platíte za co — a máte plán, jak platit méně.
5 kroků od stabilizace stávajícího prostředí po plně cloud-native provoz. Iterativně, měřitelně, bez big-bang migrací.
Zavedeme baseline metriky, SLA audit, dependency mapping. Než cokoliv migrujeme, potřebujeme vědět, kde jsme.
Dual-run — nová infrastruktura běží paralelně se stávající. Postupná migrace služeb, validace na reálném provozu.
Traffic shifting, canary releases. Přesouváme provoz po malých dávkách — s možností okamžitého rollbacku.
Cleanup legacy infrastruktury, optimalizace cloud resources, finalizace IaC. Žádné zombie servery v pozadí.
Disaster recovery drill, runbooky, on-call procesy, kapacitní plánování. Cloud infrastruktura má jasný provozní režim.
Záleží na kontextu. Azure je silný v enterprise a Microsoft ekosystému (.NET, AD, M365). AWS má nejširší nabídku služeb a největší komunitu. GCP vyniká v datech a ML. Pomůžeme vybrat na základě vašich požadavků — a navrhneme architekturu, která minimalizuje vendor lock-in.
Závisí na rozsahu. Jednoduchá migrace (pár služeb, IaC, CI/CD) zvládneme za 4–8 týdnů. Komplexní enterprise migrace s desítkami aplikací, compliance požadavky a hybrid provozem je 6–12 měsíců. Klíčové je, že migrujeme iterativně — první služby běží v cloudu za týdny, ne měsíce.
Ne všechno musí být cloud-native hned. Začínáme rehosting (IaaS), pak refactoring a případně rearchitecting. Některé aplikace zůstanou on-prem a komunikují s cloudem přes VPN/ExpressRoute. Důležité je mít strategii — ne nutit vše do kontejnerů za každou cenu.
Infrastructure as Code (Terraform/Pulumi), kontejnerizace (Docker/K8s) a abstrakce nad cloud-specifickými službami. Neříkáme „nikdy nepoužívejte managed services" — říkáme „vědomě se rozhodněte, kde lock-in akceptujete, a kde ne". Dokumentujeme exit strategie.
Ne vždy. K8s dává smysl při desítkách služeb, potřebě auto-scalingu a multi-cloud strategie. Pro menší projekty může stačit App Service, ECS/Fargate nebo serverless. Kubernetes nasazujeme tam, kde jeho komplexita přináší reálnou hodnotu — ne proto, že je to trendy.
Tagging strategie od prvního dne, budget alerty, pravidelné right-sizing review, reserved instances / savings plans. Cost dashboardy pro engineering i management. Zavedeme FinOps kulturu — každý tým vidí, kolik jeho služby stojí, a je odpovědný za optimalizaci.
Hybrid cloud je naše realita, ne výjimka. Citlivá data zůstanou on-prem nebo v sovereign cloudu, zbytek běží v public cloudu. Řešíme networking (VPN, peering), identity (AD federation) a compliance (data residency, šifrování, audit). Regulatory requirements nejsou překážka — jsou designový vstup.
Zabezpečení cloudové infrastruktury a Zero Trust architektura.
Monitoring, alerting a observability pro cloudové prostředí.
Datové pipeline a analytics na cloudové infrastruktuře.
Ozvěte se nám. Projdeme vaši infrastrukturu, identifikujeme bottlenecky a navrhneme cestu — ať už jde o migraci, platformu, nebo optimalizaci cloud costs.