_CORE
99.95%
Uptime SLA (měřeno)
<4min
Deploy to production
35%
Avg. cost reduction po optimalizaci
0
Manual infra changes (full IaC)
Architektura

Cloud-native platform stack

Vrstvy platformy, od infrastruktury po developer experience. Každá vrstva má jasného ownera a SLA.

Developer Experience
Backstage IDP GitLab CI/CD Self-service portál Golden Paths
GitOps & Delivery
ArgoCD Helm Charts Kustomize Sealed Secrets External Secrets
Kubernetes
AKS / EKS Istio Service Mesh Cert-Manager Ingress NGINX KEDA
Observability
OpenTelemetry Prometheus Grafana Loki Tempo PagerDuty
Security
OPA / Gatekeeper Falco Trivy Vault Network Policies
Infrastructure
Terraform Pulumi Azure (primary) AWS (secondary) GCP (workloads)
Kubernetes

Kubernetes v enterprise produkci

Kubernetes není jen orchestrátor kontejnerů. V roce 2026 je to de facto operační systém pro moderní infrastrukturu — od microservices přes AI inference po data pipelines. Podle CNCF Annual Survey 2025 ho v produkci provozuje 82 % organizací používajících kontejnery, oproti 66 % v roce 2023. 59 % organizací reportuje, že většina jejich vývoje je cloud-native.

My Kubernetes provozujeme pro enterprise klienty v regulovaných odvětvích — banky, pojišťovny, utility. To znamená jiné požadavky než startup deploy na Friday afternoon.

Náš Kubernetes standard

Managed Kubernetes: AKS jako primární platforma

Pro většinu enterprise klientů používáme Azure Kubernetes Service (AKS). Proč Azure? Integrace s Active Directory, Azure Policy compliance, sovereign cloud dostupnost v EU, a fakt, že většina našich klientů už je Azure-first. Pro AWS workloady nasazujeme EKS, pro GCP specifické AI/ML workloady GKE Autopilot.

  • Cluster sizing: Minimálně 3 node pools — system (control plane addons), workload (aplikace), a dedicated pool pro databáze/stateful workloady. Pro AI inference: GPU node pool s auto-scaling 0→N.
  • Networking: Azure CNI s Cilium overlay pro network policies. Dual-stack (IPv4+IPv6) připraveno. Pod-to-pod encryption přes Cilium WireGuard.
  • Multi-tenancy: Namespace isolation s ResourceQuotas, LimitRanges, NetworkPolicies. Pro striktní izolaci: vCluster pro virtuální klastry uvnitř fyzického.

Service Mesh: Istio pro enterprise

Service mesh není pro každého — přidává latenci (~1–2 ms per hop) a operační komplexitu. Nasazujeme ho, když klient potřebuje: mTLS mezi všemi službami (compliance), traffic management (canary, blue-green), nebo distribuovaný tracing bez instrumentace kódu.

Istio ambient mode (od verze 1.22) eliminuje sidecar proxy overhead — ztrace přesunuty na L4 node proxy. V praxi: 40 % nižší resource overhead oproti sidecar mode.

Lessons learned: Service mesh zavádějte až po solidní observability. Bez Prometheus, Grafana a structured logging je service mesh jen další black box, který debuggujete naslepo.

Auto-scaling: KEDA pro event-driven workloady

Kubernetes HPA (Horizontal Pod Autoscaler) škáluje na CPU/memory. Ale co když chcete škálovat na délku Kafka fronty, počet zpráv v Azure Service Bus, nebo GPU utilization? KEDA (Kubernetes Event-Driven Autoscaling) přidává 60+ scalerů pro event-driven workloady.

  • Scale-to-zero pro batch joby a inference endpointy (úspora 70 % compute v off-peak)
  • Kafka consumer lag scaler — automaticky přidá consumery, když lag roste
  • Custom metriky z Prometheus — škálování na basis business metrik (requests per second, queue depth)

GitOps s ArgoCD

GitOps je princip: Git je single source of truth pro desired state infrastruktury a aplikací. ArgoCD je náš nástroj pro implementaci — synchronizuje deklarativní manifesty z Git repozitáře do Kubernetes clusterů.

CNCF Survey 2025 potvrzuje: GitOps je marker operační zralosti. Organizace používající GitOps reportují vyšší deployment frequency a nižší change failure rate.

Náš GitOps workflow

  • App-of-Apps pattern — hierarchická struktura: root ArgoCD Application spravuje další Applications. Prostředí (dev, staging, prod) jako overlay v Kustomize.
  • Helm + values per environment — Helm charts jako packaging, environment-specific values v separátním repo. Separation of concerns: developers vlastní chart, platform team vlastní values.
  • Progressive delivery — ArgoCD Rollouts pro canary a blue-green deploy. Automatizovaná analýza přes Prometheus metriky — rollback pokud error rate vzroste nad threshold.
  • Secrets management — External Secrets Operator synchronizuje secrets z Azure Key Vault / AWS Secrets Manager / HashiCorp Vault do Kubernetes Secrets. Nikdy plaintext v Gitu.

Anti-pattern: „Push-based deployment" — CI pipeline přímo kubectl apply do clusteru. Funguje pro demo, v produkci ztratíte audit trail, drift detection a rollback schopnost. GitOps pull-based model vždy.

Infrastructure as Code

Terraform, Pulumi & OpenTofu

Infrastructure as Code není volitelný luxury. Je to hygienický standard. Žádná infrastruktura, kterou nasazujeme, nevzniká klikáním v Azure Portal. Vše je v kódu, v Gitu, s PR review a automated testing.

Terraform: náš default pro multi-cloud

Terraform (HashiCorp Configuration Language) je náš primární IaC nástroj. Proč? Největší ekosystém providerů (300+ cloudových služeb), mature state management, a většina klientů ho už zná. Od BSL licence kontroveze sledujeme OpenTofu jako open-source fork — kompatibilní, bez vendor lock-in rizika.

  • Module library: Interní knihovna 40+ Terraform modulů — od AKS clusteru přes Azure SQL po kompletní networking stack. Verzované, testované, dokumentované.
  • State management: Remote state v Azure Blob Storage s locking přes Azure Table Storage. State encryption at rest, access logging.
  • Policy as Code: OPA (Open Policy Agent) s Conftest pro pre-apply policy checks. Např.: „žádný public IP na produkčních resources", „encryption at rest povinný", „tagging standard compliance".
  • Drift detection: Automatizovaný terraform plan v CI — alert, pokud reálný stav diverguje od deklarovaného.

Pulumi: kdy místo Terraform

Pulumi používáme tam, kde HCL nestačí — komplexní logika, dynamické infrastructure patterns, integrace s existujícím TypeScript/Python kódem. Pulumi umožňuje psát IaC v general-purpose jazycích (TypeScript, Python, Go, C#).

  • Dynamic infrastructure: Generování resources z konfiguračního souboru (YAML → N identických prostředí)
  • Unit testing: Reálné unit testy infrastruktury v pytest nebo Jest — ne jen plan output parsing
  • CrossGuard: Pulumi's policy-as-code framework — policy enforcement před deployment

Decision framework: Terraform pro standardní cloud infrastructure a multi-team prostředí (HCL je jednodušší pro non-developers). Pulumi pro platform engineering a teams, kteří preferují programovací jazyk. OpenTofu sledujeme pro budoucí adopci.

IaC best practices

  • Layered architecture: Oddělené state soubory per vrstva — networking, compute, data, security. Změna v networkingu nezasáhne compute layer.
  • Environment parity: Dev, staging, production identické (až na sizing). Žádné „funguje jen na dev".
  • Immutable infrastructure: Neopravujeme running servery. Nový build → nový deploy → starý odstraněn. AMI/VM image pipeline s Packer.
  • Blast radius minimization: Malé, focused Terraform root modules. Každý modul zodpovědný za jednu doménu. Atomic changes.
  • Cost tagging: Každý resource povinně tagovaný — project, environment, owner, cost-center. Bez tagů deployment failuje.
Multi-Cloud

Multi-cloud strategie

Multi-cloud neznamená „všechno všude". Znamená „správný cloud pro správný workload" s jasnou strategií a governance.

Cloud Role Primary use cases Podíl workloadů
Azure Primary Enterprise apps, .NET workloady, Active Directory integration, data platform, AI (Azure OpenAI) ~65 %
AWS Secondary Klienti s existing AWS footprint, serverless workloady (Lambda), IoT (Greengrass), specifické managed services ~25 %
GCP Specialized BigQuery analytics, Vertex AI experimenty, GKE Autopilot pro specific workloady, Anthos pro hybrid ~10 %

Proč Azure jako primary

Český enterprise trh je Azure-dominant. Důvody: Microsoft licensing agreement (EA), Active Directory jako identitní backbone, compliance certifikace pro EU regulaci, datacenter v EU (West Europe, North Europe), a expanding sovereign cloud nabídka. Pro naše klienty v bankovnictví a veřejném sektoru je Azure nejpřímější cesta ke compliance.

Abstrakce pro portabilitu

Nepíšeme cloud-specific kód tam, kde to není nutné. Naše abstrakční vrstvy:

  • Kubernetes jako compute abstrakce — aplikace běží na K8s, je jedno jestli pod ním je AKS, EKS nebo GKE
  • Terraform modules s provider abstrakce — interní moduly pro storage, networking, IAM s per-cloud implementací
  • DAPR pro service-to-service komunikaci — abstrakce pub/sub, state management, bindings. Switch z Azure Service Bus na Kafka bez změny kódu
  • OpenTelemetry pro observability — vendor-agnostic traces, metriky, logy. Backend je plug-and-play

Pragmatický přístup: Multi-cloud portabilita není cíl sama o sobě. Používáme managed services, kde dávají smysl (Azure Cosmos DB, AWS Aurora, GCP BigQuery). Portabilita na úrovni „migrujeme za víkend" je iluze — plánujeme na úrovni „můžeme migrovat za 3 měsíce, pokud se změní business requirement".

FinOps

Cost optimization patterns

Right-sizing

Automatizovaná analýza resource utilization. 80 % workloadů je over-provisioned. Kubecost + custom dashboards pro per-namespace cost visibility. Typická úspora: 25–40 %.

Spot & Preemptible instances

Batch processing, CI/CD runners a dev/test prostředí na spot instances. 60–90 % úspora vs. on-demand. Graceful eviction handling přes PodDisruptionBudgets.

Scale-to-zero

Dev/staging prostředí automaticky vypnuta 19:00–07:00 a o víkendech. KEDA scale-to-zero pro idle inference endpointy. Azure DevTest Labs scheduling pro VM.

Tagging & Chargeback

Povinný tagging standard — project, environment, team, cost-center. Automatizovaný monthly report per team. Showback dashboards v Grafana. Cost anomaly detection alerting.

Reserved Instances & Savings Plans

1-year a 3-year reservations pro stable workloady. Azure Reserved VM Instances (až 72 % úspora). Commitment-based Savings Plans pro compute flexibility.

Storage tiering

Hot → Cool → Archive lifecycle policies. Automatická migrace dat podle access frequency. Blob storage lifecycle management. Typická úspora na storage: 50–70 %.

Další deep dive

Prozkoumat další stacky

Další krok

Plánujete cloud migraci nebo optimalizaci?

Pojďme se bavit o vaší infrastruktuře. Uděláme assessment, navrhneme architekturu a spočítáme ROI.

Kontaktujte nás