Cloud-Native Stack — CORE SYSTEMS | Kubernetes, Terraform, Multi-Cloud

99.95%

Uptime SLA (měřeno)

<4min

Deploy to production

35%

Avg. cost reduction po optimalizaci

0

Manual infra changes (full IaC)

Architektura

Cloud-native platform stack

Vrstvy platformy, od infrastruktury po developer experience. Každá vrstva má jasného ownera a SLA.

Developer Experience

Backstage IDP GitLab CI/CD Self-service portál Golden Paths

GitOps & Delivery

ArgoCD Helm Charts Kustomize Sealed Secrets External Secrets

Kubernetes

AKS / EKS Istio Service Mesh Cert-Manager Ingress NGINX KEDA

Observability

OpenTelemetry Prometheus Grafana Loki Tempo PagerDuty

Security

OPA / Gatekeeper Falco Trivy Vault Network Policies

Infrastructure

Terraform Pulumi Azure (primary) AWS (secondary) GCP (workloads)

Kubernetes

Kubernetes v enterprise produkci

Kubernetes není jen orchestrátor kontejnerů. V roce 2026 je to de facto operační systém pro moderní infrastrukturu — od microservices přes AI inference po data pipelines. Podle CNCF Annual Survey 2025 ho v produkci provozuje 82 % organizací používajících kontejnery, oproti 66 % v roce 2023. 59 % organizací reportuje, že většina jejich vývoje je cloud-native.

My Kubernetes provozujeme pro enterprise klienty v regulovaných odvětvích — banky, pojišťovny, utility. To znamená jiné požadavky než startup deploy na Friday afternoon.

Náš Kubernetes standard

Managed Kubernetes: AKS jako primární platforma

Pro většinu enterprise klientů používáme Azure Kubernetes Service (AKS). Proč Azure? Integrace s Active Directory, Azure Policy compliance, sovereign cloud dostupnost v EU, a fakt, že většina našich klientů už je Azure-first. Pro AWS workloady nasazujeme EKS, pro GCP specifické AI/ML workloady GKE Autopilot.

Cluster sizing: Minimálně 3 node pools — system (control plane addons), workload (aplikace), a dedicated pool pro databáze/stateful workloady. Pro AI inference: GPU node pool s auto-scaling 0→N.
Networking: Azure CNI s Cilium overlay pro network policies. Dual-stack (IPv4+IPv6) připraveno. Pod-to-pod encryption přes Cilium WireGuard.
Multi-tenancy: Namespace isolation s ResourceQuotas, LimitRanges, NetworkPolicies. Pro striktní izolaci: vCluster pro virtuální klastry uvnitř fyzického.

Service Mesh: Istio pro enterprise

Service mesh není pro každého — přidává latenci (~1–2 ms per hop) a operační komplexitu. Nasazujeme ho, když klient potřebuje: mTLS mezi všemi službami (compliance), traffic management (canary, blue-green), nebo distribuovaný tracing bez instrumentace kódu.

Istio ambient mode (od verze 1.22) eliminuje sidecar proxy overhead — ztrace přesunuty na L4 node proxy. V praxi: 40 % nižší resource overhead oproti sidecar mode.

Lessons learned: Service mesh zavádějte až po solidní observability. Bez Prometheus, Grafana a structured logging je service mesh jen další black box, který debuggujete naslepo.

Auto-scaling: KEDA pro event-driven workloady

Kubernetes HPA (Horizontal Pod Autoscaler) škáluje na CPU/memory. Ale co když chcete škálovat na délku Kafka fronty, počet zpráv v Azure Service Bus, nebo GPU utilization? KEDA (Kubernetes Event-Driven Autoscaling) přidává 60+ scalerů pro event-driven workloady.

Scale-to-zero pro batch joby a inference endpointy (úspora 70 % compute v off-peak)
Kafka consumer lag scaler — automaticky přidá consumery, když lag roste
Custom metriky z Prometheus — škálování na basis business metrik (requests per second, queue depth)

GitOps s ArgoCD

GitOps je princip: Git je single source of truth pro desired state infrastruktury a aplikací. ArgoCD je náš nástroj pro implementaci — synchronizuje deklarativní manifesty z Git repozitáře do Kubernetes clusterů.

CNCF Survey 2025 potvrzuje: GitOps je marker operační zralosti. Organizace používající GitOps reportují vyšší deployment frequency a nižší change failure rate.

Náš GitOps workflow

App-of-Apps pattern — hierarchická struktura: root ArgoCD Application spravuje další Applications. Prostředí (dev, staging, prod) jako overlay v Kustomize.
Helm + values per environment — Helm charts jako packaging, environment-specific values v separátním repo. Separation of concerns: developers vlastní chart, platform team vlastní values.
Progressive delivery — ArgoCD Rollouts pro canary a blue-green deploy. Automatizovaná analýza přes Prometheus metriky — rollback pokud error rate vzroste nad threshold.
Secrets management — External Secrets Operator synchronizuje secrets z Azure Key Vault / AWS Secrets Manager / HashiCorp Vault do Kubernetes Secrets. Nikdy plaintext v Gitu.

Anti-pattern: „Push-based deployment" — CI pipeline přímo kubectl apply do clusteru. Funguje pro demo, v produkci ztratíte audit trail, drift detection a rollback schopnost. GitOps pull-based model vždy.

Infrastructure as Code

Terraform, Pulumi & OpenTofu

Infrastructure as Code není volitelný luxury. Je to hygienický standard. Žádná infrastruktura, kterou nasazujeme, nevzniká klikáním v Azure Portal. Vše je v kódu, v Gitu, s PR review a automated testing.

Terraform: náš default pro multi-cloud

Terraform (HashiCorp Configuration Language) je náš primární IaC nástroj. Proč? Největší ekosystém providerů (300+ cloudových služeb), mature state management, a většina klientů ho už zná. Od BSL licence kontroveze sledujeme OpenTofu jako open-source fork — kompatibilní, bez vendor lock-in rizika.

Module library: Interní knihovna 40+ Terraform modulů — od AKS clusteru přes Azure SQL po kompletní networking stack. Verzované, testované, dokumentované.
State management: Remote state v Azure Blob Storage s locking přes Azure Table Storage. State encryption at rest, access logging.
Policy as Code: OPA (Open Policy Agent) s Conftest pro pre-apply policy checks. Např.: „žádný public IP na produkčních resources", „encryption at rest povinný", „tagging standard compliance".
Drift detection: Automatizovaný terraform plan v CI — alert, pokud reálný stav diverguje od deklarovaného.

Pulumi: kdy místo Terraform

Pulumi používáme tam, kde HCL nestačí — komplexní logika, dynamické infrastructure patterns, integrace s existujícím TypeScript/Python kódem. Pulumi umožňuje psát IaC v general-purpose jazycích (TypeScript, Python, Go, C#).

Dynamic infrastructure: Generování resources z konfiguračního souboru (YAML → N identických prostředí)
Unit testing: Reálné unit testy infrastruktury v pytest nebo Jest — ne jen plan output parsing
CrossGuard: Pulumi's policy-as-code framework — policy enforcement před deployment

Decision framework: Terraform pro standardní cloud infrastructure a multi-team prostředí (HCL je jednodušší pro non-developers). Pulumi pro platform engineering a teams, kteří preferují programovací jazyk. OpenTofu sledujeme pro budoucí adopci.

IaC best practices

Layered architecture: Oddělené state soubory per vrstva — networking, compute, data, security. Změna v networkingu nezasáhne compute layer.
Environment parity: Dev, staging, production identické (až na sizing). Žádné „funguje jen na dev".
Immutable infrastructure: Neopravujeme running servery. Nový build → nový deploy → starý odstraněn. AMI/VM image pipeline s Packer.
Blast radius minimization: Malé, focused Terraform root modules. Každý modul zodpovědný za jednu doménu. Atomic changes.
Cost tagging: Každý resource povinně tagovaný — project, environment, owner, cost-center. Bez tagů deployment failuje.

Multi-Cloud

Multi-cloud strategie

Multi-cloud neznamená „všechno všude". Znamená „správný cloud pro správný workload" s jasnou strategií a governance.

Cloud	Role	Primary use cases	Podíl workloadů
Azure	Primary	Enterprise apps, .NET workloady, Active Directory integration, data platform, AI (Azure OpenAI)	~65 %
AWS	Secondary	Klienti s existing AWS footprint, serverless workloady (Lambda), IoT (Greengrass), specifické managed services	~25 %
GCP	Specialized	BigQuery analytics, Vertex AI experimenty, GKE Autopilot pro specific workloady, Anthos pro hybrid	~10 %

Proč Azure jako primary

Český enterprise trh je Azure-dominant. Důvody: Microsoft licensing agreement (EA), Active Directory jako identitní backbone, compliance certifikace pro EU regulaci, datacenter v EU (West Europe, North Europe), a expanding sovereign cloud nabídka. Pro naše klienty v bankovnictví a veřejném sektoru je Azure nejpřímější cesta ke compliance.

Abstrakce pro portabilitu

Nepíšeme cloud-specific kód tam, kde to není nutné. Naše abstrakční vrstvy:

Kubernetes jako compute abstrakce — aplikace běží na K8s, je jedno jestli pod ním je AKS, EKS nebo GKE
Terraform modules s provider abstrakce — interní moduly pro storage, networking, IAM s per-cloud implementací
DAPR pro service-to-service komunikaci — abstrakce pub/sub, state management, bindings. Switch z Azure Service Bus na Kafka bez změny kódu
OpenTelemetry pro observability — vendor-agnostic traces, metriky, logy. Backend je plug-and-play

Pragmatický přístup: Multi-cloud portabilita není cíl sama o sobě. Používáme managed services, kde dávají smysl (Azure Cosmos DB, AWS Aurora, GCP BigQuery). Portabilita na úrovni „migrujeme za víkend" je iluze — plánujeme na úrovni „můžeme migrovat za 3 měsíce, pokud se změní business requirement".

FinOps

Cost optimization patterns

Right-sizing

Automatizovaná analýza resource utilization. 80 % workloadů je over-provisioned. Kubecost + custom dashboards pro per-namespace cost visibility. Typická úspora: 25–40 %.

Spot & Preemptible instances

Batch processing, CI/CD runners a dev/test prostředí na spot instances. 60–90 % úspora vs. on-demand. Graceful eviction handling přes PodDisruptionBudgets.

Scale-to-zero

Dev/staging prostředí automaticky vypnuta 19:00–07:00 a o víkendech. KEDA scale-to-zero pro idle inference endpointy. Azure DevTest Labs scheduling pro VM.

Tagging & Chargeback

Povinný tagging standard — project, environment, team, cost-center. Automatizovaný monthly report per team. Showback dashboards v Grafana. Cost anomaly detection alerting.

Reserved Instances & Savings Plans

1-year a 3-year reservations pro stable workloady. Azure Reserved VM Instances (až 72 % úspora). Commitment-based Savings Plans pro compute flexibility.

Storage tiering

Hot → Cool → Archive lifecycle policies. Automatická migrace dat podle access frequency. Blob storage lifecycle management. Typická úspora na storage: 50–70 %.

Další deep dive

Prozkoumat další stacky

AI/ML Stack

PyTorch, transformers, LangChain, RAG pipeline, MLOps a fine-tuning v produkci.

Data Engineering Stack

Kafka, Spark, Flink, dbt, Airflow. Data lakehouse architektura a real-time processing.