Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Data pipelines s Apache Airflow — orchestrace datových toků

18. 01. 2021 1 Min. Lesezeit CORE SYSTEMSai
Data pipelines s Apache Airflow — orchestrace datových toků

S rostoucím množstvím ML projektů jsme narazili na problém: jak spolehlivě orchestrovat datové toky? Cron joby přestaly stačit. Apache Airflow se stal řešením.

Proč ne cron?

Cron nemá dependency management, retry logiku ani monitoring. Airflow tohle všechno má — DAGy (workflow jako Python kód), operátory, scheduler, web UI pro monitoring a manuální triggery.

Náš setup na Kubernetes

Airflow běží na AKS s KubernetesExecutor — každý task jako samostatný pod. Metadata v Azure PostgreSQL, logy v Blob Storage. DAGy verzujeme v Gitu, synchronizace přes git-sync sidecar.

Praktické lekce

  • Idempotence — UPSERT místo INSERT, partitioning podle execution date
  • Testování DAGů — unit testy pro validaci struktury, integration testy s mock daty
  • Alerting — Slack + PagerDuty pro kritické pipeline

Airflow = páteř datového inženýrství

Flexibilní, rozšiřitelný, silná komunita. Vyžaduje investici do nastavení, ale pro seriózní data engineering je nepostradatelný.

airflowetldata pipelinepythonorchestrace
Teilen:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns