Data Engineering
Batch vs stream processing — jak zvolit správný přístup
Batch a stream processing jsou dva fundamentální přístupy. Batch v dávkách, stream v reálném čase. Správná volba závisí na latenci a komplexitě.
Batch vs Stream
Batch processing
- Periodické — hourly, daily
- Vysoký throughput
- Jednodušší logika
- Nástroje: Spark, dbt, Airflow
Stream processing
- Průběžné — event by event
- Nízká latence
- Komplexnější — windowing, state
- Nástroje: Kafka, Flink
Rozhodovací kritéria
- Latence <1 min → stream
- Latence hodiny/dny → batch
- Komplexní transformace → batch jednodušší
- Event-driven akce → stream
Shrnutí
Většina organizací kombinuje oba přístupy — batch pro analytiku, stream pro operační use cases.