Batch Processing
Hadoop ekosystém — HDFS, YARN a moderní alternativy
Hadoop odstartoval éru big data. MapReduce nahradil Spark, HDFS nahrazují cloudové storage, ale principy přetrvávají.
Hadoop — od revoluce k evoluci
HDFS
- Block storage — bloky 128 MB
- Replikace — 3 kopie
- Data locality — compute u dat
Od Hadoop ke cloudu
- HDFS → S3/GCS — elastický storage
- MapReduce → Spark — 100× rychlejší
- YARN → Kubernetes
- Hive → Trino — interaktivní SQL
CREATE EXTERNAL TABLE orders (
order_id STRING,
total_czk DECIMAL(12,2)
) STORED AS PARQUET
LOCATION 'hdfs:///data/orders/';
SELECT YEAR(order_date) AS rok,
SUM(total_czk) AS trzby
FROM orders GROUP BY YEAR(order_date);
Shrnutí
Hadoop položil základy big data. Moderní architektura nahrazuje jeho komponenty cloudovými službami.