Architektura
Data lake — architektura pro ukládání surových dat
Data lake je centrální úložiště pro surová data v libovolném formátu. Od strukturovaných tabulek po nestrukturované logy — vše na levném object storage.
Co je data lake
Ukládá data v surové podobě — schema-on-read.
Architektura
- Storage — S3, GCS, ADLS
- Formáty — Parquet, Avro, JSON
- Katalog — Glue, Hive Metastore
- Compute — Spark, Trino, DuckDB
s3://data-lake/ ├── raw/ # Bronze │ ├── orders/ │ └── events/ ├── processed/ # Silver │ └── orders/ ├── curated/ # Gold │ └── daily_revenue/ └── _metadata/
Čemu se vyhnout (data swamp)
- Chybějící katalog
- Žádná governance
- Malé soubory — tisíce 1KB souborů
- Chybějící lineage
Shrnutí
Data lake s Table Formats a governance se stává lakehouse — spolehlivý základ pro analytiku.