Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Data lake — architektura pro ukládání surových dat

25. 08. 2025 1 Min. Lesezeit intermediate

Data lake je centrální úložiště pro surová data v libovolném formátu. Od strukturovaných tabulek po nestrukturované logy — vše na levném object storage.

Co je data lake

Ukládá data v surové podobě — schema-on-read.

Architektura

  • Storage — S3, GCS, ADLS
  • Formáty — Parquet, Avro, JSON
  • Katalog — Glue, Hive Metastore
  • Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/           # Bronze
│   ├── orders/
│   └── events/
├── processed/     # Silver
│   └── orders/
├── curated/       # Gold
│   └── daily_revenue/
└── _metadata/

Čemu se vyhnout (data swamp)

  • Chybějící katalog
  • Žádná governance
  • Malé soubory — tisíce 1KB souborů
  • Chybějící lineage

Shrnutí

Data lake s Table Formats a governance se stává lakehouse — spolehlivý základ pro analytiku.

data lakearchitekturaobject storagebig data
Teilen:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.