Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

Data lake — architektura pro ukládání surových dat

25. 08. 2025 Aktualizováno: 27. 03. 2026 1 min čtení intermediate

Data lake je centrální úložiště pro surová data v libovolném formátu. Od strukturovaných tabulek po nestrukturované logy — vše na levném object storage.

Co je data lake

Ukládá data v surové podobě — schema-on-read.

Architektura

  • Storage — S3, GCS, ADLS
  • Formáty — Parquet, Avro, JSON
  • Katalog — Glue, Hive Metastore
  • Compute — Spark, Trino, DuckDB
s3://data-lake/
├── raw/           # Bronze
│   ├── orders/
│   └── events/
├── processed/     # Silver
│   └── orders/
├── curated/       # Gold
│   └── daily_revenue/
└── _metadata/

Čemu se vyhnout (data swamp)

  • Chybějící katalog
  • Žádná governance
  • Malé soubory — tisíce 1KB souborů
  • Chybějící lineage

Shrnutí

Data lake s Table Formats a governance se stává lakehouse — spolehlivý základ pro analytiku.

data lakearchitekturaobject storagebig data
Sdílet:

CORE SYSTEMS tým

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.