Datový sklad & Lakehouse

Q: Data warehouse nebo data lakehouse?

Warehouse (Snowflake, BigQuery) je ideální pro strukturovaná data a BI/reporting. Lakehouse (Databricks, Delta Lake) kombinuje flexibilitu data lake se spolehlivostí warehouse — vhodný, když máte mix strukturovaných a nestrukturovaných dat, nebo potřebujete ML workloads.

Q: Kolik stojí provoz datového skladu?

Záleží na objemu a query patternu. Snowflake: od $2-5K/měsíc pro menší firmy, $20-100K+ pro enterprise. BigQuery: pay-per-query model může být levnější pro sporadické dotazy. Vždy navrhujeme s cost monitoring a optimalizací od prvního dne.

Q: Můžeme migrovat z on-premise warehouse?

Ano. Migrujeme z Oracle, SQL Server, Teradata do cloudových řešení. Proces: schema mapping, data migration, query translation, parallel run, cutover. Typicky 2-4 měsíce podle komplexity.

Q: Jak řešíte multitenancy?

Záleží na požadavcích: logická separace (row-level security, schemas) pro cost efektivitu, nebo fyzická separace (dedikované warehouse/cluster) pro regulované sektory. Většinou stačí logická separace s RBAC.

Jedno místo pro všechna data. Jeden zdroj pravdy.

Navrhujeme a implementujeme datové sklady a lakehouse architektury, které konsolidují data z desítek zdrojů do jednoho spolehlivého úložiště pro reporting, analytics i AI.

Chci konsolidovaná data Zpět na Data Platform

<5s P95

Query latence

6-10 týdnů

Implementace MVP

PB scale

Škálovatelnost

30-60%

Cost optimalizace

Proč centralizovat data do warehouse/lakehouse¶

Typický podnik má data roztroušená v desítkách systémů — ERP, CRM, e-shop, HR systém, Excel soubory, Google Sheets, API třetích stran. Každý systém má vlastní formát, vlastní definice, vlastní historii. Výsledek:

Management nedostane odpověď na jednoduchou otázku — „Jaký byl revenue tento měsíc?” vyžaduje 3 dny práce analytika
Čísla se neshodují — obchod reportuje jinak než finance, nikdo neví co je pravda
Historická data chybí — zdrojové systémy mažou nebo přepisují, žádný audit trail
AI/ML nemá data — modely potřebují konsolidovaná, čistá data na jednom místě

Warehouse vs. Lakehouse vs. Lake¶

Data Warehouse (Snowflake, BigQuery, Redshift)¶

Pro koho: Firmy se strukturovanými daty, primární potřeba je BI a reporting.

Schéma definované předem (schema-on-write)
Optimalizováno pro SQL dotazy a agregace
ACID transakce, time travel, zero-copy cloning
Managed service — žádná infrastruktura k údržbě
Nejvyšší výkon pro analytické dotazy

Data Lakehouse (Databricks, Delta Lake, Apache Iceberg)¶

Pro koho: Firmy s mixem strukturovaných a nestrukturovaných dat, ML/AI workloads.

Otevřené formáty (Delta, Iceberg, Hudi) — žádný vendor lock-in
Schema-on-read i schema-on-write
Unified processing — SQL, Python, Spark, ML v jednom prostředí
Cost-effective storage (object storage = S3/ADLS)
ACID transakce nad data lake díky Delta/Iceberg

Data Lake (S3/ADLS raw)¶

Pro koho: Landing zone pro raw data, archivace, specifické ML pipeline.

Nejlevnější storage
Žádná struktura — dump anything
Bez Delta/Iceberg = žádné ACID, žádný time travel
Typicky Bronze vrstva v Medallion architektuře

Jak vybíráme technologii¶

Neprodáváme jednu technologii. Volíme na základě vašich požadavků:

Snowflake volíme, když: primární use case je BI/reporting, tým zná SQL, potřebujete multi-cloud, data sharing mezi organizacemi, separace compute a storage je klíčová.

Databricks volíme, když: potřebujete ML/AI workloads vedle analytics, máte velké objemy nestrukturovaných dat, tým zná Python/Spark, chcete open-source formáty (Delta Lake).

BigQuery volíme, když: jste na Google Cloud, chcete serverless (žádný cluster management), pay-per-query model dává smysl pro vaše query patterny, potřebujete GIS/ML integraci.

PostgreSQL + dbt volíme, když: objem dat < 100 GB, rozpočet je omezený, tým zná PostgreSQL, nepotřebujete škálovat compute nezávisle na storage.

Implementační přístup¶

1. Discovery a data modeling (2-3 týdny)¶

Inventarizace zdrojů a datových entit
Dimensional modeling (Kimball) nebo Data Vault 2.0
Source of truth definice pro klíčové entity
Naming conventions, data types, standardy

2. Infrastruktura a ingestion (2-3 týdny)¶

Provisioning warehouse/lakehouse (IaC — Terraform)
Ingestion pipeline pro klíčové zdroje
Bronze layer — raw data, immutable, partitioned
Monitoring a alerting od prvního dne

3. Transformace a business layer (3-4 týdny)¶

dbt project setup s CI/CD
Silver layer — cleaning, validation, conforming
Gold layer — business-ready views, KPI, metriky
Semantic layer pro konzistentní definice

4. Optimalizace a hardening (ongoing)¶

Query performance tuning (clustering, materialized views)
Cost optimalizace (warehouse sizing, auto-suspend, resource monitors)
Partitioning a pruning strategie
Backup, DR, retention policies

Cost optimalizace¶

Cloudový warehouse bez governance rychle generuje nečekané náklady. Implementujeme:

Resource monitors — automatické zastavení při dosažení budget limitu
Auto-suspend/resume — warehouse neběží, když ho nikdo nepoužívá
Query profiling — identifikace drahých dotazů, optimalizace
Storage tiering — hot/warm/cold data na různých úrovních storage
Reservation vs. on-demand — pro předvídatelné workloads reserved capacity ušetří 30-60%

Časté otázky

Warehouse (Snowflake, BigQuery) je ideální pro strukturovaná data a BI/reporting. Lakehouse (Databricks, Delta Lake) kombinuje flexibilitu data lake se spolehlivostí warehouse — vhodný, když máte mix strukturovaných a nestrukturovaných dat, nebo potřebujete ML workloads.

Záleží na objemu a query patternu. Snowflake: od $2-5K/měsíc pro menší firmy, $20-100K+ pro enterprise. BigQuery: pay-per-query model může být levnější pro sporadické dotazy. Vždy navrhujeme s cost monitoring a optimalizací od prvního dne.

Ano. Migrujeme z Oracle, SQL Server, Teradata do cloudových řešení. Proces: schema mapping, data migration, query translation, parallel run, cutover. Typicky 2-4 měsíce podle komplexity.

Záleží na požadavcích: logická separace (row-level security, schemas) pro cost efektivitu, nebo fyzická separace (dedikované warehouse/cluster) pro regulované sektory. Většinou stačí logická separace s RBAC.

Souvisí s

Data Platform & Integration {'cs': 'ETL/ELT, data lakehouse, real-time pipelines.', 'en': 'ETL/ELT, data lakehouse, real-time pipelines.'}

Cloud & Platform Engineering {'cs': 'Kubernetes, IaC, CI/CD a provoz v cloudu.', 'en': 'Kubernetes, IaC, CI/CD and cloud operations.'}

Máte projekt?

Pojďme si o něm promluvit.

Domluvit schůzku