Přeskočit na obsah
Architektura

Lakehouse architektura — spojení data lake a warehouse

10 min čtení
LakehouseArchitekturaData LakeWarehouse

Lakehouse sjednocuje data lake a warehouse do jedné vrstvy. Open table formats, medalionová architektura a unifikovaný přístup k datům.

Od warehouse a lake k lakehouse

Medalionová architektura

  • Bronze — surová data, append-only
  • Silver — vyčištěná, validovaná
  • Gold — business agregace
# Bronze: ingestion z Kafka
bronze.writeStream.format("delta")
    .start("/lakehouse/bronze/orders")

# Silver: čištění
silver = spark.read.format("delta")
    .load("/lakehouse/bronze/orders")
    .dropDuplicates(["order_id"])
silver.write.format("delta").save("/lakehouse/silver/orders")

# Gold: agregace
gold = spark.read.format("delta")
    .load("/lakehouse/silver/orders")
    .groupBy("order_date").agg(sum("total_czk").alias("revenue"))
gold.write.format("delta").save("/lakehouse/gold/revenue")

Výhody

  • Jeden storage — žádná duplikace
  • Open formats — žádný vendor lock-in
  • Cost efficiency — levný object storage

Shrnutí

Lakehouse s medalionovým vzorem je preferovaný přístup. Bronze-Silver-Gold zajišťuje postupné zvyšování kvality.

CORE SYSTEMS tým

Enterprise architekti a AI inženýři. Stavíme systémy, které fungují.