Medalionová architektura organizuje data do tří vrstev: Bronze (surová), Silver (vyčištěná) a Gold (business-ready). Každá vrstva zvyšuje kvalitu a přidává hodnotu.
Tři vrstvy dat¶
Bronze — surová data¶
- Append-only — nikdy nemazat, nikdy neměnit
- 1:1 kopie zdrojového systému
- Metadata: ingestion timestamp, source system
Silver — vyčištěná data¶
- Deduplikace a čištění
- Typová konverze a normalizace
- Validace — quality checks
Gold — business data¶
- Agregace a business logika
- Dimenzionální modely
- Konzumace: BI, ML, API
# dbt implementace
# models/bronze/raw_orders.sql
SELECT *, current_timestamp() AS ingested_at
FROM {{ source('raw', 'orders') }}
# models/silver/stg_orders.sql
SELECT DISTINCT order_id, customer_id,
CAST(total AS DECIMAL(12,2)) AS total_czk
FROM {{ ref('raw_orders') }}
WHERE order_id IS NOT NULL
# models/gold/fct_daily_revenue.sql
SELECT order_date, SUM(total_czk) AS revenue
FROM {{ ref('stg_orders') }}
GROUP BY order_date
Shrnutí¶
Medalionová architektura je standard pro lakehouse. Bronze zachovává surová data, Silver čistí a Gold agreguje pro business.
medallionarchitekturabronzesilvergold