Systematický přístup ke kvalitě dat je základ důvěryhodné analytiky. Šest dimenzí kvality, automatizované kontroly a procesy pro kontinuální zlepšování.
Šest dimenzí datové kvality¶
- Completeness — chybějící hodnoty (% non-null)
- Uniqueness — duplikáty (% unikátních klíčů)
- Validity — hodnoty v povoleném rozsahu/formátu
- Accuracy — správnost oproti realitě
- Consistency — shoda mezi systémy
- Timeliness — data jsou dostatečně aktuální
Data Quality Score¶
# Výpočet DQ score
def calculate_dq_score(checks_results):
passed = sum(1 for c in checks_results if c.passed)
total = len(checks_results)
return (passed / total) * 100
# Příklad výstupu:
# Completeness: 99.8%
# Uniqueness: 100%
# Validity: 98.5%
# Timeliness: 100%
# Overall DQ Score: 99.6%
Automatizace¶
- Prevence — schema enforcement, validace při ingestion
- Detekce — Great Expectations, Soda, dbt tests
- Alerting — Slack/email při selhání kontrol
- Remediation — automatická oprava nebo quarantine
Shrnutí¶
DQ framework se šesti dimenzemi, automatickými kontrolami a DQ score zajišťuje systematické řízení kvality dat.
data qualityframeworkmetrikyprocesy