Datová kvalita & Governance
Data bez kvality jsou šum. Governance bez automatizace je byrokracie.
Implementujeme data quality framework, governance model, datový katalog a lineage tracking. Víte kde data vznikla, jak se transformovala, kdo je vlastní — a jestli jim můžete věřit.
Proč je datová kvalita kritická¶
Dashboard, kterému nikdo nevěří, je dražší než žádný dashboard. Lidé ho ignorují a rozhodují se podle intuice — nebo si dělají vlastní Excel. Viděli jsme to desítkykrát:
- Revenue se liší o 5% mezi finančním a obchodním reportem
- Duplicitní zákazníci — jeden zákazník ve 3 systémech pod 3 různými ID
- Chybějící data — 15% objednávek nemá vyplněnou kategorii, segmentace je nepoužitelná
- Zastaralá data — pipeline spadla před týdnem, nikdo si nevšiml
Data quality není nice-to-have. Je to prerequisite pro jakoukoliv datovou iniciativu — BI, analytics, AI/ML.
Data Quality Framework¶
6 dimenzí kvality¶
Pro každý dataset měříme a hlídáme:
- Completeness — Jaký podíl hodnot chybí? Threshold per sloupec (např. email: max 2% null)
- Consistency — Shodují se data mezi zdroji? Zákazník v CRM = zákazník v ERP?
- Accuracy — Jsou hodnoty správné? PSČ existuje? Datum je v minulosti, ne v roce 2087?
- Timeliness — Jak čerstvá jsou data? SLA: objednávky do 5 minut, finanční data do 1 hodiny
- Uniqueness — Existují duplicity? Detekce fuzzy duplicit (Novák Jan vs. Jan Novák)
- Validity — Odpovídají hodnoty definovanému formátu a rozsahu? Email má @, věk je 0-150
Automatizované quality checks¶
Quality checks běží automaticky jako součást každé pipeline:
- dbt tests: Schema validace (unique, not_null, accepted_values, relationships)
- Great Expectations: Komplexní datové testy s human-readable dokumentací
- Custom validators: Business-specific pravidla (suma objednávky > 0, datum dodání > datum objednávky)
- Anomaly detection: Statistické anomálie v objemu, distribuci, trendech
Když quality check selže: - Pipeline se zastaví (raději žádná data než špatná data) - Alert do Slacku/Teams s detailem problému - Failed records jdou do karantény pro review - Quality incident se zaloguje s root cause a resolution
Quality dashboard¶
Centrální přehled kvality všech datasetů: - Quality score per dataset (agregace 6 dimenzí) - Trend v čase — kvalita se zlepšuje nebo zhoršuje? - Top issues — které problémy mají největší dopad? - SLA compliance — kolik datasetů splňuje definované SLA?
Data Governance¶
Ownership model¶
Každý dataset má definovaného: - Data Owner — business zodpovědnost (kdo definuje, co data znamenají) - Data Steward — operativní zodpovědnost (kdo řeší quality issues) - Technical Owner — technická zodpovědnost (kdo spravuje pipeline)
Data Contracts¶
Formální dohoda mezi producentem a konzumentem:
contract:
name: orders-v2
owner: team-ecommerce
schema:
- name: order_id
type: string
constraints: [not_null, unique]
- name: total_amount
type: decimal(10,2)
constraints: [not_null, positive]
quality:
completeness: ">99%"
freshness: "<5 minutes"
sla:
availability: "99.9%"
support: "business-hours"
Breaking change = nová verze contractu + notification všem konzumentům + migration period.
Data Lineage¶
Automaticky trackujeme cestu dat od zdroje po konzumenta:
- Odkud data přišla — zdrojový systém, tabulka, API endpoint
- Jak se transformovala — které pipeline, jaké transformace, jaké filtry
- Kam putuje — které dashboardy, modely, reporty data konzumují
- Impact analysis — změna ve zdroji → které downstream systémy jsou ovlivněny?
Nástroje: dbt lineage, DataHub, Apache Atlas, OpenLineage.
Datový katalog¶
Centrální místo pro discovery a dokumentaci dat:
- Search & discovery — analytik hledá „monthly revenue” → najde definici, vlastníka, quality score
- Business glossary — jednotné definice business termínů
- Data dictionary — technický popis tabulek a sloupců
- Usage analytics — které datasety se používají, které ne
- Collaboration — komentáře, otázky, rating
GDPR a compliance¶
Personal Data Management¶
- PII detection: Automatická klasifikace sloupců obsahujících osobní údaje
- Data masking: Pseudonymizace PII v development a testing prostředích
- Encryption: At-rest a in-transit šifrování pro citlivá data
- Access control: RBAC — přístup k PII pouze pro autorizované role
Right to be Forgotten¶
Automatizovaný pipeline pro mazání osobních údajů: 1. Request přijde přes API/formulář 2. Identifikace všech výskytů osoby napříč platformou (lineage) 3. Anonymizace/smazání ve všech systémech 4. Audit log jako důkaz compliance 5. Konfirmace žadateli
Retention Policies¶
- Automatické mazání/archivace dat po uplynutí retention period
- Per-dataset konfigurace (finanční data: 10 let, logy: 90 dní, marketingová data: 2 roky)
- Audit trail retention operací
Implementační postup¶
- Assessment (1-2 týdny): Audit současného stavu — kde jsou největší quality problémy? Existuje governance? Kdo vlastní data?
- Framework setup (2-3 týdny): Quality checks, monitoring, alerting. Ownership model. Prvních 5-10 datasetů pod governance.
- Katalog a lineage (2-4 týdny): Nasazení datového katalogu, automatický lineage, dokumentace klíčových datasetů.
- Škálování (ongoing): Postupné rozšíření na všechny datasety. Školení data stewardů. Continuous improvement.
Časté otázky
6 dimenzí: completeness (chybějící hodnoty), consistency (shoda mezi zdroji), accuracy (správnost), timeliness (čerstvost), uniqueness (duplicity), validity (formát a rozsah). Automatizované checks na vstupu i výstupu každé pipeline. Quality score per dataset, trend v čase.
Formální dohoda mezi producentem a konzumentem dat. Definuje schéma, quality expectations, SLA, ownership. Breaking change vyžaduje versioning, notification a migration period. Contract v kódu (protobuf, JSON Schema), ne v dokumentu.
Pokud máte víc než 3 zdroje dat a víc než 5 konzumentů — ano. Katalog dramaticky snižuje čas na hledání dat ('koho se mám zeptat'), zvyšuje důvěru (quality score, vlastník) a umožňuje impact analýzu při změnách.
PII detection a klasifikace, data masking/pseudonymizace, retention policies, right to be forgotten pipeline, audit trail všech přístupů, consent management integrace. Vše automatizované a auditovatelné.