Data Blueprint
Architektura před technologií.
Zmapujeme vaše data zdroje, toky a konzumenty. Navrhneme Medallion architekturu s jasným source of truth a implementovatelným plánem.
Proč blueprint před implementací¶
Většina datových projektů selže na architektuře, ne na technologii. Tým vybere Snowflake, začne stavět pipeline, a za 6 měsíců: - Nikdo neví, co je source of truth pro „revenue” - 3 týmy mají 3 různé definice „active customer” - Data quality je katastrofa, nikdo nevěří dashboardům - Pipeline padají v tichu, nikdo neví proč
Blueprint tyto problémy řeší předem.
Discovery proces¶
Týden 1-2: Data Landscape Mapping - Inventarizace všech datových zdrojů (ERP, CRM, e-shop, DMS, spreadsheets) - Mapování datových toků (kdo posílá co kam, jak často, jakým kanálem) - Identifikace konzumentů (kdo data potřebuje, v jaké podobě, jak často) - Kvalitativní assessment (kde jsou problémy, co bolí nejvíc)
Týden 3: Architecture Design - Source of Truth definice pro klíčové entity (zákazník, objednávka, produkt) - Medallion architektura (Bronze → Silver → Gold) - Technology selection na základě požadavků - Data governance model (ownership, quality SLA, access control)
Týden 4: Roadmap - Prioritizace use cases podle business value a technical feasibility - MVP pipeline definice (nejvíc bolavý use case) - Timeline a resource estimate - Risk assessment a mitigation
Medallion Architecture Design¶
Pro každý projekt navrhujeme tři vrstvy:
Bronze (Raw): Přesná kopie zdrojových dat. Immutable, append-only. Žádná transformace. Účel: audit trail, reprocessing, debugging.
Silver (Cleaned): Vyčištěná, validovaná, standardizovaná data. Definované schéma, data types, constraints. Quality gates automaticky hlídají kompletnost a konzistenci.
Gold (Business-ready): Denormalizované views optimalizované pro konzumenty. Semantic layer s business definicemi metrik. Přístupové kontroly per role/tým.
Technology Selection¶
Nevybíráme technologii podle hype. Rozhodujeme na základě:
| Kritérium | Varianta A | Varianta B |
|---|---|---|
| Objem dat < 100 GB | PostgreSQL + dbt | Overkill pro Spark |
| Objem dat 100 GB - 10 TB | Snowflake / Databricks | dbt pro transformace |
| Real-time requirement | Kafka + Flink | Batch nestačí |
| Rozpočet < 50K/měsíc | Open-source stack | Managed services drahé |
| Team skill | Známá technologie | Nový tool = ramp-up time |
Výsledek: architektura, která dává smysl pro vaši situaci, ne pro vendor sales team.
Časté otázky
Implementovatelný dokument: data landscape mapa, source of truth definice, cílová architektura (Medallion), technology recommendation, prioritizovaná roadmapa, cost estimate. Ne PowerPoint — kód a diagramy.
Discovery + blueprint: 2-4 týdny, od 400K CZK. Zahrnuje workshopy s business, technický audit, architektonický návrh a roadmapu.
Ne. Datová platforma se napojuje na existující zdroje (CDC, API, export). Zdrojové systémy se nemění. Transformace probíhá v datové platformě.