DataHub centralizuje metadata z celého data stacku — automatický lineage, vyhledávání, tagging a governance.
DataHub — centrální hub pro metadata¶
Řeší problém — kde najít data a jak jim důvěřovat.
Funkce¶
- Automatická ingestion — 50+ konektorů
- Lineage — automatické mapování závislostí
- Search — full-text vyhledávání
- Ownership — přiřazení vlastníků
# datahub-ingestion.yml
source:
type: postgres
config:
host_port: "warehouse:5432"
database: analytics
profiling:
enabled: true
sink:
type: datahub-rest
config:
server: "http://datahub:8080"
Praktické nasazení¶
DataHub se typicky nasazuje jako Docker Compose stack nebo na Kubernetes pomocí Helm chartu. Po spuštění nakonfigurujete ingestion recipes pro jednotlivé zdroje dat — PostgreSQL, Snowflake, Airflow, dbt a desítky dalších. Ingestion běží periodicky (cron) nebo jako součást CI/CD pipeline.
Největší hodnota DataHubu spočívá v automatickém column-level lineage — vidíte, odkud data pocházejí a kam tečou, až na úroveň jednotlivých sloupců. To dramaticky zjednodušuje debugging datových problémů a impact analýzu při změnách schématu. Pro týmy, které spravují desítky databází a stovky tabulek, je datový katalog nezbytný nástroj pro zajištění data governance a snížení času stráveného hledáním správných dat.
Shrnutí¶
DataHub je přední open-source katalog s automatickým lineage a bohatými integracemi.