OpenMetadata staví na konceptu aktivních metadata — metadata, která nejen popisují data, ale aktivně řídí procesy a kvalitu dat. Na rozdíl od pasivních katalogů, kde metadata slouží jen k dokumentaci, OpenMetadata je využívá pro automatizovaný alerting, profiling a governance. Kolaborativní funkce umožňují datovým týmům diskutovat přímo u datasetů, přiřazovat vlastníky a budovat sdílený business slovník.
Aktivní metadata platforma¶
Na rozdíl od DataHubu klade OpenMetadata důraz na kolaboraci a aktivní metadata. Vestavěný data profiler automaticky analyzuje distribuce, null hodnoty a statistiky bez nutnosti externích nástrojů.
Klíčové odlišnosti¶
- Vestavěný profiler — automatická analýza dat bez externích nástrojů, sleduje distribuce a anomálie
- Alerting — notifikace při změnách schématu, poklesu kvality dat nebo porušení SLA
- Konverzace — týmové diskuse přímo u datasetů, sloupců a pipeline
- Glossary — business slovník propojující technická metadata s business kontextem
Nasazení¶
version: "3.9"
services:
openmetadata:
image: openmetadata/server:latest
ports: ["8585:8585"]
environment:
OPENMETADATA_CLUSTER_NAME: "production"
OpenMetadata podporuje konektory pro všechny populární datové zdroje — PostgreSQL, MySQL, BigQuery, Snowflake, Redshift, S3, Kafka a desítky dalších. Ingestion pipeline běží jako samostatné workloady a lze je spouštět přes Airflow, Dagster nebo přímo z OpenMetadata UI.
Data Quality¶
Vestavěný test framework umožňuje definovat quality testy přímo v katalogu — validace rozsahů hodnot, kontrola null hodnot, ověření referenční integrity. Výsledky testů jsou viditelné v profilu datasetu a při selhání se automaticky spustí alert. Tím se metadata stávají aktivní součástí datového pipeline.
Shrnutí¶
OpenMetadata je ideální pro týmy, které chtějí aktivní kolaboraci nad daty. Vestavěný profiler, alerting a konverzace eliminují potřebu externích nástrojů pro základní data quality a governance.