Data Vault 2.0 je modelovací přístup pro agilní, škálovatelné a auditovatelné enterprise warehouse. Huby, linky a satelity umožňují paralelní vývoj.
Tři základní entity¶
- Hub — business klíče (neměnné jádro)
- Link — vztahy mezi huby
- Satellite — deskriptivní atributy s historií
CREATE TABLE hub_customer (
hub_customer_hk CHAR(32) PRIMARY KEY,
customer_id VARCHAR(50) NOT NULL,
load_date TIMESTAMP NOT NULL,
record_source VARCHAR(100) NOT NULL
);
CREATE TABLE sat_customer_details (
hub_customer_hk CHAR(32) REFERENCES hub_customer,
load_date TIMESTAMP NOT NULL,
hash_diff CHAR(32) NOT NULL,
customer_name VARCHAR(200),
email VARCHAR(200),
segment VARCHAR(50),
PRIMARY KEY (hub_customer_hk, load_date)
);
CREATE TABLE link_customer_product (
link_hk CHAR(32) PRIMARY KEY,
hub_customer_hk CHAR(32),
hub_product_hk CHAR(32),
load_date TIMESTAMP NOT NULL
);
Výhody¶
- Paralelní vývoj — nezávislé týmy
- Kompletní historie — každá změna v satelitech
- Auditovatelnost — record_source na každém záznamu
Shrnutí¶
Data Vault je ideální pro enterprise s mnoha zdroji a požadavky na auditovatelnost.
data vaultdata modelingenterprisewarehouse