Feature Store: Key Infrastructure for ML in Production¶

Most ML projects fail not because of a bad model, but because of bad data in production. Feature store solves exactly this problem — it’s infrastructure that ensures your model in production gets the same quality features as during training.

Co je Feature Store¶

Feature store je centrální úložiště a serving vrstva pro ML features (příznaky). Funguje jako most mezi datovým inženýrstvím a data science.

Základní problémy, které řeší:

Training-serving skew — model v produkci dostává jinak vypočtené features než při tréningu
Feature reuse — každý tým počítá stejné features znovu a jinak
Point-in-time correctness — při trénování musíte použít features přesně z daného okamžiku, ne budoucí data
Online/offline konzistence — batch features pro trénink a real-time features pro serving musí být identické

Architektura Feature Store¶

Moderní feature store má dvě hlavní vrstvy:

Offline Store (Batch)¶

Historická data pro trénink modelů. Typicky nad data lake (S3/ADLS + Parquet/Delta Lake).

Raw Data → Feature Pipeline (Spark/dbt) → Offline Store → Training Dataset

Klíčová vlastnost: point-in-time joins. Když trénujete model na datech z ledna, features musí odpovídat hodnotám z ledna — ne aktuálním.

Online Store (Real-time)¶

Low-latency serving pro produkční inference. Typicky Redis, DynamoDB nebo Cassandra.

Event Stream → Streaming Pipeline (Flink/Spark) → Online Store → Model Serving

Latence pod 10 ms je standard. Pro real-time ML (fraud detection, doporučování, dynamic pricing) je to kritické.

Materialization¶

Proces synchronizace mezi offline a online store. Feature store automaticky:

Počítá features z raw dat (batch i streaming)
Ukládá do offline store s timestampy
Materializuje nejnovější hodnoty do online store
Verzuje schémata a transformace

Hlavní nástroje v 2026¶

Open-source¶

Feast — nejrozšířenější open-source feature store. Python-first, podporuje AWS, GCP, Azure i on-prem. Registry v Git (feature definitions as code), offline store přes BigQuery/Redshift/Spark, online store přes Redis/DynamoDB.

# Definice feature view ve Feast
from feast import FeatureView, Entity, Field
from feast.types import Float32, Int64

customer = Entity(name="customer_id", join_keys=["customer_id"])

customer_features = FeatureView(
    name="customer_features",
    entities=[customer],
    schema=[
        Field(name="total_orders_30d", dtype=Int64),
        Field(name="avg_order_value_30d", dtype=Float32),
        Field(name="days_since_last_order", dtype=Int64),
        Field(name="churn_risk_score", dtype=Float32),
    ],
    source=customer_data_source,
    online=True,
    ttl=timedelta(hours=24),
)

Hopsworks — kompletní ML platforma s integrovaným feature store. Silný v real-time features (streaming transformace). Open-core model.

Managed¶

Tecton — enterprise-grade, založen tvůrci Uberu Michelangelo. Nejlepší pro real-time features a streaming transformace. Drahý, ale production-ready.

Databricks Feature Store — nativní integrace s Unity Catalog a MLflow. Ideální pokud už jste v Databricks ekosystému.

SageMaker Feature Store — AWS nativní. Jednoduché, ale omezené na AWS.

Vertex AI Feature Store — GCP nativní. Dobrá integrace s BigQuery.

Kdy Feature Store potřebujete¶

ANO — investice se vyplatí¶

Více ML modelů v produkci (>3) sdílí podobné features
Real-time inference s požadavkem na latenci <100 ms
Více týmů pracuje s ML a duplikuje feature engineering
Regulované prostředí vyžadující audit trail a reprodukovatelnost
Training-serving skew vám způsobuje degradaci modelů

NE — overhead se nevyplatí¶

Máte 1-2 modely s batch inference
Malý tým, kde komunikace stačí
Experimenty a PoC fáze
Features se nemění a jsou jednoduché

Implementační vzory¶

Feature Pipeline Patterns¶

Batch features — počítají se periodicky (hourly/daily). Typicky agregace: průměrný nákup za 30 dní, počet přihlášení za týden.

Streaming features — počítají se v reálném čase z event streamu. Klouzavé okno: počet transakcí za posledních 5 minut (fraud detection).

On-demand features — počítají se při request time. Vzdálenost zákazníka od nejbližší pobočky, aktuální kurz měny.

Feature Engineering Best Practices¶

Verzujte transformace — feature definition je kód, patří do Gitu
Testujte features — unit testy na transformace, data quality checks
Monitorujte drift — distribuce features se v čase mění, monitorujte statistiky
Dokumentujte byznys kontext — co feature znamená, kdo ji vlastní, kde se používá
Standardizujte naming — {entity}_{aggregation}_{window}_{metric} (např. customer_sum_30d_revenue)

Feature Store v českém kontextu¶

Pro české firmy s 5-50 ML modely doporučujeme:

Startovní setup (do 10 modelů): - Feast + Redis (online) + PostgreSQL/S3 (offline) - Feature definitions v Git monorepu - CI/CD pipeline pro feature materialization - Celkové náklady: ~$200-500/měsíc na infrastrukturu

Enterprise setup (10+ modelů): - Feast nebo Tecton + dedikovaný streaming (Kafka + Flink) - Delta Lake jako offline store - Centrální feature catalog s ownership a dokumentací - Feature quality monitoring (Great Expectations / Soda) - Náklady: $2,000-10,000/měsíc

ROI kalkulace¶

Typický návrat investice:

Feature reuse: Ušetříte 2-4 týdny práce data scientisty na projekt (feature engineering je 60-80 % času)
Training-serving konzistence: Eliminujete degradaci modelů po deployi (běžně 5-15 % ztráta accuracy)
Time to production: Z měsíců na dny pro nový model (features už existují)
Compliance: Audit trail zdarma — kdo, kdy, jaké features použil

Monitoring a Observability¶

Feature store bez monitoringu je jako databáze bez backupů. Sledujte:

Freshness — jsou features aktuální? Materialization lag
Completeness — kolik null hodnot? Missing rate per feature
Distribution drift — změnila se distribuce? PSI (Population Stability Index)
Latency — online serving p50/p95/p99
Usage — které features kdo používá, které jsou mrtvé

Závěr¶

Feature store není luxus — je to nutnost pro firmy, které chtějí provozovat ML v produkci spolehlivě. Začněte s Feast a Redisem, nastavte základní pipeline, a rozšiřujte podle potřeby.

Nejdůležitější je začít s feature catalog — seznam všech features s dokumentací, vlastníkem a zdrojem. I bez plného feature store vám to ušetří desítky hodin duplikované práce.

CORE SYSTEMS pomáhá českým firmám budovat ML infrastrukturu od feature store po model serving. Kontaktujte nás pro konzultaci.

mlopsfeature-storeml-infrastructurereal-time-mlfeasttectondata-engineering

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Need help with implementation?

Our experts can help with design, implementation, and operations. From architecture to production.

Feature Store: Key Infrastructure for ML in Production