Feature Store: Key Infrastructure for ML in Production¶
Most ML projects fail not because of a bad model, but because of bad data in production. Feature store solves exactly this problem — it’s infrastructure that ensures your model in production gets the same quality features as during training.
Co je Feature Store¶
Feature store je centrální úložiště a serving vrstva pro ML features (příznaky). Funguje jako most mezi datovým inženýrstvím a data science.
Základní problémy, které řeší:
- Training-serving skew — model v produkci dostává jinak vypočtené features než při tréningu
- Feature reuse — každý tým počítá stejné features znovu a jinak
- Point-in-time correctness — při trénování musíte použít features přesně z daného okamžiku, ne budoucí data
- Online/offline konzistence — batch features pro trénink a real-time features pro serving musí být identické
Architektura Feature Store¶
Moderní feature store má dvě hlavní vrstvy:
Offline Store (Batch)¶
Historická data pro trénink modelů. Typicky nad data lake (S3/ADLS + Parquet/Delta Lake).
Raw Data → Feature Pipeline (Spark/dbt) → Offline Store → Training Dataset
Klíčová vlastnost: point-in-time joins. Když trénujete model na datech z ledna, features musí odpovídat hodnotám z ledna — ne aktuálním.
Online Store (Real-time)¶
Low-latency serving pro produkční inference. Typicky Redis, DynamoDB nebo Cassandra.
Event Stream → Streaming Pipeline (Flink/Spark) → Online Store → Model Serving
Latence pod 10 ms je standard. Pro real-time ML (fraud detection, doporučování, dynamic pricing) je to kritické.
Materialization¶
Proces synchronizace mezi offline a online store. Feature store automaticky:
- Počítá features z raw dat (batch i streaming)
- Ukládá do offline store s timestampy
- Materializuje nejnovější hodnoty do online store
- Verzuje schémata a transformace
Hlavní nástroje v 2026¶
Open-source¶
Feast — nejrozšířenější open-source feature store. Python-first, podporuje AWS, GCP, Azure i on-prem. Registry v Git (feature definitions as code), offline store přes BigQuery/Redshift/Spark, online store přes Redis/DynamoDB.
# Definice feature view ve Feast
from feast import FeatureView, Entity, Field
from feast.types import Float32, Int64
customer = Entity(name="customer_id", join_keys=["customer_id"])
customer_features = FeatureView(
name="customer_features",
entities=[customer],
schema=[
Field(name="total_orders_30d", dtype=Int64),
Field(name="avg_order_value_30d", dtype=Float32),
Field(name="days_since_last_order", dtype=Int64),
Field(name="churn_risk_score", dtype=Float32),
],
source=customer_data_source,
online=True,
ttl=timedelta(hours=24),
)
Hopsworks — kompletní ML platforma s integrovaným feature store. Silný v real-time features (streaming transformace). Open-core model.
Managed¶
Tecton — enterprise-grade, založen tvůrci Uberu Michelangelo. Nejlepší pro real-time features a streaming transformace. Drahý, ale production-ready.
Databricks Feature Store — nativní integrace s Unity Catalog a MLflow. Ideální pokud už jste v Databricks ekosystému.
SageMaker Feature Store — AWS nativní. Jednoduché, ale omezené na AWS.
Vertex AI Feature Store — GCP nativní. Dobrá integrace s BigQuery.
Kdy Feature Store potřebujete¶
ANO — investice se vyplatí¶
- Více ML modelů v produkci (>3) sdílí podobné features
- Real-time inference s požadavkem na latenci <100 ms
- Více týmů pracuje s ML a duplikuje feature engineering
- Regulované prostředí vyžadující audit trail a reprodukovatelnost
- Training-serving skew vám způsobuje degradaci modelů
NE — overhead se nevyplatí¶
- Máte 1-2 modely s batch inference
- Malý tým, kde komunikace stačí
- Experimenty a PoC fáze
- Features se nemění a jsou jednoduché
Implementační vzory¶
Feature Pipeline Patterns¶
Batch features — počítají se periodicky (hourly/daily). Typicky agregace: průměrný nákup za 30 dní, počet přihlášení za týden.
Streaming features — počítají se v reálném čase z event streamu. Klouzavé okno: počet transakcí za posledních 5 minut (fraud detection).
On-demand features — počítají se při request time. Vzdálenost zákazníka od nejbližší pobočky, aktuální kurz měny.
Feature Engineering Best Practices¶
- Verzujte transformace — feature definition je kód, patří do Gitu
- Testujte features — unit testy na transformace, data quality checks
- Monitorujte drift — distribuce features se v čase mění, monitorujte statistiky
- Dokumentujte byznys kontext — co feature znamená, kdo ji vlastní, kde se používá
- Standardizujte naming —
{entity}_{aggregation}_{window}_{metric}(např.customer_sum_30d_revenue)
Feature Store v českém kontextu¶
Pro české firmy s 5-50 ML modely doporučujeme:
Startovní setup (do 10 modelů): - Feast + Redis (online) + PostgreSQL/S3 (offline) - Feature definitions v Git monorepu - CI/CD pipeline pro feature materialization - Celkové náklady: ~$200-500/měsíc na infrastrukturu
Enterprise setup (10+ modelů): - Feast nebo Tecton + dedikovaný streaming (Kafka + Flink) - Delta Lake jako offline store - Centrální feature catalog s ownership a dokumentací - Feature quality monitoring (Great Expectations / Soda) - Náklady: $2,000-10,000/měsíc
ROI kalkulace¶
Typický návrat investice:
- Feature reuse: Ušetříte 2-4 týdny práce data scientisty na projekt (feature engineering je 60-80 % času)
- Training-serving konzistence: Eliminujete degradaci modelů po deployi (běžně 5-15 % ztráta accuracy)
- Time to production: Z měsíců na dny pro nový model (features už existují)
- Compliance: Audit trail zdarma — kdo, kdy, jaké features použil
Monitoring a Observability¶
Feature store bez monitoringu je jako databáze bez backupů. Sledujte:
- Freshness — jsou features aktuální? Materialization lag
- Completeness — kolik null hodnot? Missing rate per feature
- Distribution drift — změnila se distribuce? PSI (Population Stability Index)
- Latency — online serving p50/p95/p99
- Usage — které features kdo používá, které jsou mrtvé
Závěr¶
Feature store není luxus — je to nutnost pro firmy, které chtějí provozovat ML v produkci spolehlivě. Začněte s Feast a Redisem, nastavte základní pipeline, a rozšiřujte podle potřeby.
Nejdůležitější je začít s feature catalog — seznam všech features s dokumentací, vlastníkem a zdrojem. I bez plného feature store vám to ušetří desítky hodin duplikované práce.
CORE SYSTEMS pomáhá českým firmám budovat ML infrastrukturu od feature store po model serving. Kontaktujte nás pro konzultaci.
Need help with implementation?
Our experts can help with design, implementation, and operations. From architecture to production.
Contact us