_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
References Technologies Blog Know-how Tools
About Collaboration Careers
CS EN
Let's talk

Feature Store: Key Infrastructure for ML in Production

18. 02. 2026 5 min read CORE SYSTEMSAI & ML
Feature Store: Key Infrastructure for ML in Production

Feature Store: Key Infrastructure for ML in Production

Most ML projects fail not because of a bad model, but because of bad data in production. Feature store solves exactly this problem — it’s infrastructure that ensures your model in production gets the same quality features as during training.

Co je Feature Store

Feature store je centrální úložiště a serving vrstva pro ML features (příznaky). Funguje jako most mezi datovým inženýrstvím a data science.

Základní problémy, které řeší:

  • Training-serving skew — model v produkci dostává jinak vypočtené features než při tréningu
  • Feature reuse — každý tým počítá stejné features znovu a jinak
  • Point-in-time correctness — při trénování musíte použít features přesně z daného okamžiku, ne budoucí data
  • Online/offline konzistence — batch features pro trénink a real-time features pro serving musí být identické

Architektura Feature Store

Moderní feature store má dvě hlavní vrstvy:

Offline Store (Batch)

Historická data pro trénink modelů. Typicky nad data lake (S3/ADLS + Parquet/Delta Lake).

Raw Data → Feature Pipeline (Spark/dbt) → Offline Store → Training Dataset

Klíčová vlastnost: point-in-time joins. Když trénujete model na datech z ledna, features musí odpovídat hodnotám z ledna — ne aktuálním.

Online Store (Real-time)

Low-latency serving pro produkční inference. Typicky Redis, DynamoDB nebo Cassandra.

Event Stream → Streaming Pipeline (Flink/Spark) → Online Store → Model Serving

Latence pod 10 ms je standard. Pro real-time ML (fraud detection, doporučování, dynamic pricing) je to kritické.

Materialization

Proces synchronizace mezi offline a online store. Feature store automaticky:

  1. Počítá features z raw dat (batch i streaming)
  2. Ukládá do offline store s timestampy
  3. Materializuje nejnovější hodnoty do online store
  4. Verzuje schémata a transformace

Hlavní nástroje v 2026

Open-source

Feast — nejrozšířenější open-source feature store. Python-first, podporuje AWS, GCP, Azure i on-prem. Registry v Git (feature definitions as code), offline store přes BigQuery/Redshift/Spark, online store přes Redis/DynamoDB.

# Definice feature view ve Feast
from feast import FeatureView, Entity, Field
from feast.types import Float32, Int64

customer = Entity(name="customer_id", join_keys=["customer_id"])

customer_features = FeatureView(
    name="customer_features",
    entities=[customer],
    schema=[
        Field(name="total_orders_30d", dtype=Int64),
        Field(name="avg_order_value_30d", dtype=Float32),
        Field(name="days_since_last_order", dtype=Int64),
        Field(name="churn_risk_score", dtype=Float32),
    ],
    source=customer_data_source,
    online=True,
    ttl=timedelta(hours=24),
)

Hopsworks — kompletní ML platforma s integrovaným feature store. Silný v real-time features (streaming transformace). Open-core model.

Managed

Tecton — enterprise-grade, založen tvůrci Uberu Michelangelo. Nejlepší pro real-time features a streaming transformace. Drahý, ale production-ready.

Databricks Feature Store — nativní integrace s Unity Catalog a MLflow. Ideální pokud už jste v Databricks ekosystému.

SageMaker Feature Store — AWS nativní. Jednoduché, ale omezené na AWS.

Vertex AI Feature Store — GCP nativní. Dobrá integrace s BigQuery.

Kdy Feature Store potřebujete

ANO — investice se vyplatí

  • Více ML modelů v produkci (>3) sdílí podobné features
  • Real-time inference s požadavkem na latenci <100 ms
  • Více týmů pracuje s ML a duplikuje feature engineering
  • Regulované prostředí vyžadující audit trail a reprodukovatelnost
  • Training-serving skew vám způsobuje degradaci modelů

NE — overhead se nevyplatí

  • Máte 1-2 modely s batch inference
  • Malý tým, kde komunikace stačí
  • Experimenty a PoC fáze
  • Features se nemění a jsou jednoduché

Implementační vzory

Feature Pipeline Patterns

Batch features — počítají se periodicky (hourly/daily). Typicky agregace: průměrný nákup za 30 dní, počet přihlášení za týden.

Streaming features — počítají se v reálném čase z event streamu. Klouzavé okno: počet transakcí za posledních 5 minut (fraud detection).

On-demand features — počítají se při request time. Vzdálenost zákazníka od nejbližší pobočky, aktuální kurz měny.

Feature Engineering Best Practices

  1. Verzujte transformace — feature definition je kód, patří do Gitu
  2. Testujte features — unit testy na transformace, data quality checks
  3. Monitorujte drift — distribuce features se v čase mění, monitorujte statistiky
  4. Dokumentujte byznys kontext — co feature znamená, kdo ji vlastní, kde se používá
  5. Standardizujte naming{entity}_{aggregation}_{window}_{metric} (např. customer_sum_30d_revenue)

Feature Store v českém kontextu

Pro české firmy s 5-50 ML modely doporučujeme:

Startovní setup (do 10 modelů): - Feast + Redis (online) + PostgreSQL/S3 (offline) - Feature definitions v Git monorepu - CI/CD pipeline pro feature materialization - Celkové náklady: ~$200-500/měsíc na infrastrukturu

Enterprise setup (10+ modelů): - Feast nebo Tecton + dedikovaný streaming (Kafka + Flink) - Delta Lake jako offline store - Centrální feature catalog s ownership a dokumentací - Feature quality monitoring (Great Expectations / Soda) - Náklady: $2,000-10,000/měsíc

ROI kalkulace

Typický návrat investice:

  • Feature reuse: Ušetříte 2-4 týdny práce data scientisty na projekt (feature engineering je 60-80 % času)
  • Training-serving konzistence: Eliminujete degradaci modelů po deployi (běžně 5-15 % ztráta accuracy)
  • Time to production: Z měsíců na dny pro nový model (features už existují)
  • Compliance: Audit trail zdarma — kdo, kdy, jaké features použil

Monitoring a Observability

Feature store bez monitoringu je jako databáze bez backupů. Sledujte:

  • Freshness — jsou features aktuální? Materialization lag
  • Completeness — kolik null hodnot? Missing rate per feature
  • Distribution drift — změnila se distribuce? PSI (Population Stability Index)
  • Latency — online serving p50/p95/p99
  • Usage — které features kdo používá, které jsou mrtvé

Závěr

Feature store není luxus — je to nutnost pro firmy, které chtějí provozovat ML v produkci spolehlivě. Začněte s Feast a Redisem, nastavte základní pipeline, a rozšiřujte podle potřeby.

Nejdůležitější je začít s feature catalog — seznam všech features s dokumentací, vlastníkem a zdrojem. I bez plného feature store vám to ušetří desítky hodin duplikované práce.


CORE SYSTEMS pomáhá českým firmám budovat ML infrastrukturu od feature store po model serving. Kontaktujte nás pro konzultaci.

mlopsfeature-storeml-infrastructurereal-time-mlfeasttectondata-engineering
Share:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Need help with implementation?

Our experts can help with design, implementation, and operations. From architecture to production.

Contact us