Přeskočit na obsah
_CORE
AI & Agentic Systems Core Informační Systémy Cloud & Platform Engineering Data Platforma & Integrace Security & Compliance QA, Testing & Observability IoT, Automatizace & Robotika Mobile & Digital Banky & Finance Pojišťovnictví Veřejná správa Obrana & Bezpečnost Zdravotnictví Energetika & Utility Telco & Média Průmysl & Výroba Logistika & E-commerce Retail & Loyalty
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
Pojďme to probrat

Evaluace & monitoring

Měřený AI je spolehlivý AI.

Kontinuální evaluace kvality, monitoring v produkci, automatické alerty. Protože 'funguje to' není metrika.

100%
Eval coverage
<15 min
MTTD anomálie
Denně
Eval frekvence
<2%
False positive rate

Proč je evaluace kritická

LLM se mění. OpenAI updatne model a chování se změní. Vaše data se mění — nové dokumenty, nové procesy. Uživatelské dotazy se mění — nové use-cases, nové formulace. Bez kontinuální evaluace nevíte, jestli váš AI systém funguje. Víte jen, že fungoval minulý měsíc.

Viděli jsme systémy, kde upgrade modelu z GPT-4-0613 na GPT-4-turbo zhoršil kvalitu specifických úloh o 20%. Nikdo si toho týden nevšiml — protože nebyla evaluace. Uživatelé si začali stěžovat, důvěra klesla, adopce spadla. Oprava trvala den, ale škoda na důvěře měsíce.

Tři pilíře AI observability

┌───────────────────────────────────────────────────────┐
│                    AI OBSERVABILITY                     │
│                                                        │
│  ┌──────────┐   ┌──────────────┐   ┌──────────────┐  │
│  │ EVALUACE │   │  MONITORING  │   │   ALERTING   │  │
│  │          │   │              │   │              │  │
│  │ Kvalita  │   │ Provoz       │   │ Anomálie     │  │
│  │ odpovědí │   │ (latence,    │   │ (pokles      │  │
│  │ (offline │   │  throughput, │   │  kvality,    │  │
│  │  + online)│   │  cost, errors│   │  spike cost, │  │
│  │          │   │  )           │   │  drift)      │  │
│  └──────────┘   └──────────────┘   └──────────────┘  │
└───────────────────────────────────────────────────────┘

Evaluace — měření kvality

Offline evaluace (před deploy)

Před každým deployem (nový prompt, nový model, nové dokumenty) proběhne automatická eval suite:

Golden dataset: 200-500 párů (dotaz, očekávaná odpověď, relevantní dokumenty) vytvořených a validovaných doménovými experty. Dataset je verzovaný a roste s každým novým edge case.

Metriky:

Metrika Co měří Threshold
Faithfulness Je odpověď podložená kontextem? >95%
Answer relevance Odpovídá odpověď na dotaz? >90%
Completeness Pokrývá odpověď celý dotaz? >85%
Hallucination rate Kolik tvrzení nemá oporu v kontextu <3%
Context precision Kolik retrievnutého kontextu je relevantní >80%
Context recall Kolik relevantních info je v kontextu >90%

LLM-as-judge: Pro subjektivní aspekty (je odpověď srozumitelná? má správný tón?) používáme silnější model jako hodnotitele. Kalibrujeme proti lidským anotacím (Cohen’s kappa > 0.7).

Regression testing: Každý deploy je porovnán proti předchozí verzi. Pokud jakákoliv metrika klesne o více než 2%, deploy je zablokován a vyžaduje manuální review.

Online evaluace (v produkci)

User feedback: Thumbs up/down na každé odpovědi. Feedback rate typicky 5-15%. Korelujeme s automatickými metrikami pro kalibraci.

Sampling: Náhodný vzorek produkčních dotazů (5-10%) evaluujeme automaticky. Detekujeme drift — postupný pokles kvality, který by jinak zůstal neviditelný.

A/B testing: Pro prompt změny, model změny, pipeline změny. Statisticky signifikantní srovnání na reálném provozu.

Monitoring — sledování provozu

Provozní metriky

Latence: - P50, P95, P99 — per endpoint, per agent - Breakdown: retrieval latency, LLM latency, tool call latency - SLA tracking — kolik požadavků splnilo SLA

Throughput: - Requests per second/minute - Queue depth (pro asynchronní workflow) - Concurrent agents

Náklady: - Token consumption (input/output, per model) - Cost per query, cost per successful resolution - Budget tracking s alertem na překročení

Errors: - Error rate per endpoint - Error kategorizace (timeout, rate limit, model error, tool error) - Retry rate, dead letter queue size

Aplikační metriky

Retrieval kvalita (pro RAG): - Denní eval na golden datasetu - Retrieval latency - Cache hit rate - Empty results rate

Agent kvalita (pro workflow): - Success rate per task type - Average steps per task - Eskalace rate - Revert rate (kolikrát byl výsledek agenta přepsán)

Drift detection

Data drift: Distribuce vstupních dotazů se mění. Měříme embedding distance nových dotazů vs. training/eval distribuce. Alert na statisticky významný posun.

Model drift: Kvalita odpovědí se postupně zhoršuje. Měříme rolling average evaluačních metrik s window 7 dní. Alert na trend poklesu.

Concept drift: Domény se mění — nové produkty, nové procesy, nové regulace. Detekujeme pomocí increasing rate of “I don’t know” odpovědí nebo zvýšené eskalace.

Alerting — reakce na problémy

Alert hierarchy

Severity Příklad Reakce SLA
P1 Critical Agent nefunkční, data leak Okamžitý kill-switch, on-call 15 min
P2 High Accuracy pod threshold Degraded mode, investigace 1 hodina
P3 Medium Latence nad SLA Monitoring, optimalizace 4 hodiny
P4 Low Cost spike, minor drift Review v next sprint 24 hodin

Automatické reakce

Pro P1 a P2 alerty implementujeme automatické mitigace:

  • Circuit breaker — pokud error rate > 10%, agent přestane přijímat nové úlohy
  • Degraded mode — striktější guardrails, nižší confidence threshold pro eskalaci
  • Fallback model — přepnutí na backup model při výpadku primárního
  • Automatic rollback — pokud nový deploy zhorší metriky, automatický návrat na předchozí verzi

Implementace

Tech stack

Komponenta Technologie
Traces LangSmith, OpenTelemetry
Metriky Prometheus + Grafana
Logy ELK Stack / Loki
Alerty PagerDuty, Slack, email
Eval framework RAGAS, custom eval suite
Dashboardy Grafana, custom stakeholder dashboard

Typický dashboard

Dashboard pro stakeholdery obsahuje: - Executive summary — zelená/žlutá/červená per agent/use-case - Trend grafy — kvalita, latence, náklady za posledních 30 dní - Top failing queries — dotazy s nejnižší kvalitou (input pro zlepšení) - Cost breakdown — kolik stojí jaký use-case, trend - User satisfaction — feedback rate, sentiment, NPS

Reporting

  • Denní — automatický report do Slacku (key metrics, anomálie)
  • Týdenní — detailní report s trendy a doporučeními
  • Měsíční — executive report s ROI analýzou a plány na optimalizaci

Časté otázky

Kombinace automatických metrik (faithfulness, relevance, completeness), LLM-as-judge evaluace a lidské anotace pro kalibraci. Pro každý projekt vytváříme golden dataset s 200-500 páry dotaz-odpověď.

Automatický alert na Slack/email/PagerDuty. Pokud pokles překročí kritický threshold, agent přejde do degraded mode (striktější guardrails, vyšší eskalace). Tým analyzuje příčinu a deployuje fix.

Typicky 5-10% celkových provozních nákladů AI systému. Bez monitoringu ale riskujete tichý pokles kvality, který může stát řádově více (špatné rozhodnutí, compliance incident, ztráta důvěry uživatelů).

Ano. Exportujeme metriky do Prometheus/Grafana, logy do ELK/Splunk, alerty do PagerDuty/OpsGenie. Custom integrace podle vašeho stávajícího observability stacku.

Máte projekt?

Pojďme si o něm promluvit.

Domluvit schůzku