AI testing — jak testovat nedeterministický software

assert response == expected — u LLM nefunguje. Odpověď je pokaždé jiná, formulace se liší, ale smysl by měl zůstat stejný. Klasické unit testy selhávají na nedeterministickém softwaru. Potřebujeme nové testing paradigma, které validuje vlastnosti a kvalitu výstupu místo přesné shody. Toto je fundamentální posun v přístupu k testování, který si vyžaduje nové nástroje, metriky a procesy.

Nové přístupy¶

Property-based testing: Testujte vlastnosti, ne přesný output — odpověď musí obsahovat klíčová fakta, nesmí halucinovat, musí být v požadovaném jazyce a formátu. Metamorphic testing: Drobná změna inputu (přeformulování otázky) nesmí změnit fakta v odpovědi. LLM-as-judge: GPT-4 nebo Claude evaluuje odpovědi na základě rubric — hodnotí relevanci, přesnost, úplnost a toxicitu. Automatizovaný evaluátor nahrazuje lidské hodnocení pro většinu iterací.

Evaluation pipeline¶

Golden dataset: 100+ párů otázka/odpověď pokrývajících klíčové scénáře a edge cases
Automatic run: Evaluace na každý PR nebo nightly build, výsledky v CI dashboardu
Metriky: faithfulness (odpovídá zdrojům), relevance (odpovídá na otázku), toxicity (bezpečnost)
Regression detection: Alert při poklesu skóre o více než 5 % — zabraňuje tichému zhoršení

Pipeline integrujte do CI/CD — merge request s novým promptem nebo konfigurací projde evaluací stejně jako kód projde testy. Ragas, DeepEval a TruLens jsou open-source frameworky pro automatizovanou evaluaci.

Red teaming¶

Automatizovaný adversarial testing odhaluje zranitelnosti: prompt injection (útočník manipuluje systémový prompt), jailbreak (obcházení bezpečnostních omezení), PII leakage (model vyzradí osobní údaje z trénovacích dat). Spouštějte v CI pravidelně, ne jednorázově — nové verze modelů mohou zavést nové zranitelnosti.

AI testing je software testing 2.0¶

Property-based testy + LLM-as-judge + automated evaluation pipeline = production-ready AI systém. Investice do testovací infrastruktury se vrátí v kvalitě a spolehlivosti AI features.

ai testingqualitytestingautomation

Sdílet:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Potřebujete pomoc s implementací?

Naši experti vám pomohou s návrhem, implementací i provozem. Od architektury po produkci.

Kontaktujte nás

Potřebujete pomoc s implementací? Domluvit schůzku

AI testing — jak testovat nedeterministický software

Nové přístupy¶

Evaluation pipeline¶

Red teaming¶

AI testing je software testing 2.0¶

CORE SYSTEMS

Potřebujete pomoc s implementací?

Související články

LLM evaluace — jak měřit kvalitu AI, která generuje text

AI generování testů — od unit testů po E2E automatizaci

AIOps a autonomní infrastruktura — jak AI řídí provoz v roce 2026

Great Expectations — automatizovaná validace kvality dat

Odcházíte?