assert response == expected — u LLM nefunguje. Odpověď je pokaždé jiná, formulace se liší, ale smysl by měl zůstat stejný. Klasické unit testy selhávají na nedeterministickém softwaru. Potřebujeme nové testing paradigma, které validuje vlastnosti a kvalitu výstupu místo přesné shody. Toto je fundamentální posun v přístupu k testování, který si vyžaduje nové nástroje, metriky a procesy.
Nové přístupy¶
Property-based testing: Testujte vlastnosti, ne přesný output — odpověď musí obsahovat klíčová fakta, nesmí halucinovat, musí být v požadovaném jazyce a formátu. Metamorphic testing: Drobná změna inputu (přeformulování otázky) nesmí změnit fakta v odpovědi. LLM-as-judge: GPT-4 nebo Claude evaluuje odpovědi na základě rubric — hodnotí relevanci, přesnost, úplnost a toxicitu. Automatizovaný evaluátor nahrazuje lidské hodnocení pro většinu iterací.
Evaluation pipeline¶
- Golden dataset: 100+ párů otázka/odpověď pokrývajících klíčové scénáře a edge cases
- Automatic run: Evaluace na každý PR nebo nightly build, výsledky v CI dashboardu
- Metriky: faithfulness (odpovídá zdrojům), relevance (odpovídá na otázku), toxicity (bezpečnost)
- Regression detection: Alert při poklesu skóre o více než 5 % — zabraňuje tichému zhoršení
Pipeline integrujte do CI/CD — merge request s novým promptem nebo konfigurací projde evaluací stejně jako kód projde testy. Ragas, DeepEval a TruLens jsou open-source frameworky pro automatizovanou evaluaci.
Red teaming¶
Automatizovaný adversarial testing odhaluje zranitelnosti: prompt injection (útočník manipuluje systémový prompt), jailbreak (obcházení bezpečnostních omezení), PII leakage (model vyzradí osobní údaje z trénovacích dat). Spouštějte v CI pravidelně, ne jednorázově — nové verze modelů mohou zavést nové zranitelnosti.
AI testing je software testing 2.0¶
Property-based testy + LLM-as-judge + automated evaluation pipeline = production-ready AI systém. Investice do testovací infrastruktury se vrátí v kvalitě a spolehlivosti AI features.
Potřebujete pomoc s implementací?
Naši experti vám pomohou s návrhem, implementací i provozem. Od architektury po produkci.
Kontaktujte nás