Přeskočit na obsah
_CORE
AI & agentní systémy Podnikové informační systémy Cloud & Platform Engineering Datová platforma & integrace Bezpečnost & compliance QA, testování & observabilita IoT, automatizace & robotika Mobilní & digitální produkty Bankovnictví & finance Pojišťovnictví Veřejná správa Obrana & bezpečnost Zdravotnictví Energetika & utility Telco & média Průmysl & výroba Logistika & e-commerce Retail & věrnostní programy
Reference Technologie Blog Know-how Nástroje
O nás Spolupráce Kariéra
CS EN DE
Pojďme to probrat

AI testing — jak testovat nedeterministický software

02. 04. 2025 Aktualizováno: 27. 03. 2026 1 min čtení CORE SYSTEMSai
AI testing — jak testovat nedeterministický software

assert response == expected — u LLM nefunguje. Odpověď je pokaždé jiná, formulace se liší, ale smysl by měl zůstat stejný. Klasické unit testy selhávají na nedeterministickém softwaru. Potřebujeme nové testing paradigma, které validuje vlastnosti a kvalitu výstupu místo přesné shody. Toto je fundamentální posun v přístupu k testování, který si vyžaduje nové nástroje, metriky a procesy.

Nové přístupy

Property-based testing: Testujte vlastnosti, ne přesný output — odpověď musí obsahovat klíčová fakta, nesmí halucinovat, musí být v požadovaném jazyce a formátu. Metamorphic testing: Drobná změna inputu (přeformulování otázky) nesmí změnit fakta v odpovědi. LLM-as-judge: GPT-4 nebo Claude evaluuje odpovědi na základě rubric — hodnotí relevanci, přesnost, úplnost a toxicitu. Automatizovaný evaluátor nahrazuje lidské hodnocení pro většinu iterací.

Evaluation pipeline

  • Golden dataset: 100+ párů otázka/odpověď pokrývajících klíčové scénáře a edge cases
  • Automatic run: Evaluace na každý PR nebo nightly build, výsledky v CI dashboardu
  • Metriky: faithfulness (odpovídá zdrojům), relevance (odpovídá na otázku), toxicity (bezpečnost)
  • Regression detection: Alert při poklesu skóre o více než 5 % — zabraňuje tichému zhoršení

Pipeline integrujte do CI/CD — merge request s novým promptem nebo konfigurací projde evaluací stejně jako kód projde testy. Ragas, DeepEval a TruLens jsou open-source frameworky pro automatizovanou evaluaci.

Red teaming

Automatizovaný adversarial testing odhaluje zranitelnosti: prompt injection (útočník manipuluje systémový prompt), jailbreak (obcházení bezpečnostních omezení), PII leakage (model vyzradí osobní údaje z trénovacích dat). Spouštějte v CI pravidelně, ne jednorázově — nové verze modelů mohou zavést nové zranitelnosti.

AI testing je software testing 2.0

Property-based testy + LLM-as-judge + automated evaluation pipeline = production-ready AI systém. Investice do testovací infrastruktury se vrátí v kvalitě a spolehlivosti AI features.

ai testingqualitytestingautomation
Sdílet:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Potřebujete pomoc s implementací?

Naši experti vám pomohou s návrhem, implementací i provozem. Od architektury po produkci.

Kontaktujte nás
Potřebujete pomoc s implementací? Domluvit schůzku