Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

LLM evaluace — jak měřit kvalitu AI, která generuje text

05. 11. 2023 1 Min. Lesezeit CORE SYSTEMSai
LLM evaluace — jak měřit kvalitu AI, která generuje text

Funguje to dobře? Nejtěžší otázka v LLM světě. Na rozdíl od klasického softwaru je hodnocení LLM výstupů subjektivní. Ale bez metrik letíte naslepo.

Automatické metriky

BLEU, ROUGE: Příliš rigidní pro LLM. BERTScore: Sémantická podobnost, lepší. LLM-as-judge: GPT-4 hodnotí výstupy na základě rubric. Překvapivě efektivní.

RAG-specifické metriky

  • Context Relevancy: Jsou retrieved dokumenty relevantní?
  • Faithfulness: Je odpověď podložená kontextem?
  • Answer Relevancy: Odpovídá odpověď na otázku?

Evaluation dataset

Golden dataset s páry (otázka, odpověď, context) je nejcennější artefakt AI projektu. Investujte do jeho tvorby a údržby.

Bez metrik není improvement

Začněte s LLM-as-judge a RAGAS. Měřte před a po každé změně. Intuice nestačí, čísla ano.

llm evaluaceai testingmetrikyquality
Teilen:

CORE SYSTEMS

Stavíme core systémy a AI agenty, které drží provoz. 15 let zkušeností s enterprise IT.

Brauchen Sie Hilfe bei der Implementierung?

Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.

Kontaktieren Sie uns