„Funktioniert es gut?” Die schwierigste Frage in der LLM-Welt. Anders als bei traditioneller Software ist die Bewertung von LLM-Ausgaben subjektiv. Aber ohne Metriken fliegt man blind.
Automatisierte Metriken¶
BLEU, ROUGE: Zu starr für LLMs. BERTScore: Semantische Ähnlichkeit, besser. LLM-as-Judge: GPT-4 bewertet Ausgaben anhand einer Rubrik. Überraschend effektiv.
RAG-spezifische Metriken¶
- Context Relevancy: Sind die abgerufenen Dokumente relevant?
- Faithfulness: Ist die Antwort im Kontext verankert?
- Answer Relevancy: Beantwortet die Antwort die Frage?
Evaluierungsdatensatz¶
Ein Golden Dataset mit (Frage, Antwort, Kontext)-Paaren ist das wertvollste Artefakt eines KI-Projekts. Investieren Sie in dessen Erstellung und Pflege.
Ohne Metriken keine Verbesserung¶
Beginnen Sie mit LLM-as-Judge und RAGAS. Messen Sie vor und nach jeder Änderung. Intuition reicht nicht — Zahlen schon.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns