Evaluierung & Monitoring
Gemessene KI ist zuverlässige KI.
Kontinuierliche Qualitätsbewertung, Produktionsmonitoring, automatisierte Alarme. Weil 'es funktioniert' keine Metrik ist.
Warum Evaluierung entscheidend ist¶
LLMs verändern sich. OpenAI aktualisiert ein Modell und das Verhalten ändert sich. Ihre Daten ändern sich — neue Dokumente, neue Prozesse. Benutzeranfragen ändern sich — neue Anwendungsfälle, neue Formulierungen. Ohne kontinuierliche Evaluierung wissen Sie nicht, ob Ihr KI-System funktioniert. Sie wissen nur, dass es letzten Monat funktioniert hat.
Wir haben Systeme gesehen, bei denen das Upgrade von GPT-4-0613 auf GPT-4-turbo die Qualität bei bestimmten Aufgaben um 20 % verschlechterte. Niemand bemerkte es eine Woche lang — weil es keine Evaluierung gab. Benutzer begannen sich zu beschweren, das Vertrauen sank, die Akzeptanz ging zurück. Die Behebung dauerte einen Tag, aber der Vertrauensschaden brauchte Monate zur Reparatur.
Drei Säulen der KI-Observability¶
┌───────────────────────────────────────────────────────┐
│ KI-OBSERVABILITY │
│ │
│ ┌──────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │EVALUIERUNG│ │ MONITORING │ │ ALARMIERUNG │ │
│ │ │ │ │ │ │ │
│ │ Antwort- │ │ Betrieb │ │ Anomalien │ │
│ │ qualität │ │ (Latenz, │ │ (Qualitäts- │ │
│ │ (offline │ │ Durchsatz, │ │ abfall, │ │
│ │ + online)│ │ Kosten, │ │ Kosten- │ │
│ │ │ │ Fehler) │ │ spitze, │ │
│ │ │ │ │ │ Drift) │ │
│ └──────────┘ └──────────────┘ └──────────────┘ │
└───────────────────────────────────────────────────────┘
Evaluierung — Qualitätsmessung¶
Offline-Evaluierung (vor dem Deploy)¶
Vor jedem Deploy (neuer Prompt, neues Modell, neue Dokumente) läuft eine automatisierte Eval-Suite:
Golden Dataset: 200–500 Paare (Anfrage, erwartete Antwort, relevante Dokumente), erstellt und validiert von Domänenexperten. Der Datensatz ist versioniert und wächst mit jedem neuen Grenzfall.
Metriken:
| Metrik | Was sie misst | Schwellenwert |
|---|---|---|
| Treue (Faithfulness) | Ist die Antwort im Kontext verankert? | >95 % |
| Antwortrelevanz | Beantwortet die Antwort die Anfrage? | >90 % |
| Vollständigkeit | Deckt die Antwort die gesamte Anfrage ab? | >85 % |
| Halluzinationsrate | Wie viele Aussagen ohne Verankerung im Kontext | <3 % |
| Kontextpräzision | Wie viel des abgerufenen Kontexts ist relevant | >80 % |
| Kontext-Recall | Wie viel relevante Information ist im Kontext | >90 % |
LLM-as-Judge: Für subjektive Aspekte (Ist die Antwort klar? Stimmt der Ton?) verwenden wir ein stärkeres Modell als Evaluator. Wir kalibrieren gegen menschliche Annotationen (Cohens Kappa > 0,7).
Regressionstests: Jeder Deploy wird mit der vorherigen Version verglichen. Sinkt eine Metrik um mehr als 2 %, wird der Deploy blockiert und erfordert eine manuelle Überprüfung.
Online-Evaluierung (in der Produktion)¶
Nutzerfeedback: Daumen hoch/runter bei jeder Antwort. Feedback-Rate typischerweise 5–15 %. Wir korrelieren mit automatisierten Metriken zur Kalibrierung.
Stichproben: Eine zufällige Stichprobe der Produktionsanfragen (5–10 %) wird automatisch evaluiert. Wir erkennen Drift — einen allmählichen Qualitätsrückgang, der sonst unsichtbar bliebe.
A/B-Tests: Für Prompt-Änderungen, Modelländerungen, Pipeline-Änderungen. Statistisch signifikanter Vergleich auf echtem Traffic.
Monitoring — Betriebsüberwachung¶
Betriebsmetriken¶
Latenz: - P50, P95, P99 — pro Endpunkt, pro Agent - Aufschlüsselung: Retrieval-Latenz, LLM-Latenz, Tool-Call-Latenz - SLA-Tracking — wie viele Anfragen das SLA eingehalten haben
Durchsatz: - Anfragen pro Sekunde/Minute - Queue-Tiefe (für asynchrone Workflows) - Gleichzeitige Agenten
Kosten: - Token-Verbrauch (Input/Output, pro Modell) - Kosten pro Anfrage, Kosten pro erfolgreicher Lösung - Budget-Tracking mit Alarm bei Überschreitung
Fehler: - Fehlerrate pro Endpunkt - Fehlerkategorisierung (Timeout, Rate-Limit, Modellfehler, Tool-Fehler) - Retry-Rate, Dead-Letter-Queue-Größe
Anwendungsmetriken¶
Retrieval-Qualität (für RAG): - Tägliche Eval auf Golden Dataset - Retrieval-Latenz - Cache-Hit-Rate - Leere-Ergebnisse-Rate
Agent-Qualität (für Workflows): - Erfolgsrate pro Aufgabentyp - Durchschnittliche Schritte pro Aufgabe - Eskalationsrate - Revert-Rate (wie oft wurde das Agent-Ergebnis überschrieben)
Drift-Erkennung¶
Daten-Drift: Die Verteilung der Eingabeanfragen ändert sich. Wir messen den Embedding-Abstand neuer Anfragen vs. Training-/Eval-Verteilung. Alarm bei statistisch signifikanter Verschiebung.
Modell-Drift: Die Antwortqualität verschlechtert sich allmählich. Wir messen einen gleitenden Durchschnitt der Evaluierungsmetriken mit einem 7-Tage-Fenster. Alarm bei Abwärtstrend.
Konzept-Drift: Domänen ändern sich — neue Produkte, neue Prozesse, neue Vorschriften. Erkannt durch steigende Rate von „Ich weiß nicht”-Antworten oder erhöhte Eskalationsraten.
Alarmierung — auf Probleme reagieren¶
Alarm-Hierarchie¶
| Schweregrad | Beispiel | Reaktion | SLA |
|---|---|---|---|
| P1 Kritisch | Agent ausgefallen, Datenleck | Sofortiger Kill-Switch, Bereitschaft | 15 Min. |
| P2 Hoch | Genauigkeit unter Schwellenwert | Degradierter Modus, Untersuchung | 1 Stunde |
| P3 Mittel | Latenz über SLA | Monitoring, Optimierung | 4 Stunden |
| P4 Niedrig | Kostenspitze, leichter Drift | Review im nächsten Sprint | 24 Stunden |
Automatisierte Reaktionen¶
Für P1- und P2-Alarme implementieren wir automatische Gegenmaßnahmen:
- Circuit Breaker — wenn Fehlerrate > 10 %, stoppt der Agent die Annahme neuer Aufgaben
- Degradierter Modus — strengere Guardrails, niedrigerer Konfidenz-Schwellenwert für Eskalation
- Fallback-Modell — Umschaltung auf Backup-Modell bei Ausfall des primären
- Automatischer Rollback — verschlechtert ein neuer Deploy die Metriken, automatischer Rückfall auf die vorherige Version
Implementierung¶
Tech-Stack¶
| Komponente | Technologie |
|---|---|
| Traces | LangSmith, OpenTelemetry |
| Metriken | Prometheus + Grafana |
| Logs | ELK Stack / Loki |
| Alarme | PagerDuty, Slack, E-Mail |
| Eval-Framework | RAGAS, kundenspezifische Eval-Suite |
| Dashboards | Grafana, kundenspezifisches Stakeholder-Dashboard |
Typisches Dashboard¶
Das Stakeholder-Dashboard enthält: - Executive Summary — grün/gelb/rot pro Agent/Anwendungsfall - Trenddiagramme — Qualität, Latenz, Kosten der letzten 30 Tage - Top fehlschlagende Anfragen — Anfragen mit niedrigster Qualität (Input für Verbesserung) - Kostenaufschlüsselung — wie viel jeder Anwendungsfall kostet, Trend - Nutzerzufriedenheit — Feedback-Rate, Sentiment, NPS
Reporting¶
- Täglich — automatisierter Report an Slack (Kernmetriken, Anomalien)
- Wöchentlich — detaillierter Report mit Trends und Empfehlungen
- Monatlich — Executive Report mit ROI-Analyse und Optimierungsplänen
Häufig gestellte Fragen
Eine Kombination aus automatisierten Metriken (Treue, Relevanz, Vollständigkeit), LLM-as-Judge-Evaluierung und menschlichen Annotationen zur Kalibrierung. Für jedes Projekt erstellen wir einen Golden Dataset mit 200–500 Frage-Antwort-Paaren.
Automatischer Alarm über Slack/E-Mail/PagerDuty. Überschreitet der Abfall einen kritischen Schwellenwert, wechselt der Agent in den degradierten Modus (strengere Guardrails, höhere Eskalationsrate). Das Team analysiert die Ursache und stellt einen Fix bereit.
Typischerweise 5–10 % der gesamten Betriebskosten des KI-Systems. Ohne Monitoring riskieren Sie jedoch eine stille Qualitätsverschlechterung, die um Größenordnungen mehr kosten kann (Fehlentscheidungen, Compliance-Vorfälle, Vertrauensverlust).
Ja. Wir exportieren Metriken nach Prometheus/Grafana, Logs nach ELK/Splunk, Alarme nach PagerDuty/OpsGenie. Individuelle Integration basierend auf Ihrem bestehenden Observability-Stack.