Evaluierung & Monitoring

Gemessene KI ist zuverlässige KI.

Kontinuierliche Qualitätsbewertung, Produktionsmonitoring, automatisierte Alarme. Weil 'es funktioniert' keine Metrik ist.

Audit vereinbaren Zurück zu KI & Agentische Systeme

100%

Eval-Abdeckung

<15 Min.

Anomalie-MTTD

Täglich

Eval-Frequenz

<2%

Falsch-positiv-Rate

Warum Evaluierung entscheidend ist¶

LLMs verändern sich. OpenAI aktualisiert ein Modell und das Verhalten ändert sich. Ihre Daten ändern sich — neue Dokumente, neue Prozesse. Benutzeranfragen ändern sich — neue Anwendungsfälle, neue Formulierungen. Ohne kontinuierliche Evaluierung wissen Sie nicht, ob Ihr KI-System funktioniert. Sie wissen nur, dass es letzten Monat funktioniert hat.

Wir haben Systeme gesehen, bei denen das Upgrade von GPT-4-0613 auf GPT-4-turbo die Qualität bei bestimmten Aufgaben um 20 % verschlechterte. Niemand bemerkte es eine Woche lang — weil es keine Evaluierung gab. Benutzer begannen sich zu beschweren, das Vertrauen sank, die Akzeptanz ging zurück. Die Behebung dauerte einen Tag, aber der Vertrauensschaden brauchte Monate zur Reparatur.

Drei Säulen der KI-Observability¶

┌───────────────────────────────────────────────────────┐
│                    KI-OBSERVABILITY                      │
│                                                        │
│  ┌──────────┐   ┌──────────────┐   ┌──────────────┐  │
│  │EVALUIERUNG│   │  MONITORING  │   │   ALARMIERUNG │  │
│  │          │   │              │   │              │  │
│  │ Antwort- │   │ Betrieb      │   │ Anomalien    │  │
│  │ qualität │   │ (Latenz,     │   │ (Qualitäts-  │  │
│  │ (offline │   │  Durchsatz,  │   │  abfall,     │  │
│  │  + online)│  │  Kosten,     │   │  Kosten-     │  │
│  │          │   │  Fehler)     │   │  spitze,     │  │
│  │          │   │              │   │  Drift)      │  │
│  └──────────┘   └──────────────┘   └──────────────┘  │
└───────────────────────────────────────────────────────┘

Evaluierung — Qualitätsmessung¶

Offline-Evaluierung (vor dem Deploy)¶

Vor jedem Deploy (neuer Prompt, neues Modell, neue Dokumente) läuft eine automatisierte Eval-Suite:

Golden Dataset: 200–500 Paare (Anfrage, erwartete Antwort, relevante Dokumente), erstellt und validiert von Domänenexperten. Der Datensatz ist versioniert und wächst mit jedem neuen Grenzfall.

Metriken:

Metrik	Was sie misst	Schwellenwert
Treue (Faithfulness)	Ist die Antwort im Kontext verankert?	>95 %
Antwortrelevanz	Beantwortet die Antwort die Anfrage?	>90 %
Vollständigkeit	Deckt die Antwort die gesamte Anfrage ab?	>85 %
Halluzinationsrate	Wie viele Aussagen ohne Verankerung im Kontext	<3 %
Kontextpräzision	Wie viel des abgerufenen Kontexts ist relevant	>80 %
Kontext-Recall	Wie viel relevante Information ist im Kontext	>90 %

LLM-as-Judge: Für subjektive Aspekte (Ist die Antwort klar? Stimmt der Ton?) verwenden wir ein stärkeres Modell als Evaluator. Wir kalibrieren gegen menschliche Annotationen (Cohens Kappa > 0,7).

Regressionstests: Jeder Deploy wird mit der vorherigen Version verglichen. Sinkt eine Metrik um mehr als 2 %, wird der Deploy blockiert und erfordert eine manuelle Überprüfung.

Online-Evaluierung (in der Produktion)¶

Nutzerfeedback: Daumen hoch/runter bei jeder Antwort. Feedback-Rate typischerweise 5–15 %. Wir korrelieren mit automatisierten Metriken zur Kalibrierung.

Stichproben: Eine zufällige Stichprobe der Produktionsanfragen (5–10 %) wird automatisch evaluiert. Wir erkennen Drift — einen allmählichen Qualitätsrückgang, der sonst unsichtbar bliebe.

A/B-Tests: Für Prompt-Änderungen, Modelländerungen, Pipeline-Änderungen. Statistisch signifikanter Vergleich auf echtem Traffic.

Monitoring — Betriebsüberwachung¶

Betriebsmetriken¶

Latenz: - P50, P95, P99 — pro Endpunkt, pro Agent - Aufschlüsselung: Retrieval-Latenz, LLM-Latenz, Tool-Call-Latenz - SLA-Tracking — wie viele Anfragen das SLA eingehalten haben

Durchsatz: - Anfragen pro Sekunde/Minute - Queue-Tiefe (für asynchrone Workflows) - Gleichzeitige Agenten

Kosten: - Token-Verbrauch (Input/Output, pro Modell) - Kosten pro Anfrage, Kosten pro erfolgreicher Lösung - Budget-Tracking mit Alarm bei Überschreitung

Fehler: - Fehlerrate pro Endpunkt - Fehlerkategorisierung (Timeout, Rate-Limit, Modellfehler, Tool-Fehler) - Retry-Rate, Dead-Letter-Queue-Größe

Anwendungsmetriken¶

Retrieval-Qualität (für RAG): - Tägliche Eval auf Golden Dataset - Retrieval-Latenz - Cache-Hit-Rate - Leere-Ergebnisse-Rate

Agent-Qualität (für Workflows): - Erfolgsrate pro Aufgabentyp - Durchschnittliche Schritte pro Aufgabe - Eskalationsrate - Revert-Rate (wie oft wurde das Agent-Ergebnis überschrieben)

Drift-Erkennung¶

Daten-Drift: Die Verteilung der Eingabeanfragen ändert sich. Wir messen den Embedding-Abstand neuer Anfragen vs. Training-/Eval-Verteilung. Alarm bei statistisch signifikanter Verschiebung.

Modell-Drift: Die Antwortqualität verschlechtert sich allmählich. Wir messen einen gleitenden Durchschnitt der Evaluierungsmetriken mit einem 7-Tage-Fenster. Alarm bei Abwärtstrend.

Konzept-Drift: Domänen ändern sich — neue Produkte, neue Prozesse, neue Vorschriften. Erkannt durch steigende Rate von „Ich weiß nicht”-Antworten oder erhöhte Eskalationsraten.

Alarmierung — auf Probleme reagieren¶

Alarm-Hierarchie¶

Schweregrad	Beispiel	Reaktion	SLA
P1 Kritisch	Agent ausgefallen, Datenleck	Sofortiger Kill-Switch, Bereitschaft	15 Min.
P2 Hoch	Genauigkeit unter Schwellenwert	Degradierter Modus, Untersuchung	1 Stunde
P3 Mittel	Latenz über SLA	Monitoring, Optimierung	4 Stunden
P4 Niedrig	Kostenspitze, leichter Drift	Review im nächsten Sprint	24 Stunden

Automatisierte Reaktionen¶

Für P1- und P2-Alarme implementieren wir automatische Gegenmaßnahmen:

Circuit Breaker — wenn Fehlerrate > 10 %, stoppt der Agent die Annahme neuer Aufgaben
Degradierter Modus — strengere Guardrails, niedrigerer Konfidenz-Schwellenwert für Eskalation
Fallback-Modell — Umschaltung auf Backup-Modell bei Ausfall des primären
Automatischer Rollback — verschlechtert ein neuer Deploy die Metriken, automatischer Rückfall auf die vorherige Version

Implementierung¶

Tech-Stack¶

Komponente	Technologie
Traces	LangSmith, OpenTelemetry
Metriken	Prometheus + Grafana
Logs	ELK Stack / Loki
Alarme	PagerDuty, Slack, E-Mail
Eval-Framework	RAGAS, kundenspezifische Eval-Suite
Dashboards	Grafana, kundenspezifisches Stakeholder-Dashboard

Typisches Dashboard¶

Das Stakeholder-Dashboard enthält: - Executive Summary — grün/gelb/rot pro Agent/Anwendungsfall - Trenddiagramme — Qualität, Latenz, Kosten der letzten 30 Tage - Top fehlschlagende Anfragen — Anfragen mit niedrigster Qualität (Input für Verbesserung) - Kostenaufschlüsselung — wie viel jeder Anwendungsfall kostet, Trend - Nutzerzufriedenheit — Feedback-Rate, Sentiment, NPS

Reporting¶

Täglich — automatisierter Report an Slack (Kernmetriken, Anomalien)
Wöchentlich — detaillierter Report mit Trends und Empfehlungen
Monatlich — Executive Report mit ROI-Analyse und Optimierungsplänen

Häufig gestellte Fragen

Eine Kombination aus automatisierten Metriken (Treue, Relevanz, Vollständigkeit), LLM-as-Judge-Evaluierung und menschlichen Annotationen zur Kalibrierung. Für jedes Projekt erstellen wir einen Golden Dataset mit 200–500 Frage-Antwort-Paaren.

Automatischer Alarm über Slack/E-Mail/PagerDuty. Überschreitet der Abfall einen kritischen Schwellenwert, wechselt der Agent in den degradierten Modus (strengere Guardrails, höhere Eskalationsrate). Das Team analysiert die Ursache und stellt einen Fix bereit.

Typischerweise 5–10 % der gesamten Betriebskosten des KI-Systems. Ohne Monitoring riskieren Sie jedoch eine stille Qualitätsverschlechterung, die um Größenordnungen mehr kosten kann (Fehlentscheidungen, Compliance-Vorfälle, Vertrauensverlust).

Ja. Wir exportieren Metriken nach Prometheus/Grafana, Logs nach ELK/Splunk, Alarme nach PagerDuty/OpsGenie. Individuelle Integration basierend auf Ihrem bestehenden Observability-Stack.

Verwandt mit

AI & Agentic Systems {'cs': 'Stavíme AI agenty s governance, bezpečností a produkčním provozem.', 'en': 'We build AI agents with governance, security, and production operations.', 'de': 'Wir bauen KI-Agenten mit Governance, Sicherheit und Produktionsbetrieb.'}

Security & Compliance {'cs': 'Zero Trust, IAM, audit, compliance.', 'en': 'Zero Trust, IAM, audit, compliance.', 'de': 'Zero Trust, IAM, Audit, Compliance.'}

Banking & Finance {'cs': 'Core banking, compliance, real-time zpracování', 'en': 'Core banking, compliance, real-time processing', 'de': 'Core Banking, Compliance, Echtzeit-Verarbeitung'}

Logistics & E-commerce {'cs': 'Supply chain, WMS, fulfillment automatizace', 'en': 'Supply chain, WMS, fulfillment automation', 'de': 'Supply Chain, WMS, Fulfillment-Automatisierung'}

Haben Sie ein Projekt?

Lassen Sie uns darüber sprechen.

Termin vereinbaren