Zum Inhalt springen
_CORE
AI & Agentic Systems Core Information Systems Cloud & Platform Engineering Data Platform & Integration Security & Compliance QA, Testing & Observability IoT, Automation & Robotics Mobile & Digital Banking & Finance Insurance Public Administration Defense & Security Healthcare Energy & Utilities Telco & Media Manufacturing Logistics & E-commerce Retail & Loyalty
Referenzen Technologien Blog Know-how Tools
Über uns Zusammenarbeit Karriere
CS EN DE
Lassen Sie uns sprechen

Evaluierung & Monitoring

Gemessene KI ist zuverlässige KI.

Kontinuierliche Qualitätsbewertung, Produktionsmonitoring, automatisierte Alarme. Weil 'es funktioniert' keine Metrik ist.

100%
Eval-Abdeckung
<15 Min.
Anomalie-MTTD
Täglich
Eval-Frequenz
<2%
Falsch-positiv-Rate

Warum Evaluierung entscheidend ist

LLMs verändern sich. OpenAI aktualisiert ein Modell und das Verhalten ändert sich. Ihre Daten ändern sich — neue Dokumente, neue Prozesse. Benutzeranfragen ändern sich — neue Anwendungsfälle, neue Formulierungen. Ohne kontinuierliche Evaluierung wissen Sie nicht, ob Ihr KI-System funktioniert. Sie wissen nur, dass es letzten Monat funktioniert hat.

Wir haben Systeme gesehen, bei denen das Upgrade von GPT-4-0613 auf GPT-4-turbo die Qualität bei bestimmten Aufgaben um 20 % verschlechterte. Niemand bemerkte es eine Woche lang — weil es keine Evaluierung gab. Benutzer begannen sich zu beschweren, das Vertrauen sank, die Akzeptanz ging zurück. Die Behebung dauerte einen Tag, aber der Vertrauensschaden brauchte Monate zur Reparatur.

Drei Säulen der KI-Observability

┌───────────────────────────────────────────────────────┐
│                    KI-OBSERVABILITY                      │
│                                                        │
│  ┌──────────┐   ┌──────────────┐   ┌──────────────┐  │
│  │EVALUIERUNG│   │  MONITORING  │   │   ALARMIERUNG │  │
│  │          │   │              │   │              │  │
│  │ Antwort- │   │ Betrieb      │   │ Anomalien    │  │
│  │ qualität │   │ (Latenz,     │   │ (Qualitäts-  │  │
│  │ (offline │   │  Durchsatz,  │   │  abfall,     │  │
│  │  + online)│  │  Kosten,     │   │  Kosten-     │  │
│  │          │   │  Fehler)     │   │  spitze,     │  │
│  │          │   │              │   │  Drift)      │  │
│  └──────────┘   └──────────────┘   └──────────────┘  │
└───────────────────────────────────────────────────────┘

Evaluierung — Qualitätsmessung

Offline-Evaluierung (vor dem Deploy)

Vor jedem Deploy (neuer Prompt, neues Modell, neue Dokumente) läuft eine automatisierte Eval-Suite:

Golden Dataset: 200–500 Paare (Anfrage, erwartete Antwort, relevante Dokumente), erstellt und validiert von Domänenexperten. Der Datensatz ist versioniert und wächst mit jedem neuen Grenzfall.

Metriken:

Metrik Was sie misst Schwellenwert
Treue (Faithfulness) Ist die Antwort im Kontext verankert? >95 %
Antwortrelevanz Beantwortet die Antwort die Anfrage? >90 %
Vollständigkeit Deckt die Antwort die gesamte Anfrage ab? >85 %
Halluzinationsrate Wie viele Aussagen ohne Verankerung im Kontext <3 %
Kontextpräzision Wie viel des abgerufenen Kontexts ist relevant >80 %
Kontext-Recall Wie viel relevante Information ist im Kontext >90 %

LLM-as-Judge: Für subjektive Aspekte (Ist die Antwort klar? Stimmt der Ton?) verwenden wir ein stärkeres Modell als Evaluator. Wir kalibrieren gegen menschliche Annotationen (Cohens Kappa > 0,7).

Regressionstests: Jeder Deploy wird mit der vorherigen Version verglichen. Sinkt eine Metrik um mehr als 2 %, wird der Deploy blockiert und erfordert eine manuelle Überprüfung.

Online-Evaluierung (in der Produktion)

Nutzerfeedback: Daumen hoch/runter bei jeder Antwort. Feedback-Rate typischerweise 5–15 %. Wir korrelieren mit automatisierten Metriken zur Kalibrierung.

Stichproben: Eine zufällige Stichprobe der Produktionsanfragen (5–10 %) wird automatisch evaluiert. Wir erkennen Drift — einen allmählichen Qualitätsrückgang, der sonst unsichtbar bliebe.

A/B-Tests: Für Prompt-Änderungen, Modelländerungen, Pipeline-Änderungen. Statistisch signifikanter Vergleich auf echtem Traffic.

Monitoring — Betriebsüberwachung

Betriebsmetriken

Latenz: - P50, P95, P99 — pro Endpunkt, pro Agent - Aufschlüsselung: Retrieval-Latenz, LLM-Latenz, Tool-Call-Latenz - SLA-Tracking — wie viele Anfragen das SLA eingehalten haben

Durchsatz: - Anfragen pro Sekunde/Minute - Queue-Tiefe (für asynchrone Workflows) - Gleichzeitige Agenten

Kosten: - Token-Verbrauch (Input/Output, pro Modell) - Kosten pro Anfrage, Kosten pro erfolgreicher Lösung - Budget-Tracking mit Alarm bei Überschreitung

Fehler: - Fehlerrate pro Endpunkt - Fehlerkategorisierung (Timeout, Rate-Limit, Modellfehler, Tool-Fehler) - Retry-Rate, Dead-Letter-Queue-Größe

Anwendungsmetriken

Retrieval-Qualität (für RAG): - Tägliche Eval auf Golden Dataset - Retrieval-Latenz - Cache-Hit-Rate - Leere-Ergebnisse-Rate

Agent-Qualität (für Workflows): - Erfolgsrate pro Aufgabentyp - Durchschnittliche Schritte pro Aufgabe - Eskalationsrate - Revert-Rate (wie oft wurde das Agent-Ergebnis überschrieben)

Drift-Erkennung

Daten-Drift: Die Verteilung der Eingabeanfragen ändert sich. Wir messen den Embedding-Abstand neuer Anfragen vs. Training-/Eval-Verteilung. Alarm bei statistisch signifikanter Verschiebung.

Modell-Drift: Die Antwortqualität verschlechtert sich allmählich. Wir messen einen gleitenden Durchschnitt der Evaluierungsmetriken mit einem 7-Tage-Fenster. Alarm bei Abwärtstrend.

Konzept-Drift: Domänen ändern sich — neue Produkte, neue Prozesse, neue Vorschriften. Erkannt durch steigende Rate von „Ich weiß nicht”-Antworten oder erhöhte Eskalationsraten.

Alarmierung — auf Probleme reagieren

Alarm-Hierarchie

Schweregrad Beispiel Reaktion SLA
P1 Kritisch Agent ausgefallen, Datenleck Sofortiger Kill-Switch, Bereitschaft 15 Min.
P2 Hoch Genauigkeit unter Schwellenwert Degradierter Modus, Untersuchung 1 Stunde
P3 Mittel Latenz über SLA Monitoring, Optimierung 4 Stunden
P4 Niedrig Kostenspitze, leichter Drift Review im nächsten Sprint 24 Stunden

Automatisierte Reaktionen

Für P1- und P2-Alarme implementieren wir automatische Gegenmaßnahmen:

  • Circuit Breaker — wenn Fehlerrate > 10 %, stoppt der Agent die Annahme neuer Aufgaben
  • Degradierter Modus — strengere Guardrails, niedrigerer Konfidenz-Schwellenwert für Eskalation
  • Fallback-Modell — Umschaltung auf Backup-Modell bei Ausfall des primären
  • Automatischer Rollback — verschlechtert ein neuer Deploy die Metriken, automatischer Rückfall auf die vorherige Version

Implementierung

Tech-Stack

Komponente Technologie
Traces LangSmith, OpenTelemetry
Metriken Prometheus + Grafana
Logs ELK Stack / Loki
Alarme PagerDuty, Slack, E-Mail
Eval-Framework RAGAS, kundenspezifische Eval-Suite
Dashboards Grafana, kundenspezifisches Stakeholder-Dashboard

Typisches Dashboard

Das Stakeholder-Dashboard enthält: - Executive Summary — grün/gelb/rot pro Agent/Anwendungsfall - Trenddiagramme — Qualität, Latenz, Kosten der letzten 30 Tage - Top fehlschlagende Anfragen — Anfragen mit niedrigster Qualität (Input für Verbesserung) - Kostenaufschlüsselung — wie viel jeder Anwendungsfall kostet, Trend - Nutzerzufriedenheit — Feedback-Rate, Sentiment, NPS

Reporting

  • Täglich — automatisierter Report an Slack (Kernmetriken, Anomalien)
  • Wöchentlich — detaillierter Report mit Trends und Empfehlungen
  • Monatlich — Executive Report mit ROI-Analyse und Optimierungsplänen

Häufig gestellte Fragen

Eine Kombination aus automatisierten Metriken (Treue, Relevanz, Vollständigkeit), LLM-as-Judge-Evaluierung und menschlichen Annotationen zur Kalibrierung. Für jedes Projekt erstellen wir einen Golden Dataset mit 200–500 Frage-Antwort-Paaren.

Automatischer Alarm über Slack/E-Mail/PagerDuty. Überschreitet der Abfall einen kritischen Schwellenwert, wechselt der Agent in den degradierten Modus (strengere Guardrails, höhere Eskalationsrate). Das Team analysiert die Ursache und stellt einen Fix bereit.

Typischerweise 5–10 % der gesamten Betriebskosten des KI-Systems. Ohne Monitoring riskieren Sie jedoch eine stille Qualitätsverschlechterung, die um Größenordnungen mehr kosten kann (Fehlentscheidungen, Compliance-Vorfälle, Vertrauensverlust).

Ja. Wir exportieren Metriken nach Prometheus/Grafana, Logs nach ELK/Splunk, Alarme nach PagerDuty/OpsGenie. Individuelle Integration basierend auf Ihrem bestehenden Observability-Stack.

Haben Sie ein Projekt?

Lassen Sie uns darüber sprechen.

Termin vereinbaren