KI-Agenten für Dokumentenverarbeitung in der Versicherung

Der Kunde ist eine der führenden Versicherungsgesellschaften auf dem tschechischen Markt mit Millionen aktiver Verträge. Jeden Tag gehen Tausende von Dokumenten ein — Schadenmeldungen, ärztliche Berichte, Schadenfotos, Reparaturrechnungen, Verträge und Korrespondenz. Bisher wurden diese Dokumente manuell von Sachbearbeitern verarbeitet — sie öffneten ein Dokument, lasen es, identifizierten den Typ, extrahierten die wichtigsten Daten und gaben sie in das System ein. Die durchschnittliche Bearbeitungszeit pro Dokument betrug 45 Minuten.

Unsere Aufgabe war es, eine KI-Pipeline zu entwerfen und zu implementieren, die diesen Prozess automatisiert — vom Dokumenteneingang über Klassifizierung und Datenextraktion bis hin zur Validierung und Eingabe in das Kernsystem des Versicherers.

Herausforderung¶

Dokumentenvielfalt¶

Der Versicherer empfängt 15 verschiedene Dokumenttypen in unterschiedlichen Formaten:

Schadenmeldungen — strukturierte Formulare sowie Freitextbeschreibungen
Ärztliche Berichte — verschiedene Formate von unterschiedlichen Gesundheitseinrichtungen, oft mit handschriftlichen Notizen
Fotodokumentation — Fotos beschädigter Fahrzeuge, Immobilien und medizinischer Unterlagen
Rechnungen und Quittungen — für Reparaturen, Behandlungen, Erstattungen
Verträge und Nachträge — Versicherungspolicen, Verpfändungen, Abtretungen
Korrespondenz — Briefe von Kunden, Anwälten, Dritten

Jeder Dokumenttyp hat unterschiedliche zu extrahierende Felder, unterschiedliche Validierungsregeln und unterschiedliche Zielsysteme für die Dateneingabe.

Eingabequalität¶

Reale Dokumente sind weit vom Ideal entfernt:

Scans in niedriger Qualität, schief, mit umgeknickten Ecken
Handgeschriebener Text (insbesondere ärztliche Berichte)
Dokumente auf Tschechisch, Slowakisch, gelegentlich Englisch oder Deutsch
Gemischter Inhalt — Tabellen, Fließtext, Stempel und Unterschriften auf einer Seite
PDF-Dokumente, die von verschiedenen Systemen mit inkonsistenter Struktur erzeugt wurden

Regulatorische Anforderungen¶

Die Versicherungsbranche ist streng reguliert. Die Automatisierung muss Folgendes erfüllen:

Nachvollziehbarkeit — jede KI-Entscheidung muss rückverfolgbar sein
DSGVO — die Verarbeitung personenbezogener und gesundheitlicher Daten erfordert besonderen Schutz
Genauigkeit — fehlerhafte Datenextraktion könnte zu einer falschen Schadenregulierung führen

Lösung¶

Mehrschichtige KI-Pipeline¶

Wir entwarfen eine modulare Pipeline aus mehreren spezialisierten KI-Agenten:

Document Ingestion Agent — Dokumenteneingang per E-Mail, Portal oder API, Konvertierung in ein Standardformat
Classification Agent — Dokumenttyp-Identifikation mittels eines fein abgestimmten Klassifikators (98,5 % Klassifikationsgenauigkeit)
OCR Agent — Textextraktion mit Azure Document Intelligence und Nachbearbeitung für tschechische Diakritika
Extraction Agent — LLM-basierte strukturierte Datenextraktion nach dokumenttypspezifischen Vorlagen
Validation Agent — Kreuzprüfung extrahierter Daten gegen Geschäftsregeln und vorhandene Systemdaten
Human Review Agent — Weiterleitung unsicherer Fälle an menschliche Sachbearbeiter mit vorausgefüllten Daten

LLM-Extraktion mit Guardrails¶

Der Kern des Systems ist ein Extraktionsagent auf Basis von Azure OpenAI GPT-4 mit mehreren Schutzebenen:

Strukturierte Ausgabe — das LLM generiert JSON nach einem präzise definierten Schema für jeden Dokumenttyp
Confidence Scoring — jedes extrahierte Feld hat einen Konfidenzwert; unter dem Schwellenwert von 0,85 geht es zur menschlichen Überprüfung
Kreuzvalidierung — extrahierte Daten werden mit bestehenden Datensätzen verglichen (Policennummer, Kundenname, Personenkennzeichen)
Halluzinationserkennung — jeder extrahierte Wert muss auf eine bestimmte Stelle im Quelldokument verweisen
Prompt-Versionierung — jeder Prompt wird versioniert, getestet und ist auditierbar

Human-in-the-Loop¶

Nicht jedes Dokument kann vollautomatisch verarbeitet werden. Das System entscheidet intelligent, wann ein menschlicher Sachbearbeiter einbezogen wird:

Niedrige Konfidenz — wenn die KI ihrer Extraktion nicht ausreichend sicher ist
Neuer Dokumenttyp — ein bisher unbekanntes Format oder Layout
Widersprüchliche Daten — extrahierte Daten stimmen nicht mit bestehenden Datensätzen überein
Hoher Wert — Schadensfälle über einem festgelegten Schwellenwert durchlaufen immer eine menschliche Kontrolle

Der Sachbearbeiter sieht ein vorausgefülltes Formular mit KI-extrahierten Daten, hervorgehobene Felder mit niedriger Konfidenz und einen Link zur entsprechenden Stelle im Dokument. Dies reduziert die manuelle Bearbeitung von 45 Minuten auf durchschnittlich 3 Minuten.

Kontinuierliches Lernen¶

Das System verbessert sich kontinuierlich:

Feedback-Schleife — Korrekturen der Sachbearbeiter werden automatisch erfasst und zur Verbesserung der Prompts verwendet
A/B-Testing — neue Prompt-Versionen werden vor der Bereitstellung an historischen Daten getestet
Drift-Erkennung — Genauigkeitsüberwachung über die Zeit, automatische Benachrichtigung bei Leistungsabfall unter den Schwellenwert

Ergebnisse¶

Verarbeitung von 45 Minuten auf 15 Sekunden¶

Vollautomatisch verarbeitete Dokumente (80 % aller eingehenden) durchlaufen die gesamte Pipeline in durchschnittlich 15 Sekunden — vom Eingang bis zum Systemeintrag. Dies stellt eine Beschleunigung um drei Größenordnungen dar.

95 % Extraktionsgenauigkeit¶

Die Genauigkeit der Extraktion wichtiger Felder erreicht 95 % über alle Dokumenttypen hinweg. Bei strukturierten Dokumenten (Formulare, Rechnungen) übersteigt sie 98 %. Die verbleibenden 5 % werden von der Validierungsschicht erfasst und zur menschlichen Überprüfung weitergeleitet.

80 % Automatisierungsgrad¶

80 % aller eingehenden Dokumente werden vollautomatisch ohne jeglichen menschlichen Eingriff verarbeitet. Bei den verbleibenden 20 % bereitet die KI die Daten vor und der Sachbearbeiter validiert nur, was auch die manuelle Verarbeitung erheblich beschleunigt.

ROI in 4 Monaten¶

Die Investition in die KI-Pipeline amortisierte sich in 4 Monaten dank Zeitersparnis der Sachbearbeiter, schnellerer Schadenregulierung und höherer Kundenzufriedenheit.

Technologien

PythonAzure OpenAIAzure Document IntelligenceLangChainPostgreSQLFastAPIDockerKubernetes