Der Kunde ist eine der führenden Versicherungsgesellschaften auf dem tschechischen Markt mit Millionen aktiver Verträge. Jeden Tag gehen Tausende von Dokumenten ein — Schadenmeldungen, ärztliche Berichte, Schadenfotos, Reparaturrechnungen, Verträge und Korrespondenz. Bisher wurden diese Dokumente manuell von Sachbearbeitern verarbeitet — sie öffneten ein Dokument, lasen es, identifizierten den Typ, extrahierten die wichtigsten Daten und gaben sie in das System ein. Die durchschnittliche Bearbeitungszeit pro Dokument betrug 45 Minuten.
Unsere Aufgabe war es, eine KI-Pipeline zu entwerfen und zu implementieren, die diesen Prozess automatisiert — vom Dokumenteneingang über Klassifizierung und Datenextraktion bis hin zur Validierung und Eingabe in das Kernsystem des Versicherers.
Herausforderung¶
Dokumentenvielfalt¶
Der Versicherer empfängt 15 verschiedene Dokumenttypen in unterschiedlichen Formaten:
- Schadenmeldungen — strukturierte Formulare sowie Freitextbeschreibungen
- Ärztliche Berichte — verschiedene Formate von unterschiedlichen Gesundheitseinrichtungen, oft mit handschriftlichen Notizen
- Fotodokumentation — Fotos beschädigter Fahrzeuge, Immobilien und medizinischer Unterlagen
- Rechnungen und Quittungen — für Reparaturen, Behandlungen, Erstattungen
- Verträge und Nachträge — Versicherungspolicen, Verpfändungen, Abtretungen
- Korrespondenz — Briefe von Kunden, Anwälten, Dritten
Jeder Dokumenttyp hat unterschiedliche zu extrahierende Felder, unterschiedliche Validierungsregeln und unterschiedliche Zielsysteme für die Dateneingabe.
Eingabequalität¶
Reale Dokumente sind weit vom Ideal entfernt:
- Scans in niedriger Qualität, schief, mit umgeknickten Ecken
- Handgeschriebener Text (insbesondere ärztliche Berichte)
- Dokumente auf Tschechisch, Slowakisch, gelegentlich Englisch oder Deutsch
- Gemischter Inhalt — Tabellen, Fließtext, Stempel und Unterschriften auf einer Seite
- PDF-Dokumente, die von verschiedenen Systemen mit inkonsistenter Struktur erzeugt wurden
Regulatorische Anforderungen¶
Die Versicherungsbranche ist streng reguliert. Die Automatisierung muss Folgendes erfüllen:
- Nachvollziehbarkeit — jede KI-Entscheidung muss rückverfolgbar sein
- DSGVO — die Verarbeitung personenbezogener und gesundheitlicher Daten erfordert besonderen Schutz
- Genauigkeit — fehlerhafte Datenextraktion könnte zu einer falschen Schadenregulierung führen
Lösung¶
Mehrschichtige KI-Pipeline¶
Wir entwarfen eine modulare Pipeline aus mehreren spezialisierten KI-Agenten:
- Document Ingestion Agent — Dokumenteneingang per E-Mail, Portal oder API, Konvertierung in ein Standardformat
- Classification Agent — Dokumenttyp-Identifikation mittels eines fein abgestimmten Klassifikators (98,5 % Klassifikationsgenauigkeit)
- OCR Agent — Textextraktion mit Azure Document Intelligence und Nachbearbeitung für tschechische Diakritika
- Extraction Agent — LLM-basierte strukturierte Datenextraktion nach dokumenttypspezifischen Vorlagen
- Validation Agent — Kreuzprüfung extrahierter Daten gegen Geschäftsregeln und vorhandene Systemdaten
- Human Review Agent — Weiterleitung unsicherer Fälle an menschliche Sachbearbeiter mit vorausgefüllten Daten
LLM-Extraktion mit Guardrails¶
Der Kern des Systems ist ein Extraktionsagent auf Basis von Azure OpenAI GPT-4 mit mehreren Schutzebenen:
- Strukturierte Ausgabe — das LLM generiert JSON nach einem präzise definierten Schema für jeden Dokumenttyp
- Confidence Scoring — jedes extrahierte Feld hat einen Konfidenzwert; unter dem Schwellenwert von 0,85 geht es zur menschlichen Überprüfung
- Kreuzvalidierung — extrahierte Daten werden mit bestehenden Datensätzen verglichen (Policennummer, Kundenname, Personenkennzeichen)
- Halluzinationserkennung — jeder extrahierte Wert muss auf eine bestimmte Stelle im Quelldokument verweisen
- Prompt-Versionierung — jeder Prompt wird versioniert, getestet und ist auditierbar
Human-in-the-Loop¶
Nicht jedes Dokument kann vollautomatisch verarbeitet werden. Das System entscheidet intelligent, wann ein menschlicher Sachbearbeiter einbezogen wird:
- Niedrige Konfidenz — wenn die KI ihrer Extraktion nicht ausreichend sicher ist
- Neuer Dokumenttyp — ein bisher unbekanntes Format oder Layout
- Widersprüchliche Daten — extrahierte Daten stimmen nicht mit bestehenden Datensätzen überein
- Hoher Wert — Schadensfälle über einem festgelegten Schwellenwert durchlaufen immer eine menschliche Kontrolle
Der Sachbearbeiter sieht ein vorausgefülltes Formular mit KI-extrahierten Daten, hervorgehobene Felder mit niedriger Konfidenz und einen Link zur entsprechenden Stelle im Dokument. Dies reduziert die manuelle Bearbeitung von 45 Minuten auf durchschnittlich 3 Minuten.
Kontinuierliches Lernen¶
Das System verbessert sich kontinuierlich:
- Feedback-Schleife — Korrekturen der Sachbearbeiter werden automatisch erfasst und zur Verbesserung der Prompts verwendet
- A/B-Testing — neue Prompt-Versionen werden vor der Bereitstellung an historischen Daten getestet
- Drift-Erkennung — Genauigkeitsüberwachung über die Zeit, automatische Benachrichtigung bei Leistungsabfall unter den Schwellenwert
Ergebnisse¶
Verarbeitung von 45 Minuten auf 15 Sekunden¶
Vollautomatisch verarbeitete Dokumente (80 % aller eingehenden) durchlaufen die gesamte Pipeline in durchschnittlich 15 Sekunden — vom Eingang bis zum Systemeintrag. Dies stellt eine Beschleunigung um drei Größenordnungen dar.
95 % Extraktionsgenauigkeit¶
Die Genauigkeit der Extraktion wichtiger Felder erreicht 95 % über alle Dokumenttypen hinweg. Bei strukturierten Dokumenten (Formulare, Rechnungen) übersteigt sie 98 %. Die verbleibenden 5 % werden von der Validierungsschicht erfasst und zur menschlichen Überprüfung weitergeleitet.
80 % Automatisierungsgrad¶
80 % aller eingehenden Dokumente werden vollautomatisch ohne jeglichen menschlichen Eingriff verarbeitet. Bei den verbleibenden 20 % bereitet die KI die Daten vor und der Sachbearbeiter validiert nur, was auch die manuelle Verarbeitung erheblich beschleunigt.
ROI in 4 Monaten¶
Die Investition in die KI-Pipeline amortisierte sich in 4 Monaten dank Zeitersparnis der Sachbearbeiter, schnellerer Schadenregulierung und höherer Kundenzufriedenheit.