AI agenti pro zpracování dokumentů v pojišťovně

Klient je jednou z předních pojišťoven na českém trhu s miliony aktivních smluv. Každý den přijímá tisíce dokumentů — hlášení pojistných událostí, lékařské zprávy, fotodokumentace škod, faktury za opravy, smlouvy a korespondenci. Dosud tyto dokumenty zpracovávali operátoři ručně — otevřeli dokument, přečetli jej, identifikovali typ, extrahovali klíčová data a zadali je do systému. Průměrná doba zpracování jednoho dokumentu byla 45 minut.

Naším úkolem bylo navrhnout a implementovat AI pipeline, která tento proces zautomatizuje — od příjmu dokumentu přes klasifikaci a extrakci dat až po validaci a zápis do core systému pojišťovny.

Výzva¶

Rozmanitost dokumentů¶

Pojišťovna přijímá 15 různých typů dokumentů v různých formátech:

Hlášení pojistných událostí — strukturované formuláře i volně psané popisy
Lékařské zprávy — různé formáty od různých zdravotnických zařízení, často rukou psané poznámky
Fotodokumentace — fotografie poškozených vozidel, nemovitostí, zdravotních záznamů
Faktury a účtenky — za opravy, léčení, náhrady
Smlouvy a dodatky — pojistné smlouvy, vinkulace, cese
Korespondence — dopisy klientů, advokátů, třetích stran

Každý typ dokumentu má jiná pole k extrakci, jiná validační pravidla a jiné cílové systémy pro zápis dat.

Kvalita vstupů¶

Reálné dokumenty jsou daleko od ideálu:

Skeny v nízké kvalitě, šikmé, s přeloženými rohy
Rukou psaný text (zejména lékařské zprávy)
Dokumenty v češtině, slovenštině, občas angličtině nebo němčině
Smíšený obsah — tabulky, volný text, razítka, podpisy na jedné stránce
PDF dokumenty generované různými systémy s nekonzistentní strukturou

Regulatorní požadavky¶

Pojišťovnictví je přísně regulovaný obor. Automatizace musí splňovat:

Auditovatelnost — každé rozhodnutí AI musí být zpětně dohledatelné
GDPR — zpracování osobních a zdravotních údajů vyžaduje zvláštní ochranu
Přesnost — chybná extrakce dat může vést k nesprávné likvidaci pojistné události

Řešení¶

Vícevrstvá AI pipeline¶

Navrhli jsme modulární pipeline složenou z několika specializovaných AI agentů:

Document Ingestion Agent — příjem dokumentu z e-mailu, portálu nebo API, konverze do standardního formátu
Classification Agent — identifikace typu dokumentu pomocí fine-tuned klasifikátoru (98.5% přesnost klasifikace)
OCR Agent — extrakce textu pomocí Azure Document Intelligence s post-processingem pro českou diakritiku
Extraction Agent — LLM-based extrakce strukturovaných dat podle šablony specifické pro daný typ dokumentu
Validation Agent — křížová kontrola extrahovaných dat oproti business pravidlům a existujícím datům v systému
Human Review Agent — routing nejistých případů k lidskému operátorovi s předvyplněnými daty

LLM extrakce s guardrails¶

Jádrem systému je extraction agent postavený na Azure OpenAI GPT-4 s několika úrovněmi ochrany:

Structured output — LLM generuje JSON podle přesně definovaného schématu pro daný typ dokumentu
Confidence scoring — každé extrahované pole má confidence score; pod prahem 0.85 jde na lidskou kontrolu
Cross-validation — extrahovaná data jsou porovnávána s existujícími záznamy (číslo pojistky, jméno klienta, RČ)
Hallucination detection — každá extrahovaná hodnota musí mít odkaz na konkrétní místo ve zdrojovém dokumentu
Prompt versioning — každý prompt je verzovaný, testovaný a auditovatelný

Human-in-the-loop¶

Ne každý dokument lze zpracovat plně automaticky. Systém inteligentně rozhoduje, kdy zapojit lidského operátora:

Nízká confidence — pokud AI není dostatečně jistá svou extrakcí
Nový typ dokumentu — dosud neviděný formát nebo layout
Konfliktní data — extrahovaná data neodpovídají existujícím záznamům
Vysoká hodnota — pojistné události nad stanoveným prahem vždy procházejí lidskou kontrolou

Operátor vidí předvyplněný formulář s daty od AI, zvýrazněná pole s nízkou confidence a odkaz na příslušné místo v dokumentu. To zkracuje ruční zpracování z 45 minut na průměrně 3 minuty.

Kontinuální učení¶

Systém se průběžně zlepšuje:

Feedback loop — opravy od operátorů jsou automaticky zaznamenávány a použity pro vylepšení promptů
A/B testing — nové verze promptů jsou testovány na historických datech před nasazením
Drift detection — monitoring přesnosti v čase, automatický alert při poklesu pod práh

Výsledky¶

Zpracování z 45 minut na 15 sekund¶

Plně automaticky zpracované dokumenty (80 % všech příchozích) projdou celou pipeline za průměrně 15 sekund — od příjmu po zápis do systému. To představuje zrychlení o tři řády.

95% přesnost extrakce¶

Přesnost extrakce klíčových polí dosahuje 95 % across all document types. U strukturovaných dokumentů (formuláře, faktury) přesahuje 98 %. Zbývajících 5 % zachytí validační vrstva a routuje na lidskou kontrolu.

80% míra automatizace¶

80 % všech příchozích dokumentů je zpracováno plně automaticky bez jakéhokoli lidského zásahu. U zbývajících 20 % AI předpřipraví data a operátor pouze validuje, čímž se i ruční zpracování výrazně urychlí.

ROI za 4 měsíce¶

Investice do AI pipeline se vrátila za 4 měsíce díky úspoře pracovního času operátorů, rychlejší likvidaci pojistných událostí a vyšší spokojenosti klientů.

Technologie

PythonAzure OpenAIAzure Document IntelligenceLangChainPostgreSQLFastAPIDockerKubernetes