Klient je jednou z předních pojišťoven na českém trhu s miliony aktivních smluv. Každý den přijímá tisíce dokumentů — hlášení pojistných událostí, lékařské zprávy, fotodokumentace škod, faktury za opravy, smlouvy a korespondenci. Dosud tyto dokumenty zpracovávali operátoři ručně — otevřeli dokument, přečetli jej, identifikovali typ, extrahovali klíčová data a zadali je do systému. Průměrná doba zpracování jednoho dokumentu byla 45 minut.
Naším úkolem bylo navrhnout a implementovat AI pipeline, která tento proces zautomatizuje — od příjmu dokumentu přes klasifikaci a extrakci dat až po validaci a zápis do core systému pojišťovny.
Výzva¶
Rozmanitost dokumentů¶
Pojišťovna přijímá 15 různých typů dokumentů v různých formátech:
- Hlášení pojistných událostí — strukturované formuláře i volně psané popisy
- Lékařské zprávy — různé formáty od různých zdravotnických zařízení, často rukou psané poznámky
- Fotodokumentace — fotografie poškozených vozidel, nemovitostí, zdravotních záznamů
- Faktury a účtenky — za opravy, léčení, náhrady
- Smlouvy a dodatky — pojistné smlouvy, vinkulace, cese
- Korespondence — dopisy klientů, advokátů, třetích stran
Každý typ dokumentu má jiná pole k extrakci, jiná validační pravidla a jiné cílové systémy pro zápis dat.
Kvalita vstupů¶
Reálné dokumenty jsou daleko od ideálu:
- Skeny v nízké kvalitě, šikmé, s přeloženými rohy
- Rukou psaný text (zejména lékařské zprávy)
- Dokumenty v češtině, slovenštině, občas angličtině nebo němčině
- Smíšený obsah — tabulky, volný text, razítka, podpisy na jedné stránce
- PDF dokumenty generované různými systémy s nekonzistentní strukturou
Regulatorní požadavky¶
Pojišťovnictví je přísně regulovaný obor. Automatizace musí splňovat:
- Auditovatelnost — každé rozhodnutí AI musí být zpětně dohledatelné
- GDPR — zpracování osobních a zdravotních údajů vyžaduje zvláštní ochranu
- Přesnost — chybná extrakce dat může vést k nesprávné likvidaci pojistné události
Řešení¶
Vícevrstvá AI pipeline¶
Navrhli jsme modulární pipeline složenou z několika specializovaných AI agentů:
- Document Ingestion Agent — příjem dokumentu z e-mailu, portálu nebo API, konverze do standardního formátu
- Classification Agent — identifikace typu dokumentu pomocí fine-tuned klasifikátoru (98.5% přesnost klasifikace)
- OCR Agent — extrakce textu pomocí Azure Document Intelligence s post-processingem pro českou diakritiku
- Extraction Agent — LLM-based extrakce strukturovaných dat podle šablony specifické pro daný typ dokumentu
- Validation Agent — křížová kontrola extrahovaných dat oproti business pravidlům a existujícím datům v systému
- Human Review Agent — routing nejistých případů k lidskému operátorovi s předvyplněnými daty
LLM extrakce s guardrails¶
Jádrem systému je extraction agent postavený na Azure OpenAI GPT-4 s několika úrovněmi ochrany:
- Structured output — LLM generuje JSON podle přesně definovaného schématu pro daný typ dokumentu
- Confidence scoring — každé extrahované pole má confidence score; pod prahem 0.85 jde na lidskou kontrolu
- Cross-validation — extrahovaná data jsou porovnávána s existujícími záznamy (číslo pojistky, jméno klienta, RČ)
- Hallucination detection — každá extrahovaná hodnota musí mít odkaz na konkrétní místo ve zdrojovém dokumentu
- Prompt versioning — každý prompt je verzovaný, testovaný a auditovatelný
Human-in-the-loop¶
Ne každý dokument lze zpracovat plně automaticky. Systém inteligentně rozhoduje, kdy zapojit lidského operátora:
- Nízká confidence — pokud AI není dostatečně jistá svou extrakcí
- Nový typ dokumentu — dosud neviděný formát nebo layout
- Konfliktní data — extrahovaná data neodpovídají existujícím záznamům
- Vysoká hodnota — pojistné události nad stanoveným prahem vždy procházejí lidskou kontrolou
Operátor vidí předvyplněný formulář s daty od AI, zvýrazněná pole s nízkou confidence a odkaz na příslušné místo v dokumentu. To zkracuje ruční zpracování z 45 minut na průměrně 3 minuty.
Kontinuální učení¶
Systém se průběžně zlepšuje:
- Feedback loop — opravy od operátorů jsou automaticky zaznamenávány a použity pro vylepšení promptů
- A/B testing — nové verze promptů jsou testovány na historických datech před nasazením
- Drift detection — monitoring přesnosti v čase, automatický alert při poklesu pod práh
Výsledky¶
Zpracování z 45 minut na 15 sekund¶
Plně automaticky zpracované dokumenty (80 % všech příchozích) projdou celou pipeline za průměrně 15 sekund — od příjmu po zápis do systému. To představuje zrychlení o tři řády.
95% přesnost extrakce¶
Přesnost extrakce klíčových polí dosahuje 95 % across all document types. U strukturovaných dokumentů (formuláře, faktury) přesahuje 98 %. Zbývajících 5 % zachytí validační vrstva a routuje na lidskou kontrolu.
80% míra automatizace¶
80 % všech příchozích dokumentů je zpracováno plně automaticky bez jakéhokoli lidského zásahu. U zbývajících 20 % AI předpřipraví data a operátor pouze validuje, čímž se i ruční zpracování výrazně urychlí.
ROI za 4 měsíce¶
Investice do AI pipeline se vrátila za 4 měsíce díky úspoře pracovního času operátorů, rychlejší likvidaci pojistných událostí a vyšší spokojenosti klientů.