Transformer modely revolucionalizovaly NLP. Ale jak fungují na češtině — jazyku se sedmi pády a bohatým skloňováním?
Český BERT — Czert¶
Anglický BERT nezvládá českou morfologii. Czert z ÚFAL MFF UK je trénovaný na češtině, XLM-RoBERTa je dobrý kompromis.
Klasifikace pojišťovacích emailů¶
15 000 labelovaných emailů, Czert fine-tuned, 8 kategorií. Výsledek: accuracy 94 %. Nejisté predikce jdou na manuální posouzení.
GPT-2 pro generování¶
Fine-tuned na customer support odpovědích. Plynulý text, ale halucinace. Jako asistent pro operátory (navrhnout odpověď k úpravě) dává smysl. GPT-3 slibuje dramatické zlepšení — ale jen přes API.
NLP pro češtinu je reálné¶
Pro klasifikaci výsledky vynikající. Pro generování čekáme na lepší modely.
Brauchen Sie Hilfe bei der Implementierung?
Unsere Experten helfen Ihnen bei Design, Implementierung und Betrieb. Von der Architektur bis zur Produktion.
Kontaktieren Sie uns