Evaluating contextualized language models for Hungarian
We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT w...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2021
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/73354 |
LEADER | 01656naa a2200289 i 4500 | ||
---|---|---|---|
001 | acta73354 | ||
005 | 20221108114914.0 | ||
008 | 210928s2021 hu o 1|| eng d | ||
020 | |a 978-963-306-781-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a eng | ||
100 | 1 | |a Ács Judit | |
245 | 1 | 0 | |a Evaluating contextualized language models for Hungarian |h [elektronikus dokumentum] / |c Ács Judit |
260 | |c 2021 | ||
300 | |a 15-28 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 17 | |
520 | 3 | |a We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT works better than the other models, often by a large margin, particularly near the global optimum (typically at the middle layers). We also find that huBERT tends to generate fewer subwords for one word and that using the last subword for token-level tasks is generally a better choice than using the first one. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 1 | |a Lévai Dániel |e aut |
700 | 0 | 1 | |a Nemeskey Dávid Márk |e aut |
700 | 0 | 1 | |a Kornai András |e aut |
710 | |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/73354/1/msznykonf_017_015-028.pdf |z Dokumentum-elérés |