Evaluating contextualized language models for Hungarian

We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT w...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Ács Judit
Lévai Dániel
Nemeskey Dávid Márk
Kornai András
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2021
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/73354
LEADER 01656naa a2200289 i 4500
001 acta73354
005 20221108114914.0
008 210928s2021 hu o 1|| eng d
020 |a 978-963-306-781-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a eng 
100 1 |a Ács Judit 
245 1 0 |a Evaluating contextualized language models for Hungarian  |h [elektronikus dokumentum] /  |c  Ács Judit 
260 |c 2021 
300 |a 15-28 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 17 
520 3 |a We present an extended comparison of contextualized language models for Hungarian. We compare huBERT, a Hungarian model against 4 multilingual models including the multilingual BERT model. We evaluate these models through three tasks, morphological probing, POS tagging and NER. We find that huBERT works better than the other models, often by a large margin, particularly near the global optimum (typically at the middle layers). We also find that huBERT tends to generate fewer subwords for one word and that using the last subword for token-level tasks is generally a better choice than using the first one. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Lévai Dániel  |e aut 
700 0 1 |a Nemeskey Dávid Márk  |e aut 
700 0 1 |a Kornai András  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/73354/1/msznykonf_017_015-028.pdf  |z Dokumentum-elérés