Introducing huBERT

This paper introduces the huBERT family of models. The flagship is the eponymous BERT Base model trained on the new Hungarian Webcorpus 2.0, a 9-billion-token corpus of Web text collected from the Common Crawl. This model outperforms the multilingual BERT in masked language modeling by a huge margin...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Nemeskey Dávid Márk
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2021
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/73353
LEADER 01339naa a2200253 i 4500
001 acta73353
005 20221108114912.0
008 210928s2021 hu o 1|| eng d
020 |a 978-963-306-781-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a eng 
100 1 |a Nemeskey Dávid Márk 
245 1 0 |a Introducing huBERT  |h [elektronikus dokumentum] /  |c  Nemeskey Dávid Márk 
260 |c 2021 
300 |a 3-14 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 17 
520 3 |a This paper introduces the huBERT family of models. The flagship is the eponymous BERT Base model trained on the new Hungarian Webcorpus 2.0, a 9-billion-token corpus of Web text collected from the Common Crawl. This model outperforms the multilingual BERT in masked language modeling by a huge margin, and achieves state-of-the-art performance in named entity recognition and NP chunking. The models are freely downloadable. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
710 |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/73353/1/msznykonf_017_003-014.pdf  |z Dokumentum-elérés