Introducing huBERT
This paper introduces the huBERT family of models. The flagship is the eponymous BERT Base model trained on the new Hungarian Webcorpus 2.0, a 9-billion-token corpus of Web text collected from the Common Crawl. This model outperforms the multilingual BERT in masked language modeling by a huge margin...
Elmentve itt :
Szerző: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2021
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/73353 |
LEADER | 01339naa a2200253 i 4500 | ||
---|---|---|---|
001 | acta73353 | ||
005 | 20221108114912.0 | ||
008 | 210928s2021 hu o 1|| eng d | ||
020 | |a 978-963-306-781-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a eng | ||
100 | 1 | |a Nemeskey Dávid Márk | |
245 | 1 | 0 | |a Introducing huBERT |h [elektronikus dokumentum] / |c Nemeskey Dávid Márk |
260 | |c 2021 | ||
300 | |a 3-14 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 17 | |
520 | 3 | |a This paper introduces the huBERT family of models. The flagship is the eponymous BERT Base model trained on the new Hungarian Webcorpus 2.0, a 9-billion-token corpus of Web text collected from the Common Crawl. This model outperforms the multilingual BERT in masked language modeling by a huge margin, and achieves state-of-the-art performance in named entity recognition and NP chunking. The models are freely downloadable. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
710 | |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/73353/1/msznykonf_017_003-014.pdf |z Dokumentum-elérés |