Charmen ELECTRA - tokenizációmentes diszkriminatív nyelvi modellezés

Napjainkban a természetesnyelv-feldolgozás területén használt neurális modellek többsége előre definiált szótöredékekből kialakított szótárakkal dolgozik. A kötött szótár használatának eredményeképp az ezekre építő modellek érzékenyek a zajra, doménadaptációjuk költségesebb lehet, ezen felül többnye...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Ficsor Tamás
Cserháti Réka
Novák Attila
Mihajlik Péter
Zainkó Csaba
Berend Gábor
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75864
LEADER 02149naa a2200313 i 4500
001 acta75864
005 20221108114905.0
008 220524s2022 hu o 1|| hun d
020 |a 978-963-306-848-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Ficsor Tamás 
245 1 0 |a Charmen ELECTRA - tokenizációmentes diszkriminatív nyelvi modellezés  |h [elektronikus dokumentum] /  |c  Ficsor Tamás 
260 |c 2022 
300 |a 45-58 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 18 
520 3 |a Napjainkban a természetesnyelv-feldolgozás területén használt neurális modellek többsége előre definiált szótöredékekből kialakított szótárakkal dolgozik. A kötött szótár használatának eredményeképp az ezekre építő modellek érzékenyek a zajra, doménadaptációjuk költségesebb lehet, ezen felül többnyelvű modellek építése esetén a szótár mérete drasztikusan megnőhet. Ezen problémák orvoslására egy tokenizálómentes ELECTRA architektúrát mutatunk be, amely a Charformer blokkot alkalmazza a tokenizáló modul kiváltására. A modell ∼ 17%-kal kevesebb paramétert tartalmaz, mint a fix szótárral rendelkező társa. Továbbá azonos körülmények között tanított társánál szignifikánsabban jobb eredményt ér el az OpinHuBank adathalmazon. Kutatásunk további eredménye, hogy a huBERT modell finomhangolásával a szentimentosztályozás területén az OpinHuBank adatbázison a korábbi legjobb eredményt meghaladó teljesítményt értünk el. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Cserháti Réka  |e aut 
700 0 1 |a Novák Attila  |e aut 
700 0 1 |a Mihajlik Péter  |e aut 
700 0 1 |a Zainkó Csaba  |e aut 
700 0 1 |a Berend Gábor  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/75864/1/msznykonf_018_045-058.pdf  |z Dokumentum-elérés