Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel

Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Pethő Gergely
Sass Bálint
Simon László
Lipp Veronika
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus: Könyv része
Megjelent: 2023
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:Nyelvészet - számítógép alkalmazása, Nyelvmodellek
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/78420
LEADER 02437naa a2200265 i 4500
001 acta78420
005 20230316093401.0
008 230316s2023 hu o 1|| hun d
020 |a 978-963-306-912-7 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Pethő Gergely 
245 1 0 |a Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel  |h [elektronikus dokumentum] /  |c  Pethő Gergely 
260 |c 2023 
300 |a 291-304 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 19 
520 3 |a Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karakter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmodellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtónyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőforrásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosítására, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
695 |a Nyelvészet - számítógép alkalmazása, Nyelvmodellek 
700 0 1 |a Sass Bálint  |e aut 
700 0 1 |a Simon László  |e aut 
700 0 1 |a Lipp Veronika  |e aut 
711 |a Magyar számítógépes nyelvészeti konferencia (19.)  |c Szeged  |d 2023. január 26-27. 
856 4 0 |u http://acta.bibl.u-szeged.hu/78420/1/msznykonf_019_291-304..pdf  |z Dokumentum-elérés