Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel

Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerzők:	Pethő Gergely Sass Bálint Simon László Lipp Veronika
Testületi szerző:	Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus:	Könyv része
Megjelent:	2023
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:	Nyelvészet - számítógép alkalmazása, Nyelvmodellek
Tárgyszavak:	Természettudományok Számítás- és információtudomány
Online Access:	http://acta.bibl.u-szeged.hu/78420


LEADER	02437naa a2200265 i 4500
001	acta78420
005	20230316093401.0
008	230316s2023 hu o 1\|\| hun d
020			\|a 978-963-306-912-7
040			\|a SZTE Egyetemi Kiadványok Repozitórium \|b hun
041			\|a hun
100	1		\|a Pethő Gergely
245	1	0	\|a Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel \|h [elektronikus dokumentum] / \|c Pethő Gergely
260			\|c 2023
300			\|a 291-304
490	0		\|a Magyar Számítógépes Nyelvészeti Konferencia \|v 19
520	3		\|a Cikkünk célkitűzése kettős: egyrészt bemutatunk egy olyan egyszerű és általános módszert, amellyel karakteralapú nyelvmodellek hasznosíthatóak egyebek mellett korpuszok tisztításában, másrészt ismertetünk egy olyan konkrét, tiszta magyar sajtónyelvi korpuszon tanított nyelvmodellt, amelyre építve jó eredményeket értünk el e módszer alkalmazásával. Továbbá nyilvánosan elérhetővé tesszük az akár karakter-, akár szószintű rekurrens neurális nyelvmodellek konfigurálását és (újra)tanítását szolgáló, Pythonban írt alkalmazást, amellyel a nyelvmodellünket tanítottuk, és amelynek segítségével akár ez a magyar sajtónyelvi modell hozzáigazítható más jellegű tanítókorpuszokhoz, akár új modell tanítható be. A bemutatott kétirányú LSTM-nyelvmodell erőforrásigénye aránylag szerény, és a javasolt módszert követve közvetlenül, vagyis az adott részfeladatra történő bármilyen további betanítás nélkül jól használható a korpusztisztítás során felmerülő feladatok széles körére, például idegen nyelvű, túl sok zajt tartalmazó szövegrészek azonosítására, szórványos OCR-hibák és hiányzó ékezetek javítására. A nyelvmodellt a sorvégi elválasztások egyértelműsítése feladatra értékeltük ki: a módszer teljesítménye ezen a feladaton meghaladta a nagyon magas baseline-t.
650		4	\|a Természettudományok
650		4	\|a Számítás- és információtudomány
695			\|a Nyelvészet - számítógép alkalmazása, Nyelvmodellek
700	0	1	\|a Sass Bálint \|e aut
700	0	1	\|a Simon László \|e aut
700	0	1	\|a Lipp Veronika \|e aut
711			\|a Magyar számítógépes nyelvészeti konferencia (19.) \|c Szeged \|d 2023. január 26-27.
856	4	0	\|u http://acta.bibl.u-szeged.hu/78420/1/msznykonf_019_291-304..pdf \|z Dokumentum-elérés

Korpusztisztítás és sorvégi kötőjelek kezelése karakteralapú neurális nyelvmodellel

Hasonló tételek