Automatikus írásjel-visszaállítás és Nagybetűsítés statikus korpuszon transzformer modellen alapuló neurális gépi fordítással

Cikkemben egy írásjelvisszaállító és nagybetűsítő programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapuló neurális gépi fordító rendszerrel tanítottam be. A mobil eszközökön történő üzenetírás elterjedésével és a minél gyorsabb szövegbevitelre való törekvéssel töme...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Yang Zijian Győző
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2021
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 17
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/73370
LEADER 02094naa a2200253 i 4500
001 acta73370
005 20221108114914.0
008 210928s2021 hu o 1|| hun d
020 |a 978-963-306-781-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 2 |a Yang Zijian Győző 
245 1 0 |a Automatikus írásjel-visszaállítás és Nagybetűsítés statikus korpuszon transzformer modellen alapuló neurális gépi fordítással  |h [elektronikus dokumentum] /  |c  Yang Zijian Győző 
260 |c 2021 
300 |a 225-232 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 17 
520 3 |a Cikkemben egy írásjelvisszaállító és nagybetűsítő programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapuló neurális gépi fordító rendszerrel tanítottam be. A mobil eszközökön történő üzenetírás elterjedésével és a minél gyorsabb szövegbevitelre való törekvéssel tömeges jelenséggé vált a hibás szövegek írása. Ennek egyik következménye, hogy a interneten elérhető – főleg a szociális médiából származó – korpuszok egy része hibás. Többek között írásjelek hiányoznak, vagy végig kisbetűvel írnak. Az így létrejött korpuszok nem alkalmasak különböző kutatásokhoz, csak tisztítás után. A tisztítás folyamata időigényes, ezért igény van különböző korpusztisztító módszerekre. Az általam létrehozott rendszer, annak ellenére, hogy semmilyen morfológiai és szintaktikai elemzőt nem használ, közel 81%-os f-mértékkel tudja helyesen visszaállítani az alapírásjeleket és elvégezni a nagybetűsítést magyar nyelv esetében. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
710 |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/73370/1/msznykonf_017_225-232.pdf  |z Dokumentum-elérés