Automatikus írásjel-visszaállítás és Nagybetűsítés statikus korpuszon transzformer modellen alapuló neurális gépi fordítással
Cikkemben egy írásjelvisszaállító és nagybetűsítő programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapuló neurális gépi fordító rendszerrel tanítottam be. A mobil eszközökön történő üzenetírás elterjedésével és a minél gyorsabb szövegbevitelre való törekvéssel töme...
Elmentve itt :
Szerző: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2021
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/73370 |
LEADER | 02094naa a2200253 i 4500 | ||
---|---|---|---|
001 | acta73370 | ||
005 | 20221108114914.0 | ||
008 | 210928s2021 hu o 1|| hun d | ||
020 | |a 978-963-306-781-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 2 | |a Yang Zijian Győző | |
245 | 1 | 0 | |a Automatikus írásjel-visszaállítás és Nagybetűsítés statikus korpuszon transzformer modellen alapuló neurális gépi fordítással |h [elektronikus dokumentum] / |c Yang Zijian Győző |
260 | |c 2021 | ||
300 | |a 225-232 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 17 | |
520 | 3 | |a Cikkemben egy írásjelvisszaállító és nagybetűsítő programot mutatok be, amelyet a jelenkori „state-of-the-art” transzformer modellen alapuló neurális gépi fordító rendszerrel tanítottam be. A mobil eszközökön történő üzenetírás elterjedésével és a minél gyorsabb szövegbevitelre való törekvéssel tömeges jelenséggé vált a hibás szövegek írása. Ennek egyik következménye, hogy a interneten elérhető – főleg a szociális médiából származó – korpuszok egy része hibás. Többek között írásjelek hiányoznak, vagy végig kisbetűvel írnak. Az így létrejött korpuszok nem alkalmasak különböző kutatásokhoz, csak tisztítás után. A tisztítás folyamata időigényes, ezért igény van különböző korpusztisztító módszerekre. Az általam létrehozott rendszer, annak ellenére, hogy semmilyen morfológiai és szintaktikai elemzőt nem használ, közel 81%-os f-mértékkel tudja helyesen visszaállítani az alapírásjeleket és elvégezni a nagybetűsítést magyar nyelv esetében. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
710 | |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/73370/1/msznykonf_017_225-232.pdf |z Dokumentum-elérés |