OCR-hibák javítása neurális technológiák segítségével

Munkánk során párhuzamos optikai szövegfelismerővel digitalizált (OCR) szövegeken végeztünk utólagos korrektúrát. Kutatásunkban különböző OCR-hibákat tartalmazó szövegeket detektáló és javító modelleket implementáltunk, valamint saját Silver standard párhuzamos korpuszt építettünk. Eredményeink azt...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Laki László János
Kőrös Ádám
Ligeti-Nagy Noémi
Nyéki Bence
Vadász Noémi
Yang Zijian Győző
Váradi Tamás
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75890
LEADER 02039naa a2200325 i 4500
001 acta75890
005 20221108114906.0
008 220525s2022 hu o 1|| hun d
020 |a 978-963-306-848-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Laki László János 
245 1 0 |a OCR-hibák javítása neurális technológiák segítségével  |h [elektronikus dokumentum] /  |c  Laki László János 
260 |c 2022 
300 |a 417-430 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 18 
520 3 |a Munkánk során párhuzamos optikai szövegfelismerővel digitalizált (OCR) szövegeken végeztünk utólagos korrektúrát. Kutatásunkban különböző OCR-hibákat tartalmazó szövegeket detektáló és javító modelleket implementáltunk, valamint saját Silver standard párhuzamos korpuszt építettünk. Eredményeink azt mutatják, hogy abban az esetben, amikor kizárólag OCR-hibák javítását tűzzük ki célul, modelljeink a Context-based Character Correction (CCC) detekciós modellel való kombinációval a leghatékonyabbak. A létrehozott enkóder-dekóder alapú javító módszereink az OCR-hibák mellett nagy pontossággal javítják a szövegekben található koherenciahibákat (pl.: oldalszámok, elválasztások). Kutatásunk folytatásaként tervezzük a modellek tanítását és tesztelését a Gold standard korpuszon is. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Kőrös Ádám  |e aut 
700 0 2 |a Ligeti-Nagy Noémi  |e aut 
700 0 2 |a Nyéki Bence  |e aut 
700 0 2 |a Vadász Noémi  |e aut 
700 0 2 |a Yang Zijian Győző  |e aut 
700 0 2 |a Váradi Tamás  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/75890/1/msznykonf_018_417-430.pdf  |z Dokumentum-elérés