Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai
Ebben a tanulmányban a magyar hadifoglyok adatbázisában lévő tulajdonnevek orosz-magyar átírásának módszerét és tanulságait mutatjuk be. Az adatbázisban a 682000 hadifogoly adatai cirill betűkkel leírva állnak rendelkezésre. Az adatok két körben szenvedtek torzulást: először, amikor az adatokat felv...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2021
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
17 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Transzliteráció - cirill betűk, Átírás |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/73356 |
LEADER | 02461naa a2200301 i 4500 | ||
---|---|---|---|
001 | acta73356 | ||
005 | 20221108114913.0 | ||
008 | 210928s2021 hu o 1|| hun d | ||
020 | |a 978-963-306-781-9 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 1 | |a Sass Bálint | |
245 | 1 | 0 | |a Magyar hadifoglyok adatainak orosz-magyar átírása és helyreállítása, és a szabadszöveges adatbázisok tulajdonságai |h [elektronikus dokumentum] / |c Sass Bálint |
260 | |c 2021 | ||
300 | |a 39-51 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 17 | |
520 | 3 | |a Ebben a tanulmányban a magyar hadifoglyok adatbázisában lévő tulajdonnevek orosz-magyar átírásának módszerét és tanulságait mutatjuk be. Az adatbázisban a 682000 hadifogoly adatai cirill betűkkel leírva állnak rendelkezésre. Az adatok két körben szenvedtek torzulást: először, amikor az adatokat felvevő szovjet katona hallás utána leírta, majd mikor 60 év múltán szintén orosz anyanyelvűek manuális munkával digitalizálták az anyagot a kézzel írott kartonokról. Esetünkben nem szimpla átírásról van szó, hanem valójában az eredeti magyar szó helyreállításáról. Külön feladatot jelentett a helyeket leíró adatok adatmezőkre bontása. Szabályalapú algoritmusunkban szigorú és laza átírást, valamint közelítő keresést alkalmazunk, az átírást listákkal vetjük össze. Ha egyik módszer sem vezet eredményre, akkor a buta betűről-betűre átírást adjuk vissza. Eredmény: az adatok 77%-ához tudtunk helyes helyreállított alakot rendelni. Megfogalmazunk tanulságot a kézzel készült, korlátozatlan, szabadszöveges adatbázisok szükségszerű következetlenségéről; valamint arról, hogy egyedi adatnál, tanulóadat híján van létjogosultsága a szabályalapú módszereknek. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása, Transzliteráció - cirill betűk, Átírás | ||
700 | 0 | 1 | |a Mittelholcz Iván |e aut |
700 | 0 | 1 | |a Halász Dávid |e aut |
700 | 0 | 1 | |a Lipp Veronika |e aut |
700 | 0 | 1 | |a Kalivoda Ágnes |e aut |
710 | |a Magyar számítógépes nyelvészeti konferencia (17.) (2021) (Szeged) | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/73356/1/msznykonf_017_039-051.pdf |z Dokumentum-elérés |