NerKor 1.41e

Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transz...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Novák Attila
Novák Barbara
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75888
Leíró adatok
Tartalmi kivonat:Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transzferrel hoztuk létre. A korpuszt kiegészítettük egy kis méretű 12000 tokenes gépkocsi témájú részkorpusszal is. Ugyanakkor egyelőre sajnos a korpusz méretéből adódóan nem volt módunk a teljes anyagot alapos kézi ellenőrzésnek alávetni. Ezért az eredeti változattal ellentétben az új verzió nem tekinthető gold standardnek, különösen az eredetiben egyáltalán nem jelölt (többségében nem névelem típusú) entitások tekintetében. Teljes körű kézi ellenőrzésen csak a korpusz 2,5%-a esett át1 , amelyet tesztanyagként használtunk a cikkben bemutatott modellek kiértékeléséhez. Mindazonáltal reméljük, hogy a korpusz ezen változata hasznos anyagnak bizonyul a magyar nyelvtechnológiai közösség számára.
Terjedelem/Fizikai jellemzők:389-402
ISBN:978-963-306-848-9