NerKor 1.41e
Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transz...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2022
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
18 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/75888 |
Tartalmi kivonat: | Cikkünkben a legfrissebb és mind ezidáig legnagyobb magyar névelemkorpuszban, az NYTK-NerKorban szereplő annotáció automatikus kibővítésével kapcsolatos eredményeinket mutatjuk be. Az eredeti korpuszban megkülönböztetett négy entitástípust 30 körüli típusra bővítettük. Az új annotációt nyelvi transzferrel hoztuk létre. A korpuszt kiegészítettük egy kis méretű 12000 tokenes gépkocsi témájú részkorpusszal is. Ugyanakkor egyelőre sajnos a korpusz méretéből adódóan nem volt módunk a teljes anyagot alapos kézi ellenőrzésnek alávetni. Ezért az eredeti változattal ellentétben az új verzió nem tekinthető gold standardnek, különösen az eredetiben egyáltalán nem jelölt (többségében nem névelem típusú) entitások tekintetében. Teljes körű kézi ellenőrzésen csak a korpusz 2,5%-a esett át1 , amelyet tesztanyagként használtunk a cikkben bemutatott modellek kiértékeléséhez. Mindazonáltal reméljük, hogy a korpusz ezen változata hasznos anyagnak bizonyul a magyar nyelvtechnológiai közösség számára. |
---|---|
Terjedelem/Fizikai jellemzők: | 389-402 |
ISBN: | 978-963-306-848-9 |