A magyar nyelv néhány szófaji elemzőjének összevetése

A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemz...

Full description

Saved in:
Bibliographic Details
Main Authors: Kuba András
Bakota Tibor
Hócza András
Oravecz Csaba
Corporate Author: Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged)
Format: Book part
Published: 2003
Series:Magyar Számítógépes Nyelvészeti Konferencia 1
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Online Access:http://acta.bibl.u-szeged.hu/59443
Description
Summary:A dolgozatban három különböző POS tagger (szófaji egyértelmfisítő) összehasonlítására vállalkozunk. Az első egy Hidden Markov Model alapú bigram elemző (VMM), a második egy szabály alapú módszer, amely bizonytalansági osztályok felhasználásával szófaji egyértelműsítést végez (RGLeani). Mindkét elemző a Szegedi Tudományegyetem Informatikai Tanszékcsoportján készült A harmadik egyértelműsítő a jól ismert TnT [1], amely már több nyelven bizonyította képességeit, és amely a VMM-el szemben a szövegben előforduló szóhármasokat vizsgálja. Kísérleteinket a körülbelül 1,2 millió szót tartalmazó, kézzel annotált Szeged Korpuszon [2] végeztük, amely különböző szövegtípusokat foglal magába. Vizsgálatunk tárgya a szófaji egyértelműsítés, vagyis a mondatban előforduló adott szóra a lehetséges kódok közül a mondat szemantikáját visszatükröző egyértelmű tag meghatározása. Azaz a tesztelés során az egyes szavak bizonytalansági osztálya ismert volt az elemzők előtt Ez alól a TnT kivétel, mivel ez a módszer a tesztelés során a szóvégződések elemzése által következtet az ismeretlen szavak lehetséges nyelvtani kódjára.-A tesztelés során az RGLeam algoritmus 96,16% pontosságával megelőzte a VMM elemzőt (95,98%) illetve a TnT-t (95,08%). A hibásan taggelt szavak listájának összehasonlítása során kiderült, hogy a két statisztikai módszer "hajlamosabb" ugyanazokon a helyeken hibázni. A kapott eredményeket felhasználva, vizsgálatokat végeztünk arra nézve is, hogy a fenti módszereket kombinálva milyen találati pontosság érhető el.
Physical Description:16-22