Névmási anaforafeloldási kísérletek a magyar nyelvben
The aim of the dissertation is to examine the results of the currently used supervised machine learning experimental methods for automatic anaphora resolution in Hungarian texts. I used two corpora for the experiments: the SzegedKoref Corpus, which is the coreference annotated subcorpus of the Szege...
Elmentve itt :
Szerző: | |
---|---|
További közreműködők: | |
Dokumentumtípus: | Disszertáció |
Megjelent: |
2022-02-01
|
Kulcsszavak: | névmás, anafora, koreferencia, korpusznyelvészet, számítógépes nyelvészet |
Tárgyszavak: | |
doi: | 10.14232/phd.10950 |
mtmt: | 32869501 |
Online Access: | http://doktori.ek.szte.hu/10950 |
Tartalmi kivonat: | The aim of the dissertation is to examine the results of the currently used supervised machine learning experimental methods for automatic anaphora resolution in Hungarian texts. I used two corpora for the experiments: the SzegedKoref Corpus, which is the coreference annotated subcorpus of the Szeged Corpus, and for comparison the KorKorpusz. Machine learning experiments were performed using the Weka software, the Mention-pair model, and the Random forest algorithm. In these experiments the classifier makes decisions about pairs of mentions, namely, whether they are anaphorically related to each other or not, so for evaluation I used the MUC task evaluation metrics. My null hypothesis is that it is possible to automatically resolve pronominal anaphoras in Hungarian texts without semantic information, only based on morphological, syntactical, and other surface structure-based features. My first hypothesis is that models achieve best results if we do not manually reduce the number of positive or negative examples in the training files. My second hypothesis is that selecting the pronoun-antecedent pair with the highest probability value brings greater efficiency. My third hypothesis is that adding the cognitive linguistic-based features to the machine learning experiment improves the success of the model building. I pointed out that it is important: 1 the type of the text itself, as there are big differences between the machine learning experiments’ results of the two corpora, 2 the type of the annotation, as it affects the quantity and quality of positive and negative examples, 3 the type of the pronoun, as pronouns behave differently from each other based on the examined aspects. It has been proved that in case of measuring distance between the two expressions it is important to consider not just the number of clauses but the relationship between the clauses. A further result of my experiments is the finding that the effect of the features I examined may differ when the goal is identifying more antecedents. A disszertáció célja gépi tanulási kísérleteken keresztül megvizsgálni a jelenleg bevett, automatikus anaforafeloldást célzó statisztikai alapú felügyelt gépi tanulási kísérleti módszerek eredményeit a névmási anaforafeloldás tekintetében a magyar nyelvben. Két korpuszt használtam fel a kísérletek során: a SzegedKoref korpuszt, amely a Szeged Korpusz koreferencia annotált alkorpusza, és összehasonlításként a KorKorpuszt. A gépi tanulási kísérleteket a Weka szoftver segítségével végeztem el, a Mention-pair modellt és a Random Forest algoritmust alkalmazva. Az általam végzett kísérletekben párokról hoz döntéseket az osztályozó, mégpedig azt, hogy anaforikus kapcsolatban állnak-e egymással vagy sem, így a MUC feladat kiértékelési módszerét alkalmaztam. A nullhipotézisem szerint lehetséges szemantikai információ nélkül is anaforafeloldást végezni magyar nyelvű szövegekben, kizárólag morfológiai, szintaktikai és egyéb, a szöveg felszíni szerkezetéből kinyerhető információk alapján. Az első hipotézisem alapján abban az esetben érünk el jobb eredményeket, ha a tanítófájlokban sem a negatív, sem a pozitív példák számát nem csökkentjük manuálisan. A második hipotézisem szerint a legnagyobb valószínűségi értékkel anaforikusnak ítélt pár választásával érhető el a legjobb eredmény, ha a cél egy darab antecedens azonosítása. A harmadik hipotézisem alapján az általam kognitív alapon megfogalmazott jellemzők javítanak a gépi tanulás eredményességén. A kutatásom eredményeként megállapítottam, hogy a következő tényezők nagy hatással vannak az automatikus anaforafeloldásra: 1 Szövegtípus, hiszen a két korpuszon végzett kísérletek eredményei nagyban eltérnek egymástól; 2 Annotációtípus, mivel meghatározza a negatív és pozitív példák minőségét és mennyiségét; 3 Névmástípus, mivel az általam vizsgált tényezők szempontjából eltértek egymástól az egyes névmástípusokon végzett kísérletek eredményei. Rámutattam, hogy a két kifejezés közötti távolság kiszámítása során fontos figyelembe venni nem csak a két kifejezés közötti tagmondatok számát, hanem azok strukturális viszonyát is. Eltérő eredményeket érhetünk el abban az esetben, ha a feladat célja nem kizárólag egy, hanem több antecedens azonosítása. |
---|