Information extraction from Wikipedia using pattern learning

In this paper we present solutions for the crucial task of extracting structured information from massive free-text resources, such as Wikipedia, for the sake of semantic databases serving upcoming Semantic Web technologies. We demonstrate both a verb frame-based approach using deep natural language...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerző: Miháltz Márton
Testületi szerző: Conference on Hungarian Computational Linguistics (7.) (2010) (Szeged)
Dokumentumtípus: Cikk
Megjelent: 2010
Sorozat:Acta cybernetica 19 No. 4
Kulcsszavak:Számítástechnika, Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/12888
LEADER 01851nab a2200253 i 4500
001 acta12888
005 20220617111015.0
008 161015s2010 hu o 0|| eng d
022 |a 0324-721X 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a eng 
100 1 |a Miháltz Márton 
245 1 0 |a Information extraction from Wikipedia using pattern learning  |h [elektronikus dokumentum] /  |c  Miháltz Márton 
260 |c 2010 
300 |a 677-694 
490 0 |a Acta cybernetica  |v 19 No. 4 
520 3 |a In this paper we present solutions for the crucial task of extracting structured information from massive free-text resources, such as Wikipedia, for the sake of semantic databases serving upcoming Semantic Web technologies. We demonstrate both a verb frame-based approach using deep natural language processing techniques with extraction patterns developed by human knowledge experts and machine learning methods using shallow linguistic processing. We also propose a method for learning verb frame-based extraction patterns automatically from labeled data. We show that labeled training data can be produced with only minimal human effort by utilizing existing semantic resources and the special characteristics of Wikipedia. Custom solutions for named entity recognition are also possible in this scenario. We present evaluation and comparison of the different approaches for several different relations. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Számítástechnika, Nyelvészet - számítógép alkalmazása 
710 |a Conference on Hungarian Computational Linguistics (7.) (2010) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/12888/1/Mihaltz_2010_ActaCybernetica.pdf  |z Dokumentum-elérés