Magyar szövegek természetes nyelvi előfeldolgozása

A természetes nyelvi szövegek előfeldolgozásának feladata a szöveg mondatokra, szavakra bontása, tokenizálása (tokennek nevezzük a legkisebb önálló jelentéssel biró szövegegységet). Ehhez szorosan kapcsolódik az úgy nevezett nyílt tokenosztályokba tartozó egyes tokenek felismerése. Ezek olyan tokene...

Full description

Saved in:
Bibliographic Details
Main Authors: Miháczi András
Németh László
Rácz Miklós
Corporate Author: Magyar Számítógépes Nyelvészeti Konferencia (1.) (2003) (Szeged)
Format: Book part
Published: 2003
Series:Magyar Számítógépes Nyelvészeti Konferencia 1
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Online Access:http://acta.bibl.u-szeged.hu/59437
Description
Summary:A természetes nyelvi szövegek előfeldolgozásának feladata a szöveg mondatokra, szavakra bontása, tokenizálása (tokennek nevezzük a legkisebb önálló jelentéssel biró szövegegységet). Ehhez szorosan kapcsolódik az úgy nevezett nyílt tokenosztályokba tartozó egyes tokenek felismerése. Ezek olyan tokenek, amelyekben speciális (írásjelek vagy szóközök vannak. Az előfeldolgozás része a tulajdonnevek felismerése is, hiszen itt nagyméretű, tulajdonneveket tartalmazó, szótárakat kell használni A feladatok megoldására kipróbáltunk reguláris kifejezések alapján generált automatát, valamint döntésifa-tanuló algoritmusok által tanult szabályokat.
Physical Description:38-43