Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára

Szövegek nyelvének automatikus azonosítása nagyon fontos több alkalmazásterületen. E cikkben áttekintjük a szövegből történő nyelvazonosítása (language identification, LID) használt főbb módszereket és leírjuk legfontosabb tulajdonságaikat. Ezek egyes, nagyon rövid szövegekre helyes kezelését is igé...

Teljes leírás

Elmentve itt :

Bibliográfiai részletek
Szerzők:	Kiss Géza Németh Géza
Testületi szerző:	Magyar Számítógépes Nyelvészeti Konferencia (3.) (2005) (Szeged)
Dokumentumtípus:	Könyv része
Megjelent:	2005
Sorozat:	Magyar Számítógépes Nyelvészeti Konferencia 3
Kulcsszavak:	Nyelvészet - számítógép alkalmazása
Online Access:	http://acta.bibl.u-szeged.hu/58598

Leíró adatok
Tartalmi kivonat:	Szövegek nyelvének automatikus azonosítása nagyon fontos több alkalmazásterületen. E cikkben áttekintjük a szövegből történő nyelvazonosítása (language identification, LID) használt főbb módszereket és leírjuk legfontosabb tulajdonságaikat. Ezek egyes, nagyon rövid szövegekre helyes kezelését is igénylő alkalmazásterületeken – mint például a beszédszintézis – jelentkező hiányosságai kezelésére egy új módszert mutatunk be, amely változó hosszúságú N-gramok használatán alapuló, tisztán statisztikai módszer, emellett tetszőleges szöveg helyes azonosítására betanítható, jól skálázható, és viszonylag kis számítási kapacitást igényel az azonosítási fázisban. Bemutatjuk hatékonyságát a tanító- és attól független tesztanyagon, különböző méret szövegtörzseken való tanítás esetén, kevés és nagyon nagy számú nyelven való mködés esetén is. Az eredmények igazolják a megközelítés életképességét.
Terjedelem/Fizikai jellemzők:	413-417

Skálázható szöveg-alapú nyelvazonosító módszer beszédszintézis céljára

Hasonló tételek