Internetes hírek automatikus osztályozása
Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vi...
Elmentve itt :
| Szerzők: | |
|---|---|
| Testületi szerző: | |
| Dokumentumtípus: | Könyv része |
| Megjelent: |
Szegedi Tudományegyetem TTIK, Informatikai Intézet
Szeged
2025
|
| Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
21 |
| Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
| Tárgyszavak: | |
| Online Access: | http://acta.bibl.u-szeged.hu/88770 |
| Tartalmi kivonat: | Az elmúlt évtizedekben az online sajtó vált a hírek egyeduralkodó forrásává, amely egyre növekvő igényt teremt az automatizált tartalomkategorizálási módszerek iránt. Tudomásunk szerint ez az első olyan kutatás, amelynek célja magyar hírek téma szerinti osztályozása nagy nyelvi modellekkel. Jelen vizsgálat célja az online elérhető magyar hírekben megjelenő témák azonosítása és a hírek szövegeinek osztályozása. Az elemzés anyagát 77 magyar hírportál 5,225,195 szövege adta 2013-tól 2023-ig. A kategória-készlet elkészítésére két módszert vizsgáltunk meg: egy statikus szóbeágyazásokon alapuló módszert, valamint egy BERT alapú témamodellezést. A két módszer eredményeit manuálisan validáltuk, így jött létre a 19 elemből álló kategóriakészletet. A hírek osztályozásához három módszert alkalmaztunk: egy már létező címkeajánló rendszer mellett a nagy méretű XLM-RoBERTa és a PULI LlumiX 32K Instruct modell performanciáját vizsgáltuk, ez utóbbit zeroshot tanítással. Bár az eredmények nagy szórást mutattak, azt gondoljuk, hogy a PULI LlumiX 32K Instruct modell kis munkával továbbfejleszthető egy nagy pontosságú osztályozóvá. |
|---|---|
| Terjedelem/Fizikai jellemzők: | 29-39 |
| ISBN: | 978-963-688-034-7 |