Korpuszépítés és -feldolgozás learatott webes tartalomból
A cikk az Országos Széchényi Könyvtár webaratási tevékenységének eredményeképpen létrejött webarchívum korpuszépítési hasznosulási lehetőségeit mutatja be. A fókusz a tematikus gyűjtések által felépített archívumrészekből történő tematikus korpuszépítésen van. Ismerteti a szövegkinyerés eljárását, a...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2023
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
19 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/78432 |
LEADER | 01689naa a2200253 i 4500 | ||
---|---|---|---|
001 | acta78432 | ||
005 | 20230316113354.0 | ||
008 | 230316s2023 hu o 1|| hun d | ||
020 | |a 978-963-306-912-7 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 1 | |a Kalcsó Gyula | |
245 | 1 | 0 | |a Korpuszépítés és -feldolgozás learatott webes tartalomból |h [elektronikus dokumentum] / |c Kalcsó Gyula |
260 | |c 2023 | ||
300 | |a 447-456 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 19 | |
520 | 3 | |a A cikk az Országos Széchényi Könyvtár webaratási tevékenységének eredményeképpen létrejött webarchívum korpuszépítési hasznosulási lehetőségeit mutatja be. A fókusz a tematikus gyűjtések által felépített archívumrészekből történő tematikus korpuszépítésen van. Ismerteti a szövegkinyerés eljárását, amelynek eredményeképpen a learatott WARC-fájlokból a WARCIO Pythonkönyvtár felhasználásával elsőként HTML, majd az ún. boilerplate-nek a jusText nevű, Pythonban írt eszköz segítségével történő eltávolításával nyers szöveg jön létre. Ismertet egy példaprojektet is, amelynek során az emtsv-vel elemzett szövegekből kinyert adatok vizualizációja történt. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
695 | |a Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 1 | |a Mihály Eszter |e aut |
700 | 0 | 1 | |a Szűcs Kata Ágnes |e aut |
711 | |a Magyar számítógépes nyelvészeti konferencia (19.) |c Szeged |d 2023. január 26-27. | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/78432/1/msznykonf_019_447-456..pdf |z Dokumentum-elérés |