HuSpaCy an industrial-strength Hungarian natural language processing toolkit /

Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today’s NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognitio...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Orosz György
Szántó Zsolt
Berkecz Péter
Szabó Gergő
Farkas Richárd
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged)
Dokumentumtípus: Könyv része
Megjelent: 2022
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 18
Kulcsszavak:Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/75865
LEADER 02084naa a2200301 i 4500
001 acta75865
005 20221108114907.0
008 220524s2022 hu o 1|| eng d
020 |a 978-963-306-848-9 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a eng 
100 1 |a Orosz György 
245 1 0 |a HuSpaCy   |h [elektronikus dokumentum] :  |b an industrial-strength Hungarian natural language processing toolkit /  |c  Orosz György 
260 |c 2022 
300 |a 59-73 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 18 
520 3 |a Although there are a couple of open-source language processing pipelines available for Hungarian, none of them satisfies the requirements of today’s NLP applications. A language processing pipeline should consist of close to state-of-the-art lemmatization, morphosyntactic analysis, entity recognition and word embeddings. Industrial text processing applications have to satisfy non-functional software quality requirements, what is more, frameworks supporting multiple languages are more and more favored. This paper introduces HuSpaCy, an industryready Hungarian language processing toolkit. The presented tool provides components for the most important basic linguistic analysis tasks. It is open-source and is available under a permissive license. Our system is built upon spaCy’s NLP components resulting in an easily usable, fast yet accurate application. Experiments confirm that HuSpaCy has high accuracy while maintaining resource-efficient prediction capabilities. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása 
700 0 1 |a Szántó Zsolt  |e aut 
700 0 1 |a Berkecz Péter  |e aut 
700 0 1 |a Szabó Gergő  |e aut 
700 0 1 |a Farkas Richárd  |e aut 
710 |a Magyar számítógépes nyelvészeti konferencia (18.) (2022) (Szeged) 
856 4 0 |u http://acta.bibl.u-szeged.hu/75865/1/msznykonf_018_059-073.pdf  |z Dokumentum-elérés