"Feeding the BEAST" - A BEA Speech Transcriber továbbfejlesztése és integrálása neurális nyelvmodellel
Cikkünkben a korábban BEAST néven publikált, a BEA-Base adatbázison tanított mély-neuronháló alapú beszédleiratozó modellt meghaladó struktúrát mutatunk be. A használt architektúra magába foglal egy unigram szótöredékeken tanított wav2vec2 alapú akusztikus és egy Transformer alapú nyelvi modellt. Az...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2023
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
19 |
Kulcsszavak: | Beszédfelismerés, Nyelvmodell, Nyelvészet - számítógép alkalmazása |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/78409 |
LEADER | 02168naa a2200289 i 4500 | ||
---|---|---|---|
001 | acta78409 | ||
005 | 20230314154730.0 | ||
008 | 230314s2023 hu o 1|| hun d | ||
020 | |a 978-963-306-912-7 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 1 | |a Kádár Máté Soma | |
245 | 1 | 0 | |a "Feeding the BEAST" - A BEA Speech Transcriber továbbfejlesztése és integrálása neurális nyelvmodellel |h [elektronikus dokumentum] / |c Kádár Máté Soma |
260 | |c 2023 | ||
300 | |a 135-143 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 19 | |
520 | 3 | |a Cikkünkben a korábban BEAST néven publikált, a BEA-Base adatbázison tanított mély-neuronháló alapú beszédleiratozó modellt meghaladó struktúrát mutatunk be. A használt architektúra magába foglal egy unigram szótöredékeken tanított wav2vec2 alapú akusztikus és egy Transformer alapú nyelvi modellt. Az akusztikus modell az uráli nyelvcsaládba tartozó nyelveken (magyar, finn, észt) önfelügyelten előtanított wav2vec-large struktúrára épül, mely a BEA-Base-en történő finomhangolása és egyes hiperparaméterek optimalizálása után önmagában is felülmúlta a BEAST eredményeit: a korábbi 16.62%-os szóhibarátát 12.08%-ra csökkentette. Az akusztikus modellhez integráltuk a Magyar Nemzeti Szövegtár beszélt nyelvi alkorpuszán tanított mély neurális nyelvi modellt, mely a nyalábkeresés segítségével 10.98%-ra javította a leiratozó szóhibaarányát. Tudomásunk szerint eddig ez a legjobb beszédfelismerési eredmény ezen az adathalmazon. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Beszédfelismerés, Nyelvmodell, Nyelvészet - számítógép alkalmazása | ||
700 | 0 | 1 | |a Dobsinszki Gergely |e aut |
700 | 0 | 1 | |a Mády Katalin |e aut |
700 | 0 | 1 | |a Mihajlik Péter |e aut |
711 | |a Magyar számítógépes nyelvészeti konferencia (19.) |c Szeged |d 2023. január 26-27. | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/78409/1/msznykonf_019_135-143..pdf |z Dokumentum-elérés |