"Feeding the BEAST" - A BEA Speech Transcriber továbbfejlesztése és integrálása neurális nyelvmodellel

Cikkünkben a korábban BEAST néven publikált, a BEA-Base adatbázison tanított mély-neuronháló alapú beszédleiratozó modellt meghaladó struktúrát mutatunk be. A használt architektúra magába foglal egy unigram szótöredékeken tanított wav2vec2 alapú akusztikus és egy Transformer alapú nyelvi modellt. Az...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Kádár Máté Soma
Dobsinszki Gergely
Mády Katalin
Mihajlik Péter
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus: Könyv része
Megjelent: 2023
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:Beszédfelismerés, Nyelvmodell, Nyelvészet - számítógép alkalmazása
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/78409
LEADER 02168naa a2200289 i 4500
001 acta78409
005 20230314154730.0
008 230314s2023 hu o 1|| hun d
020 |a 978-963-306-912-7 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Kádár Máté Soma 
245 1 0 |a "Feeding the BEAST" - A BEA Speech Transcriber továbbfejlesztése és integrálása neurális nyelvmodellel  |h [elektronikus dokumentum] /  |c  Kádár Máté Soma 
260 |c 2023 
300 |a 135-143 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 19 
520 3 |a Cikkünkben a korábban BEAST néven publikált, a BEA-Base adatbázison tanított mély-neuronháló alapú beszédleiratozó modellt meghaladó struktúrát mutatunk be. A használt architektúra magába foglal egy unigram szótöredékeken tanított wav2vec2 alapú akusztikus és egy Transformer alapú nyelvi modellt. Az akusztikus modell az uráli nyelvcsaládba tartozó nyelveken (magyar, finn, észt) önfelügyelten előtanított wav2vec-large struktúrára épül, mely a BEA-Base-en történő finomhangolása és egyes hiperparaméterek optimalizálása után önmagában is felülmúlta a BEAST eredményeit: a korábbi 16.62%-os szóhibarátát 12.08%-ra csökkentette. Az akusztikus modellhez integráltuk a Magyar Nemzeti Szövegtár beszélt nyelvi alkorpuszán tanított mély neurális nyelvi modellt, mely a nyalábkeresés segítségével 10.98%-ra javította a leiratozó szóhibaarányát. Tudomásunk szerint eddig ez a legjobb beszédfelismerési eredmény ezen az adathalmazon. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Beszédfelismerés, Nyelvmodell, Nyelvészet - számítógép alkalmazása 
700 0 1 |a Dobsinszki Gergely  |e aut 
700 0 1 |a Mády Katalin  |e aut 
700 0 1 |a Mihajlik Péter  |e aut 
711 |a Magyar számítógépes nyelvészeti konferencia (19.)  |c Szeged  |d 2023. január 26-27. 
856 4 0 |u http://acta.bibl.u-szeged.hu/78409/1/msznykonf_019_135-143..pdf  |z Dokumentum-elérés