Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben

Jelen tanulmányban olyan mély neurális hálózat alapú beszédszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár és a beszéd hullámformáját két lépésben állítja elő, melspektrogram köztes reprezentációt használva. Részletesen bemutatjuk és összehasonlítotjuk a Tacotron2+Wave...

Teljes leírás

Elmentve itt :
Bibliográfiai részletek
Szerzők: Zainkó Csaba
Csapó Tamás Gábor
Bartalis Mátyás
Németh Géza
Németh Norbert
Szász Gábor Krisztián
Szviridov István
Testületi szerző: Magyar számítógépes nyelvészeti konferencia (19.)
Dokumentumtípus: Könyv része
Megjelent: 2023
Sorozat:Magyar Számítógépes Nyelvészeti Konferencia 19
Kulcsszavak:Nyelvészet - számítógép alkalmazása, Beszédtechnológia
Tárgyszavak:
Online Access:http://acta.bibl.u-szeged.hu/78410
LEADER 02630naa a2200325 i 4500
001 acta78410
005 20230316075325.0
008 230316s2023 hu o 1|| hun d
020 |a 978-963-306-912-7 
040 |a SZTE Egyetemi Kiadványok Repozitórium  |b hun 
041 |a hun 
100 1 |a Zainkó Csaba 
245 1 0 |a Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben  |h [elektronikus dokumentum] /  |c  Zainkó Csaba 
260 |c 2023 
300 |a 145-158 
490 0 |a Magyar Számítógépes Nyelvészeti Konferencia  |v 19 
520 3 |a Jelen tanulmányban olyan mély neurális hálózat alapú beszédszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár és a beszéd hullámformáját két lépésben állítja elő, melspektrogram köztes reprezentációt használva. Részletesen bemutatjuk és összehasonlítotjuk a Tacotron2+WaveGlow és FastPitch+HiFi-GAN (tőlünk független) rendszereket és komponenseiket. A magyar nyelvű adatokon végzett saját kísérletekben három beszélővel (két női és egy férfi) generálunk szintezitált beszédmintákat. Szubjektív, MUSHRA típusú meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszédszintetizátorral előállított mondatokat lényegesen természetesebbnek minősítették, mint a HMM-TTS alaprendszert. A szintetizált beszédminták minősége (természetessége) ugyan nem éri el a természetes beszéd szintjét, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, természetes: 89%). Összességében a tesztelők a FastPitch rendszert preferálták a Tacotron2-vel szemben természetesség szempontjából. A ChatBot dialógusba ágyazott tesztek eredménye szerint a női beszélők preferáltak, és a DNN-TTS rendszerekkel előállított beszéd érthetőbb, természetesebb, mint a HMM-TTS alaprendszer, és tesztelők a válaszokat is relevánsabbnak és részletesebbnek érezték az alaprendszerhez képest. 
650 4 |a Természettudományok 
650 4 |a Számítás- és információtudomány 
650 4 |a Bölcsészettudományok 
650 4 |a Nyelvek és irodalom 
695 |a Nyelvészet - számítógép alkalmazása, Beszédtechnológia 
700 0 1 |a Csapó Tamás Gábor  |e aut 
700 0 1 |a Bartalis Mátyás  |e aut 
700 0 1 |a Németh Géza  |e aut 
700 0 1 |a Németh Norbert  |e aut 
700 0 1 |a Szász Gábor Krisztián  |e aut 
700 0 1 |a Szviridov István  |e aut 
711 |a Magyar számítógépes nyelvészeti konferencia (19.)  |c Szeged  |d 2023. január 26-27. 
856 4 0 |u http://acta.bibl.u-szeged.hu/78410/1/msznykonf_019_145-158..pdf  |z Dokumentum-elérés