Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben
Jelen tanulmányban olyan mély neurális hálózat alapú beszédszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár és a beszéd hullámformáját két lépésben állítja elő, melspektrogram köztes reprezentációt használva. Részletesen bemutatjuk és összehasonlítotjuk a Tacotron2+Wave...
Elmentve itt :
Szerzők: | |
---|---|
Testületi szerző: | |
Dokumentumtípus: | Könyv része |
Megjelent: |
2023
|
Sorozat: | Magyar Számítógépes Nyelvészeti Konferencia
19 |
Kulcsszavak: | Nyelvészet - számítógép alkalmazása, Beszédtechnológia |
Tárgyszavak: | |
Online Access: | http://acta.bibl.u-szeged.hu/78410 |
LEADER | 02630naa a2200325 i 4500 | ||
---|---|---|---|
001 | acta78410 | ||
005 | 20230316075325.0 | ||
008 | 230316s2023 hu o 1|| hun d | ||
020 | |a 978-963-306-912-7 | ||
040 | |a SZTE Egyetemi Kiadványok Repozitórium |b hun | ||
041 | |a hun | ||
100 | 1 | |a Zainkó Csaba | |
245 | 1 | 0 | |a Magyar nyelvű neurális beszédszintézis vizsgálata dialógus helyzetben |h [elektronikus dokumentum] / |c Zainkó Csaba |
260 | |c 2023 | ||
300 | |a 145-158 | ||
490 | 0 | |a Magyar Számítógépes Nyelvészeti Konferencia |v 19 | |
520 | 3 | |a Jelen tanulmányban olyan mély neurális hálózat alapú beszédszintetizátor rendszert (DNN-TTS) mutatunk be, amely hangsorozat bemenetet vár és a beszéd hullámformáját két lépésben állítja elő, melspektrogram köztes reprezentációt használva. Részletesen bemutatjuk és összehasonlítotjuk a Tacotron2+WaveGlow és FastPitch+HiFi-GAN (tőlünk független) rendszereket és komponenseiket. A magyar nyelvű adatokon végzett saját kísérletekben három beszélővel (két női és egy férfi) generálunk szintezitált beszédmintákat. Szubjektív, MUSHRA típusú meghallgatásos tesztjeink során a tesztalanyok a DNN-TTS beszédszintetizátorral előállított mondatokat lényegesen természetesebbnek minősítették, mint a HMM-TTS alaprendszert. A szintetizált beszédminták minősége (természetessége) ugyan nem éri el a természetes beszéd szintjét, de közel áll hozzá (Tacotron2: 58%, FastPitch: 73%, természetes: 89%). Összességében a tesztelők a FastPitch rendszert preferálták a Tacotron2-vel szemben természetesség szempontjából. A ChatBot dialógusba ágyazott tesztek eredménye szerint a női beszélők preferáltak, és a DNN-TTS rendszerekkel előállított beszéd érthetőbb, természetesebb, mint a HMM-TTS alaprendszer, és tesztelők a válaszokat is relevánsabbnak és részletesebbnek érezték az alaprendszerhez képest. | |
650 | 4 | |a Természettudományok | |
650 | 4 | |a Számítás- és információtudomány | |
650 | 4 | |a Bölcsészettudományok | |
650 | 4 | |a Nyelvek és irodalom | |
695 | |a Nyelvészet - számítógép alkalmazása, Beszédtechnológia | ||
700 | 0 | 1 | |a Csapó Tamás Gábor |e aut |
700 | 0 | 1 | |a Bartalis Mátyás |e aut |
700 | 0 | 1 | |a Németh Géza |e aut |
700 | 0 | 1 | |a Németh Norbert |e aut |
700 | 0 | 1 | |a Szász Gábor Krisztián |e aut |
700 | 0 | 1 | |a Szviridov István |e aut |
711 | |a Magyar számítógépes nyelvészeti konferencia (19.) |c Szeged |d 2023. január 26-27. | ||
856 | 4 | 0 | |u http://acta.bibl.u-szeged.hu/78410/1/msznykonf_019_145-158..pdf |z Dokumentum-elérés |