• Aucun résultat trouvé

Le premier param`etre ´evalu´e est la fr´equence fondamentale. Ce param`etre ´etant mono-dimensionnel, nous avons d´ecid´e de le compl´eter en prenant en compte la dynamique de premier ordre. L’objectif est d’int´egrer la notion d’´evolution temporelle qui est inh´erente `a une m´elodie. En revanche, nous avons ignor´e la dynamique de second ordre. En effet, une

´etude r´ealis´ee par Y. Chen et al.[Chen2010a], qui avait pour objectif d’´evaluer l’apport de la d´eriv´ee seconde sur la g´en´eration, a montr´e que cette d´eriv´ee n’avait qu’un impact

`a court terme et permettait de lisser la courbe de F0. En ignorant cette composante, la g´en´eration aboutit `a une courbe endents de scie telle que l’illustre la figure6.1.

tel-00913565, version 1 - 3 Dec 2013

Figure 6.1 – Influence de la d´eriv´ee seconde sur la g´en´eration effectu´ee par HTS. En abscisse sont indiqu´es les indices de trames et en ordonn´ee l’amplitude en d´ecibel. La courbe en pointill´e prend en compte la d´eriv´ee seconde et la courbe en trait plein est obtenue en ignorant cette d´eriv´ee. Figure extraite de [Chen2010a].

Ainsi, pour effectuer l’´evaluation du F0, nous proposons donc d’utiliser les vecteurs de coefficientsv tels que :

v= [F0,∆F0] (6.1)

o`u seules les trames vois´ees (F0 6= 0), et dont la dynamique peut ˆetre d´efinie2, sont prises en compte. Les r´esultats de l’´evaluation du F0 obtenus en appliquant le protocole d’´evaluation par GMM sont pr´esent´es figure 6.2.

Si l’on consid`ere le corpus de testTa/s, il est naturellement le plus vraisemblable pour le mod`ele Ma/s. Par contre, c’est par rapport au mod`ele Mp1 que les ´el´ements de Ta/s sont les moins vraisemblables. Afin de quantifier l’am´elioration de cette vraisemblance relativement aux mod`eles associ´es aux autres jeux de descripteurs, un ratio r, d´efini ci-dessous, est calcul´e et indiqu´e dans la figure 6.2 pour chaque jeu de descripteurs autres que a/setp1 :

r= LL(Ta/s;Mk)−LL(Ta/s;Ma/s)

LL(Ta/s;Mp1)−LL(Ta/s;Ma/s) ∗100 (6.2) o`uk6∈ {a/s,p1}.

Grˆace `a cette figure, nous pouvons constater que le nombre de composantes n?k de chaque GMM, pr´esent´e en abscisse secondaire, varie de 64 `a 256. Lors de la phase d’es-timation des param`etres par l’algorithme E.M., les variances de certaines composantes

´etaient trop faibles pour que la matrice de covariance associ´ee puisse ˆetre invers´ee. En l’´etat actuel, il est difficile de pouvoir conclure car le nombre de composantes varie for-tement entre les diff´erents GMM. Ainsi, afin de pouvoir croiser les r´esultats, nous avons contraint le nombre de composantes au nombre minimal possible, `a savoir 64 par GMM.

Nous obtenons alors les r´esultats pr´esent´es dans la figure 6.3.

Tout d’abord, nous pouvons constater que les r´esultats illustr´es par les figures 6.2 et 6.3 sont extrˆemement proches. En effet, l’´ecart maximum, entre les log-vraisemblances LL(Ak;Mk(n?k)), LL(Tk;Mk(n?k)) et LL(Ta/s;Mk(n?k)) dans le cadre o`u le nombre de

2. Si une trame se situe en fronti`ere de voisement, la dynamique ne peut pas ˆetre d´efinie.

tel-00913565, version 1 - 3 Dec 2013

-10

a/s p1 p3 p5 p5-sy_accentp5-sy_posp5-sy_full p5-w_contentp5-w_pos p5-w_full p5-s_pos

64 128 256 256 256 256 256 256 256 256 256

45.69% 45.00% 48.89% 54.34% 57.01% 61.28% 59.67% 60.66% 61.46%

Ak Tk Ta/s

Figure6.2 – R´esultat du protocole d’´evaluation objective bas´e sur la mod´elisation GMM de l’espace du F0. Le pourcentage d’am´elioration de la log-vraisemblance, apport´e par le jeu de descripteursk, par rapport au jeu p1 est indiqu´e en dessous de la barre associ´ee `a k. Enfin, les intervalles de confiance `a 95% sont repr´esent´es.

-10

a/s p1 p3 p5 p5-sy_accentp5-sy_posp5-sy_full p5-w_contentp5-w_pos p5-w_full p5-s_pos 47.85% 45.81% 50.17% 54.61% 57.33% 61.46% 60.32% 60.41% 61.86%

Ak Tk Ta/s

Figure 6.3 – R´esultat du protocole d’´evaluation objective bas´e sur la mod´elisation GMM de l’espace du F0 en limitant le nombre de composantes `a 64. Le pourcentage d’am´elioration de la log-vraisemblance, apport´e par le jeu de descripteursk, par rapport au jeup1est indiqu´e en dessous de la barre associ´ee `ak. Enfin, les intervalles de confiance

`

a 95% sont repr´esent´es.

composantesn?k est impos´e et celui o`u il n’est pas impos´e, est de 0.02. Cette stagnation des log-vraisemblances montre que la prise en compte de plus de 64 composantes n’am´eliore pas significativement la mod´elisation de l’espace acoustique effectu´ee par un GMM.

Lorsque l’on consid`ere les intervalles de confiance pourLL(Ta/s;Mk(n?k)), pour chaque jeu de descripteursk6=a/s, deux am´eliorations significatives se distinguent. La premi`ere, et sans doute la plus significative, est apport´ee par la prise en compte du contexte phon´etique direct. En effet, l’utilisation du jeu de descripteurs p3 r´eduit d’environ 50%

l’´ecart entre la log-vraisemblance relative `a Mp1 et celle associ´ee `a Ma/s. Une seconde am´elioration de la log-vraisemblance se distingue lors de la prise en compte des informa-tions prosodiques (p5-sy_accent) ou de position (p5-sy_pos) au niveau de la syllabe par rapport au jeu de descripteurs p5. Bien que le ratio indiqu´e montre une am´elioration de 4% entre p5-sy_full et p5-w_content, les intervalles de confiance montrent que cette

tel-00913565, version 1 - 3 Dec 2013

diff´erence n’est pas significative. En r´ealit´e, `a partir du jeu de descripteurs p5-sy_full, les am´eliorations ne sont pas significatives. `A l’issue de cette analyse, il semble donc que le jeu p5-sy_fulloffre le meilleur compromis entre le nombre de descripteurs n´ecessaires pour qualifier un segment acoustique et la qualit´e de la mod´elisation du F0 effectu´ee par HTS compte tenu de ce protocole.

Enfin, les NSS constituent une partie importante du corpus global (voir figure 5.5 du chapitre 5). Toutefois, il s’agit de segments particuliers qui ne sont g´en´eralement pas utilis´es lors de la phase de synth`ese. Il nous semble important d’effectuer une ´evaluation sans tenir compte de ces segments pour d´eterminer la qualit´e de mod´elisation des phones en contexte. Les r´esultats illustr´es par la figure6.4correspondent `a l’application du protocole en ignorant les NSS pr´esents dans les corpus lors de l’apprentissage des GMM et lors de l’´evaluation.

-9 -8 -7