• Aucun résultat trouvé

L'objectif des évaluations monopitch n'est pas de tester un grand nombre d'AEP diérents mais de valider les méthodologies proposées avec quelques AEP bien connus en intégrant les performance de PSHmul en situation monopitch.

Les AEP testés ici sont YIN, PRAAT, SWIPE et PSHmul. Une hypothèse F0 est estimée toute les 10ms pour tous les AEP. L'instant de début des estimations est xé à 20ms. La zone de recherche est xée à [50,800Hz]. Dans la mesure du possible, la taille des trames est xée à 40ms. Le réglage standard de PRAAT est le suivant : Sound : To Pitch (ac)... 0.01 50 15 o 0.03 0.45 0.01 0.35 0.14 800 . Avec ce réglage, PRAAT utilise des trames de 60ms mais ce paramètre dépendant de la fréquence minimale de recherche, il ne peut être réglé à 40ms. Le réglage standard de SWIPE est le suivant : swipep(s,fs,[fmin fmax],ds,[],1/20,0.5,0.2 . SWIPE a pour particularité d'utiliser plusieurs tailles de fenêtres diérentes pour chaque instant d'estimation considéré. Pour YIN, seules les options minf0, maxf0, hop et wsize sont ajustées à respectivement 50Hz, 800Hz, 10ms et 40ms.PSHmulutilise des trames de 40ms par pas de 10ms avec la même zone de recherche de laF0.

Le seuil de décision VnV de chacun des algorithmes est xé entre 0 et 1 par normalisation. PRAAT n'ore pas la possibilité de xer facilement ce seuil car la décision est intégrée dans une programmation dynamique. YIN fournit une force d'apériodicité ap0 dont la valeur minimale est 0. ap0 est normalisé de façon à ce qu'il soit compris entre 0 et 1. Ensuite, la force de périodicité utilisée pour YIN est égale à 1-ap0. SWIPE fournit une force de périodicité dont les valeurs négatives sont mises à 0. Ensuite la force de périodicité est normalisée pour que son maximum vaille 1. La même normalisation est faite surPSHmul. Le seuil de décision VnV de tous les AEP est donc une valeur comprise entre 0 et 1 comme le présentent les gures 6.1, 6.2 et 6.3 précédentes. Le seuil VnV de SWIPE est xé à 0.2 comme

Évaluation de la qualité des AEP

Table 6.4: Résultats récapitulatifs de l'évaluation 0-U V R monopitch sur YIN et SWIPE.

AEP OVR (%) UVR(%) GERG (%) GERL (%) FER (%) PRR1 (%)

YIN 100.00 0.00 3.96 3.96 1.59 100.00

SWIPE 100.00 0.00 2.64 2.64 1.53 100.00

Table 6.5: Résultats récapitulatifs de l'évaluation ST monopitch.

AEP OVR (%) UVR (%) µ GERG (%) GERL (%) FER (%) PRR1 (%)

YIN 16.39 7.42 2.21 8.60 1.39 1.45 100.00

PRAAT 6.82 9.47 0.63 10.70 1.44 1.21 100.00

SWIPE 20.16 2.80 7.21 3.47 0.81 1.49 100.00

PSHmul 9.81 6.48 1.52 7.37 1.03 1.08 100.00

préconisé par l'auteur, le seuil VnV de YIN est xé à 0.8 car les auteurs préconisent une apériodicité de 0.2 (1−0.2 = 0.8), le seuil dePSHmul est xé à 0.5 et le seuil dePSHmin est xé à 0.2.

Les quatre méthodologies présentées auparavant sont illustrées dans les paragraphes 6.6.1, 6.6.2, 6.6.3 et 6.6.4.

6.6.1 Résultats d'évaluation 0-U V R

Ce paragraphe n'est pas critique pour le manuscrit mais il est important de montrer la validité et la faisabilité de la méthodologie que nous considérons comme la plus juste de toutes . Étant donné que les seuls AEP monopitch orant intrinsèquement une estimation deF0pour toutes les trames sans décision VnV sont YIN et SWIPE, les résultats d'évaluation ne portent que sur ces deux algorithmes, à titre d'exemple. Cette méthodologie a été utilisée sur beaucoup plus d'AEP dans d'autres travaux comme par exemple [de Cheveigné and Kawahara, 2001]. Le tableau 6.4 récapitule les moyennes de chaque AEP sur toute la base de données monopitch. Dans le cas d'une évaluation 0-U V R, il n'y a plus de distinction entre taux de GER global et taux de GER local car l'U V R est tombé à 0%.

L'U V Rà 0% implique également qu'il n'est pas possible de donner le point de fonctionnementµ. Cette comparaison montre que sur les corpus testés (1h10 de parole monopitch) et en comparaison avec notre annotation automatique, SWIPE réalise 1% de GER de moins que YIN. Il faudrait procéder à une analyse statistique pour mettre en évidence si cette diérence est signicative ou non (un test de McNemar par exemple). Du point de vue de la précision, les algorithmes sont identiques et le taux de précision est de 100% car les algorithmes ne fournissent qu'un seul candidatF0d'hypothèse par trame.

6.6.2 Résultats d'évaluation ST

Dans leur réglage standard, les AEP dièrent principalement par les OV RetU V Robtenus. Ceci rejoint les observations de la gure 6.2. Le tableau 6.5 récapitule les moyennes de chaque AEP sur toute la base de données monopitch. Le taux de précision P RR1 est systématiquement de 100% car tous les AEP ne fournissent systématiquement qu'un seul candidat F0 d'hypothèse. Pour tous les AEP, les GERL sont faibles et de l'ordre de 1%, résultat classique dans la littérature. Les FER sont comprises entre 1 et 2%. LesGERGincluant les erreurs de sous-voisé sont naturellement corrélés au taux d'U V R

170

Évaluation de la qualité des AEP

Table 6.6: Synthèses desOV RetU V R en évaluation NT monopitch.

OVR (%) UVR (%) µ

3.78 12.94 0.29

Table 6.7: Résultats récapitulatifs de l'évaluation NT monopitch.

AEP GERG (%) GERL (%) FER (%) PRR1 (%)

YIN 13.80 1.07 1.34 100.00

PRAAT 14.02 1.33 1.15 100.00

SWIPE 13.21 0.34 1.29 100.00

PSHmul 13.45 0.65 1.01 100.00

et plus ce taux est élevé, plus leGERG est élevé. Dans leur version standard, SWIPE se détache des autres et est le plus performant (hormis pour le taux de FER) avec un taux de GERG de 3.47%.

Les diérences notables concernent les taux d'OV R de SWIPE et YIN qui sont relativement élevés.

Cela s'explique par un seuil standard trop faible mais n'aecte pas lesGERcar ces trames sur-voisées n'entrent pas dans les calculs de GER. Il apparaît également une très forte disparité du point de fonctionnement µdes AEP dans leur version standard.

6.6.3 Résultats d'évaluation NT

Les résultats sont ordonnés par corpus. Le tableau 6.6 présente la synthèse des OV R, U V R et µ obtenus sur les trois corpus. Ces OV R et U V R sont les mêmes pour tous les AEP par dénition de la méthodologie d'évaluation NT. Comme il était attendu, la méthodologie NT favorise le sous-voisement puisque seule les trames au sous-voisement sûr sont considérées. Le tableau 6.7 récapitule les moyennes de chaque AEP sur toute la base de données monopitch. Il est attendu que les GERL soit légèrement inférieurs à ceux obtenus dans l'évaluation ST puisque seules les trames sûres sont prises en compte. Par contre, le GERG doit augmenter car les sous-voisement est nettement augmenté et que ce taux d'erreur intègre les erreurs de sous-voisé. Les comportements attendus sont bien présents.

Pour chacun des AEP, le GERL est systématiquement inférieur à celui obtenu dans l'évaluation ST.

SWIPE se montre toujours le plus performant sur ce point avec un GERL de 0.34%. En eet, les trames sélectionnées étant de voisement sûr, les erreurs d'estimation sont moins probable. Les GERG

sont quasiment tous identiques (entre 13% et 14%) et supérieurs auGERG du plus mauvais AEP de l'évaluation ST (10.70% pour PRAAT). En eet, l'évaluation NT favorise beaucoup le sous-voisement par dénition car c'est l'AEP le plus restrictif (ie. de plus fort U V R) qui a tendance à imprimer sa décision VnV aux autres AEP (et donc par voie de conséquence son GERG).

6.6.4 Résultats d'évaluation VnV

Le nombre de points des courbes d'OV R et d'U V R a été xé à 1001 (ie. intervalle entre 0 et 1 par pas de 0.001). Le point de fonctionnement µ choisie est xé à 0.5 ce qui signie que l'U V R est double de l'OV R. On favorise ainsi légèrement le sous-voisement. PRAAT n'est pas utilisé dans cette l'évaluation VnV car son seuil de décision VnV n'est pas aisément accessible. Les AEP évalués sont

Évaluation de la qualité des AEP

Table 6.8: Résultats récapitulatifs de l'évaluation VnV monopitch.

AEP OVR (%) UVR (%) µ GERG (%) GERL (%) FER (%) PRR1 (%)

YIN 6.72 13.48 0.50 14.35 1.12 1.34 100.00

SWIPE 4.47 8.93 0.50 9.27 0.44 1.37 100.00

PSHmul 5.07 10.79 0.47 11.61 0.97 1.02 100.00

Table 6.9: Performances dePSHmul avec une sur-hypothétisation de 5.

Nh OVR (%) UVR (%) µ GERG (%) GERL (%) FER (%) PRR1 (%)

1 9.81 6.48 1.52 7.37 1.03 1.08 100.00

5 9.81 6.48 1.52 6.72 0.29 1.06 98.24

YIN, SWIPE etPSHmul. Cette méthodologie ne garantie plus que les AEP traitent les mêmes trames mais elle garantie que la décision VnV est la même pour tous ce qui rend la comparaison des GERL

etGERG équitable. Cette manière de procéder permet de mettre en évidence la qualité de la décision VnV des AEP. Le tableau 6.8 récapitule les moyennes de chaque AEP sur toute la base de données monopitch. SWIPE reste le plus performant des AEP testés. Des tests statistiques seraient nécessaires pour vérier que SWIPE est signicativement meilleur que les autres en situation monopitch.

6.6.5 Performances de PSHmul en sur-hypothétisation

La situation maladroitement nommée de sur-hypothétisation désigne la situation dans laquelle un AEP propose plus de candidats F0 d'hypothèse que de candidats F0 de référence à estimer (Nh >

Nr). Dans la situation monopitch, seul PSHmul est prévu pour fournir plusieurs hypothèses F0. Le tableau 6.9 démontre le gain d'une sur-hypothétisation de 5 candidats F0 d'hypothèse (ligne en gras) sur les résultats dePSHminen version standard comparé aux résultats obtenus sans sur-hypothétisation (N h= 1). Les taux d'OV Ret d'U V Rne changent évidemment pas car dans les deux cas l'algorithme est utilisé dans sa version standard et que la décision VnV est identique. En revanche, les GER sont bien diminués, ce qui est logique puisque si le premier candidat F0 d'hypothèse n'est pas la bonne estimation, il se peut que le second ou le troisième le soit. Dans ce cas monopitch, la sur-hypothétisation est bienvenue car le taux de précision moyen ne diminue que d'à peine 2% pour un gain de 0.6% absolu sur leGERG et de 0.7% absolu sur leGERL et pour un temps de calcul quasiment identique.

En situation monopitch, tous les AEP testés orent des GER locaux relativement proches et compris entre 0.29 et 1.44%. Avec ces ordres de grandeur, il n'est pas forcément utile de chercher à apporter une amélioration à tout prix du GERL. Il est plus raisonnable de considérer comme état de fait que n'importe quel AEP, dans les zones voisées sûres, fera entre 0.5 et 1.5% d'erreurs grossières locales. Les GER globaux sont plus disparates et sont compris entre 3.47% et 14.02%. Pour ce taux d'erreur qui révèle véritablement la capacité de l'AEP à bien estimer la référence, des progrès semblent encore possibles. Toutefois ce GERG étant intimement lié au taux d'U V R, tout progrès sur ce point est synonyme d'un progrès dans la décision VnV donc dans la quantication de la force de périodicité.

Les FER sont très similaires pour tous les AEP et sont de l'ordre du pour-cent. SWIPE semble être meilleur que les autres même si cela reste à conrmer par des tests statistiques plus poussés. La

172

Évaluation de la qualité des AEP

Table 6.10: Résultats des méthodes WWB et VEW dans la littérature. Sources : [Wu et al., 2003, Vishnubhotla and Espy-Wilson, 2008].

sur-hypothétisation de PSHmul dans sa version standard est relativement ecace et permet à notre AEP d'atteindre 6.72% de GERG et 0.29% de GERL sur 1h10 de signaux monopitch.