• Aucun résultat trouvé

5.3 Résultats de PSH mul et PSH min

5.3.2 Situations bipitch

Dans un premier temps, des signaux bipitch synthétiques vont permettre d'étudier le comporte-ment des deux implécomporte-mentations de PSH dans les cas réputés comme diciles à traiter. Il s'agit des cas de deux F0 à l'octave, de F0 en relation de virtual multipitch et de deux F0 proches. Ces trois cas sont développés dans les sous-paragraphes 5.3.2.1, 5.3.2.2 et 5.3.2.3 respectivement. Le der-nier sous-paragraphe va permettre de donner un ordre de grandeur de la résolution fréquentielle de PSHmulet PSHminc'est-à-dire de la diérence minimale entre deux F0 requise pour les discriminer.

Dans un second temps, des signaux bipitch de parole réelle vont permettre de confronter PSH à une situation plus réaliste. Des mélanges voix de femmes/voix de femmes, voix de femme/voix d'homme et voix d'homme/voix d'homme sont présentés dans les sous-paragraphes 5.3.2.1, 5.3.2.2 et 5.3.2.3 respectivement.

5.3.2.1 Signaux synthétiques situation à l'octave

Le signal exemple est une somme de deux signaux synthétiques. L'un est de fréquence fondamentale F01à 120Hz. L'autre est de fréquence fondamentaleF02à 240Hz. Les deuxF0 sont à l'octave ce qui est une des situations les plus emblématiques à traiter dans la littérature. Le graphique (a) de la gure 5.14 montre la fonction PUI, le graphique (b) montre la fonction MAQ et le graphique (c) montre la fonction PSH. Il apparaît quePSHmin parvient très bien à estimer lesF0 à l'octave puisque les deux pics de plus fortes amplitudes sont les pics de F01 etF02. Les valeurs estimées sont correctes : 120 et 240Hz. Le pic parasite le plus fort est situé à 56.7Hz. La gure 5.15 présente les résultats dePSHmul. Les graphiques (a) et (b) montrent la fonction PUI avec correction hyperbolique. Le graphique (c) montre le masque

128

Implémentations du principe de PSH

Figure 5.14: Fonctions PUI, MAQ et PSH obtenues parPSHminen situation bipitch sur un signal synthétique comportant deuxF0 à l'octave. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

binaire et le graphique (d) illustre la fonction PSH. Là aussi, l'estimation est correcte et seul les deux pics desF0 subsistent dans la fonction PSH. L'estimation donne eectivement 120Hz et 240Hz. Le cas à l'octave ne semble pas être un problème pour l'exemple synthétique étudié ni pour PSHmin, ni pour PSHmul.

Implémentations du principe de PSH

Figure 5.15: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch sur un signal synthétique comportant deuxF0 à l'octave. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

130

Implémentations du principe de PSH 5.3.2.2 Signaux synthétiques situation de virtual multipitch

Le signal exemple est construit de la même manière que précédemment. F01 vaut 160Hz et F02 vaut 240Hz. Cette situation représente une situation de virtual multipitch c'est-à-dire une situation dans laquelle une fréquence inférieure à F01 et F02 peut également être la F0 des deux structures harmoniques. La situation de virtual multipitch la plus gênante est celle dans laquelle les deuxF0 sont en relation(2,3). Il s'agit du cas ici puisque160 = (2/3)∗240. La fréquence de 80Hz est très parasite car elle est pic(1,2)etF01et le pic(1,4)deF02. La gure 5.16 présente les résultats dePSHmin. Dans la fonction PUI du graphique (a), l'amplitude en 80Hz est eectivement plus importante que celle des F0. Les valeurs estimées valent 160 et 240Hz. Le pic parasite le plus fort reste celui en 80Hz mais a été

Figure 5.16: Fonctions PUI, MAQ et PSH obtenues parPSHminen situation bipitch sur un signal synthétique comportant deuxF0en situation de virtual multipitch. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

nettement atténué.PSHmin témoigne d'un comportement très satisfaisant dans cette situation puisque les deux pics des F0 théoriques émergent très nettement du reste. LePSHmin semble bien traiter tous les cas de virtual multipitch dont le cas à l'octave fait parti. La gure 5.17 présente les résultats obtenus avecPSHmul dans la même situation. L'estimation est correcte et fournit 160Hz et 240Hz en hypothèse F0. Il ne reste plus aucun pic parasite dans la fonction PSH et le comportement de PSHmulest très satisfaisant.

Implémentations du principe de PSH

Figure 5.17: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch sur un signal synthétique comportant deuxF0en situation de virtual multipitch. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

5.3.2.3 Signaux synthétiques situation de F0 proches

Le signal exemple est construit comme précédemment. Il s'agit de montrer la limite de résolution dans la distinction de deux F0 proches. La gure 5.18 illustre la fonction PUI, la fonction MAQ et la fonction PSH obtenues dans un mélange synthétique dont une F0 vaut 233Hz et l'autre 240Hz.

L'écart entre les deux F0 est d'environ un quart de ton (233∗2(0.5/12)≈240) soit 3% d'écart relatif (233∗1.03≈240). Le graphique (a) montre la fonction PUI, le graphique (b) la fonction MAQ et le graphique (c) la fonction PSH obtenues par PSHmin. Les valeurs estimées sont 233.59Hz et 239.37Hz et sont donc correctes. Les pics parasites sont très fortement atténués. La limite de résolution se situe autour de ce quart de ton soit environ 3% d'écart relatif entre les deuxF0. Un test (non présenté) a été eectué avec un écart de 1.5% environ (un huitième de ton) dans le cas synthétique.PSHmin parvient encore à distinguer les deux F0 mais les deux maxima locaux sont quasiment fusionnés en un seul. Si l'écart relatif est encore diminué, les deuxF0 ne sont plus distinguables. Avec un signal de parole réelle, il faut compter sur une résolution plus faible et par conséquent 3% est un bon ordre de grandeur. La gure 5.19 présente les résultats obtenus parPSHmul dans une situation deF0 proches. Les graphiques (a) et (b) donnent la fonction PUI avec correction hyperbolique. Le graphique (c) donne le masque binaire et le graphique (d) donne la fonction PSH. L'exemple n'est pas le même que celui utilisé pour PSHmin car PSHmul ne parvient pas à discriminer une F0 à 233 et l'autre à 240Hz. L'exemple pris est donc un mélange d'une structure harmonique de F0 à 225Hz et l'autre à 240Hz. L'estimation de F0 est correcte et il n'y a plus aucun pic parasite. Un test (non présenté) montre qu'à partir de 230Hz, PSHmul n'arrive plus à distinguer les deux F0 et fournit la valeur moyenne comme unique hypothèse F0 c'est-à-dire 235Hz pour le couple de F0 (235,240Hz). La limite de résolution de PSHmul est plus faible quePSHmin et se situe autour de 5-6% soit autour du demi ton.

Observons à présent les capacités des implémentations de PSH soumis à de la parole réelle bipitch.

132

Implémentations du principe de PSH

Figure 5.18: Fonctions PUI, MAQ et PSH obtenues parPSHminen situation bipitch sur un signal synthétique comportant deuxF0 proches. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

Figure 5.19: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch sur un signal synthétique comportant deuxF0 proches. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

Implémentations du principe de PSH

5.3.2.4 Parole réelle mélange voix de femme/voix de femme

La première trame est celle du i de voix de femme utilisé précédemment dans le sous-paragraphe 5.3.1.1. La seconde trame est un o de voix de femme. Elle est contenue dans le mot no de la phrase I hatch my bets and take no risks . Le chier utilisé est sb034 et appartient au corpus de Bagshaw. Les signaux mélangés sont d'abord normalisés en terme d'intensité. L'intensité est entendue au sens de la fonction Get intensity (dB) fournie dans le logiciel PRAAT (cf. cha-pitre 6 équation 6.13 pour le détail). Il sont ensuite additionnés et mis à l'échelle pour que l'extremum du mélange vaille 0.99 an d'éviter toute saturation (clipping) lors de l'enregistrement de la forme d'onde au format WAV. Cette procédure de normalisation est utilisée dans tous les mélanges utilisés dans ce chapitre. La gure 5.20 montre les résultats de PSHmin sur un mélange de voix de femmes.

Le graphique (a) contient la fonction PUI, le graphique (b) contient la fonction MAQ et le graphique (c) présente la fonction PSH. Les valeurs théoriques à estimer sont 253.4Hz et 289.3Hz. L'estimation

Figure 5.20: Fonctions PUI, MAQ et PSH obtenues par PSHmin en situation bipitch réel voix de femme/voix de femme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

donne 293.3Hz, 95Hz et 254.3Hz. Le pic en 95Hz reste plus élevé que celui en 254.3Hz. Le fait d'avoir à regarder plus d'hypothèses que deF0 théorique diminue le critère qui sera nommé précision dans le reste du manuscrit. La précision d'une trame correspond au nombre d'hypothèses nécessaires pour que toutes lesF0 de références soient trouvées. Dans cet exemple, la précision est de 2/3 car il faut 3 hypothèses pour que PSH donne les deux références F0. La précision est détaillée dans le chapitre 6 dédié à l'évaluation. La gure 5.21 présente le résultat obtenu par PSHmul. Les graphiques (a) et (b)

134

Implémentations du principe de PSH représentent la fonction PUI avec correction hyperbolique. Le graphique (c) est la fonction de masque binaire et le graphique (d) est la fonction PSH. L'estimation de F0 donne 256 et 290Hz en premiers

Figure 5.21: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch réel voix de femme/voix de femme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

candidatsF0. La précision est donc de 100%. Deux autres pics parasites restent dans la fonction PSH et sont placés en 98Hz et 508Hz.

5.3.2.5 Parole réelle mélange voix de femme/voix d'homme

La première trame est la trame de i utilisée dans le sous-paragraphe 5.3.1.1. La seconde trame est la trame de a utilisée dans le sous-paragraphe 5.3.1.2. Après l'étape de normalisation des intensités, les signaux sont additionnés. La gure 5.22 présente les résultats de PSHmin sur le mélange voix de femme/voix d'homme. Le graphique (a) présente la fonction PUI, le graphique (b) présente la fonction MAQ et le graphique (c) présente la fonction PSH. Les F0 de références valent 110.6Hz et 289.6Hz. L'estimation donne dans l'ordre des amplitudes 110.7Hz, 113.1Hz, 94.5Hz et 293.1Hz. La précision de PSH dans cet exemple est de 1/2. Le pic en 113Hz est du à un maximum local dans le même pic que celui de 110Hz, phénomène déjà décrit dans la gure 5.12. La gure 5.23 présente les résultats obtenus par PSHmul. Les graphiques (a) et (b) donnent la fonction PUI avec correction hyperbolique. Le graphique (c) représente la fonction de masque binaire et le graphique (d) illustre la fonction PSH. L'estimation donne 292 et 113Hz ce qui est correct. Il reste quatre pics parasites qui sont d'amplitude inférieure à la moitié des maxima des F0 à estimer.

Implémentations du principe de PSH

Figure 5.22: Fonctions PUI, MAQ et PSH obtenues par PSHmin en situation bipitch réel voix de femme/voix d'homme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

Figure 5.23: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch réel voix de femme/voix d'homme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

136

Implémentations du principe de PSH 5.3.2.6 Parole réelle mélange voix d'homme/voix d'homme

La première trame contient le a utilisé dans 5.3.1.2. La seconde trame est un ou extrait du signal rl023 appartenant au corpus de Bagshaw. La phrase prononcée est : I can't move my legs . Le son ou provient du mot move . La mélange est obtenu après normalisation des intensités. La gure 5.24 présente les résultats obtenus par PSHmin. Les graphiques (a), (b) et (c) illustrent respectivement les fonctions PUI, MAQ et PSH. Les valeurs deF0 références sont 101.6Hz et

Figure 5.24: Fonctions PUI, MAQ et PSH obtenues parPSHmin en situation bipitch réel voix d'homme/voix d'homme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

110.6Hz. L'estimation donne 108.3Hz, 110.4Hz et 100.3Hz. L'estimation deF0multiple est correct mais la précision est de2/3. L'amplitude des pics parasites est rejetée à un peu plus de la moitié de celle des picsF0ce qui est assez satisfaisant. La gure 5.25 présente les résultats dePSHmulsur le même exemple.

L'estimation donne 112Hz et 99Hz. L'estimation reste correcte et la fonction PSH ne conserve cinq pics parasites. Sur les trois exemples réels,PSHmulse montre plus performant quePSHmin notamment dans le nombre de pics parasites restants dans la fonction PSH et dans la précision requise pour retrouver les bonnes estimations deF0. Cette observation est moins vraie sur des signaux synthétiques ce qui est logique puisquePSHminest issu de considérations purement théoriques. De manière générale, le passage à une situation bipitch est bien réussi pour les deux AEP et notamment pourPSHmul. La suppression des pics parasites est performante. Il apparaît logiquement une dégradation des performances entre l'utilisation de signaux synthétiques et les signaux réels. Les pics parasites restant sont plus nombreux avec des signaux de parole réelle. La précision de nos AEP diminue et il faut plus d'hypothèses pour

Implémentations du principe de PSH

Figure 5.25: Fonctions PUI, MAQ et PSH obtenues parPSHmul en situation bipitch réel voix d'homme/voix d'homme. (a) Fonction PUI. (b) Fonction MAQ. (c) Fonction PSH.

retrouver les références même si cela n'est pas encore trop visible pour PSHmul. Qu'en est-il d'un passage à la situation plus complexe 4-pitch ?