• Aucun résultat trouvé

6.4 Pertinence des indices pour prédire la qualité d’un enregistrement

6.4.4 Différencier Min et Max

Pour évaluer le nombre de locuteurs dont les valeurs relatives à la phonation changent entre Min et Max, nous avons comptabilisé le nombre de locuteurs pour lesquels la valeur de F0 diffère significativement entreMinetMax. Ainsi, des ANOVA à un facteur ont été réalisées par locuteur. Le facteur dépendant est l’appartenance à la sérieMinou à la sérieMax, appelée plus loin Performance, et les paramètres dépen-dants sont la F0, le jitter et le shimmer. Pour la F0, l’effet de la voyelle est négligée, une seule ANOVA est donc réalisée. En revanche pour le jitter et le shimmer, une ANOVA doit être réalisée voyelle par voyelle.

Fréquence fondamentale

L’effet de la Performance est significatif (p < 0.01) pour 6 des 47 hommes, soit un peu plus de 12% et pour 5 des 64 femmes, soit 7.8%. Ainsi, la différence de Performance

entreMinetMaxpeut être expliquée pour quelques locuteurs par une différence de F0.

Cette différence n’est toutefois pas générale puisque pour la grande majorité des locu-teur, il n’existe pas de différence significative entre les distributions de F0 entre la série MinetMax. D’ailleurs, en analysant par t-test apparié l’effet de la Performance sur les valeurs médianes de F0 de chaque locuteur, aucune différence significative n’est ob-servée aussi bien pour les hommes (t(46) =−0.7955;p=0.4304) que pour les femmes (t(63) =0.7781;p =0.4394).

De même, si nous conservons l’ensemble des données et réalisons des ANOVA à mesures répétées avec comme facteur dépendant la Performance et comme variable les valeurs de F0 en tenant compte du facteur locuteur, un léger effet de la Performance est observé sur les distribution de F0 pour les hommes (F(1, 14 718) =0.1563;p <0.01). Toutefois, nous observons également queη2 = 0.03%, le facteur Performance n’a donc quasi au-cun effet sur les valeurs de F0. Par ailleurs, auau-cun effet de la Performance n’est observé sur les distributions de F0 pour les femmes(F(1, 18 987) =0.1563;p=0.6926).

Les valeurs de F0 à elles seules ne montrent pas de différence permettant d’expli-quer les différences entre les signaux de parole qui conduisent à une modélisation performante et ceux de la sérieMax.

Jitter et shimmer

Les mêmes questions se posent pour les valeurs de jitter et de shimmer. Dans ce cas, les analyses doivent être réalisées voyelles par voyelles. Nous n’avons pas assez de données pour mesurer pour chaque locuteur et pour chaque voyelle l’effet des valeurs de jitter et de shimmer. Nous pouvons cependant tester s’il existe une différence entre les deux séries grâce à des ANOVA à mesures répétées. Le facteur dépendant est la Performance, la variable étudiée est le jitter en tenant compte du locuteur.

Aucun effet de la Performance n’est observé pour les valeurs de jitter des femmes quelque soit la voyelle (0.1298 < p < 0.9295). Pour les hommes, à l’exception de/a/, aucun effet de la Performance n’est observé (0.1645 < p < 0.8964). Pour/a/, si l’effet est légèrement significatif (F(1, 2 771) =5.34;p<0.05),η2 =0.19%, ce qui montre que l’effet du locuteur n’est vraiment pas important. La part de variation expliquée par le facteur Performance est donc extrêmement faible.

Aucun effet de la Performance n’est observé pour les valeurs de shimmer des hommes quelque soit la voyelle (0.1348 < p < 0.9796). Pour les femmes, à l’exception de/a/, aucun effet de la Performance n’est observé (0.2575 < p < 0.9806). Pour/a/, si l’effet

est légèrement significatif (F(1, 3 724) =4.67;p< 0.05),η2 = 0.001%. La part de varia-tion expliquée par le facteur Performance est donc extrêmement faible.

Le jitter et le shimmer ne montrent pas de différence significative en fonction de la Performance.

Synthèse du chapitre

Si les valeurs deF0 semblent être influencées par le locuteur2autour de 20%), elles ne suffisent pas à expliquer les différences de performance observées entre les sériesMinetMax.

La qualité de phonation, représentée par les mesures de jitter et de shimmer ne sem-blent pas être des indices très pertinents pour différencier les locuteurs de la base de données BREFdans laquelle les extraits enregistrés sont constitués de phrases extraites duMondelue dans une chambre sourde.

Les paramètres acoustiques de la source mesurés ici ne permettent pas de différencier nos deux séries.

Chapitre 7

L’articulation

Résumé:Dans ce chapitre, nous étudions comment le locuteur influence certains indices généralement attribués à des différences d’articulation. Nous observons tout d’abord si la répartition des phonèmes au sein des deux séries Min et Max pourrait expliquer les différences de performances. Très peu de différences sont observées. Nous étudions ensuite l’influence du locuteur sur les centres de gravité des phonèmes.

Nous montrons que les centres de gravités des fricatives et des nasales sont plus sensibles au locuteur que ceux des plosives. Pour les voyelles orales, plus la voyelle est haute et fermée, moins l’effet du locuteur est élevé sur les valeurs des centres de gravité. En étudiant les formants de ces voyelles, nous montrons que les voyelles hautes sont moins dépendantes du locuteur que les autres voyelles. Nous montrons également que F3 et F4 sont plus sensibles au locuteur que F1 et F2. Ces valeurs ne nous permettent cependant pas de différencier les deux séries Min et Max. Les indices de co-articulation semblent moins pertinents que les mesures moyennes sur les formants. Toutes ces analyses sont évidemment effectuées phonème par phonème car l’effet de la catégorie phonétique est très important sur toutes ces mesures.

Sommaire

7.1 Répartition des phonèmes dans les sériesMinetMax . . . 160 7.1.1 Méthode . . . 160 7.1.2 Distribution globale . . . 161 7.1.3 Étude de chaque phonème . . . 161 7.2 Influence du locuteur sur les centres de gravité des phonèmes . . . . 163

7.2.1 Importance relative du locuteur sur les valeurs de centre de gravité . . . 163 7.2.2 Les centres de gravité et les performances des modèles de

lo-cuteur . . . 168 7.3 Les voyelles orales par leurs valeurs de formants . . . 170 7.3.1 Approche . . . 170

7.3.2 Impact du locuteur et de la catégorie vocalique sur les formants 171 7.3.3 Impact du locuteur sur les valeurs formantiques pour chaque

voyelle . . . 172 7.3.4 Les formants des voyelles orales pour différencierMindeMax 174 7.3.5 L’aire des triangles pour différencierMindeMax . . . 178

7.1 Répartition des phonèmes dans les séries Min et Max

En 1995, (Magrin-Chagnolleau et al.,1995) ont mis en évidence desfluctuations de performance en fonction du contenu phonétiquedu fichier d’apprentissage pour des systèmes automatiques. En ne construisant leurs modèles qu’à partir de certains seg-ments, ils ont montré que les nasales et certaines voyelles permettaient d’obtenir de meilleures performances que des modèles construits à partir de plosives ou de frica-tives. Cette différence de performance en fonction des phonèmes utilisés a également été mis en évidence pour l’identification par écoute humaine par (Amino et al.,2006).

Les nasalesjouaient alors un rôle prépondérant dans la reconnaissance. Le contenu phonétique jouerait-il encore un rôle important pour les systèmes actuels ? Certains segments seraient-ils plus porteurs d’information sur le locuteur ?Une présence plus importante de ces segments spécifiques dans les fichiers composant la sérieMin que dans la sérieMaxpourrait être un élément d’explication des différences de performance observées.