• Aucun résultat trouvé

9. Dimensionnalité, localisation et pertinence perceptive des indices acoustiques

9.2. Etude des poids relatifs des dimensions prosodiques

9.2.4 Projection de contours de fréquence fondamentale et d’intensité

9.2.4.1 Choix des combinaisons de dimensions traitées 

Dans un premier temps, nous avons généré les stimuli synthétiques à l’aide du module  de manipulation du logiciel Praat (Boersma &Weenink, 1992‐2008). Ce module permet  de modifier les contours de fréquence fondamentale ainsi que la durée de tout ou partie  d’énoncés naturels en s’appuyant sur l’algorithme TD‐PSOLA, ainsi que de modifier  leurs contours d’intensité avant de générer les fichiers sons ainsi modifiés. En revanche il  ne permet pas d’appliquer en synthèse des modifications de qualité de voix. De ce fait,  les variations de qualité de voix ne peuvent être prises en compte directement comme  l’ont fait par exemple Gobl & Ní Chasaide (2003). Il reste toutefois possible d’évaluer  l’influence de la qualité de voix sur la perception des expressions émotionnelles « par  élimination » : en appliquant à un stimulus représentatif d’un état émotionnel donné les  contours de fréquence fondamentale et d’intensité ainsi que les variations de durée du  stimulus de référence correspondant (en l’occurrence l’expression neutre produite sur le  même énoncé), on peut obtenir, nonobstant d’éventuels artefacts d’analyse/resynthèse,  un stimulus resynthétisé dans lequel seule la qualité de voix est caractéristique de  l’expression de l’émotion considérée. 

La manipulation de la durée est cependant plus problématique que celle des contours de  fréquence fondamentale et d’intensité. En effet, au contraire de ces deux paramètres, la  durée ne constitue pas une quantité qui varie au cours du temps, mais l’ensemble des  phénomènes temporels de la prosodie, pour l‘analyse desquels un modèle de durée (ne  serait‐ce  qu’au  niveau  du  choix  des  unités  minimales  à  prendre  en  compte)  est  indispensable. En conséquence, et bien que l’algorithme TD‐PSOLA implanté dans le  module de modification de Praat propose un outil pour allonger ou rétrécir certaines  portions d’un signal de parole (au prix de l’apparition fréquente d’artefacts de synthèse  très  perceptibles  dans  le  cas  de  modifications  importantes  de  durée),  il  nous  est  impossible de manipuler la durée de façon fiable dans nos stimuli. 

Nous avons donc exclu de notre analyse les phénomènes de durée. Etant donné que la  méthode  d’analyse/synthèse  que  nous  avons  adopté  ne  permet  de  manipuler  directement ni la qualité de voix ni la durée, nous ne pouvons analyser que les variations  conjointes de la qualité de voix et de la durée, sans pouvoir étudier leurs influences  relatives. 

Ainsi, nous avons choisi de générer pour chacun des stimuli originaux porteurs d’une  expression émotionnelle, 5 stimuli distincts correspondants chacun à une condition de  resynthèse : 

 Un stimulus de contrôle étiqueté resynthèse complète, construit en appliquant à lui‐

même les contours stylisés de F0 et d’intensité du stimulus source et destiné à  évaluer d’éventuels artefacts dus à la stylisation de ces contours ou au processus de  resynthèse lui‐même. 

 Un stimulus étiqueté F0 seule, construit en appliquant le contour stylisé de F0 du  stimulus source au stimulus neutre correspondant au même énoncé. 

 Un stimulus étiqueté intensité seule obtenu en appliquant le contour d’intensité du  stimulus source à l’expression neutre correspondante. 

 Un stimulus étiqueté F0 et intensité construit en appliquant les contours de F0 et  d’intensité à l’expression neutre correspondante. 

 Un stimulus étiqueté qualité de voix et durée. Cette dernière condition a été obtenue en  appliquant  les  contours de  F0 et  d’intensité  de l’expression  neutre  au stimulus  source. Ainsi seuls les phénomènes de durée et de qualité de voix du stimulus source  subsistent, tandis que ses variations spécifiques de F0 et d’intensité sont neutralisées. 

En complément des 40 stimuli ainsi générés à partir des 8 expressions émotionnelles  sélectionnées,  nous  avons  choisi  de  générer  également  un  stimulus  en  condition 

resynthèse complète pour chacune des 2 expressions neutres, pour un total de 42 stimuli  synthétiques. 

9.2.4.2 Description de la méthode de projection 

Les stimuli synthétiques ont été générés à l’aide de Praat (Boersma & Weenink, 2008), au  moyen  d’un  script  que  nous  avons  développé  pour  rendre  ce  processus  semi‐

automatique. Pour chacune des paires de stimuli traités (un stimulus source porteur  d’une expression émotionnelle et un stimulus cible neutre), nous avons dans un premier  temps appliqué le contour de fréquence fondamentale du stimulus source à la cible. A la  suite de la copie automatique du contour de F0 de la source à la place de celui de la cible,  avec un changement d’échelle fonction des durées relatives des phonèmes de chacun des  stimuli, nous avons ajusté lorsque nous l’avons jugé nécessaire d’après une inspection  visuelle des contours source et cible la répartition des points du contour ainsi copié. Pour  cela le contour copié à été stylisé à l’aide de la fonction de Praat prévue à cet effet, tout  en s’assurant que cette stylisation ne neutralise pas de points saillants du contour. 

Le principe de l’algorithme itératif de stylisation des contours de Praat est de considérer  les  ensembles  de  trois  points  consécutifs  en  partant  du  début  du  contour,  et  de  supprimer le point central si son écart au segment reliant le premier au troisième point  est supérieur  à la résolution  spécifiée comme argument. L‘opération est répétée en  conservant le premier point du contour comme point initial de la série de trois points  considérée, jusqu’à ce que le point central soit conservé. Ce point central devient alors le  premier point de la série considérée, jusqu’à ce que l’ensemble du contour ait été traité. 

La résolution par défaut est de 2 demi‐tons. Nous avons opté pour une résolution plus  conservative d’un quart de ton, inférieure au seuil de perception du glissando (établi par  Rossi (1971) pour les glissandos montants à 19 Hz pour une fréquence fondamentale de  référence de 135 Hz, soit une variation de 2,3 demi‐tons, et confirmé par Rossi (1978)  pour les glissandos descendants), afin de ne pas éliminer de points saillants du contour. 

L’exemple de l’application du contour de fréquence de  l’expression de  tristesse au  stimulus neutre correspondant est illustré par la Figure 33. 

 

Figure 33 : Application du contour de F0 stylisé avec une résolution d’un quart de ton de l’expression  de tristesse au stimulus neutre (haut) et contour de F0 résultant après resynthèse (bas). Le contour  original de F0 de l’expression neutre apparaît en gris dans la partie supérieure de la figure. Les stimuli  originaux utilisés correspondent à des productions du locuteur M2 sur l’énoncé [sabl]. 

La transplantation des contours d’intensité a été réalisée de manière similaire, le contour  d’intensité du stimulus source étant appliqué au stimulus cible après un changement  d’échelle fonction des durées phonémiques relatives, avant correction éventuelle de la  répartition des points d’intensité. Néanmoins, Praat ne proposant pas pour les contours  d’intensité  de  fonctionnalité  de  stylisation  similaire  à  celle utilisée  pour  traiter  les  contours de fréquence fondamentale, la stylisation des contours d’intensité a été réalisée  manuellement  en  supprimant  les  points  paraissant  les  moins  pertinents  pour  la  paramétrisation du contour. Cette transplantation n’est pas suffisante car Praat ne traite  que des  contours d’intensité relatifs :  la méthode décrite  ci‐dessus  permet ainsi  de  modifier la forme globale du contour, mais pas le niveau moyen d’intensité qui participe  également de  la  perception  de  l’intensité. Le signal acoustique de chaque stimulus  généré a donc été rééchelonné afin que l’intensité moyenne en décibels des stimuli  source et cible soient égales, en multipliant l’ensemble de ses échantillons par un facteur  α défini  comme   10(ICIS)/20,  où  IC  est  l’intensité  moyenne  exprimée  en  dB  du  stimulus cible et IS celle du stimulus source. 

La  Figure 34 illustre  l’exemple du  contour  d’intensité de  l’expression  d’inquiétude  appliqué à l’expression neutre correspondante. 

  Figure 34 : Stylisation du contour d’intensité de l’inquiétude (gauche) et contour d’intensité résultant  après application à l’expression neutre et resynthèse (droite). Le stimulus original utilisé a été produit 

par le locuteur M2 sur l’énoncé [ʁuʒ]. 

Dans le cas de la condition de synthèse qualité de voix et durée, les stimuli source et cible  ont été intervertis, les contours de fréquence fondamentale et d’intensité de l’expression  neutre  étant  appliqués  au  stimulus  expressif,  afin  de  neutraliser  les  variations  de  fréquence  fondamentale  et  de  durée  de  ce  stimulus  et  n’en  conserver  que  les  caractéristiques de qualité de voix et de durée. 

Dans le cas  de  la condition  resynthèse  complète,  les modifications  appliquées  aux  contours de fréquence fondamentale et d’intensité avant resynthèse se sont limitées à la  stylisation de ces contours. Une écoute attentive ne nous pas permis de déceler de  différences perceptibles entre les stimuli naturels d’origine et ceux générés dans cette  condition. Néanmoins nous avons pris le parti d’inclure dans l’évaluation perceptive ces  stimuli générés en condition de contrôle plutôt que les stimuli naturels d’origine, afin  que d’éventuels artefacts de synthèse liés à la stylisation des contours et que nous  n’aurions  pas  perçus  soient  pris  en  compte  dans  la  comparaison  des  résultats  de  l’évaluation perceptive de cette condition de contrôle et des conditions de resynthèse  partielle. 

9.2.4.3 Evaluation perceptive des stimuli générés 

La présentation des stimuli et l’enregistrement des réponses ont été réalisés à l’aide  d’une  interface  dont  la  page  de  réponse  est  présentée  Figure  35,  que  nous  avons  développée avec le logiciel Revolution Runtime sur le modèle de celle utilisée pour la  première évaluation perceptive (cf. section 8.4. ), mais de façon à ce que les sujets n’aient  pas la possibilité de sélectionner plusieurs étiquettes pour indiquer leur réponse. Les  sujets  avaient pour  instruction  de sélectionner  l’une  des  8  étiquettes  émotionnelles  proposées (Anxiété, Déception, Dégoût, Inquiétude, Joie, Résignation, Satisfaction ou Tristesse)  ou l’étiquette Neutre lorsque le stimulus était perçu comme n’exprimant aucune émotion.