9. Dimensionnalité, localisation et pertinence perceptive des indices acoustiques
9.2. Etude des poids relatifs des dimensions prosodiques
9.2.4 Projection de contours de fréquence fondamentale et d’intensité
9.2.4.1 Choix des combinaisons de dimensions traitées
Dans un premier temps, nous avons généré les stimuli synthétiques à l’aide du module de manipulation du logiciel Praat (Boersma &Weenink, 1992‐2008). Ce module permet de modifier les contours de fréquence fondamentale ainsi que la durée de tout ou partie d’énoncés naturels en s’appuyant sur l’algorithme TD‐PSOLA, ainsi que de modifier leurs contours d’intensité avant de générer les fichiers sons ainsi modifiés. En revanche il ne permet pas d’appliquer en synthèse des modifications de qualité de voix. De ce fait, les variations de qualité de voix ne peuvent être prises en compte directement comme l’ont fait par exemple Gobl & Ní Chasaide (2003). Il reste toutefois possible d’évaluer l’influence de la qualité de voix sur la perception des expressions émotionnelles « par élimination » : en appliquant à un stimulus représentatif d’un état émotionnel donné les contours de fréquence fondamentale et d’intensité ainsi que les variations de durée du stimulus de référence correspondant (en l’occurrence l’expression neutre produite sur le même énoncé), on peut obtenir, nonobstant d’éventuels artefacts d’analyse/resynthèse, un stimulus resynthétisé dans lequel seule la qualité de voix est caractéristique de l’expression de l’émotion considérée.
La manipulation de la durée est cependant plus problématique que celle des contours de fréquence fondamentale et d’intensité. En effet, au contraire de ces deux paramètres, la durée ne constitue pas une quantité qui varie au cours du temps, mais l’ensemble des phénomènes temporels de la prosodie, pour l‘analyse desquels un modèle de durée (ne serait‐ce qu’au niveau du choix des unités minimales à prendre en compte) est indispensable. En conséquence, et bien que l’algorithme TD‐PSOLA implanté dans le module de modification de Praat propose un outil pour allonger ou rétrécir certaines portions d’un signal de parole (au prix de l’apparition fréquente d’artefacts de synthèse très perceptibles dans le cas de modifications importantes de durée), il nous est impossible de manipuler la durée de façon fiable dans nos stimuli.
Nous avons donc exclu de notre analyse les phénomènes de durée. Etant donné que la méthode d’analyse/synthèse que nous avons adopté ne permet de manipuler directement ni la qualité de voix ni la durée, nous ne pouvons analyser que les variations conjointes de la qualité de voix et de la durée, sans pouvoir étudier leurs influences relatives.
Ainsi, nous avons choisi de générer pour chacun des stimuli originaux porteurs d’une expression émotionnelle, 5 stimuli distincts correspondants chacun à une condition de resynthèse :
Un stimulus de contrôle étiqueté resynthèse complète, construit en appliquant à lui‐
même les contours stylisés de F0 et d’intensité du stimulus source et destiné à évaluer d’éventuels artefacts dus à la stylisation de ces contours ou au processus de resynthèse lui‐même.
Un stimulus étiqueté F0 seule, construit en appliquant le contour stylisé de F0 du stimulus source au stimulus neutre correspondant au même énoncé.
Un stimulus étiqueté intensité seule obtenu en appliquant le contour d’intensité du stimulus source à l’expression neutre correspondante.
Un stimulus étiqueté F0 et intensité construit en appliquant les contours de F0 et d’intensité à l’expression neutre correspondante.
Un stimulus étiqueté qualité de voix et durée. Cette dernière condition a été obtenue en appliquant les contours de F0 et d’intensité de l’expression neutre au stimulus source. Ainsi seuls les phénomènes de durée et de qualité de voix du stimulus source subsistent, tandis que ses variations spécifiques de F0 et d’intensité sont neutralisées.
En complément des 40 stimuli ainsi générés à partir des 8 expressions émotionnelles sélectionnées, nous avons choisi de générer également un stimulus en condition
resynthèse complète pour chacune des 2 expressions neutres, pour un total de 42 stimuli synthétiques.
9.2.4.2 Description de la méthode de projection
Les stimuli synthétiques ont été générés à l’aide de Praat (Boersma & Weenink, 2008), au moyen d’un script que nous avons développé pour rendre ce processus semi‐
automatique. Pour chacune des paires de stimuli traités (un stimulus source porteur d’une expression émotionnelle et un stimulus cible neutre), nous avons dans un premier temps appliqué le contour de fréquence fondamentale du stimulus source à la cible. A la suite de la copie automatique du contour de F0 de la source à la place de celui de la cible, avec un changement d’échelle fonction des durées relatives des phonèmes de chacun des stimuli, nous avons ajusté lorsque nous l’avons jugé nécessaire d’après une inspection visuelle des contours source et cible la répartition des points du contour ainsi copié. Pour cela le contour copié à été stylisé à l’aide de la fonction de Praat prévue à cet effet, tout en s’assurant que cette stylisation ne neutralise pas de points saillants du contour.
Le principe de l’algorithme itératif de stylisation des contours de Praat est de considérer les ensembles de trois points consécutifs en partant du début du contour, et de supprimer le point central si son écart au segment reliant le premier au troisième point est supérieur à la résolution spécifiée comme argument. L‘opération est répétée en conservant le premier point du contour comme point initial de la série de trois points considérée, jusqu’à ce que le point central soit conservé. Ce point central devient alors le premier point de la série considérée, jusqu’à ce que l’ensemble du contour ait été traité.
La résolution par défaut est de 2 demi‐tons. Nous avons opté pour une résolution plus conservative d’un quart de ton, inférieure au seuil de perception du glissando (établi par Rossi (1971) pour les glissandos montants à 19 Hz pour une fréquence fondamentale de référence de 135 Hz, soit une variation de 2,3 demi‐tons, et confirmé par Rossi (1978) pour les glissandos descendants), afin de ne pas éliminer de points saillants du contour.
L’exemple de l’application du contour de fréquence de l’expression de tristesse au stimulus neutre correspondant est illustré par la Figure 33.
Figure 33 : Application du contour de F0 stylisé avec une résolution d’un quart de ton de l’expression de tristesse au stimulus neutre (haut) et contour de F0 résultant après resynthèse (bas). Le contour original de F0 de l’expression neutre apparaît en gris dans la partie supérieure de la figure. Les stimuli originaux utilisés correspondent à des productions du locuteur M2 sur l’énoncé [sabl].
La transplantation des contours d’intensité a été réalisée de manière similaire, le contour d’intensité du stimulus source étant appliqué au stimulus cible après un changement d’échelle fonction des durées phonémiques relatives, avant correction éventuelle de la répartition des points d’intensité. Néanmoins, Praat ne proposant pas pour les contours d’intensité de fonctionnalité de stylisation similaire à celle utilisée pour traiter les contours de fréquence fondamentale, la stylisation des contours d’intensité a été réalisée manuellement en supprimant les points paraissant les moins pertinents pour la paramétrisation du contour. Cette transplantation n’est pas suffisante car Praat ne traite que des contours d’intensité relatifs : la méthode décrite ci‐dessus permet ainsi de modifier la forme globale du contour, mais pas le niveau moyen d’intensité qui participe également de la perception de l’intensité. Le signal acoustique de chaque stimulus généré a donc été rééchelonné afin que l’intensité moyenne en décibels des stimuli source et cible soient égales, en multipliant l’ensemble de ses échantillons par un facteur α défini comme 10(ICIS)/20, où IC est l’intensité moyenne exprimée en dB du stimulus cible et IS celle du stimulus source.
La Figure 34 illustre l’exemple du contour d’intensité de l’expression d’inquiétude appliqué à l’expression neutre correspondante.
Figure 34 : Stylisation du contour d’intensité de l’inquiétude (gauche) et contour d’intensité résultant après application à l’expression neutre et resynthèse (droite). Le stimulus original utilisé a été produit
par le locuteur M2 sur l’énoncé [ʁuʒ].
Dans le cas de la condition de synthèse qualité de voix et durée, les stimuli source et cible ont été intervertis, les contours de fréquence fondamentale et d’intensité de l’expression neutre étant appliqués au stimulus expressif, afin de neutraliser les variations de fréquence fondamentale et de durée de ce stimulus et n’en conserver que les caractéristiques de qualité de voix et de durée.
Dans le cas de la condition resynthèse complète, les modifications appliquées aux contours de fréquence fondamentale et d’intensité avant resynthèse se sont limitées à la stylisation de ces contours. Une écoute attentive ne nous pas permis de déceler de différences perceptibles entre les stimuli naturels d’origine et ceux générés dans cette condition. Néanmoins nous avons pris le parti d’inclure dans l’évaluation perceptive ces stimuli générés en condition de contrôle plutôt que les stimuli naturels d’origine, afin que d’éventuels artefacts de synthèse liés à la stylisation des contours et que nous n’aurions pas perçus soient pris en compte dans la comparaison des résultats de l’évaluation perceptive de cette condition de contrôle et des conditions de resynthèse partielle.
9.2.4.3 Evaluation perceptive des stimuli générés
La présentation des stimuli et l’enregistrement des réponses ont été réalisés à l’aide d’une interface dont la page de réponse est présentée Figure 35, que nous avons développée avec le logiciel Revolution Runtime sur le modèle de celle utilisée pour la première évaluation perceptive (cf. section 8.4. ), mais de façon à ce que les sujets n’aient pas la possibilité de sélectionner plusieurs étiquettes pour indiquer leur réponse. Les sujets avaient pour instruction de sélectionner l’une des 8 étiquettes émotionnelles proposées (Anxiété, Déception, Dégoût, Inquiétude, Joie, Résignation, Satisfaction ou Tristesse) ou l’étiquette Neutre lorsque le stimulus était perçu comme n’exprimant aucune émotion.