• Aucun résultat trouvé

9. Dimensionnalité, localisation et pertinence perceptive des indices acoustiques

9.2. Etude des poids relatifs des dimensions prosodiques

9.2.3 Propriétés acoustiques des stimuli retenus

9.2.3.1 Fréquence fondamentale 

Nous avons tout d’abord extrait les valeurs de fréquence fondamentale pour l’ensemble  des portions voisées de chaque stimulus avec Praat (Boersma &Weenink, 1992‐2008) de  façon semi‐automatique. Pour cela, nous avons adapté un script développé par Yi Xu  (_TimeNormalizeF026 version 2.5.1), qui permet de corriger manuellement les marques de  pulsations glottiques détectées automatiquement par Praat avant d’extraire les contours  de fréquence fondamentale bruts et lissés, que nous avons adapté pour prendre en  compte l’étiquetage des frontières phonémiques réalisé auparavant et ne pas extrapoler  aux portions non voisées les valeurs initiale et finale du contour. Les valeurs extraites ont  été converties en demi‐tons, le niveau de référence étant le niveau moyen de fréquence  fondamentale du locuteur Y. dans l’ensemble du corpus (98,6 Hz), selon la formule  suivante : 

0 ) ln( 0 ) 2 ln(

0 12

Hz Hz tons

demi F ref

F   F , où F0 est la fréquence fondamentale et F0ref la valeur de 

référence, toutes deux exprimées en hertz. Les contours de fréquence fondamentale des  voyelles des huit stimuli expressifs retenus ainsi que des deux expressions neutres sont  représentés Figure 32. 

Nous avons également extrait les caractéristiques statiques générales de la fréquence  fondamentale des voyelles de ces stimuli. Ces contours sont ici décrits par le niveau  moyen, l’attaque, la déclinaison (différence entre la finale et l’attaque) et la dynamique  (différence entre les valeurs maximale et minimale de F0). En raison du lien direct entre  ces paramètres et d’autres mesures plus classiques des caractéristiques générales de la  distribution que  sont  l’écart‐type  et  un  certain  nombre  de quantiles  dont  les  plus  fréquemment utilisés sont la médiane et les 25ème et 75ème centiles (voir par exemple Banse 

& Scherer (1996)), nous n’avons pas retenu ces derniers paramètres. 

       

26 La version la plus récente du script original _TimeNormalizeF0 peut être téléchargée depuis la page 

Web de Yi Xu : http://www.phon.ucl.ac.uk/home/yi/downloads.html 

‐5 0 5 10 15 20

demi‐tons

joie

satisfaction anxiété inquiétude déception résignation tristesse dégoût

neutre (rouge) neutre (sable)

  Figure 32 : Contours de fréquence fondamentale lissés et normalisés sur 20 points des voyelles des 

stimuli sélectionnés comme référence pour les expériences de projection dimensionnelle. 

9.2.3.2 Durée 

Nous avons normalisé la durée de la voyelle de chaque stimulus, extraite de l’étiquetage  phonétique,  par  rapport  à  la  durée  de  la  même  voyelle  dans  l’expression  neutre  correspondante  considérée  comme  référence,  afin  de  l’exprimer  sous  forme  de  proportion de cette durée de référence. En outre la durée totale du stimulus, ainsi que la  proportion de la durée de la voyelle dans la durée totale ont également été calculées. 

Dans le cas des stimuli comprenant un schwa final, la durée de ce schwa également été  extraite afin de calculerla proportion de la durée du schwa dans la durée totale du  stimulus. 

9.2.3.3 Intensité 

Bien que nous ayons observé de fréquents mouvements de buste de la part des locuteurs  piégés par Sound Teacher, induisant une variation de la distance de la bouche du  locuteur au microphone, le locuteur M2 dont nous avons sélectionné les productions  semble, d’après les enregistrements vidéo, avoir peu fait varier cette distance dans ses  productions  actées.  L’intensité  semble  donc  pouvoir  fournir  des  informations  exploitables. 

Nous avons extrait à l’aide de Praat les valeurs moyennes ainsi que l’écart‐type de  l’intensité exprimées en décibels, selon les formules : 

(E)dB 10.log( ainsi que pour la portion de signal restreinte à la voyelle. De plus, dans les cas où un  schwa final a été ajouté, son énergie moyenne a été extraite afin de calculer la différence  d’intensité entre la voyelle et le schwa, exprimée en dB. 

9.2.3.4 Qualité de voix 

Comme  nous  l’avons  exposé  en  section  7,  le  lien  entre  la  plupart  des  mesures  acoustiques supposées liées à la qualité de voix et les régimes vibratoires de la glotte  n’est pas clairement établi, pas plus que ne l’est celui entre ces mesures et des émotions  ou familles d’émotions particulières. Néanmoins certaines de ces mesures permettent de  capturer une partie des variations de qualité de voix perçues. N’étant pas en mesure  d’extraire une estimation de NAQ adaptée à des mesures fines, nous avons choisi de  restreindre l’extraction de paramètres acoustiques que nous avons réalisée aux deux  paramètres spectraux fréquemment utilisés dans la littérature et dont le lien avec des  phénomènes articulatoires et perceptifs liés à la qualité de voix est le plus clairement  établi. 

Nous avons donc choisi de limiter les mesures spectrales de qualité de voix à la pente  spectrale au dessus de 1kHz, supposée rendre compte de la vitesse de fermeture de la  glotte, et à la différence entre les amplitudes des deux premiers harmoniques supposée  rendre  compte  à  coefficient  d’asymétrie  constant  du  continuum  voix  pressée‐voix  relâchée (Doval et al., 2006 ; d’Alessandro, 2006), corrigée de l’influence des fréquences et  des largeurs de bande des formants (Hanson, 1995 ; Iseli & Alwan, 2004). 

La pente spectrale au dessus de 1kHz (que nous noterons par la suite DO1000 selon la  terminologie adoptée par Banse & Scherer (1996)) a été extraite au moyen de la fonction  de Praat prévue à cet effet. Les mesures spectrales nécessaires au calcul de H1*‐H2* ont  été calculées sur une portion de 80% de la voyelle, centrée sur le milieu de cette voyelle  tel  que  défini  par  l’étiquetage  des  frontières  phonémiques.  Nous  avons  extrait  la  différence entre les amplitudes des deux premiers harmoniques (H2‐H1) ainsi que les  trois premiers formants et leur largeur de bande à l’aide d’un script Praat, en nous  fondant sur la valeur moyenne de F0 étiquetée manuellement dans la région considérée  pour  déterminer  l’emplacement  des  deux  premières  harmoniques.  L’extraction  des 

formants a été réalisée de façon semi‐automatique, en considérant comme valeurs de  référence celles indiquées par Tubach (1989) pour les voyelles du français dans le cas  d’un locuteur masculin afin de guider l’extraction. Les valeurs extraites sont validées par  inspection visuelle du spectrogramme. La pente spectrale corrigée de l’influence des  formants H1*‐H2* a été calculée à partir des valeurs de H1 et H2 mesurées, selon  l’équation de Iseli & Alwan (2004) limitée aux deux premiers formants. Comme nous  l’avons  souligné en  section 7, une fréquence fondamentale  proche de la valeur  du  premier formant peut se révéler problématique pour l’extraction de la largeur de bande  B1 du premier formant. Cependant, la fréquence fondamentale moyenne du locuteur que  nous avons sélectionné (96.8 Hz) est suffisamment basse pour que ce problème ne se  pose pas de façon cruciale. 

Nous avons également extrait avec Praat à partir de l’étiquetage rectifié manuellement  des pulsations deux mesures de la perturbation de la fréquence fondamentale supposées  caractériser en partie la phonation craquée. Le taux de jitter a ainsi été extrait, calculé  comme la différence moyenne entre les durées de deux périodes consécutives divisée par  la durée moyenne d’une période, ce qui correspond à la définition du jitter considérée  par Fourcin & Abberton (2008) comme la plus commune. Le shimmer a été extrait à  l’aide de Praat de façon similaire, comme la différence moyenne entre les amplitudes de  deux périodes consécutives divisée par l’amplitude moyenne. En raison de la variabilité  inter‐voyelle  de  ces  mesures  de  perturbations  (Atif  Kiliç  et  al.,  2004),  nous  avons  également normalisé ces mesures en les exprimant comme une proportion de la même  mesure calculée sur l’expression neutre correspondant au même énoncé. 

Nous avons enfin extrait le ratio harmonicité sur bruit (HNR) par autocorrélation, selon  la méthode de Boersma (1993) implémentée dans Praat, sur l’énoncé entier et la portion  centrale  de  la  voyelle.  Afin de  compenser les  potentielles  variations  d’harmonicité  intrinsèques au contenu phonétique de l’énoncé, nous avons normalisé ces valeurs de  HNR  en  leur  retranchant  la  valeur  de  HNR  mesurée  sur  l’expression  neutre  correspondante, considérée comme référence. 

Les valeurs les plus représentatives des paramètres acoustiques extraits des stimuli  sélectionnés,  normalisées  par  rapport  au  stimulus  neutre  correspondant  selon  les  principes exposés ci‐dessus, sont récapitulées dans la Table 11. 

F0 (demi‐tons)  Qualité de voix  Emotion  Enoncé  Durée 

moy.  att.  décl.  dyn. Int. 

Jitt.  Shim.  H2*‐H1*  HNR  joie  [sabl]  ‐30%  3.6  5.7  ‐5.4  5.4  ‐0.5  200%  271%  ‐4.9  ‐0.2  satisfaction  [ʁu] ‐10%  6.7  ‐0.6 9.5  11.3  ‐8.5  60%  175%  ‐5.3  ‐0.6  anxiété  [ʁu] ‐10%  3.9  3.7  ‐3.1  4.2  5.1  80%  225%  ‐0.9  ‐3.1  inquiétude  [ʁu] 24%  11  8.8  ‐3.7  10.4  8.2  60%  100%  ‐3.7  2.5 

déception  [sabl]  32%  1.2  2.9  ‐3.2  3.2  ‐1.7  25%  114%  ‐6.5  7.7  résignation  [sabl]  ‐17%  2.2  1.6  0.6  ‐2.7  100%  71%  ‐16.4  12.8 

tristesse  [sabl]  ‐33%  3.6  ‐0.3 ‐0.1  ‐0.2  ‐2.9  75%  143%  ‐13.4  dégoût  [sabl]  136%  ‐2.1  3.2  4.9  ‐3.2  3.1  100%  157%  ‐2.2  ‐0.2  Table 11 : Principales caractéristiques acoustiques des voyelles des stimuli expressifs sélectionnés  parmi les productions du locuteur M2. Les énoncés sur lesquels ces expressions sont produites sont  indiqués dans la seconde colonne. Les durées et mesures relatives à la qualité de voix sont normalisées  par rapport à l’expression neutre sur le même énoncé. Les mesures d’énergie sont exprimées sous  forme de différence en dB, les autres mesures en proportion relaitve. Int. : Intensité acoustique ; Jitt. :  Jitter ; Shim. : Shimmer.