• Aucun résultat trouvé

6. Le corpus Sound Teacher/E‐Wiz

6.2. Quelles mesures pour quels paramètres ?

La mise en place et la réalisation effective des enregistrements décrits dans cette section  ont été réalisées en étroite collaboration avec Albert Rilliard, chargé de recherches au  CNRS, Christophe Savariaux, ingénieur de recherche CNRS, et Alain Arnal, technicien  audiovisuel  à  l’Université  Stendhal‐Grenoble  3,  tous  trois  affiliés  à  l’époque  de  l’enregistrement du corpus à l’Institut de la Communication Parlée, devenu depuis le  département Parole & Cognition de GIPSA‐lab. 

6.2.1 Le signal acoustique 

La modalité à laquelle nous nous intéressons en priorité est celle de la parole acoustique. 

Le signal acoustique doit donc être de la meilleure qualité possible, ce qui nécessite  l’utilisation d’un dispositif d’enregistrement professionnel, réalisé en chambre sourde  avec un microphone de bonne qualité. 

L’ensemble de la production vocale des sujets (commandes vocales et commentaires) est  donc enregistré à l’aide d’un enregistreur numérique DAT portable Tascam DA‐P1, à  une  fréquence  d’échantillonnage  de 44100 Hz  et  une  quantification  de  16  bits  par  échantillon, à l’aide d’un microphone AKG C1000S. 

Nous enregistrons également les autres signaux de référence énumérés ci‐dessous. En  raison de l’impossibilité d’enregistrer directement l’ensemble de ces signaux avec une  synchronisation fine, un signal spécifique permettant de réaliser cette synchronisation  posteriori a également été recueilli. 

6.2.2 Le signal visuel 

Au cours de l’enregistrement, les sujets sont assis face à l’écran sur lequel les différentes  étapes du scénario Sound Teacher sont présentées, et leur regard est dirigé en direction  de cet écran. La présence de la caméra n’est pas explicitement mentionnée, celle‐ci étant  justifiée auprès des sujets qui posent la question à l’expérimentateur comme une mesure  de sécurité obligatoire pour permettre d’intervenir en cas de malaise. Les différents  capteurs sont posés de telle façon qu’ils ne puissent pas masquer les gestes faciaux. La  vidéo a été enregistrée sur fond bleu. Pour les cinq premiers locuteurs, l’enregistrement  vidéo a été réalisé à l’aide d’un dispositif professionnel d’enregistrement au format  Betacam SP de marque Sony. Par souci de commodité, l’enregistrement vidéo pour les  sujets suivants a été réalisé au format mini DV à l’aide d’un caméscope Canon MV20i. 

Les deux types de bande vidéo (Betacam SP et mini DV) ont ensuite été numérisées à 

compresser  les  vidéos  numérisées  au  format  AVI,  en  utilisant  un  algorithme  de  compression/décompression (codec) compatible avec les systèmes d’exploitation les plus  utilisés au laboratoire (Windows, MacOS X). 

6.2.3 Les capteurs bio‐physiologiques 

Les capteurs bio‐physiologiques ne mesurent pas des expressions émotionnelles, mais  suivent les marqueurs de l’état somatique qui varie avec l’état émotionnel du sujet. Si le  pari fait par Lange (1885) de patrons distincts de réactions physiologiques selon les  émotions s’est avéré  non  vérifié  (voir  par exemple  Sander  (2008) pour  une courte  discussion sur certains de ces aspects), des changements importants d’état émotionnel  sont détectables via les pics de réflexe galvanique (Vernet‐Maury, 2001). Ces pics de  réflexe galvanique permettent seulement de détecter un changement d’état émotionnel,  et non de déterminer l’état dans lequel se trouve le sujet avant et après l’apparition de ce  pic. 

Le système que nous avons adopté est celui utilisé au MIT par l’équipe de Rosalind  Picard  et distribué  par la  société ProComp. Les capteurs  installés sur chaque sujet  mesurent les activités suivantes : 

 Le réflexe galvanique (augmentation de la transpiration à la surface de la peau) : il est  mesuré à lʹaide de deux électrodes appliquant une imperceptible tension à travers la  peau, qui se fixent à lʹintérieur de la deuxième phalange de deux doigts adjacents du  sujet.  

 L’amplitude  respiratoire  :  ce  capteur  se  place  au‐dessus  du  sternum  pour  la  surveillance  thoracique.  Ce  capteur  est  constitué  d’une  grande  ceinture  Velcro  entourant le torse et d’un plétismographe qui s’étend lorsque le sujet expire. Cet  allongement est mesuré et enregistré en fonction du temps, ce qui donne une courbe  permettant de connaître l’intensité du mouvement respiratoire du sujet ainsi que sa  cadence respiratoire. 

 L’électromyogramme (mesure de l’activité musculaire) : cette mesure se fait à lʹaide  de trois électrodes groupées qui se posent sur un muscle au repos. Nous avons choisi  de les appliquer sur le biceps du bras gauche du sujet, qu’il avait pour consigne de  déplacer le moins possible au cours de l’expérience.  

 La température de la peau : cette mesure est faite à l’aide d’un thermomètre spécial  de petite taille qui s’applique sur la peau. Nous avons fixé ce thermomètre au contact  du poignet du sujet. 

 La fréquence cardiaque : elle se mesure grâce à un capteur fixé au pouce du sujet. La  courbe obtenue en sortie représente l’évolution du nombre de battements en fonction  du temps. 

Les signaux biophysiologiques ont été enregistrés sous environnement Windows 98 à  l’aide du logiciel BioGraph. Cet enregistrement a été réalisé sur un PC dédié à cette  mesure, à l’aide d’une connexion par câble optique. Un canal a été réservé pour chaque  capteur, l’un des canaux étant destiné au signal de synchronisation. 

6.2.4 Mesure électroglottographique 

Pour  deux sujets  (un acteur et  un  non‐acteur),  nous avons  enregistré  des mesures  indirectes des mouvements glottiques à l’aide d’un électroglottographe intégré dans le  système  EVA2  (Evaluation  Vocale Assistée),  développé  par la  société SQ  Lab. Cet  électroglottographe  permet  d’enregistrer  simultanément,  à  une  fréquence  d’échantillonnage de 25 kHz, le signal EGG ainsi que le canal audio. 

Nous présentons plus en détails cette technique de mesure et l’exploitation des données  que nous avons recueillies dans le chapitre traitant de la qualité de voix (section 7). Cette  mesure,  quoique  n’étant  pas  invasive  comme  les  autres  méthodes  de  mesure  de  paramètres glottiques, constitue tout de même une charge supplémentaire pour le sujet,  ce qui peut nuire au déroulement de la tâche. Son usage a donc été limité à deux sujets  afin d’éviter que cet appareillage ne risque de perturber la qualité des données recueillies  pour l’ensemble des corpus. Ces deux sujets ont été choisis parmi les sujets masculins. 

En effet les signaux EGG sont plus aisés à analyser pour les voix d’hommes que de  femmes (Henrich, 1999). De plus l’appareil de mesure est également plus simple à  installer dans le cas d’un homme, en raison de la présence de la pomme d’Adam qui  permet de repérer sans difficultés la position du larynx. 

6.2.5 Synchronisation des signaux 

Il n’aurait pas été possible d’enregistrer directement de façon synchrone l’ensemble des  signaux que nous avons collecté. En effet, outre la difficulté à déclencher simultanément  tous les appareils de mesure, chacun de ces appareils est régi par un quartz spécifique et  la  fréquence  d’échantillonnage  effective  des  enregistrements  réalisés  peut  dévier  légèrement de la fréquence théorique, de façon constante ou non (phénomène de dérive  des quartz). En conséquence, sur un enregistrement d’une durée telle que ceux que nous  avons effectué, un décalage suffisamment conséquent pour biaiser les mesures peut être  observé, qui ne peut être corrigé entièrement par une simple translation du signal en 

Afin de pallier cet inconvénient et permettre une resynchronisation a posteriori, un bip de  synchronisation d’une durée de 20 ms pour une fréquence de 2 kHz, déclenché par  l’expérimentateur  suite  à  chaque  occurrence  de  « Page  suivante »,  a  été  enregistré  simultanément sur l’ensemble des canaux présentés ci‐dessus. Le bip est déclenché à  l’instant du changement de trame sur le canal vidéo consécutif à une pression sur le  boîtier. Les portions de signal enregistrés sur les différents canaux et comprises entre  deux bips consécutifs, dont la durée n’excède pas une minute, peuvent ainsi être ensuite  synchronisées. 

Un  schéma  complet  du  montage  utilisé  est  présenté  en  Annexe  I  :.  Les  éléments  composant  ce  montage  ont  été  centralisés  grâce  à  une  table  de  mixage  réalisée  spécialement par Alain Arnal dans le cadre du projet Expressive Speech Processing du  JST/CREST (Arnal, 2003). Afin d’éviter la présence sur l’enregistrement acoustique de  bruits parasites causés par le système de ventilation du poste client, ce dernier a été placé  à l’extérieur de la chambre sourde, sa sortie vidéo étant dupliquée vers un écran situé à  l’intérieur.