6. Le corpus Sound Teacher/E‐Wiz
6.2. Quelles mesures pour quels paramètres ?
La mise en place et la réalisation effective des enregistrements décrits dans cette section ont été réalisées en étroite collaboration avec Albert Rilliard, chargé de recherches au CNRS, Christophe Savariaux, ingénieur de recherche CNRS, et Alain Arnal, technicien audiovisuel à l’Université Stendhal‐Grenoble 3, tous trois affiliés à l’époque de l’enregistrement du corpus à l’Institut de la Communication Parlée, devenu depuis le département Parole & Cognition de GIPSA‐lab.
6.2.1 Le signal acoustique
La modalité à laquelle nous nous intéressons en priorité est celle de la parole acoustique.
Le signal acoustique doit donc être de la meilleure qualité possible, ce qui nécessite l’utilisation d’un dispositif d’enregistrement professionnel, réalisé en chambre sourde avec un microphone de bonne qualité.
L’ensemble de la production vocale des sujets (commandes vocales et commentaires) est donc enregistré à l’aide d’un enregistreur numérique DAT portable Tascam DA‐P1, à une fréquence d’échantillonnage de 44100 Hz et une quantification de 16 bits par échantillon, à l’aide d’un microphone AKG C1000S.
Nous enregistrons également les autres signaux de référence énumérés ci‐dessous. En raison de l’impossibilité d’enregistrer directement l’ensemble de ces signaux avec une synchronisation fine, un signal spécifique permettant de réaliser cette synchronisation a posteriori a également été recueilli.
6.2.2 Le signal visuel
Au cours de l’enregistrement, les sujets sont assis face à l’écran sur lequel les différentes étapes du scénario Sound Teacher sont présentées, et leur regard est dirigé en direction de cet écran. La présence de la caméra n’est pas explicitement mentionnée, celle‐ci étant justifiée auprès des sujets qui posent la question à l’expérimentateur comme une mesure de sécurité obligatoire pour permettre d’intervenir en cas de malaise. Les différents capteurs sont posés de telle façon qu’ils ne puissent pas masquer les gestes faciaux. La vidéo a été enregistrée sur fond bleu. Pour les cinq premiers locuteurs, l’enregistrement vidéo a été réalisé à l’aide d’un dispositif professionnel d’enregistrement au format Betacam SP de marque Sony. Par souci de commodité, l’enregistrement vidéo pour les sujets suivants a été réalisé au format mini DV à l’aide d’un caméscope Canon MV20i.
Les deux types de bande vidéo (Betacam SP et mini DV) ont ensuite été numérisées à
compresser les vidéos numérisées au format AVI, en utilisant un algorithme de compression/décompression (codec) compatible avec les systèmes d’exploitation les plus utilisés au laboratoire (Windows, MacOS X).
6.2.3 Les capteurs bio‐physiologiques
Les capteurs bio‐physiologiques ne mesurent pas des expressions émotionnelles, mais suivent les marqueurs de l’état somatique qui varie avec l’état émotionnel du sujet. Si le pari fait par Lange (1885) de patrons distincts de réactions physiologiques selon les émotions s’est avéré non vérifié (voir par exemple Sander (2008) pour une courte discussion sur certains de ces aspects), des changements importants d’état émotionnel sont détectables via les pics de réflexe galvanique (Vernet‐Maury, 2001). Ces pics de réflexe galvanique permettent seulement de détecter un changement d’état émotionnel, et non de déterminer l’état dans lequel se trouve le sujet avant et après l’apparition de ce pic.
Le système que nous avons adopté est celui utilisé au MIT par l’équipe de Rosalind Picard et distribué par la société ProComp. Les capteurs installés sur chaque sujet mesurent les activités suivantes :
Le réflexe galvanique (augmentation de la transpiration à la surface de la peau) : il est mesuré à lʹaide de deux électrodes appliquant une imperceptible tension à travers la peau, qui se fixent à lʹintérieur de la deuxième phalange de deux doigts adjacents du sujet.
L’amplitude respiratoire : ce capteur se place au‐dessus du sternum pour la surveillance thoracique. Ce capteur est constitué d’une grande ceinture Velcro entourant le torse et d’un plétismographe qui s’étend lorsque le sujet expire. Cet allongement est mesuré et enregistré en fonction du temps, ce qui donne une courbe permettant de connaître l’intensité du mouvement respiratoire du sujet ainsi que sa cadence respiratoire.
L’électromyogramme (mesure de l’activité musculaire) : cette mesure se fait à lʹaide de trois électrodes groupées qui se posent sur un muscle au repos. Nous avons choisi de les appliquer sur le biceps du bras gauche du sujet, qu’il avait pour consigne de déplacer le moins possible au cours de l’expérience.
La température de la peau : cette mesure est faite à l’aide d’un thermomètre spécial de petite taille qui s’applique sur la peau. Nous avons fixé ce thermomètre au contact du poignet du sujet.
La fréquence cardiaque : elle se mesure grâce à un capteur fixé au pouce du sujet. La courbe obtenue en sortie représente l’évolution du nombre de battements en fonction du temps.
Les signaux biophysiologiques ont été enregistrés sous environnement Windows 98 à l’aide du logiciel BioGraph. Cet enregistrement a été réalisé sur un PC dédié à cette mesure, à l’aide d’une connexion par câble optique. Un canal a été réservé pour chaque capteur, l’un des canaux étant destiné au signal de synchronisation.
6.2.4 Mesure électroglottographique
Pour deux sujets (un acteur et un non‐acteur), nous avons enregistré des mesures indirectes des mouvements glottiques à l’aide d’un électroglottographe intégré dans le système EVA2 (Evaluation Vocale Assistée), développé par la société SQ Lab. Cet électroglottographe permet d’enregistrer simultanément, à une fréquence d’échantillonnage de 25 kHz, le signal EGG ainsi que le canal audio.
Nous présentons plus en détails cette technique de mesure et l’exploitation des données que nous avons recueillies dans le chapitre traitant de la qualité de voix (section 7). Cette mesure, quoique n’étant pas invasive comme les autres méthodes de mesure de paramètres glottiques, constitue tout de même une charge supplémentaire pour le sujet, ce qui peut nuire au déroulement de la tâche. Son usage a donc été limité à deux sujets afin d’éviter que cet appareillage ne risque de perturber la qualité des données recueillies pour l’ensemble des corpus. Ces deux sujets ont été choisis parmi les sujets masculins.
En effet les signaux EGG sont plus aisés à analyser pour les voix d’hommes que de femmes (Henrich, 1999). De plus l’appareil de mesure est également plus simple à installer dans le cas d’un homme, en raison de la présence de la pomme d’Adam qui permet de repérer sans difficultés la position du larynx.
6.2.5 Synchronisation des signaux
Il n’aurait pas été possible d’enregistrer directement de façon synchrone l’ensemble des signaux que nous avons collecté. En effet, outre la difficulté à déclencher simultanément tous les appareils de mesure, chacun de ces appareils est régi par un quartz spécifique et la fréquence d’échantillonnage effective des enregistrements réalisés peut dévier légèrement de la fréquence théorique, de façon constante ou non (phénomène de dérive des quartz). En conséquence, sur un enregistrement d’une durée telle que ceux que nous avons effectué, un décalage suffisamment conséquent pour biaiser les mesures peut être observé, qui ne peut être corrigé entièrement par une simple translation du signal en
Afin de pallier cet inconvénient et permettre une resynchronisation a posteriori, un bip de synchronisation d’une durée de 20 ms pour une fréquence de 2 kHz, déclenché par l’expérimentateur suite à chaque occurrence de « Page suivante », a été enregistré simultanément sur l’ensemble des canaux présentés ci‐dessus. Le bip est déclenché à l’instant du changement de trame sur le canal vidéo consécutif à une pression sur le boîtier. Les portions de signal enregistrés sur les différents canaux et comprises entre deux bips consécutifs, dont la durée n’excède pas une minute, peuvent ainsi être ensuite synchronisées.
Un schéma complet du montage utilisé est présenté en Annexe I :. Les éléments composant ce montage ont été centralisés grâce à une table de mixage réalisée spécialement par Alain Arnal dans le cadre du projet Expressive Speech Processing du JST/CREST (Arnal, 2003). Afin d’éviter la présence sur l’enregistrement acoustique de bruits parasites causés par le système de ventilation du poste client, ce dernier a été placé à l’extérieur de la chambre sourde, sa sortie vidéo étant dupliquée vers un écran situé à l’intérieur.