• Aucun résultat trouvé

5. Méthodologie de recueil de données

5.4. Une plate‐forme dédiée : E‐Wiz

5.4.2 Le scénario Sound Teacher

5.4.2.1 Description du scénario 

Nous avons ensuite développé à l’aide de la plate‐forme E‐Wiz un second scénario, 

« Sound Teacher » (Rilliard, Aubergé & Audibert, 2004). Ce scénario imite un logiciel  d’apprentissage des sons de diverses langues du monde tiré des travaux de Boë et al. 

(1995a, 1995b), prétendu permettre un apprentissage intuitif des langues étrangères. Ce  logiciel est présenté comme l’application à l’apprentissage des langues étrangères de  découvertes neurophysiologiques récentes liées à la théorie de la perception‐action et des  neurones miroirs. L’argument factice principal, apporté aux sujets comme introduction à  la  tâche  proposée,  est  que  le  cerveau  humain  crée  des  cartes  corticales  lors  de  l’observation d’un mouvement biologique, également utilisées pour la production du  même mouvement. L’apprentissage proposé aux sujets résulte donc de l’application de  cette  théorie  aux  mouvements  articulatoires.  L’application  est  présentée  aux  sujets  comme en cours de test, ce qui permet de justifier l’utilisation de certains capteurs ainsi  que les demandes de commentaires. Diverses raisons nous ont conduites au choix de ce  scénario, que nous avons tenté de rendre le plus motivant possible pour les sujets, à  commencer par l’engouement pour les études relatives au fonctionnement du cerveau,  qui trouvait déjà au moment de la mise en œuvre de ce scénario un certain écho auprès  du grand public. De plus, le laboratoire dans lequel les enregistrements prenaient place  étant situé dans l’enceinte d’une université dans laquelle sont notamment enseignées les  sciences du langage et les langues étrangères, il était relativement aisé de recruter des  étudiants grandement motivés pour comprendre le fonctionnement de leur cerveau lors  de l’apprentissage de langues étrangères. 

L’apprentissage est fondé sur la présentation sonore de prototypes de voyelles issues de  diverses langues du monde, réalisés par un synthétiseur vocal, couplée à la présentation  visuelle  de  quatre  traits  articulatoires :  ouverture,  avant/arrière,  centralisation,  arrondissement des lèvres. De plus, les positions des voyelles dans le triangle vocalique  (projection  en  2  dimensions  de  l’espace  acoustique  décrit  par  les  deux  premiers  formants)  sont  représentées,  associées  à  leur  symbole  dans  l’alphabet  phonétique  international. L’interface est basée sur une présentation multimédia des voyelles des  langues du monde développé au laboratoire par Boë et al. (1995a, 1995b) pour la cité des  sciences de la Villette (Vallas et al., 2000). Les sujets sont entraînés à reconnaître les  valeurs de ces paramètres, c’est‐à‐dire le mouvement articulatoire, lors d’une phase  d’écoute de ces voyelles, puis à appliquer lors d’une phase de production (Figure 8) les  nouvelles compétences qu’ils sont censé avoir ainsi acquises.  

  Figure 8 : Exemple de tâche de production proposée par le scénario Sound Teacher 

Le scénario, après une phase de présentation, est organisé en quatre étapes, de difficulté  croissante  du  point  de  vue  de  la  tâche  d’apprentissage.  Du  point  de  vue  de  l’expérimentateur,  ces  quatre  phases  sont  destinées  à  induire  des  variations  émotionnelles, tout d’abord positives (phases 1 et 2), puis négatives (phases 3 et 4). 

Chaque phase se décompose en une tâche de production et 4 tâches de perception  (Figure  9),  chacune  centrée  sur  l’un  des  traits  articulatoires.  Lors  des  tâches  de  perception, le sujet écoute un stimulus sonore (une voyelle synthétisée) et doit prononcer  la couleur correspondant à celle qu’il pense avoir reconnue parmi les deux voyelles  entourées dans le triangle vocalique. Toutes les tâches proposées sont séparées par des  pages de présentation au sujet des résultats qui lui sont attribués, comparés aux résultats  obtenus par les sujets précédents. L’ensemble de ces résultats est prédéterminé au sein  du scénario en fonction des objectifs d’induction de variations émotionnelles. Outre les  tâches de production, les sujets doivent prononcer la commande vocale « page suivante »  pour  avancer  dans  le  déroulement  du  scénario,  et  des  noms  de  couleurs  monosyllabiques pour fournir les réponses lors des tâches de perception, en fonction des  instructions  présentées  à  l’écran.  Des  commentaires  lui  sont  également  demandés  régulièrement. 

  Figure 9 : Exemple de tâche de perception proposée par le scénario Sound Teacher 

La première phase consiste en une vérification des compétences des sujets (de langue  maternelle française) pour la production et la perception de voyelles du français. Un  retour  d’information  artificiellement  positif  est  donné  aux  sujets,  avec  un  score  significativement plus haut que le prétendu score moyen des apprenants précédents. Le  sujet doit,  lors  de  la deuxième phase,  apprendre des  voyelles proches du  système  phonologique du français. Le choix des voyelles perceptivement proches ou éloignées de  celles du système phonologique du français a été fondé sur les résultats d’une étude  perceptive menée par Chauny (1996) à partir du même modèle de synthèse articulatoire  des voyelles. Durant cette phase, le sujet reçoit toujours un score élevé après chaque  tâche. Il est averti, à l’issue de cette phase d’apprentissage, que ses performances le  classent parmi les 5 meilleurs apprenants évalués jusqu’alors, ce qui lui permet de passer  directement à une phase de généralisation à des voyelles complexes. 

Lors  de cette  troisième phase, le  sujet  est confronté  à  des voyelles perceptivement  éloignées de celles du français. Son score est évalué comme très nettement inférieur à la  moyenne des autres sujets. Il est alors mis en garde de l’anormalité de ses résultats, et il  lui est signifié que ses compétences pour la perception et la production des voyelles du  français  doivent  être  vérifiées,  car  elles  pourraient  avoir  été  dégradées  par  Sound  Teacher. La quatrième et dernière phase est donc similaire à la première, à ceci près que  les stimuli sonores présentés ont été modifiés afin de réduire fortement le contraste  perceptif et d’obliger ainsi les sujets à répondre au hasard. A nouveau, des scores très  faibles sont attribués au sujet, et les commentaires qui lui sont présentés vont dans le  sens  d’une  dégradation  de  ses  capacités  perceptives.  Néanmoins  afin  d’éviter  de 

provoquer chez lui une peur trop intense, ce qui serait problématique d’un point de vue  éthique, il lui est signifié que ses capacités perceptives devraient revenir rapidement à la  normale. 

A la fin du déroulement du scénario, le sujet est informé des buts réels de l’expérience. 

Une brève interview prend alors place, dans laquelle il lui est demandé de décrire  brièvement les différents états émotionnels ressentis pendant l’enregistrement. 

5.4.2.2 Spécificité du contrôle des données 

Les données collectées pour constituer les corpus sont les pseudo‐commandes vocales, à  savoir les occurrences de « page suivante » et des cinq noms de couleurs monosyllabiques 

« rouge », « jaune », « sable », « vert », « brique », ainsi que les commentaires libres. Le choix  de retenir essentiellement des stimuli monosyllabiques dans le langage de commande  imposé au sujet a été dicté par la volonté de collecter des énoncés dans lesquels les seules  variations prosodiques soient celles dues aux affects exprimés par les sujets. En effet,  dans le cadre d’un modèle prosodique de superposition de contours gradients (Aubergé,  2002), un énoncé d’une longueur supérieure à la syllabe (et plus particulièrement d’une  longueur supérieure à trois syllabes si la notion de mot prosodique est retenue) verra se  superposer  aux  expressions  d’affects  les  variations  prosodiques  liées  aux  fonctions  linguistiques de la prosodie. En l’absence d’une modélisation suffisamment fine de la  prosodie  linguistique,  qui  permettrait  de  simplement  retrancher  les  contours  correspondants  pour  n’étudier  que  les  variations  prosodiques  liées  aux  affects,  l’utilisation  d’énoncés  minimaux  est  destinée  à  geler  ces  fonctions,  et  tout  particulièrement la fonction de segmentation/hiérarchisation de l’énoncé. 

Le choix des noms de couleurs a été effectué afin d’obtenir des voyelles différentes,  distribuées dans l’espace vocalique du français : [i], [u], [o], [a] et [ɛ]. Cette distribution a  été choisie afin de pouvoir utiliser les données recueillies pour tester des algorithmes de  mesure, notamment pour l’extraction de paramètres acoustiques de qualité de voix, en  évaluant  d’éventuels  artefacts  liés  aux  caractéristiques  acoustiques  des  différentes  voyelles. 

Pour l’élaboration du scénario Sound Teacher, le choix que nous avons fait a été de  placer le sujet dans une situation dans laquelle il est persuadé de n’interagir qu’avec une  machine, par le biais d’un langage de commandes, afin d’éliminer les expressions de  l’intentionnalité du sujet, c’est‐à‐dire l’élaboration de stratégies communicatives dans le  but d’influer son interlocuteur. Ces stratégies communicatives peuvent s’exprimer selon  diverses  modalités,  notamment  via  le  choix  lexical  ou  l’utilisation  d’attitudes  prosodiques (ou encore par l’expression dans la parole d’une « émotion intentionnelle », 

c’est‐à‐dire simulée). Or, il convient d’éliminer a priori de nos corpus l’expression de ces  attitudes afin d’éviter autant que possible qu’elles n’interfèrent avec la prosodie des  émotions que nous voulons collecter. En conséquence, l’hypothèse que nous formulons  est  que  cette  intentionnalité  n’apparaît  pas  dans  le  cadre  d’une  communication  personne‐machine, et donc que  le deuxième niveau  prosodique (celui des  attitudes  émotionnelles) n’est pas exprimé. En fixant le troisième niveau (celui des fonctions  linguistiques de la prosodie) ainsi que l’accès lexical grâce à un langage de commandes  imposé au sujet, il devient alors possible d’obtenir un corpus dans lequel seul le niveau  émotionnel de la prosodie varie. 

5.4.2.3 Un scénario particulier pour les acteurs 

Au‐delà du protocole décrit ci‐dessus et destiné à capturer des expressions vocales  d’émotions  induites  chez  les  sujets  par  la  manipulation  de  leurs  performances,  le  scénario Sound Teacher a également été imaginé pour permettre de motiver des acteurs  expérimentés ayant une motivation pour l’apprentissage des langues étrangères. 

En effet, ce scénario prévoit un protocole particulier pour le cas des acteurs recrutés pour  l’enregistrement d’un corpus d’émotions actées, élaboré par Noiray (2003). Les acteurs  sont dans un premier temps contactés uniquement pour l’enregistrement de ce corpus  acté, qui leur est présenté à l’avance, dans lequel il est prévu de leur faire produire des  expressions de joie, colère, peur, surprise, tristesse et dégoût (les Big Six de Cornelius  (1996)) sur 10 phrases sémantiquement neutres, dont la longueur varie de 3 à 7 syllabes : 

1) Le chat dort  2) Le bus passe  3) Les gens parlent  4) Le cheval marche  5) La lampe est éteinte  6) Il est dans la chambre  7) Jean met son pantalon  8) J’entre dans le bâtiment  9) Demain je mange à midi  10)Le  papier  est  sur  la  table

Afin de permettre des comparaisons ultérieures d’expressions émotionnelles actées et  spontanées produites par les mêmes locuteurs sur les mêmes énoncés, une extension du  scénario Sound Teacher prévoit de combiner ces deux approches en privilégiant les  acteurs se déclarant intéressés par l’apprentissage des langues étrangères et pratiquant le  théâtre d’improvisation ou de rue. Ainsi, les acteurs recrutés pour l’enregistrement d’un  corpus acté et correspondant à ces critères d’après leurs déclarations (Noiray, 2003) sont  mis à contribution pour participer au test de Sound Teacher : après que les modalités de  l’enregistrement  du corpus acté leur aient  été détaillées  par  l’expérimentateur avec  lequel ils ont été en contact et qu’ils soient installés pour l’enregistrement de ce corpus,  un  expérimentateur  complice  survient  et  entame  une  négociation  simulée  avec  le  premier expérimentateur pour obtenir la priorité dans l’utilisation de la chambre sourde. 

Cette négociation aboutit à la demande inattendue pour le sujet acteur de participer,  avant l’enregistrement du corpus acté pour lequel il a été recruté, au test du logiciel  Sound Teacher, en insistant sur l’intérêt de la présence d’acteurs dans le panel de test. 

Le déroulement du scénario Sound Teacher est le même pour les acteurs que pour les  autres sujets. Cependant, dans le cas des acteurs, les états émotionnels ressentis au cours  de l’expérience et décrits  par  le sujet à la  fin  de  l’enregistrement sont directement  réutilisés : en effet ces émotions sont incluses dans l’ensemble d’émotions à reproduire  par l’acteur en complément des Big Six, avec l’instruction de les produire de la façon la  plus  similaire  possible à leur  ressenti  pendant  l’expérience. Afin  de permettre  une  comparaison ultérieure plus aisée des expressions actées et spontanées, les énoncés  constituant les commandes vocales dans le scénario Sound Teacher (noms de couleurs  monosyllabiques et « page suivante ») sont également inclus dans l’ensemble d’énoncés  sur lesquels doivent être produites les expressions émotionnelles actées. 

5.5.  La problématique de l’annotation des expressions spontanées