Le scénario Sound Teacher - Une plate‐forme dédiée : E‐Wiz

5. Méthodologie de recueil de données

5.4. Une plate‐forme dédiée : E‐Wiz

5.4.2 Le scénario Sound Teacher

5.4.2.1 Description du scénario

Nous avons ensuite développé à l’aide de la plate‐forme E‐Wiz un second scénario,

« Sound Teacher » (Rilliard, Aubergé & Audibert, 2004). Ce scénario imite un logiciel d’apprentissage des sons de diverses langues du monde tiré des travaux de Boë et al.

(1995a, 1995b), prétendu permettre un apprentissage intuitif des langues étrangères. Ce logiciel est présenté comme l’application à l’apprentissage des langues étrangères de découvertes neurophysiologiques récentes liées à la théorie de la perception‐action et des neurones miroirs. L’argument factice principal, apporté aux sujets comme introduction à la tâche proposée, est que le cerveau humain crée des cartes corticales lors de l’observation d’un mouvement biologique, également utilisées pour la production du même mouvement. L’apprentissage proposé aux sujets résulte donc de l’application de cette théorie aux mouvements articulatoires. L’application est présentée aux sujets comme en cours de test, ce qui permet de justifier l’utilisation de certains capteurs ainsi que les demandes de commentaires. Diverses raisons nous ont conduites au choix de ce scénario, que nous avons tenté de rendre le plus motivant possible pour les sujets, à commencer par l’engouement pour les études relatives au fonctionnement du cerveau, qui trouvait déjà au moment de la mise en œuvre de ce scénario un certain écho auprès du grand public. De plus, le laboratoire dans lequel les enregistrements prenaient place étant situé dans l’enceinte d’une université dans laquelle sont notamment enseignées les sciences du langage et les langues étrangères, il était relativement aisé de recruter des étudiants grandement motivés pour comprendre le fonctionnement de leur cerveau lors de l’apprentissage de langues étrangères.

L’apprentissage est fondé sur la présentation sonore de prototypes de voyelles issues de diverses langues du monde, réalisés par un synthétiseur vocal, couplée à la présentation visuelle de quatre traits articulatoires : ouverture, avant/arrière, centralisation, arrondissement des lèvres. De plus, les positions des voyelles dans le triangle vocalique (projection en 2 dimensions de l’espace acoustique décrit par les deux premiers formants) sont représentées, associées à leur symbole dans l’alphabet phonétique international. L’interface est basée sur une présentation multimédia des voyelles des langues du monde développé au laboratoire par Boë et al. (1995a, 1995b) pour la cité des sciences de la Villette (Vallas et al., 2000). Les sujets sont entraînés à reconnaître les valeurs de ces paramètres, c’est‐à‐dire le mouvement articulatoire, lors d’une phase d’écoute de ces voyelles, puis à appliquer lors d’une phase de production (Figure 8) les nouvelles compétences qu’ils sont censé avoir ainsi acquises.

Figure 8 : Exemple de tâche de production proposée par le scénario Sound Teacher

Le scénario, après une phase de présentation, est organisé en quatre étapes, de difficulté croissante du point de vue de la tâche d’apprentissage. Du point de vue de l’expérimentateur, ces quatre phases sont destinées à induire des variations émotionnelles, tout d’abord positives (phases 1 et 2), puis négatives (phases 3 et 4).

Chaque phase se décompose en une tâche de production et 4 tâches de perception (Figure 9), chacune centrée sur l’un des traits articulatoires. Lors des tâches de perception, le sujet écoute un stimulus sonore (une voyelle synthétisée) et doit prononcer la couleur correspondant à celle qu’il pense avoir reconnue parmi les deux voyelles entourées dans le triangle vocalique. Toutes les tâches proposées sont séparées par des pages de présentation au sujet des résultats qui lui sont attribués, comparés aux résultats obtenus par les sujets précédents. L’ensemble de ces résultats est prédéterminé au sein du scénario en fonction des objectifs d’induction de variations émotionnelles. Outre les tâches de production, les sujets doivent prononcer la commande vocale « page suivante » pour avancer dans le déroulement du scénario, et des noms de couleurs monosyllabiques pour fournir les réponses lors des tâches de perception, en fonction des instructions présentées à l’écran. Des commentaires lui sont également demandés régulièrement.

Figure 9 : Exemple de tâche de perception proposée par le scénario Sound Teacher

La première phase consiste en une vérification des compétences des sujets (de langue maternelle française) pour la production et la perception de voyelles du français. Un retour d’information artificiellement positif est donné aux sujets, avec un score significativement plus haut que le prétendu score moyen des apprenants précédents. Le sujet doit, lors de la deuxième phase, apprendre des voyelles proches du système phonologique du français. Le choix des voyelles perceptivement proches ou éloignées de celles du système phonologique du français a été fondé sur les résultats d’une étude perceptive menée par Chauny (1996) à partir du même modèle de synthèse articulatoire des voyelles. Durant cette phase, le sujet reçoit toujours un score élevé après chaque tâche. Il est averti, à l’issue de cette phase d’apprentissage, que ses performances le classent parmi les 5 meilleurs apprenants évalués jusqu’alors, ce qui lui permet de passer directement à une phase de généralisation à des voyelles complexes.

Lors de cette troisième phase, le sujet est confronté à des voyelles perceptivement éloignées de celles du français. Son score est évalué comme très nettement inférieur à la moyenne des autres sujets. Il est alors mis en garde de l’anormalité de ses résultats, et il lui est signifié que ses compétences pour la perception et la production des voyelles du français doivent être vérifiées, car elles pourraient avoir été dégradées par Sound Teacher. La quatrième et dernière phase est donc similaire à la première, à ceci près que les stimuli sonores présentés ont été modifiés afin de réduire fortement le contraste perceptif et d’obliger ainsi les sujets à répondre au hasard. A nouveau, des scores très faibles sont attribués au sujet, et les commentaires qui lui sont présentés vont dans le sens d’une dégradation de ses capacités perceptives. Néanmoins afin d’éviter de

provoquer chez lui une peur trop intense, ce qui serait problématique d’un point de vue éthique, il lui est signifié que ses capacités perceptives devraient revenir rapidement à la normale.

A la fin du déroulement du scénario, le sujet est informé des buts réels de l’expérience.

Une brève interview prend alors place, dans laquelle il lui est demandé de décrire brièvement les différents états émotionnels ressentis pendant l’enregistrement.

5.4.2.2 Spécificité du contrôle des données

Les données collectées pour constituer les corpus sont les pseudo‐commandes vocales, à savoir les occurrences de « page suivante » et des cinq noms de couleurs monosyllabiques

« rouge », « jaune », « sable », « vert », « brique », ainsi que les commentaires libres. Le choix de retenir essentiellement des stimuli monosyllabiques dans le langage de commande imposé au sujet a été dicté par la volonté de collecter des énoncés dans lesquels les seules variations prosodiques soient celles dues aux affects exprimés par les sujets. En effet, dans le cadre d’un modèle prosodique de superposition de contours gradients (Aubergé, 2002), un énoncé d’une longueur supérieure à la syllabe (et plus particulièrement d’une longueur supérieure à trois syllabes si la notion de mot prosodique est retenue) verra se superposer aux expressions d’affects les variations prosodiques liées aux fonctions linguistiques de la prosodie. En l’absence d’une modélisation suffisamment fine de la prosodie linguistique, qui permettrait de simplement retrancher les contours correspondants pour n’étudier que les variations prosodiques liées aux affects, l’utilisation d’énoncés minimaux est destinée à geler ces fonctions, et tout particulièrement la fonction de segmentation/hiérarchisation de l’énoncé.

Le choix des noms de couleurs a été effectué afin d’obtenir des voyelles différentes, distribuées dans l’espace vocalique du français : [i], [u], [o], [a] et [ɛ]. Cette distribution a été choisie afin de pouvoir utiliser les données recueillies pour tester des algorithmes de mesure, notamment pour l’extraction de paramètres acoustiques de qualité de voix, en évaluant d’éventuels artefacts liés aux caractéristiques acoustiques des différentes voyelles.

Pour l’élaboration du scénario Sound Teacher, le choix que nous avons fait a été de placer le sujet dans une situation dans laquelle il est persuadé de n’interagir qu’avec une machine, par le biais d’un langage de commandes, afin d’éliminer les expressions de l’intentionnalité du sujet, c’est‐à‐dire l’élaboration de stratégies communicatives dans le but d’influer son interlocuteur. Ces stratégies communicatives peuvent s’exprimer selon diverses modalités, notamment via le choix lexical ou l’utilisation d’attitudes prosodiques (ou encore par l’expression dans la parole d’une « émotion intentionnelle »,

c’est‐à‐dire simulée). Or, il convient d’éliminer a priori de nos corpus l’expression de ces attitudes afin d’éviter autant que possible qu’elles n’interfèrent avec la prosodie des émotions que nous voulons collecter. En conséquence, l’hypothèse que nous formulons est que cette intentionnalité n’apparaît pas dans le cadre d’une communication personne‐machine, et donc que le deuxième niveau prosodique (celui des attitudes émotionnelles) n’est pas exprimé. En fixant le troisième niveau (celui des fonctions linguistiques de la prosodie) ainsi que l’accès lexical grâce à un langage de commandes imposé au sujet, il devient alors possible d’obtenir un corpus dans lequel seul le niveau émotionnel de la prosodie varie.

5.4.2.3 Un scénario particulier pour les acteurs

Au‐delà du protocole décrit ci‐dessus et destiné à capturer des expressions vocales d’émotions induites chez les sujets par la manipulation de leurs performances, le scénario Sound Teacher a également été imaginé pour permettre de motiver des acteurs expérimentés ayant une motivation pour l’apprentissage des langues étrangères.

En effet, ce scénario prévoit un protocole particulier pour le cas des acteurs recrutés pour l’enregistrement d’un corpus d’émotions actées, élaboré par Noiray (2003). Les acteurs sont dans un premier temps contactés uniquement pour l’enregistrement de ce corpus acté, qui leur est présenté à l’avance, dans lequel il est prévu de leur faire produire des expressions de joie, colère, peur, surprise, tristesse et dégoût (les Big Six de Cornelius (1996)) sur 10 phrases sémantiquement neutres, dont la longueur varie de 3 à 7 syllabes :

1) Le chat dort 2) Le bus passe 3) Les gens parlent 4) Le cheval marche 5) La lampe est éteinte 6) Il est dans la chambre 7) Jean met son pantalon 8) J’entre dans le bâtiment 9) Demain je mange à midi 10)Le papier est sur la table

Afin de permettre des comparaisons ultérieures d’expressions émotionnelles actées et spontanées produites par les mêmes locuteurs sur les mêmes énoncés, une extension du scénario Sound Teacher prévoit de combiner ces deux approches en privilégiant les acteurs se déclarant intéressés par l’apprentissage des langues étrangères et pratiquant le théâtre d’improvisation ou de rue. Ainsi, les acteurs recrutés pour l’enregistrement d’un corpus acté et correspondant à ces critères d’après leurs déclarations (Noiray, 2003) sont mis à contribution pour participer au test de Sound Teacher : après que les modalités de l’enregistrement du corpus acté leur aient été détaillées par l’expérimentateur avec lequel ils ont été en contact et qu’ils soient installés pour l’enregistrement de ce corpus, un expérimentateur complice survient et entame une négociation simulée avec le premier expérimentateur pour obtenir la priorité dans l’utilisation de la chambre sourde.

Cette négociation aboutit à la demande inattendue pour le sujet acteur de participer, avant l’enregistrement du corpus acté pour lequel il a été recruté, au test du logiciel Sound Teacher, en insistant sur l’intérêt de la présence d’acteurs dans le panel de test.

Le déroulement du scénario Sound Teacher est le même pour les acteurs que pour les autres sujets. Cependant, dans le cas des acteurs, les états émotionnels ressentis au cours de l’expérience et décrits par le sujet à la fin de l’enregistrement sont directement réutilisés : en effet ces émotions sont incluses dans l’ensemble d’émotions à reproduire par l’acteur en complément des Big Six, avec l’instruction de les produire de la façon la plus similaire possible à leur ressenti pendant l’expérience. Afin de permettre une comparaison ultérieure plus aisée des expressions actées et spontanées, les énoncés constituant les commandes vocales dans le scénario Sound Teacher (noms de couleurs monosyllabiques et « page suivante ») sont également inclus dans l’ensemble d’énoncés sur lesquels doivent être produites les expressions émotionnelles actées.

5.5. La problématique de l’annotation des expressions spontanées

Dans le document Prosodie de la parole expressive : dimensionnalité d'énoncés méthodologiquement contrôlés authentiques et actés ~ Association Francophone de la Communication Parlée (Page 82-87)