Représentations visuelles et multimédia dans l’apprentissage des tons lexicaux chinois

(1)

Master

Reference

Représentations visuelles et multimédia dans l'apprentissage des tons lexicaux chinois. Conception et expérimentation de deux types

de feedbacks dans un entraînement informatisé

STEINER, Brigitte

Abstract

L’efficacité de l’entraînement informatisé pour l’apprentissage des langues, et plus spécifiquement des tons lexicaux du chinois (mandarin) a été démontrée dans plusieurs études. Cette étude-ci s’intéresse à l’utilisation d’un feedback multimédia impliquant une représentation visuelle des tons lexicaux, dans le cadre d’un entraînement informatisé. Un entraînement perceptuel (basé sur la perception des tons lexicaux plutôt que sur leur production) s’appuyant entre autres sur la théorie du high variability training a été développé.

Deux feedbacks ont été conçus pour s’insérer dans cet entraînement, l’un utilisant le pinyin comme représentation visuelle, et l’autre utilisant une représentation schématique animée basée sur la notation de Chao (1930). Une étude expérimentale a été menée dans laquelle 30 participants ont suivi l’entraînement de 48 items pour apprendre à reconnaître chacun des 4 tons, soit avec le feedback pinyin, soit avec le feedback animé. Leur apprentissage a été mesuré avec un pré-test et un post-test dans lesquels ils ont dû [...]

STEINER, Brigitte. Représentations visuelles et multimédia dans l’apprentissage des tons lexicaux chinois. Conception et expérimentation de deux types de feedbacks dans un entraînement informatisé. Maîtrise : Univ. Genève, 2019

Available at:

http://archive-ouverte.unige.ch/unige:116265

Disclaimer: layout of this document may differ from the published version.

(2)

Représentations visuelles et multimédia dans l’apprentissage des tons lexicaux chinois

Conception et expérimentation de deux types de feedbacks dans un entraînement informatisé

MÉMOIRE REALISE EN VUE DE L'OBTENTION DE LA MAITRISE UNIVERSITAIRE EN SCIENCES ET TECHNOLOGIES DE L'APPRENTISSAGE ET DE LA FORMATION

PAR Brigitte Steiner

Directeur du mémoire Mireille Bétrancourt Jury

Kalliopi Benetos

Jean-Philippe Goldman Jue Wang-Szilas

Lieu, mois, année Genève, janvier 2019

Université de Genève

Faculté de Psychologie et des Sciences de l’éducation

(3)

RESUME

L’efficacité de l’entraînement informatisé pour l’apprentissage des langues, et plus spécifiquement des tons lexicaux du chinois (mandarin) a été démontrée dans plusieurs études. Cette étude-ci s’intéresse à l’utilisation d’un feedback multimédia impliquant une représentation visuelle des tons lexicaux, dans le cadre d’un entraînement informatisé.

Un entraînement perceptuel (basé sur la perception des tons lexicaux plutôt que sur leur production) s’appuyant entre autres sur la théorie du high variability training a été développé. Deux feedbacks ont été conçus pour s’insérer dans cet entraînement, l’un utilisant le pinyin comme représentation visuelle, et l’autre utilisant une représentation schématique animée basée sur la notation de Chao (1930).

Une étude expérimentale a été menée dans laquelle 30 participants ont suivi l’entraînement de 48 items pour apprendre à reconnaître chacun des 4 tons, soit avec le feedback pinyin, soit avec le feedback animé. Leur apprentissage a été mesuré avec un pré-test et un post-test dans lesquels ils ont dû reconnaître chacun des quatre tons sur un ensemble de 32 items.

Les résultats concernant le gain entre pré-test et post-test indiquent que l’entraînement a été efficace dans les deux conditions d’apprentissage. Le taux de réussite moyen au post-test était de 68 pourcents. Cependant, les résultats n’ont pas démontré de différences significatives sur l’apprentissage entre les deux types de feedback. En revanche, des différences de performances sont apparues selon les tons ou les syllabes utilisés. Ces résultats confirment l’efficacité de l’entrainement perceptuel mais ne confortent pas nos hypothèses concernant le type de feedback et posent donc des questions sur la nécessité d’une telle représentation visuelle détaillée et dynamique.

(4)

Déclaration sur l’honneur

Je déclare que les conditions de réalisation de ce travail de mémoire respectent la charte d’éthique et de déontologie de l’Université de Genève. Je suis bien l’auteur-e de ce texte et atteste que toute affirmation qu’il contient et qui n’est pas le fruit de ma réflexion personnelle est attribuée à sa source ; tout passage recopié d’une autre source est en outre placé entre guillemets.

Genève, le 8 janvier 2019

Prénom, Nom : Brigitte Steiner

Signature :

(5)

Remerciements

Un grand merci à Mireille Bétrancourt, ma directrice, pour son accompagnement, ses conseils éclairés et sa compréhension tout au long de ce travail de mémoire.

Merci à Kalliopi Benetos, Jean-Philippe Goldman et Jue Wang-Szilas qui ont accepté de faire partie de mon Jury.

Je remercie également Jean-Philippe Goldman et Sandra Schwab pour leur aide, leurs conseils et le partage de leur expérience, ainsi que Julien Da Costa pour son aide et ses conseils techniques.

Un grand merci à tous les étudiants du MALTT et particulièrement à Quentin, Jessica, Louise, Laëtitia, Olivier et Philippe qui ont toujours pris du temps pour m’écouter et me conseiller.

Merci à mes parents pour leurs encouragements et leur confiance, et enfin merci à Julien Cordebar pour toute sa patience et son soutien sans faille.

(6)

Table des matières

1 Introduction ... 1

1.1 Problématique ... 1

2 Revue de littérature et cadre théorique ... 2

2.1 Apprentissage de la prononciation d’une langue seconde ... 3

2.1.1 Perception et interactions avec la langue maternelle ... 3

2.1.2 Prosodie et difficultés pour les francophones ... 3

2.2 Les tons lexicaux chinois ... 5

2.2.1 La représentation visuelle des tons lexicaux chinois ... 6

2.3 Computer Based Training ... 7

2.3.1 L’entraînement pour l’apprentissage des tons lexicaux ... 8

2.3.2 Types de feedback dans l’enseignement informatisé ... 11

2.4 Multimedia Learning ... 12

2.5 L’apprentissage des tons lexicaux dans les logiciels grand public ... 13

2.5.1 Revue de quatre applications mobiles ... 14

3 Questions de recherche et hypothèses ... 16

3.1.1 Cadre théorique : ce que l’on en retient ... 16

3.1.2 Solution pédagogique proposée ... 17

3.1.3 Questions de recherche ... 18

3.1.4 Hypothèses ... 18

4 Conception et méthode ... 19

4.1 Participants et situation étudiée ... 19

4.2 Matériel pédagogique et expérimental ... 20

4.2.1 Développement technique ... 20

4.2.2 Pré- et post-test ... 20

4.2.3 Introduction théorique ... 22

4.2.4 Entraînement ... 22

4.2.5 Feedback ... 23

4.2.6 Echelles subjectives ... 26

4.3 Déroulement de l’expérience ... 26

4.4 Mesures effectuées ... 27

5 Résultats ... 28

5.1 VD Scores ... 28

5.1.1 Analyses descriptives ... 28

5.1.2 Interactions entre VI Feedback, VI Moment Test et VD Scores ... 30

5.1.3 Interactions entre VI Feedback, VI Moment du test, VI Type Stimulus et VD Scores .... 32

5.1.4 Interactions entre VI Feedback, VI Moment du test, VI Tons et VD Scores ... 35

5.1.5 Effet de la VI Feedback sur les scores de l’entraînement ... 36

5.1.6 Effet de la VI Musique ... 36

5.2 VD Échelles subjectives ... 37

5.2.2 Comparaison des moyennes ... 39

5.3 VD Degré de certitude ... 40

5.3.2 Interaction entre les VI Feedback, la VI Moment du test et la VD Degré de Certitude ... 43

5.4 VD temps ... 44

5.4.2 Interaction entre la VI Feedback, la VI Moment du test et la VD Temps ... 46

6 Discussion ... 48

6.1 Implications concernant les hypothèses ... 48

6.2 Mesures complémentaires ... 50

(7)

6.3 Efficacité de l’entraînement indépendamment des groupes ... 51

6.4 Limites et perspectives ... 52

7 Conclusion ... 53

8 Bibliographie ... 55

9 Annexes ... 58

9.1 Annexe 1 : Cadre décisionnel pour le feedback dans l’enseignement informatisé ... 58

9.2 Annexe 2 : Diagramme des états d’un item de l’entraînement (étape de maquettage) 58 9.3 Annexe 3 : Texte de l’introduction audio ... 59

9.4 Annexe 4 : Questionnaire de recrutement ... 59

9.5 Annexe 5 : Questionnaire d’évaluation subjective ... 61

9.6 Annexe 6 : ANOVA pour les VI Type Stimuli, Type Feedback et Moment du Test .... 62

9.7 Annexe 7 : Graphique et ANOVA pour les VI Musique et Moment du Test ... 63

9.8 Annexe 8 : Moyennes et écarts-types ... 64

(8)

1 Introduction

Cette recherche s’intéresse aux solutions informatiques telles que les entraînements informatisés pour l’apprentissage de la prononciation d’une langue seconde (L2), et plus particulièrement dans le cas de l’apprentissage des tons lexicaux du chinois (mandarin) par un public francophone novice. Cette recherche vise à concevoir et développer un module d’entraînement pour l’amélioration de la perception des tons lexicaux, dans un contexte d’apprentissage autonome. Le cœur de ce travail concerne l’aspect du feedback ainsi que des représentations visuelles des tons chinois dans le cadre d’un tel entraînement.

Dans cette introduction nous allons présenter la problématique qui nous concerne, puis dans le cadre théorique, nous allons approfondir les recherches nécessaires à la fois pour mieux comprendre la situation actuelle dans la recherche mais également les solutions existantes afin de développer un bon prototype d’entraînement ainsi que deux prototypes de feedback. Ces deux feedbacks seront ensuite testés selon la méthode expérimentale traditionnelle afin d’observer de plus près les différences d’apprentissage qui pourraient en résulter. Enfin nous discuterons les résultats de cette expérience en fonction du cadre théorique établi au préalable et nous conclurons sur les apports et limites de ce travail, ainsi que sur les perspectives possibles.

1.1 Problématique

L’utilisation des nouvelles technologies pour l’enseignement et l’apprentissage est un domaine en continuel développement. L’apprentissage de langues étrangères plus particulièrement bénéficie d’un grand nombre de programmes, cours en ligne, applications et autres solutions technologiques d’apprentissage. L’apprentissage d’une langue nécessite de nombreuses répétitions, par exemple pour le vocabulaire ou la prononciation. C’est ce dernier point qui nous intéresse particulièrement dans cette recherche. En raison notamment de son caractère répétitif, l’apprentissage de la prononciation répond bien aux méthodes basées sur l’entraînement, puisque cela fonctionne également sur la répétition. Dans notre recherche nous nous intéressons spécifiquement à l’entraînement informatisé (Computer Based Training ou CBT).

La prononciation est un aspect ardu de l’apprentissage d’une nouvelle langue. Plusieurs études avancent que cette difficulté repose entre autres sur les interactions entre la prononciation de la L2 avec la langue maternelle (L1) (Best, 1995 ; Flege, 1995). Le cas du chinois est intéressant à ce niveau lorsque l’on s’intéresse à un public francophone, car cette langue comporte en plus des différences de phonèmes (sons élémentaires de la langue), un aspect tonal qui fait partie intégrante de sa prononciation : les tons lexicaux. Or, la langue française n’a pas de tons lexicaux, ce qui représente potentiellement une difficulté particulière pour les francophones (So & Best, 2014).

Face à cette difficulté, plusieurs études (Lu, Wayland & Kaan, 2015 ; Wang, 2013 ; Wang et al., 1999 ; 2003) se sont intéressées à l’efficacité d’un entraînement ciblé pour améliorer à la

(9)

fois la perception et même la production des tons lexicaux chez des locuteurs¹ d’une langue non tonale. Le CBT, de par son caractère automatisé, semble pertinent pour ce type d’entraînement.

Un aspect primordial du CBT est le feedback, la réaction du système après une réponse de l’utilisateur. Cette réaction permet à l’utilisateur de savoir si sa réponse est bonne et peut lui donner des indications supplémentaires, par exemple pour se corriger, comme nous le développerons au chapitre 2.3 « Computer Based Training ». Dans la conception d’un entraînement, le feedback est un aspect qui demande donc une grande attention, car dans le cadre d’un apprentissage autonome, c’est ce feedback qui remplace l’intervention de l’enseignant et permet à l’apprenant de s’orienter dans son apprentissage. Nous allons donc spécifiquement nous intéresser à cet aspect.

Les questionnements relatifs à l’apprentissage des tons lexicaux via un entraînement informatisé et des feedbacks adaptés nous amènent à nous questionner sur la façon dont les tons sont présentés, oralement mais surtout visuellement. Dans notre revue de littérature nous allons donc nous intéresser à la représentation visuelle des tons lexicaux et leur utilisation dans l’apprentissage. Ce cadre nous permettra de situer ce qui a été étudié dans ce domaine et de sélectionner des solutions pertinentes à tester sur un groupe d’utilisateurs, ainsi que des éléments nécessaires à la mise en place de cette expérience.

2 Revue de littérature et cadre théorique

Dans cette revue de littérature, nous commencerons par cerner et définir le problème qui nous concerne en abordant les difficultés liées à l’apprentissage de la prononciation d’une langue étrangère. Nous nous intéresserons plus spécifiquement à la perception des sons d’une L2 et à leur interaction avec ceux de la langue maternelle. Nous préciserons ensuite notre champ de recherche en nous intéressant aux difficultés liées aux différences de prosodie entre les langues. Ces recherches introduiront notre sujet principal : les difficultés liées à l’apprentissage de la prononciation des tons lexicaux du mandarin.

Après avoir cerné le problème, nous décrirons plus en détail ces tons lexicaux ainsi que leurs représentations visuelles.

La suite se consacrera à la recherche de solutions telles que l’entraînement perceptuel, l’entraînement informatisé et les types de feedbacks qui y sont rattachés, ainsi que le multimedia learning.

Finalement, nous conclurons ce chapitre théorique avec une analyse succincte de quatre applications mobiles pour l’apprentissage des tons chinois destinées au grand public, dans le but de confronter nos recherches à ce que l’on peut trouver dans des dispositifs existants et accessibles à tous.

1Dans ce texte, le masculin est utilisé au sens générique ; il comprend aussi bien les femmes que les hommes.

(10)

2.1 Apprentissage de la prononciation d’une langue seconde 2.1.1 Perception et interactions avec la langue maternelle

Avant de parler directement de l’apprentissage des tons lexicaux du mandarin, il semble important de mentionner quelques mots sur les théories existantes sur l’acquisition d’une L2, et plus particulièrement sur celles qui concernent l’apprentissage de la prononciation. Nous nous intéressons ici exclusivement à l’apprentissage d’une langue seconde chez un adulte.

La prononciation d’une langue étrangère est une tâche et un apprentissage difficile, d’où le fait que quelqu’un qui parle une langue qui n’est pas sa L1 aura le plus souvent un accent.

Selon Flege (1995) et Best (1995), c’est l’interaction entre les systèmes phonétiques de la L1 et la L2 qui provoque le phénomène d’accent étranger. Lors de l’apprentissage de sa L1, on créerait des catégories pour chaque son (tout ce que l’on reconnaît comme étant le son /a/

comme dans « avion » par exemple). Ensuite, lors de l’apprentissage d’une L2, l’adulte percevrait et produirait les sons en faisant référence à ces catégories phonétiques et linguistiques existantes. Le Speech Learning Model (Flege, 1995), avance qu’il est toujours possible, même pour un adulte, de modifier et de créer des catégories. Ainsi, certains nouveaux sons seraient assimilés à une catégorie existante, car deux langues différentes peuvent avoir un certain nombre de phonèmes en commun. Dans d’autres cas, une nouvelle catégorie pourrait être créée. (Flege,1995 ; Best 1995). C’est lors de ce processus que les choses sont particulièrement délicates, car par exemple des sons proches mais néanmoins différents, s’ils sont assimilés comme étant une seule catégorie, risquent alors d’être prononcés faux dans la L2, et parfois même dans la L1 (Flege 1995).

Ces recherches soulignent entre autres l’importance de la perception auditive de la langue étrangère dans l’apprentissage d’une L2. La théorie directe réaliste (Best, 1995), postule également que tout ce qui est nécessaire de percevoir pour savoir comment produire un son (y compris les aspects articulatoires) sont perçus directement, sans nécessiter de travail cognitif conscient supplémentaire, et en ce sens met l’accent sur l’apprentissage par la perception.

Cette vision s’oppose sur ce point à la Motor Theory (Liberman & Mattingly, 1985, 1989, cité par Best, 1995) qui avance que les aspects articulatoires sont identifiés mentalement lors de la perception. La production mettant en œuvre ces aspects articulatoires, l’apprentissage basé sur la production pourrait être efficace pour mieux percevoir.

Il est à noter que nous parlons ici de l’apprentissage des phonèmes d’une langue et donc de l’aspect segmental de la prononciation. Nous allons détailler ce que cela signifie.

2.1.2 Prosodie et difficultés pour les francophones

En linguistique, quand on s’intéresse à la prononciation des langues, on distingue deux grands aspects : l’aspect segmental et l’aspect suprasegmental. L’aspect segmental est constitué de toutes les unités de sons spécifiques à une langue (phonèmes), comme par exemple les différents sons des voyelles et des consonnes en français. On peut ainsi isoler tous les phonèmes différents qui composent les mots prononcés dans une langue.

L’aspect suprasegmental concerne tous les autres aspects de la prononciation qui ne peuvent pas être séparés des phonèmes mais qui s’y ajoutent, et ne peuvent exister indépendamment : il s’agira par exemple de variation de la hauteur de la voix (variations de la fréquence

(11)

fondamentale, ou F0), du débit, le volume, etc. En français ce sont ces aspects qui vont permettre de marquer une intention d’interrogation par exemple. Tous ces aspects suprasegmentaux forment ce qu’on appelle la prosodie.

L’apprentissage de l’aspect prosodique de la prononciation, s’il a peut-être suscité encore peu de recherches dans le cas de certaines langues, a été par contre beaucoup étudié dans le cas du chinois. Selon So & Best (2014), quand on aborde l’aspect prosodique des langues, on peut distinguer deux grandes catégories : les langues tonales et les langues non tonales. Les langues tonales sont définies comme des langues qui utilisent des variations de hauteur (pitch) pour différencier des éléments lexicaux sinon identiques au niveau segmental. C’est le cas du mandarin, où deux syllabes composées de mêmes phonèmes auront deux sens différents en fonction de leur ton.

Les langues appartenant à la catégorie « langues non tonales » peuvent se différencier entre elles par leurs systèmes d’accents (Beckman, 1986, cité par So & Best, 2014). Dans certaines langues, comme le japonais ou le suédois, on trouve un accent dit « de hauteur », pour définir la forme phonologique de certains mots (So & Best, 2014). D’autres langues, comme l’anglais utilisent un accent tonique, où la syllabe accentuée d’un mot sera plutôt marquée par l’intensité et le volume de la voix, voire même la durée de la syllabe. Enfin, dans le cas du français, il n’y a ni accent de hauteur, ni accent tonique. Les variations ne dépendent pas des mots, mais sont utilisées à un niveau supra lexical (comme pour indiquer une question, insister sur un mot, etc.).

Les différences tonales et d’accentuation entre les langues telles que décrites plus haut peuvent aboutir à des difficultés particulières pour les locuteurs de langues non tonales comme les francophones lors de l’apprentissage des tons lexicaux. En effet, toujours selon So

& Best (2014), « Les locuteurs de langues non tonales ont souvent de grandes difficultés à apprendre à percevoir et à produire les tons lexicaux correctement ». Selon le modèle PAM-S (Perception Assimilation Model for Suprasegmentals) de Best (So, 2010, 2012 ; So & Best, 2008, 2010a, 2010b, 2011, 2013, cités par So & Best, 2014), les apprenants d’une L2 assimilent les catégories prosodiques de cette dernière, dans les catégories prosodiques de leur propre L1. Une catégorie non native pourra être assimilée soit comme « catégorisée », si elle est perçue comme un exemple d’une catégorie prosodique existante de la L1, soit comme

« non catégorisée » si elle est perçue comme entre deux (ou plus) catégories prosodiques de la L1. De la même façon que pour les phonèmes donc, les apprenants peuvent mal catégoriser les éléments prosodiques perçus, en fonction des catégories préexistantes dans leur L1.

Cependant, dans une expérience Hallé et al. (2003) démontrent qu’en terme de perception, les francophones ne sont toutefois pas « sourds » concernant les variations tonales, mais qu’ils ont de la peine à percevoir les tons selon des catégories linguistiques bien définies, contrairement aux locuteurs natifs.

Si certaines études soutiennent les interférences avec la L1 comme cause des difficultés, cela ne signifie pas par défaut que les locuteurs de langues tonales ont systématiquement plus de facilité. Dans une étude sur le sujet, Wang (2013) a comparé les performances de locuteurs de hmong qui est une langue tonale parlée au Sud de la Chine et au nord du Vietnam et du Laos,

(12)

et de locuteurs d’anglais et de japonais. Soumis à un test de perception des tons lexicaux du mandarin, les locuteurs hmong ont obtenu de moins bons résultats que des locuteurs d’anglais ou de japonais, qui n’avaient pourtant pas d’expérience avec les tons lexicaux dans leur L1.

Cela indique que le fait d’avoir pour L1 une langue tonale ne facilite pas pour autant le travail de perception, et que des locuteurs de langue non tonales peuvent faire des résultats similaires ou supérieurs.

Les tons lexicaux restent toutefois une difficulté de taille dans l’apprentissage du mandarin par les francophones. Face à ces difficultés, plusieurs études ont été menées pour comprendre d’avantage l’efficacité de différentes stratégies pour l’apprentissage des tons lexicaux chinois chez des locuteurs non natifs, impliquant généralement un système d’entraînement. Toutefois, avant de s’intéresser davantage à cet aspect, nous allons mieux définir l’objet de ces recherches : les tons lexicaux chinois.

2.2 Les tons lexicaux chinois

Le mandarin comporte quatre tons officiels. On parle parfois d’un cinquième ton, le ton neutre, que l’on pourrait alternativement définir comme une « absence » de ton. La structure de la prononciation de chaque caractère chinois est monosyllabique et prononcée avec un ton spécifique, qui fait partie intégrante de la prononciation. Les quatre tons se distinguent d’une part par des variations de la hauteur de la voix (pitch) ainsi que par les contours de chaque ton, c’est à dire leur forme ou leur « mélodie ».

Une façon de décrire les tons du mandarin est celle qui se base sur un système de notation sur 5 niveaux de (Chao,1930 ; Sagart, 1999). Cette notation consiste à diviser la gamme de la voix en 4 parties égales, résultant en 5 points :

• 1 : grave (low)

• 2 : mi-grave (mid-low)

• 3 : moyen (medium)

• 4 : mi-aigu (mid-high)

• 5 : aigu (high)

À partir de ces notations chiffrées, on peut représenter les 4 tons du mandarin comme suit :

• Ton 1 (55) : aigu, ton plat

• Ton 2 (35) : de moyen à aigu, ton montant

• Ton 3 (214) : de mi-grave à grave, puis de grave à mi-aigu, ton descendant puis montant

• Ton 4 (51) : d’aigu à grave, ton tombant

Le schéma suivant (Figure 1), permet de mieux visualiser ce système de notation. Il s’agit aujourd’hui d’une représentation classique couramment utilisée pour présenter les tons lexicaux du mandarin.

(13)

Figure 1 : Représentation des tons sur 5 niveaux, selon la notation de Chao (1930).

2.2.1 La représentation visuelle des tons lexicaux chinois

Cette étude impliquant de représenter visuellement les tons lexicaux du chinois, il est nécessaire de s’intéresser maintenant aux représentations existantes. Nous allons en voir trois qui sont très répandues, mais qui ont des contextes et usages différents.

Notation de Chao et représentation graphique

Nous avons déjà évoqué plus haut la notation de Chao (1930) qui donne lieu à une représentation des tons sous forme de droites ou courbes sur 5 niveaux (voir Figure 1). Il s’agit d’une façon plutôt courante de représenter les tons dans la recherche, ou encore dans l’enseignement, traditionnel ou en ligne, en particulier dans le cas d’introduction aux tons.

Pinyin

Le système d’écriture du chinois moderne ne représente pas les tons. Il ne transcrit d’ailleurs pas la prononciation, contrairement aux langues comme le français. Il peut y avoir des similitudes dans la construction des caractères dont la prononciation est proche, mais il n’y a pas dans les caractères chinois une transcription précise du son.

En 1958 un système standardisé de transcription du chinois en alphabet romain a été approuvé en Chine, le pinyin. Ce système a peu à peu remplacé en Chine continentale les autres systèmes de transcription qui existaient jusqu’alors. En pinyin, chaque lettre correspond à un phonème du chinois, et les tons y sont cette fois représentés. Ce système permet de représenter phonétiquement le chinois, et est principalement utilisé en Chine continentale, par exemple pour les enfants qui ne maîtrisent pas encore les caractères (Hanley, 2005), ainsi qu’à l’étranger pour les personnes qui apprennent le chinois comme L2.

En pinyin, les tons sont représentés sous la forme de signes diacritiques, qui sont placés sur une voyelle de chaque syllabe, selon des règles prédéfinies, que nous n’aborderons pas en détail ici. Les diacritiques utilisés sont les suivants :

• Le premier ton est représenté par un macron : mā ;

• Le deuxième ton est représenté par un accent aigu : má ;

(14)

• Le troisième ton est représenté par un caron : mǎ ;

• Le quatrième ton est représenté par un accent grave : mà.

Chacun de ces signes correspond à une simplification du contour de chaque ton, comme dans la notation inspirée de Chao. Dans l’enseignement du chinois, et en particulier dans certaines applications, programmes ou sites web dédiées à l’apprentissage de chinois, on peut retrouver ces signes, non seulement dans le contexte d’une retranscription en pinyin, mais également utilisés comme symboles seuls, pour représenter les tons dans des exercices (voir le chapitre 2.5 « L’apprentissage des tons lexicaux dans les logiciels grand public »).

Numéros

Une autre représentation concerne l’ordre habituel dans lequel sont présentés les tons. En effet ces derniers sont toujours présentés dans le même ordre, comme nous l’avons vu jusqu’à présent. Dans de nombreux enseignements de mandarin en L2 mais également dans la recherche, par exemple Lu, Wayland & Kaan, (2015), les numéros associés à chaque ton sont souvent utilisés pour les identifier. Il est à noter que ce n’est pas traditionnellement le cas dans la langue chinoise ; les tons sont identifiés avec un nom chacun, qui ne correspond toutefois pas à une numérotation. Cependant dans le chinois moderne, les appellations telles que « le premier ton » ( dì yī shēng), et ainsi de suite, sont également utilisées.

2.3 Computer Based Training

Le Computer Based Training (CBT) ou entrainement informatisé est composé de deux aspects principaux : l’entraînement classique (comme on peut le retrouver dès les travaux behavioristes) et l’usage des outils informatiques dans l’apprentissage.

L’utilisation d’outils informatiques en éducation s’est beaucoup développée au fil du temps et des recherches. L’un des apports principaux que les outils informatiques peuvent apporter à l’apprentissage est l’interactivité (Bétrancourt & Bozelle, 2012). La vitesse de traitement automatique des informations d’un ordinateur permet d’en faire un outil très réactif avec lequel l’apprenant peut interagir en toute autonomie. Cette interactivité permet l’automatisation du feedback, qui est un élément essentiel dans l’entraînement, et dans l’enseignement de manière générale.

Au-delà de l’entraînement informatisé, l’apprentissage d’une langue assisté par ordinateur (ou CALL pour Computer Assisted Language Learning) s’est également largement développé. En effet, l’apprentissage d’une langue requérant de nombreuses répétitions, l’informatique représente une solution intéressante également pour ce domaine. L’appellation « CALL » peut englober de nombreux outils et programmes variés.

Des entraînements spécifiques relatifs à la prononciation d’une langue sont aussi largement étudiés : les CAPT (Computer Assisted Pronunciation Training). Cependant, ce terme implique généralement que l’entraînement inclut une production orale de l’apprenant traitée par le système. Or, nous nous intéressons également aux entraînements basés sur la perception, c’est pourquoi nous utilisons plutôt le concept de Computer Based Training, qui est plus large.

(15)

Nous allons nous intéresser aux deux aspects cités plus haut. Le premier est l’entraînement, issu de nombreuses années de recherche notamment en linguistique sur les effets de l’entraînement dans l’apprentissage de la prononciation d’une langue seconde. Les exemples cités ne sont pas nécessairement issus d’entraînements informatisés, mais placent les bases des méthodes essentielles d’entraînement pour l’apprentissage de la prononciation. Le second aspect est celui de l’interaction, mais plus particulièrement, l’aspect du feedback dans l’apprentissage informatisé.

Nous aborderons également la question particulière des entraînements basés sur la production orale, ses spécificités et ses limites.

2.3.1 L’entraînement pour l’apprentissage des tons lexicaux

L’apprentissage des tons chinois pour un apprenant non natif représente des difficultés au niveau de la perception comme de la production. Dans le domaine de la linguistique, de nombreuses études s’y sont intéressées et certaines ont notamment démontré qu’un entrainement basé sur la perception auditive (incluant des tâches de discrimination entre plusieurs stimuli ou d’identification de stimuli) étaient efficace pour améliorer non seulement la perception (Wang et al., 1999 ; Lu, Wayland & Kaan, 2015) mais également la production des tons lexicaux chinois dans des syllabes isolées, en condition de laboratoire (Wang et al., 2003 ; Wang, 2008).

Il a également été découvert à l’aide de tests de généralisation qu’un entraînement de ce type pouvait avoir un effet de transfert ou de généralisation, sur de nouveaux mots non entraînés, (Wang et al., 1999, 2003), et que l’apprentissage ainsi acquis pouvait se maintenir dans la durée (Wang et al., 1999).

High Variability Training

Une méthode d’entraînement souvent représentée dans la recherche sur l’apprentissage des tons lexicaux est celle du high variability training, ou entraînement à haute variabilité (Logan, Lively & Pisoni, 1991). Le principe de base de l’entraînement à haute variabilité est d’exposer l’apprenant à des stimuli naturels, prononcés par des locuteurs variés dans des contextes variés, dans le but d’encourager la modification à long terme la perception de l’apprenant. En percevant des exemples divers de sons appartenant à une même catégorie, l’apprenant peut ainsi avoir une idée globale de la catégorie plutôt qu’un exemple unique. En tentant d’en percevoir le point commun il peut définir et renforcer les catégories qu’il utilise pour percevoir les sons d’une nouvelle langue.

Bien qu’ayant été développé pour l’entraînement d’éléments au niveau segmental, ce modèle est également très présent dans les études consacrées aux tons lexicaux chinois.

Identification et discrimination

Il existe deux grands types de tâches traditionnellement utilisées dans les entraînements basés sur la perception : les tâches d’identification et de discrimination.

Les tâches d’identification consistent principalement à entendre un stimulus, puis à répondre en identifiant la caractéristique entraînée, le ton lexical dans notre cas. Une façon classique de donner la réponse est via une identification à choix forcé (forced choice identification task), c’est-à-dire que l’on propose quelques options de réponses et que le participant est obligé d’en sélectionner une. Ce type de tâche est très utilisé pour tester le niveau et les compétences d’un

(16)

participant (en pré-test ou en post-test), auquel cas aucun feedback n’est rendu. Cette tâche peut également être utilisée comme entraînement. Dans ce cas, un feedback immédiat est généralement rendu (Wang, 2008).

Les tâches de discriminations ont pour principe de base de faire écouter plusieurs stimuli (deux ou plus), et de demander au participant de les comparer. Le cas le plus simple est de faire écouter deux stimuli et de demander au participant d’indiquer s’ils sont pareils ou différents, concernant la caractéristique étudiée. De la même façon que pour les tâches d’identification, la discrimination peut être utilisée sans feedback comme test ou avec feedback comme entraînement (Wang, 2008).

D’autres versions de tâches de discrimination impliquant une charge cognitive supérieure existent. La tâche dite ABX consiste à faire écouter trois stimuli et demander au participant si le modèle (X) est similaire à A ou à B. Cette version présente le désavantage de devoir retenir le stimulus A longtemps en mémoire avant d’entendre X. Une autre version est la tâches AXB qui déplace le stimulus X à la deuxième position. (Tremblay, 2009, cité par Schwab & Dellwo, 2016). Enfin, il existe la tâche de type « Trouver l’intrus » (odd-one-out). Il s’agit donc de dire quel stimulus est différent entre trois stimuli (ou plus), concernant la caractéristique étudiée (Dupoux, Peperkamp & Sebastián, 2001, cité par Schwab & Dellwo, 2016).

Perception et production

Au cours des recherches, certains auteurs ont voulu comparer l’efficacité entre des entraînements uniquement basés sur la perception et des entraînements basés sur la perception et la production. Il existe en effet différentes théories sur le rapport entre perception et production chez l’apprenant adulte. Par exemple, la théorie du Speach Learning Model (Flege,1995) avance que la production s’appuie sur la perception des sons alors que la Motor Theory (Liberman et Mattingly, 1985, cité par Lu et al., 2015), avance que c’est la production qui facilite la perception.

Lu, Wayland, & Kaan (2015) se sont penchés sur la question de la comparaison entre un entraînement basé uniquement sur la perception et un autre basé sur la perception avec de la production. Le but étant de déterminer si l’un l’emportait sur l’autre pour améliorer la discrimination des tons lexicaux par un public anglophone. Les résultats obtenus démontrent que les deux méthodes améliorent la discrimination des tons lexicaux par les participants, mais que la méthode « production et perception » ne donne pas de meilleurs résultats que la méthode « perception seule », suggérant ainsi que l’utilisation du système moteur pour produire les tons ne renforcerait pas spécifiquement les aptitudes de perceptions des tons lexicaux, allant à l’inverse de ce qui est suggéré par la Motor Theory (Liberman et Mattingly, 1985, cité par Lu et al., 2015).

Dans une autre étude, Wang (2008) a séparé les participants en deux groupes : l’un recevait un entraînement de type perception audio, et le second recevait un entraînement de type perception et production avec de l’audio et du visuel. La partie visuelle consistait en une visualisation en temps réel de la courbe de variation de la F0 (pitch curve, ou courbe de hauteur) qui permet de visualiser le contour d’un ton prononcé (voir Figure 2). Cette visualisation était donnée pour le mot modèle mais également pour le mot produit par l’apprenant. Les résultats de l’étude indiquent que les deux groupes ont progressé à la fois en

(17)

perception et en production, sans différence statistiquement significative entre les deux groupes.

Perception audiovisuelle

Certaines des études présentées comme cette dernière (Wang, 2008), utilisent les outils informatiques pour intégrer des éléments impossibles à intégrer autrement, comme l’affichage en temps réel d’une courbe du contour du ton en temps réel.

L’intégration d’éléments visuels dans l’entraînement a été exploré par d’autres études également. Par exemple, dans une étude ultérieure Wang (2012), a étudié l’apprentissage des tons lexicaux en intégrant un affichage en temps réel de la courbe de hauteur, sur des phrases entières produites par les apprenants. Les résultats montrent que l’usage d’un entraînement audiovisuel basé à la fois sur la perception et la production est efficace pour améliorer la prononciation des apprenants (anglophones). Dans cette étude cependant, l’évaluation est réalisée par des locuteurs natifs. L’aspect visuel réside dans le contenu-même de l’entraînement et il n’y a pas de feedback à proprement parler : l’utilisateur doit s’auto évaluer en comparant sa courbe à la courbe du modèle. Les études intégrant des courbes en temps réel sont plutôt des entraînement basés sur la production. Nous en dirons quelques mots plus bas (« Entraînement basé sur la production : limites et difficultés techniques »).

Certaines recherches s’intéressant davantage à la perception des tons ont également exploré la piste audiovisuelle d’une autre façon : en étudiant l’effet d’une vidéo du visage du locuteur sur l’identification des tons lexicaux, ou encore de gestes fait avec la main, représentant le contour du ton (Chen & Massaro, 2008 ; Hannah, et. al, 2017). Ces recherches se basent sur le principe selon lequel les humains utilisent plusieurs sources d’information pour percevoir (Massaro, 1998, cité par Chen & Massaro 2008) ainsi que sur l’effet McGurk, qui montre que par exemple si l’on entend le son /ba/ tout en voyant une bouche qui fait /ga/, les personnes percevront souvent /da/ (McGurk & MacDonald, 1976, cité par Chen & Massaro, 2008).

L’étude de l’effet de ces sources additionnelles ont donné quelques résultats allant dans le

Figure 2 : Exemple d’une courbe de hauteur (pitch curve) qui montre le contour des tons d’une phrase entière. Tiré de Wang (2012). La ligne du haut est le modèle, prononcé par un locuteur natif ; la ligne du bas est prononcée par un apprenant.

(18)

sens que l’on pouvait identifier des éléments visuels (tensions dans le cou) qui diffèrent selon le ton (Chen & Massaton 2008), ou encore que l’ajout d’un geste en plus des mouvements du visage facilitaient l’identification par rapport au visage seul (Hannah, et al., 2017). Cependant, ce n’est pas une piste que nous explorons davantage dans ce travail, car pour des raisons d’ergonomie et de systématisation, nous souhaitons utiliser une représentation visuelle à vocation universelle, qui pourrait être utilisée indépendamment de la syllabe prononcée, par exemple.

Entraînement basé sur la production : limites et difficultés techniques

La recherche a également développé des entraînements informatisés entraînant spécifiquement la production de mots et de sons. C’est le domaine des CAPT évoqués plus haut, domaine qui est en plein développement.

Dans le domaine de l’apprentissage des tons lexicaux du mandarin, les entraînements basés sur la production qui intègrent une courbe en temps réel de la prononciation de l’apprenant (pitch curve) ont été étudiés (Wang, 2008, 2012 ; Chun, Jiang & Avila, 2012, Cheng, 2017).

Les conclusions ne font toutefois pas encore consensus sur la mesure de l’impact de ces représentations sur l’apprentissage de la perception ou de la production. Comme mentionné précédemment, ces études n’intègrent pas nécessairement un mécanisme de feedback à proprement parler : l’apprenant se sert de la courbe du modèle et de sa propre courbe pour tirer des conclusions sur les aspects qu’il doit améliorer.

L’un des grands défis de l’apprentissage basé sur la production concerne la façon de traiter les mots produits par l’apprenant, pour permettre une évaluation et un feedback. Le traitement du signal auditif ainsi que sa juste interprétation est un défi technique encore en plein développement. Certaines études utilisent d’ailleurs des locuteurs humains (eg. Wang, 2012) pour réaliser l’évaluation finale de la qualité correcte ou incorrecte de la prononciation.

Dans le domaine plus large des CAPT (non restreint aux tons lexicaux), des feedbacks tels que des représentations 3D du système articulatoire sont étudiées (Engwall & Bälter, 2007 ; Engwall, 2012). Un autre domaine d’étude dans les feedbacks dans les CAPT est celui des feedbacks perceptuels, qui consistaient à l’origine à simplement rejouer le modèle de base, mais qui s’étend aujourd’hui à modifier la voix même de l’apprenant pour corriger artificiellement sa prononciation et lui montrer un modèle de prononciation correcte avec sa propre voix (Ai, 2013).

C’est donc un sujet très étudié actuellement, mais cela sort du domaine de compétence abordé dans le présent travail et nous n’aborderont donc pas davantage les entraînements basés sur la production. Étant donné également que la recherche démontre qu’il est déjà bénéfique pour l’apprentissage de la prononciation d’une langue d’apprendre simplement en percevant, nous nous concentrerons sur les entraînements perceptuels.

2.3.2 Types de feedback dans l’enseignement informatisé

Le mot « feedback » dans ce travail désigne l’ensemble des réactions du système (programme informatique) lorsque l’utilisateur répond à une question ou réalise une tâche. Dans l’enseignement informatisé (Computer-based Instruction), le feedback permet en essence deux choses : la vérification et l’élaboration (Kulhavy and Stock, 1989, cité par Mason &

(19)

Bruning, 2001). La vérification permet de dire à l’apprenant si sa réponse est correcte ou incorrecte, tandis que l’élaboration comprend toutes les informations supplémentaires que l’on peut apporter pour donner plus de précisions ou guider l’apprenant vers une bonne réponse. C’est cette partie qu’il est intéressant de bien développer, pour aller au-delà de la simple vérification de la réponse.

Mason et Bruning (2001) se basent sur la recherche pour lister et catégoriser différents types de feedback et d’élaboration rencontrés dans l’enseignement informatisé. Ils soulignent qu’au vu des résultats étudiés, il n’existe pas une forme de feedback universellement meilleure en termes de résultats d’apprentissage, mais que cela dépend de différents critères, dont les connaissances préalables des apprenants ou le type de tâche (simple ou complexe). Dans le cas qui nous concerne, un entraînement basé sur la perception, il s’agirait de tâches simples d’identification ou de discrimination. En substance ces tâches se résument au niveau du système à sélectionner une réponse entre des choix multiples.

En se référant à leur cadre décisionnel en matière d’élaboration de feedback (Annexe 1), on peut voir que pour notre cas : des tâches simples pour un public sans connaissances préalables, le feedback recommandé serait un feedback immédiat (directement après la réponse de l’apprenant), avec une élaboration de type knowledge- of-correct- response with response- contingent. Les feedbacks knowledge of correct response (connaissance de la bonne réponse) sont des feedbacks qui indiquent quelle était la bonne réponse, en plus d’indiquer si la réponse donnée était juste ou fausse. L’élaboration dite response-contigent (contingent à la réponse) consiste à donner en plus de la bonne réponse une information supplémentaire, concernant la réponse, qui permet de mieux comprendre pourquoi c’est la bonne réponse.

2.4 Multimedia Learning

Dans le chapitre précédent, nous avons mentionné à plusieurs reprise l’utilisation de représentations visuelles des tons lexicaux intégrées dans un entraînement informatisé. Il peut bien sûr y avoir des représentations graphiques sans usage de l’ordinateur, mais son utilisation et la facilité avec laquelle cet outil permet d’intégrer différentes sources d’informations en fait un moyen qui favorise l’utilisation de contenus multimédia. Puisque dans cette recherche nous nous intéressons aux représentations des tons lexicaux chinois, ainsi qu’à l’utilisation des nouvelles technologies cela implique de s’intéresser à l’apprentissage multimédia.

L’utilisation du multimédia dans l’apprentissage a été conceptualisé par Mayer (2001), qui parle d’« effet multimedia » (multimédia effect), selon lequel présenter du texte avec une image donne de meilleurs résultats d’apprentissage qu’avec un texte seul.

Il est nécessaire de s’arrêter un instant sur la signification du terme multimédia. On peut en comprendre plusieurs sens, mais ici nous garderons la définition présentée par Mayer en 2001.

Le multimédia se caractérise par un contenu qui est composé à la fois de texte (qu’il soit écrit ou parlé), et d’images qui peuvent être statiques (photos, schémas, etc.) ou animées (vidéo).

On oppose donc le contenu textuel et le contenu pictural.

Selon Mayer (2001), ces deux ressources sont différentes et complémentaires et permettent à l’apprenant de mieux apprendre en combinant ces deux sources.

(20)

Une question importante qui survient lorsque l’on parle d’utilisation du multimédia dans l’apprentissage, est cette de la charge cognitive. L’idée centrale est que la mémoire de travail est limitée (Miller, 1956, cité par Koroghlanian & Klein, 2004).

Certaines recherches se sont ainsi intéressées à la charge cognitive induite par une tâche d’apprentissage, et des moyens de soulager cette charge pour de laisser de la place dans la mémoire de travail, afin que l’apprenant utilise ses ressources pour l’apprentissage en lui- même et non pas pour le traitement de données.

Selon les théories du de l’apprentissage multimédia (Mayer, 2001), les ressources picturales (images, graphiques, etc.) sont perçues par notre système visuel. Les ressources textuelles, si elles sont orales, sont perçues par le système auditif et si elles sont écrites sont d’abord perçues par le système visuel puis par le système auditif.

En faisant provenir les informations par différentes sources, la mémoire de travail peut être étendue (Baddeley, 1992, cité par Koroghlanian & Klein, 2004). Cependant, l’association de deux informations complémentaires, par exemple une image et un texte écrit doit être réalisée de façon adéquate pour éviter l’effet dit de split attention (Kalyuga, Chandler & Sweller, 1999). Devant un texte et une image complémentaire, l’apprenant doit séparer son attention sur les deux sources, puis les intégrer mentalement pour ensuite les combiner et obtenir le sens complet du contenu d’apprentissage. Cette intégration mentale est source d’une grande charge cognitive, et l’effort est trop dispersé entre les deux sources. Il est possible de réduire cette charge, entre autres en intégrant visuellement les deux sources : en mettant des phrases courtes sur un schéma plutôt qu’un long texte explicatif à côté, par exemple (Kalyuga, Chandler & Sweller, 1999).

En termes de charge cognitive l’animation peut également être utile. L’animation (représentation visuelle dynamique, par opposition à une représentation visuelle statique) permet par exemple de visualiser le fonctionnement d’un système ou un mouvement dynamique. Selon Schnotz (2003, cité par Betrancourt, 2005), chez les novices qui ne seraient pas capable se faire une représentation mentale de ce système, l’animation a un effet habilitant (enabling effect). Chez ceux qui seraient capable de simuler mentalement un système dynamique, cette stimulation mentale demande tout de même de grandes ressources et l’animation aurait donc un effet facilitant (facilitating effect), en libérant des ressources cognitives pour l’apprentissage. Dans certains cas cependant, le fait d’économiser la charge cognitive nécessaire à simuler mentalement le système dynamique en question peut conduire à une « illusion d’apprentissage », où l’élaboration d’un modèle mental est inhibée par l’animation (inhibiting effect).

2.5 L’apprentissage des tons lexicaux dans les logiciels grand public

Il est intéressant de faire un rapide tour d’horizon des solutions grand public qui peuvent s’offrir à des personnes voulant apprendre les tons lexicaux chinois. Le but est d’explorer certaines notions vues en théorie et de voir comment on les retrouve dans des applications existantes. Ces applications constituent des exemples d’utilisation de CBT en lien avec notre problématique qui sortent du domaine de la recherche académique à proprement parler. Ce n’est en aucun cas une liste exhaustive, mais une sélection de quelques exemples qui concernent notre sujet et qui sont faciles d’accès pour tout un chacun.

(21)

Parmi les options qui existent pour apprendre une langue de façon autonome, que ce soit en version desktop ou mobile, on peut distinguer deux grandes catégories : les méthodes complètes, et les modules d’exercices qui se concentrent sur un sujet plus restreint comme le vocabulaire ou la prononciation. Ce sont ces derniers qui nous intéressent spécifiquement. Les modules d’exercices, ou exerciseurs, sont très souvent des applications mobiles et proposent divers programmes d’entraînement ou d’exercices plus ou moins diversifiés, visant à améliorer une aptitude en particulier, dans notre cas, la prononciation.

Selon les langues, il est difficile de trouver des exercices qui s’attaquent à la prosodie (en anglais ou en espagnol par exemple), ou qui aillent plus loin que de simples explications théoriques sur un site web agrémentées d’un quizz non interactif. Cependant, en chinois, le thème des tons lexicaux est récurrent, et on trouve donc plus facilement des applications dédiées à cet apprentissage. Les tons lexicaux sont parfois représentés comme un sujet à part entière, au même titre que l’apprentissage de la prononciation des voyelles ou des consonnes.

Il arrive tout de même souvent que dans les exercices, l’apprentissage segmental et suprasegmental soient traités en même temps.

2.5.1 Revue de quatre applications mobiles

Dans notre cadre théorique nous nous sommes notamment intéressés aux notions d’apprentissage par la perception et par la production, à la représentation visuelle des tons lexicaux ainsi qu’à l’aspect d’élaboration dans les feedbacks dans l’enseignement informatisé.

Quatre applications d’un fonctionnement différent les unes des autres ont été étudiée au regard de ces points d’intérêt : Chinese Sound, Nemo, ToneDetector et Tone Game – Chinese Mandarin (voir Tableau 1).

Deux des applications testées abordent à la fois l’apprentissage des tons et celui des phonèmes.

Dans le cas de Nemo, l’approche est large et intègre immédiatement du vocabulaire en plus de la prononciation. Cette application mêle un concept de flashcards² pour le vocabulaire et d’exercice de prononciation. En plus de s’entraîner à retenir le sens des mots, l’apprenant peut s’enregistrer, se réécouter en comparaison avec le modèle et même au ralenti. Dans le cas de Chinese Sound, les différents phonèmes et les tons sont abordés en commençant par trois voyelles utilisées pour apprendre les différents tons, suivi par des exercices d’identification des tons, puis par l’apprentissage de tous les phonèmes et enfin par des exercices de prononciation (production).

Les deux autres applications traitent plus spécifiquement des tons lexicaux uniquement.

ToneDetector est un bon exemple d’entraînement par la production car il s’agit de s’entraîner à prononcer toutes sortes de syllabes avec les différents tons. Tone Game est un entraînement basé sur la perception, où il faut identifier les tons entendus.

Au niveau des représentations visuelles, le pinyin est présent dans les quatre applications.

Nemo est la seule qui n’a pas d’autre représentation pour les tons lexicaux. ToneDetector utilise la représentation de la courbe de hauteur ainsi que de l’oscillogramme, tant du modèle que de la production enregistrée par l’apprenant, de la même façon que dans certaines études

2Système de cartes à retourner couramment utilisées dans l’apprentissage, notamment du vocabulaire.

(22)

présentées plus haut. Tone Game utilise en plus du pinyin, les signes diacritiques isolés comme élément d’interface dans des questions à choix multiples pour identifier les tons entendus. Chinese sound utilise également cette représentation dans ses exercices d’identification. En plus de cela, dans les exercices d’apprentissage (démonstrations) des tons, un schéma du contour du ton, proche de la notation de Chao est représenté et animé (contour gris qui se remplit de gris foncé au fur et à mesure que le ton est prononcé).

En termes de feedback deux applications, Nemo et ToneDetector, sont basées sur l’auto- évaluation et n’offrent donc pas de feedback à proprement parler. Tone game a un feedback de validation, et une élaboration simple en indiquant la bonne réponse (place le bon signe diacritique sur la syllabe en pinyin qui correspond au mot entendu). Chinese Sound a un feedback similaire pour ses exercices d’identification (perception). Pour les exercices de prononciation (production), il y a un feedback de validation, ainsi qu’une élaboration sous forme de notation de la qualité de la production enregistrée. Cette notation (un nombre d’étoiles sur trois) ne donne toutefois pas d’indication sur l’origine de l’erreur ou la façon de se corriger.

Le tableau suivant (Tableau 1) récapitule ces observations.

Tableau 1 : caractéristiques pédagogiques de quatre applications pour l'apprentissage des tons lexicaux chinois

Nom Contenu

pédagogique abordé

Entraînement Représentation visuelle des tons

Feedback

Chinese Sound³ Phonèmes, tons lexicaux, pinyin

Perception et production

Pinyin ; signes diacritiques isolés ; schéma animé du contour du ton

Validation, notation à base d’étoile

Nemo ⁴ (une suite d’applications disponible pour plusieurs langues)

Vocabulaire, prononciation générale

Pinyin Auto-évaluation

(pas de feedback)

ToneDetector⁵ Tons lexicaux dans des syllabes

Pinyin ; courbe de hauteur en temps réel ; oscillogramme

Auto-évaluation (pas de

feedback) Tone Game – Chinese

Mandarin⁶

Tons lexicaux dans des mots d’une à plusieurs syllabes

Perception Pinyin ; signes diacritiques isolés

Validation et indication de la bonne réponse

3 https://appadvice.com/app/chinese-sound-chinese-tones-pinyin-pronunciation-spoken/1023114562

4 https://itunes.apple.com/fr/app/nemomandarin/id430676177?mt=8&ign-mpt=uo%3D4

5 https://itunes.apple.com/fr/app/tonedetector/id495002820

6 https://play.google.com/store/apps/details?id=air.com.fcolaco.tonegame&hl=en

(23)

En conclusion, on voit représentés dans ces quatre cas certains aspects vus dans la recherche, comme l’entraînement basé sur la production ou sur la perception, la représentation de la courbe de hauteur ou les tâches d’identification. On trouve aussi de nouveaux aspects tels que la notation par étoiles, les signes diacritiques comme élément de réponse cliquable ou encore les courbes schématisées animées des tons.

3 Questions de recherche et hypothèses

3.1.1 Cadre théorique : ce que l’on en retient

La problématique de ce travail concerne les pistes d’amélioration de l’entraînement basé sur la perception des tons lexicaux pour les apprenants francophones débutants, via le feedback et les représentations visuelles des tons lexicaux. La revue de littérature a permis d’apporter des éclairages sur différents points et de délimiter le champ d’action de ce travail.

Entraînement basé sur la perception

La revue de littérature nous a permis d’établir que malgré un champ d’étude intéressant et innovant dans le domaine des entraînements basés sur la production, ces derniers représentent des défis techniques et pédagogiques qu’il conviendrait de traiter exclusivement dans un travail ciblé, ce qui ne sera pas le cas ici. De plus, les théories telles que le Speech Learning Model de Flege (1995) ou la théorie directe réaliste et le PAM-S de Best (1995, 2014), ainsi que diverses études dans le domaine de la linguistique et de l’apprentissage des tons lexicaux (Wang et al., 1999, 2003 ; Wang, 2008 ; Lu, Wayland & Kaan, 2015) laissent à penser qu’un entraînement basé sur la perception offre déjà un grand potentiel pédagogique. Enfin, cette étude vise à étudier l’impact d’un entraînement sur un public novice, et l’apprentissage perceptuel peut sembler plus facile d’accès à ce public-cible qu’un entraînement qui requiert directement une production de l’apprenant.

Représentations visuelles des tons lexicaux

Plusieurs représentations visuelles pour les tons lexicaux existent déjà. Le pinyin est largement utilisé, non seulement dans l’enseignement mais également dans certaines études et largement dans les applications de type exerciseur pour le grand public.

On trouve d’autres représentations telles que la courbe de hauteur (pitch curve) dans la recherche ainsi que dans certaines applications. Enfin, les signes diacritiques isolés comme éléments d’interface ou encore des courbes schématisées sont utilisés dans des applications pour le grand public. Lorsqu’il y a une représentation visuelle des tons lexicaux dans les entraînements étudiés, elle est souvent présentée directement dans les items de l’entraînement et pas spécifiquement dans le feedback.

Feedback

L’interaction et le feedback automatisé sont parmi les outils les plus importants que les technologies informatiques ont à apporter à l’enseignement (Bétrancourt & Bozelle, 2012). Si dans le cadre de l’apprentissage par la production le feedback est un domaine qui fait l’objet de beaucoup d’études, c’est moins le cas pour l’apprentissage par la perception.

Les théories recueillies par Mason et Bruning (2001) sur le feedback dans l’enseignement informatisé conseillent, dans le cas de tâches simples, d’intégrer au feedback une

(24)

« élaboration » qui indique la réponse correcte (knowledge-of-correct-response) et qui fournit des informations relatives à cette dernière (que response-contigent) permettant de mieux la comprendre.

Multimedia

L’effet multimédia (Mayer, 2001), consiste à étendre les capacités d’apprentissage en présentant le contenu pédagogique via des sources à la fois textuelles et picturales. Le traitement de différentes sources d’information, si elles ne sont pas bien intégrées l’une à l’autre, peut cependant créer un effet de split attention (Kalyuga, Chandler & Sweller, 1999), où l’apprenant doit utiliser de grandes ressources cognitives pour intégrer mentalement les différentes sources.

3.1.2 Solution pédagogique proposée

En se référant au cadre théorique établi, un module d’entraînement informatisé employant des stimuli uniquement auditifs lors de la présentation des items a été élaboré. Dans cet entraînement, l’affichage d’information est limité au minimum des éléments d’interface nécessaires, pour permettre à l’apprenant de se concentrer sur la perception auditive. Des éléments visuels complémentaires sont ensuite montrés lors du feedback pour permettre une élaboration donnant de nouvelles informations visuelles à l’apprenant pour guider sa compréhension et son apprentissage.

L’entraînement est basé sur des exercices de discrimination, avec des stimuli naturels produits par quatre locuteurs natifs, dans une version adaptée de l’entraînement à haute variabilité (high variability training Logan, Lively & Pisoni, 1991). L’utilisation d’exercices de discrimination devrait permettre aux apprenant d’être exposé à un grand nombre de stimuli, malgré une courte période d’entraînement (48 items), et de comparer entre elles des occurrences différentes appartenant à une même catégorie prosodique.

Pour juger de l’impact des représentations visuelles dans le feedback sur l’apprentissage, deux versions ont été élaborées. Une version utilise le pinyin, qui est la représentation la plus largement utilisée dans les études et applications étudiées. L’autre version, qui s’inspire la fois de la notation de Chao et de l’aspect dynamique de la représentation schématique vue dans l’application ChineseSound, consiste en un schéma du contour du ton en fonction des points définis par Chao et est animée. Le contour du ton se dessine au fur et à mesure que le ton est prononcé, dans le but d’aider l’apprenant à intégrer le mot entendu et le schéma visuel du ton. Ce type de représentation a été préféré à une visualisation détaillée de la courbe de hauteur, pour deux raisons : premièrement, la courbe détaillée dans ce contexte n’apporterait pas d’informations supplémentaires (puisqu’elle ne serait pas utilisée pour comparer avec une courbe produite par l’apprenant) ; deuxièmement, elle pourrait également demander plus de travail pour être analysée et synthétisée par l’apprenant.

L’entraînement sera testé par des novices et l’apprentissage sera évalué en faisant passer une épreuve d’identification avant et après l’entraînement. Plus de détails concernant la conception de l’entraînement et des feedbacks ou le design expérimental seront présentés dans le chapitre 4, « Conception et Méthode ».