Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT

(1)

Master

Reference

Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT

EICHENBERGER, Fanny

Abstract

Les avancées technologiques impactent de nombreux domaines de la société mondialisée.

La reconnaissance vocale, notamment, constitue une véritable révolution dans celui de l'apprentissage des langues ; il est désormais possible d'acquérir une langue en « dialoguant

» avec son ordinateur. Ce mémoire est consacré à l'acquisition de la phonologie en langue seconde, et plus particulièrement à CALL-SLT, une plateforme développée par le Département TIM essentiellement basée sur la reconnaissance vocale. À travers un test de prononciation spécialement élaboré pour ce travail, nous cherchons à découvrir si CALL-SLT peut jouer le rôle d'évaluateur automatique de la prononciation. La reconnaissance vocale peut-elle prendre en compte autant de données que la perception humaine ? L'évaluation automatique peut-elle être de qualité semblable à celle de l'évaluation humaine ? CALL-SLT peut-il permettre d'attribuer automatiquement un niveau de compétence en langue ? Autant de questions auxquelles ce travail tente de répondre.

EICHENBERGER, Fanny. Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT. Master : Univ.

Genève, 2018

Available at:

http://archive-ouverte.unige.ch/unige:104632

Disclaimer: layout of this document may differ from the published version.

(2)

FANNY EICHENBERGER

Évaluation de la prononciation par reconnaissance vocale : élaboration d’un test de prononciation sur la plateforme

CALL-SLT

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise en traduction,

mention Technologies de la traduction

Directrice de mémoire : Prof. Pierrette Bouillon

Jurée :

Johanna Gerlach, Ph.D

Université de Genève

Janvier 2018

(3)

(4)

REMERCIEMENTS

Mes remerciements vont tout d’abord à ma directrice de mémoire, Madame Pierrette Bouillon, pour son encadrement, la transmission de ses connaissances éclairées et la grande disponibilité d’écoute et de relecture dont elle a fait preuve tout au long de ce travail.

Merci aux membres de l’équipe TIM/ISSCO qui m’ont apporté leur soutien, notamment à Madame Johanna Gerlach, ma jurée, à Mesdames Sabrina Girletti et Claudia Baur, ainsi qu’à Monsieur Nikos Tsourakis pour son assistance technique.

Merci à Intercountry et plus particulièrement à Madame Marie Déjos, pour ses précieux emails et entretiens Skype qui m’ont aiguillée dans l’élaboration du test de prononciation, à Madame Nicole Stich pour sa participation à l’évaluation des données du test.

Merci à Madame Chelsea Fairless pour avoir prêté sa voix au test de discrimination, à mes amis et à mes camarades qui m’ont accordé un peu de leur temps dans le cadre de cette expérience.

Merci à tous ceux qui, de près ou de loin, ont contribué à la réalisation de ce mémoire.

À mes parents.

(5)

Table des matières

1. INTRODUCTION ... 5

1.1 Motivations ... 5

1.2 Environnement de travail... 6

1.3 Intercountry ... 6

1.4 Questions de recherche ... 8

1.5 Plan ... 8

I. PARTIE THÉORIQUE 2. ACQUISITION DE LA PHONOLOGIE EN L2 ... 11

2.1 Interlangue ... 11

2.1.1 Influence de la L1 ... 12

2.1.2 Influence de la L2 ... 14

2.1.3 Nature de l’interlangue ... 15

2.2 Perception et production des sons en L2 ... 16

2.2.1 Perception des sons en L2 ... 17

2.2.2 Lien entre perception et production ... 18

2.2.3 Accent et intelligibilité ... 19

2.3 Facteurs de performance ... 21

2.3.1 Âge et période critique ... 21

2.3.2 Différences individuelles... 22

2.4 Évolution de la phonologie au fil de l’apprentissage ... 24

2.4.1 Exemples d’entraînements ... 24

2.4.2 Rôle de la technologie ... 25

3. ENSEIGNEMENT DE LA PRONONCIATION ASSISTÉ PAR ORDINATEUR (EPAO) ... 27

3.1 Différents niveaux ... 27

3.1.1 Niveau segmental ... 28

3.1.2 Niveau suprasegmental ... 29

3.1.3 Intégration dans les systèmes d’EPAO ... 31

3.2 Différentes structures ... 33

3.2.1 Reconnaissance vocale (RV) ... 33

3.2.2 Entraînement avec la L1 et la L2 ... 35

(6)

3.2.3 Diagnostic des erreurs ... 36

3.3 Différentes approches ... 37

3.3.1 Likelihood-based Scoring (GOP) ... 37

3.3.2 Classifier-based Scoring ... 37

3.3.3 Extended Recognition Networks (ERN) ... 38

3.3.4 Unsupervised Error Discovery... 38

3.4 Avantages et inconvénients de l’EPAO... 38

4. CALL-SLT ... 41

4.1 Présentation générale ... 41

4.2 Fonctionnement ... 43

4.2.1 Postulat de base ... 43

4.2.2 Reconnaissance vocale ... 44

4.2.3 Types de jeux possibles ... 44

4.2.4 Structure de CALL-SLT... 46

4.3 Travaux et expériences réalisés jusqu’alors ... 49

4.3.1 Thèse de Baur ... 49

4.3.2 Maîtrise de Jolidon ... 50

4.3.3 Maîtrise de Petrovic ... 50

4.3.4 Conclusion ... 51

II. PARTIE EXPÉRIMENTALE 5. TEST DE PRONONCIATION POUR L’ANGLAIS ... 54

5.1 Élaboration du test de prononciation ... 54

5.1.1 Types de tests ... 54

5.1.2 Sons cibles ... 56

5.1.3 Création des leçons... 57

5.1.4 Contrainte du système ... 62

5.1.5 Fonctionnalités propres à l’évaluation ... 62

5.1.6 Difficultés techniques rencontrées ... 63

5.2 Pré-test ... 64

5.2.1 But du pré-test ... 64

5.2.2 Déroulement et résultat ... 64

5.2.3 Conclusion ... 66

5.3 Expérience ... 66

5.3.1 Questions de recherche... 66

5.3.2 Méthodologie ... 67

(7)

5.3.3 Déroulement ... 67

5.3.4 Problèmes rencontrés durant l’expérience ... 68

5.3.5 Résultats ... 70

5.3.6 Conclusion et pistes d’amélioration ... 78

6. CONCLUSION ... 81

BIBLIOGRAPHIE ... 83

ANNEXE ... 89

Annexe 1. Tableau récapitulatif des évaluations pour un candidat ... 89

(8)

1. INTRODUCTION

Ce premier chapitre a pour but d’expliciter le contexte dans lequel ce travail a été réalisé.

Nous expliquerons tout d’abord les raisons qui nous ont poussé à choisir ce sujet. Nous présenterons ensuite notre environnement de travail et Intercountry, l’entreprise avec laquelle nous avons collaboré, avant de préciser nos questions de recherche et, enfin, la structure du document.

1.1 Motivations

À l’heure de la mondialisation, l’apprentissage des langues étrangères occupe une place croissante dans la société. Plus qu’une manière de se démarquer sur le marché du travail, maîtriser plusieurs langues est pour ainsi dire devenu une obligation, un gage de réussite sur le plan social et professionnel. L’importance du multilinguisme se fait d’autant plus ressentir en Suisse, pays quadrilingue. Selon la dernière enquête de l’Office fédéral de la statistique, près de deux tiers des Suisses utilisent fréquemment plus d’une langue¹. Une écrasante majorité d’entre eux n’est pas née bilingue et est ainsi devenue plurilingue par l’apprentissage des langues.

Les progrès de la technologie, et notamment l’apparition de la reconnaissance vocale, ont véritablement révolutionné les méthodes d’apprentissage. Des systèmes d’apprentissage des langues assistés par ordinateur (ALAO ou CALL en anglais pour Computer-Assisted Language Learning) ont ainsi vu le jour, permettant aux étudiants d’acquérir en ligne de nouvelles langues, sans contrainte de temps ou de lieu. Il n’est aujourd’hui plus obligatoire d’effectuer un séjour à l’étranger ou de suivre des cours dans une école pour apprendre une langue. Des plateformes web, des logiciels et même des applications mobiles permettent désormais d’apprendre grammaire et vocabulaire tout en entraînant la prononciation.

Pour répondre à cet essor de la technologie, la Faculté de Traduction et d’Interprétation de l’Université de Genève intègre un Département de traitement informatique multilingue (TIM) et permet depuis plusieurs années une spécialisation dans les technologies de la traduction. A la rentrée 2017, elle ouvre même une toute nouvelle Maîtrise entièrement dédiée au traitement informatique multilingue : la MATIM². En plus de ses enseignements, le Département TIM

1De Flaugergues, Amélie. Pratiques linguistiques en Suisse. Premiers résultats de l'Enquête sur la langue, la religion et la culture 2014. Office fédéral de la statistique (OFS). Neuchâtel, 2016.

2 https://www.unige.ch/fti/fr/enseignements/ma-tim

(9)

promeut également la recherche grâce à son groupe TIM/ISSCO. Il collabore fréquemment avec de nombreux partenaires aussi bien nationaux qu’internationaux dans des domaines très variés qui peuvent parfois faire l’objet de stages pour les étudiants de TIM. C’est dans ce contexte que nous avons participé à un projet commandité par l’entreprise française Intercountry (voir chapitre 1.3) et ayant pour but : l’évaluation automatique de la prononciation par reconnaissance vocale.

1.2 Environnement de travail

Depuis 2009, le groupe TIM/ISSCO travaille sur le projet CALL-SLT³, une plateforme dédiée à l’apprentissage des langues en ligne. Les systèmes d’ALAO existent depuis plusieurs décennies déjà. La particularité de CALL-SLT est que cet outil repose entièrement sur la reconnaissance vocale et qu’il tolère une certaine flexibilité dans les réponses grâce à des stimuli indirects (Rayner et al. 2014). Contrairement aux systèmes d’ALAO basiques qui ne proposent que des exercices de répétition, CALL-SLT permet aux apprenants d’entraîner la

« langue parlée » en faisant preuve de spontanéité.

Plusieurs jeux de traduction, de dialogue et de vocabulaire ont été élaborés pour l’entreprise Intercountry (Dejos et al. 2016). Différentes études ont déjà été menées afin de mesurer la portée pédagogique et les bénéfices d’un apprentissage des langues par reconnaissance vocale. Afin d’élargir l’éventail des possibilités offertes par CALL-SLT et conformément aux besoins d’Intercountry, ce mémoire s’inscrit dans la continuité des travaux déjà réalisés en ajoutant une dimension supplémentaire à ce système : l’évaluation des compétences langagières. La reconnaissance vocale, en plus de sa fonction pédagogique, pourra également jouer le rôle d’évaluateur et permettre un diagnostic automatique de la prononciation.

1.3 Intercountry

Intercountry est une entreprise d’ingénierie pédagogique issue en 2016 du regroupement de deux sociétés spécialisées dans la formation linguistique : Intercountry Management et ICB Europe. Toutes deux riches de 20 années d’expérience, elles font du nouveau groupe Intercountry une référence dans le domaine de la formation aux langues en France.

3 http://callslt.unige.ch

(10)

Avec la mission de « repousser les frontières linguistiques et culturelles pour créer du lien dans un monde globalisé », Intercountry propose différentes formations en présentiel ou en distanciel, individuelles ou collectives, en anglais, français, allemand, espagnol, portugais et italien. Elle met un point d’honneur à satisfaire au mieux ses clients, particuliers et entreprises, en leur offrant des possibilités d’apprentissage performantes, modernes et dynamiques. La méthode pédagogique d’Intercountry repose sur cinq piliers bien précis.

Le premier, l’individualisation, correspond à la personnalisation de la formation. Afin de déterminer le type de formation le plus adéquat pour chaque apprenant, Intercountry prend en compte non seulement les attentes mais également le niveau initial de chacun. Sur la base du Cadre Européen Commun de Référence pour les Langues (CECRL), les apprenants sont séparés en 6 niveaux, de A1 pour les connaissances les plus élémentaires à C2 pour les expérimentées. Chacun est ainsi en mesure d’évoluer dans un environnement favorisant sa réussite.

Le deuxième, la progressivité, a pour objectif un accompagnement évolutif de l’apprenant. Le but visé est de mettre en place des formations qui, structurées en différentes étapes, permettent de tenir compte du chemin parcouru par l’apprenant. Le contenu de la formation évolue au gré des progrès réalisés.

Le troisième concept pédagogique de la méthode Intercountry est la proximité. L’entreprise compte ici sur la motivation et le professionnalisme de ses formateurs pour créer un climat de travail convivial et stimulant.

Le quatrième concept est la mise en situation. Le but poursuivi est d’améliorer les compétences des apprenants en les plongeant dans la pratique. Cette méthode favorise non seulement le développement de connaissances linguistiques dans des domaines bien spécifiques, mais familiarise également les apprenants avec la culture propre à la langue dans laquelle ils sont immergés.

Le cinquième et dernier concept prôné par Intercountry est appelé blended-learning (apprentissage mixte). La formation linguistique s’appuie sur différentes formes et des dispositifs variés d’apprentissage de manière à maximiser les performances et les résultats.

Intercountry offre un large éventail de possibilités à ses apprenants. Certaines d’entre elles sont des solutions en présentiel : cours en face à face, individuels ou collectifs, semaines intensives, ateliers thématiques, etc. D’autres s’effectuent à distance : préparation en ligne,

(11)

micro-learning (entraînement de la sonorité, des définitions et des contextes d’utilisation des mots), cours de communication par téléphone, etc.

À travers une méthodologie pédagogique bien étudiée, Intercountry cherche à offrir la plus grande progression possible à ses apprenants. En constante innovation, elle s’efforce à répondre aux enjeux de la mondialisation et de la digitalisation, tout en protégeant le caractère humain des relations entre formateurs et apprenants.

1.4 Questions de recherche

Ce mémoire est consacré à l’étude de la phonologie en langue seconde. Avant d’énoncer nos principales questions de recherche, il nous semble important de préciser la notion de « langue seconde ». Celle-ci, telle que nous l’utiliserons au cours de ce travail, ne fait pas référence à un ordre chronologique d’apprentissage des langues. En effet, le terme « langue seconde » est employé comme un synonyme de « langue étrangère ». Elle ne signifie pas forcément une langue apprise en deuxième, mais fait référence, de manière générale, à une langue non- maternelle. Nous ne traiterons donc pas ici des cas de bilinguisme et d’apprentissage d’une ou plusieurs langues chez l’enfant.

Notre recherche s’articule autour de trois questions principales, auxquelles nous espérons répondre grâce à notre expérience avec CALL-SLT :

1. La reconnaissance vocale peut-elle reconnaître autant de réponses que la perception humaine ?

2. Le diagnostic permet-il une évaluation de qualité semblable à celle d’un humain, c’est-à-dire ni trop sévère ni trop laxiste ?

3. Est-il possible, à l’aide de CALL-SLT, d’attribuer automatiquement un niveau de compétence en langue à chaque candidat ?

De manière plus globale, ces trois questions nous permettront d’observer si l’évaluation automatique de la prononciation par reconnaissance vocale est envisageable.

1.5 Plan

Ce mémoire est structuré en six chapitres.

(12)

Le premier chapitre comprend l’introduction. Nous y expliquons nos motivations (section 1.1) et décrivons notre environnement de travail (section 1.2). Nous présentons également Intercountry, l’entreprise française avec laquelle le test de prononciation a été réalisé (section 1.3), énonçons les différentes questions autour desquelles notre recherche s’est articulée (section 1.4) et exposons le plan de ce document (section 1.5).

Le deuxième chapitre ouvre la partie théorique de ce mémoire. Il est consacré à l’acquisition de la phonologie en langue seconde. Il traite plus précisément de la notion d’interlangue (section 2.1), de la perception et de la production des sons en L2 (section 2.2), des différents facteurs de performance (section 2.3) ainsi que de l’évolution de la phonologie au fil de l’apprentissage (section 2.4).

Le troisième chapitre quant à lui fait un point sur l’enseignement de la prononciation assisté par ordinateur (EPAO ou CAPT pour Computer-Assisted Pronunciation Training). Il présente tout d’abord les deux niveaux selon lesquels la prononciation peut être considérée (section 3.1), puis les différentes structures et approches qui permettent de l’évaluer automatiquement (respectivement section 3.2 et section 3.3). Il discute finalement des avantages et inconvénients de l’EPAO (section 3.4).

Dans le quatrième chapitre, nous présentons CALL-SLT, la plateforme sur laquelle le test de prononciation a été élaboré. Après une présentation générale (section 4.1), nous expliquons le fonctionnement de cette plateforme en précisant les différents types de jeux qu’il est possible de réaliser ainsi que la méthode à suivre pour créer des leçons (section 4.2). Nous terminons par un aperçu des travaux et expériences déjà réalisés sur CALL-SLT (section 4.3).

Le cinquième chapitre représente la partie expérimentale de ce mémoire. Il est dédié au diagnostic de prononciation que nous avons développé pour ce travail. Il décrit tout d’abord comment le test de prononciation a été élaboré (section 5.1) en expliquant le choix des types de tests et des sons cibles, la création des leçons, les fonctionnalités et contraintes du système CALL-SLT, ainsi que les éventuelles difficultés rencontrées. Il présente ensuite la phase de pré-test qui s’en est suivie (section 5.2), puis décrit l’expérience que nous avons réalisée (section 5.3) en précisant les questions qui ont guidé nos recherches, la méthodologie adoptée, la démarche suivie et les éventuels problèmes auxquels nous avons été confrontés, les résultats obtenus ainsi que des pistes d’améliorations.

Le sixième chapitre constitue la conclusion générale de ce travail et propose quelques idées de recherches futures.

(13)

I. PARTIE THE ORIQUE

(14)

2. ACQUISITION DE LA PHONOLOGIE EN L2

Les langues sont des systèmes complexes soumis à des règles graphiques et vocales qui leur sont propres. Leur apprentissage s’articule autour de trois axes principaux correspondant à trois grands domaines de la linguistique : les sons (phonétique et phonologie), la forme des mots et leur agencement en phrases (morphologie et syntaxe), et, enfin, le sens (lexicologie, sémantique et pragmatique)⁴. Ce mémoire étant basé sur la prononciation, nous nous concentrerons uniquement sur l’aspect phonique de la langue.

Dans ce deuxième chapitre, nous traiterons de l’acquisition de la phonologie en langue seconde. Nous nous focaliserons plus particulièrement sur la notion d’interlangue (section 2.1), sur les processus de perception et de production des sons (section 2.2), sur les différents facteurs susceptibles d’influencer la performance (section 2.3) ainsi que sur l’évolution de la phonologie au cours de l’apprentissage (section 2.4). Les sections consacrées à l’interlangue et aux facteurs de performance sont majoritairement tirées des travaux d’Archibald (1998).

2.1 Interlangue

Comme mentionné dans l’introduction, ce mémoire traite de l’acquisition d’une seconde langue par des adultes. Il ne porte pas sur l’apprentissage de première(s) langue(s) par des enfants. Cette distinction est essentielle puisque, à la différence de celui des enfants, l’apprentissage des adultes subit l’influence directe de la langue maternelle (Archibald 1998).

Les acquis de la L1 agissent plus ou moins fortement sur les nouvelles connaissances en L2.

Consciemment ou non, l’apprenant assimile ce qu’il découvre à ce qu’il connaît. Il se crée alors une sorte de « langue de l’apprenant », tendant vers la langue cible mais comportant des caractéristiques de la langue maternelle. C’est cette langue intermédiaire, propre à chaque individu, que l’on appelle interlangue. L’interlangue n’est donc pas une langue en soi, mais une idéalisation de la langue cible en fonction de la L1. Elle est un système hybride comportant des éléments à la fois de la L1 et de la L2. Elle pourrait être schématisée comme dans la Figure 1 :

4 www.encyclopaedia-universalis.fr [consulté le 18 août 2017]

L1 Interlangue L2

Figure 1. Influences de la L1 et de la L2 sur l’interlangue (Archibald 1998 : 2).

(15)

Ce diagramme (Fig. 1), inspiré d’Archibald (1998), illustre de manière très simple la double influence qui s’exerce sur un adulte lors de son apprentissage d’une langue étrangère. Dans la suite de ce chapitre, nous allons étudier ces deux types d’influences et leurs conséquences sur l’interlangue.

2.1.1 Influence de la L1

En matière de prononciation, la langue maternelle occupe une place considérable dans l’acquisition des langues étrangères puisqu’elle est bien souvent à l’origine d’une difficulté bien connue de tout apprenant : l’accent. Celui-ci créée une sorte d’interlangue « atonale », une sorte de L2 empreinte des sonorités de la L1. En effet, il ne suffit parfois que d’une phrase, voire que d’un mot, pour déceler qu’un locuteur ne s’exprime pas dans sa langue maternelle. Cette « consonance particulière » est un indice si révélateur qu’elle peut même permettre de deviner la langue maternelle de l’apprenant ; un discours en français aura tendance à sonner différemment selon qu’il est prononcé par un anglophone ou un germanophone. Car l’une des principales caractéristiques d’un discours en L2 est qu’il contient une certaine ressemblance avec la L1 de l’apprenant (Archibald 1998). Cette ressemblance peut se situer aussi bien au niveau des segments ou des syllabes que de l’accent tonique ou des tons (cf. section 3.1).

Anglophone (cible) Francophone Germanophone

have [hæv] [æv] [hæf]

Figure 2. Exemple de transfert phonologique (Archibald 1998 : 2).

L’exemple ci-dessus (Fig. 2) représente le mot anglais « have » tel qu’il serait typiquement prononcé par un locuteur francophone et un locuteur germanophone. La forme articulée par le francophone reflète le fait que le système phonétique français ne contienne pas de phonème /h/ (« h » fortement aspiré). Le francophone aura donc tendance à omettre ce son. Le système phonologique allemand, en revanche, contient le phonème /h/ mais répond à une règle de

(16)

dévoisement final des consonnes obstruantes ; les occlusives et fricatives situées en fin de mot ont tendance à être assourdies, transformant alors un [v] en [f].

La Figure 2 témoigne bien de l’importance des variations phonologiques résultant de l’influence de la L1 sur la L2. Par conséquent, la proximité entre la langue maternelle et la langue cible joue un rôle non négligeable dans l’apprentissage ; un francophone a, de ce fait, plus de facilité à apprendre les langues latines que les langues slaves ou orientales. En fonction de la L1, certaines langues et certains éléments bien précis de la langue sont plus difficiles à acquérir que d’autres. En son sens stricte, cette hypothèse remonte aux années 1950, et plus particulièrement à Lado et aux principes de l’analyse contrastive qu’il a formulés dans son livre Linguistics Across Culture en 1957. Selon Lado, le degré de différence entre les deux langues correspond au degré de difficulté de l’apprentissage (Joze Tajareh 2015). Même si cette idée n’est pas nouvelle, Lado est le premier linguiste à proposer des procédures permettant d’analyser et de comparer des langues sur le plan phonologique, grammatical et lexical. Au moyen de corpus, il utilise des méthodes de linguistique structurale (classification des éléments linguistiques en différents niveaux) afin d’établir des différences et des similitudes entre les langues dans le but d’anticiper les difficultés liées à leur apprentissage. Dans le sens des théories béhavioristes, l’analyse contrastive considère que toutes les erreurs commises en L2 proviennent d’un transfert des habitudes de la L1. La langue maternelle est considérée comme la cause principale des difficultés. Par conséquent, toutes les erreurs seraient prédictibles.

Plusieurs recherches empiriques, menées notamment au cours des années 1960, ont critiqué cette théorie jugée trop brute en prouvant qu’elle prédit des erreurs qui ne se produisent pas et laisse échapper certaines erreurs existantes. De plus, il a été constaté que certaines erreurs étaient systématiquement commises par des apprenants, et ceci indépendamment de leur langue maternelle (Besse et Porquier 1991). Si l’analyse contrastive de Lado s’est avérée être une généralisation quelque peu abusive en matière de grammaire et de lexicologie, le transfert reste la principale cause d’erreurs ou de variations en ce qui concerne la phonologie. Le système phonétique initial agissant sur les perceptions et productions en L2, l’apprenant se trouve comme « cloisonné ». Puisque les apprenants de même langue maternelle appartiennent au même système phonétique, il est possible de dégager certaines erreurs types.

(17)

L1 L2 Exemple Analyse

Espagnol Anglais « I espeak Espanish. » L’espagnol n’autorise pas de séquence /s/ + consonne

en position initiale.

Anglais Français Cible [ty]

prononcée [tu]

L’anglais ne possède pas la voyelle antérieure arrondie [y] : substitution

par le son [u].

Français Anglais « Over zere. » Le son anglais [ð] est remplacé par [z].

Figure 3. Autres exemples de transfert phonologique (Archibald 1998 : 3).

Dans la Figure 3, la colonne « exemple » représente l’interlangue. Elle révèle de manière concrète le processus de transposition de certains aspects et même certaines règles phonologiques d’une langue maternelle vers la langue cible. En analysant les éléments contenus dans cette colonne, nous pouvons constater que le résultat produit est certes imprégné par la L1, mais qu’il contient bien entendu de nombreux éléments de la L2.

2.1.2 Influence de la L2

Comme expliqué plus haut, l’interlangue est la langue de l’apprenant lors de son acquisition d’une langue étrangère. Elle est une sorte de « version bêta » de la langue cible, comportant des « bogues » engendrés pour beaucoup par la langue maternelle. Si la section précédente (2.1.1 Influence de la L1) a trait aux interférences de la L1, il est nécessaire de rappeler que la langue en cours d’apprentissage exerce, elle aussi, son influence sur l’interlangue.

Cette double influence peut s’exercer simultanément sur une même forme. Pour exemple, Archibald (1998) nous propose le cas suivant : la prononciation du mot « eyes » (/ayz/) par un germanophone apprenant l’anglais du Canada – il va de soi que la démonstration suivante n’est pas un processus systématique, mais une tendance générale. D’un côté, la règle allemande de dévoisement final des consonnes obstruantes transforme la consonne voisée [z]

en son substitut sourd [s]. L’influence de la L1 aura donc tendance à transformer la prononciation de /ayz/ en /ays/. D’un autre côté, une nouvelle

règle phonologique propre à la langue cible entre en jeu : le Canadian raising. Ce phénomène, typique de l’anglais du Canada, modifie la prononciation des diphtongues ([aɪ] et [aʊ]

principalement) en élevant leur point de départ lorsqu’elles

(18)

précèdent une consonne sourde⁵. Avec l’influence de la L1, la diphtongue [aɪ] de notre exemple précède désormais une consonne sourde. L’apprenant appliquera donc la règle du Canadian raising et prononcera le mot /ʌys/. Nous pouvons ainsi constater que la prononciation de l’apprenant comporte des éléments à la fois de la L1 et de la L2, ce qui illustre parfaitement la double influence qui caractérise la nature de l’interlangue.

2.1.3 Nature de l’interlangue

Comme discuté précédemment, l’interlangue est soumise à deux influences : celle de la langue maternelle et celle de la langue cible. Selon Major (1986), cette double nature de l’interlangue correspond à deux types d’erreurs bien précis : les erreurs de transfert (transfer errors) et les erreurs de développement (developmental errors). Le premier type, celui que nous avons observé au point 2.1.1 Influence de la L1, regroupe les fautes commises en raison d’interférence avec la L1. Le second type, relatif au point 2.1.2 Influence de la L2, reflète les erreurs effectuées par l’apprenant au sein de la L2, un type de fautes qui serait comparable à celles commises par un enfant acquérant une première langue. Les enfants apprenant l’anglais comme première langue produisent parfois des formes telles que « goed » ou « breaked ». Ces erreurs correspondent à une surgénéralisation, en l’occurrence une surgénéralisation de la règle régulière de formation du passé. Cette tendance s’observe également chez les adultes apprenant l’anglais en L2. En résumé, les erreurs de développement englobent toutes les erreurs qui ne sont pas directement liées à L1.

Même s’ils paraissent bien distincts, les processus de transfert et de surgénéralisation peuvent être perçus comme le résultat d’une même stratégie cognitive : le « use what you know » (Major 1986). En d’autres termes, l’apprenant « utilise ce qu’il sait » pour s’exprimer. Ceci signifie qu’au début de son apprentissage, le peu de connaissances acquises en L2 favorise le transfert. En revanche, plus il avance dans son apprentissage, plus la masse de connaissances devient une source potentielle d’erreurs de développement. Les prédictions du type d’erreurs potentiellement commises par l’apprenant dépendent donc de son niveau de performance.

C’est autour de ce postulat que Major établit son Modèle Ontogénique (« Ontogeny Model of second language acquisiton »). Ces prédictions peuvent s’exprimer très simplement sous forme de graphique, tel qu’illustré dans le Figure 5.

5 http://www.yorku.ca/twainweb/troberts/raising.html [consulté le 22.08.2017]

4http://www.nyounger.com/content/canadian-vowel-raising [consulté le 22.08.2017]

(19)

La Figure 5 illustre le fait que les erreurs de transfert peuvent être nombreuses au début de l’apprentissage mais devraient rapidement chuter au fil de l’acquisition des connaissances. Au contraire, les erreurs de développement devraient être relativement faibles au départ en raison du peu de connaissances acquises en L2. Elles gagnent en importance au fil de l’apprentissage jusqu’à un certain niveau intermédiaire de performance, à partir duquel l’assimilation de connaissances avancées en L2 les font décliner.

Ces deux schémas témoignent en outre du caractère instable de l’interlangue, puisque celle-ci est en constante évolution et suit le rythme de l’apprentissage. Lorsqu’elle n’évolue plus, c’est-à-dire lorsque l’apprenant a acquis un niveau stable, l’interlangue est dite « fossilisée » (Archibald 1998).

2.2 Perception et production des sons en L2

L’accent est une caractéristique commune à tous les apprenants adultes d’une L2. Il provient du fait que la réalisation phonétique des structures phonologiques de L2 est sensiblement différente de celle acquise à l’enfance dans la langue maternelle. Comme discuté précédemment, les locuteurs natifs remarquent rapidement lorsqu’une personne est de langue étrangère et parviennent même bien souvent à identifier la langue maternelle. Nous avons expliqué ceci par une interférence en langue cible de la phonologie de L1.

La phonologie est en effet un aspect spécifique à chaque langue. Le système phonétique est un mélange d’ingrédients qui donne à chaque langue un goût particulier et très typique. C’est à l’enfance que se forment ces différentes caractéristiques, une période critique (cf. section 2.3.1) durant laquelle les capacités phonologiques de l’enfant se resserrent autour de l’input langagier qui deviendra sa langue maternelle. Acquérir un nouveau système phonétique à l’âge adulte n’est pas impossible, mais il ne deviendra jamais aussi solide et aussi

Nbre

d’erreurs Nbre

d’erreurs

Transfert Développement

Figure 5. Prédiction des erreurs selon le Modèle Ontologique de Major (1986).

(20)

automatique que s’il avait été développé à l’enfance. Si l’accent révèle de manière évidente les difficultés de production de la matière phonique, il existe bien souvent une autre origine à ce problème : la perception des sons en L2.

2.2.1 Perception des sons en L2

Il n’est pas aisé de s’exprimer dans une langue étrangère. Malgré tous les efforts possibles, l’accent ne disparaît bien souvent jamais totalement et il persiste toujours une petite trace, un petit détail, imperceptible pour les apprenants mais tellement évident pour les natifs.

« Imperceptible » car parfois l’apprenant ne perçoit véritablement pas de différence entre le son produit et le son cible. Lors de l’acquisition de la langue maternelle, la perception devient spécifique à cette langue (Strange et Shafer 2008). Elle se resserre autour des informations phonologiques qui permettent de distinguer les sons de la L1, tandis que les informations acoustiques ne se rapportant pas à la L1 sont reléguées au second plan. L’enfant se construit donc un système de perception sélective (selective perception), propre à sa langue, automatique et robuste.

Lors de l’acquisition d’une seconde langue à l’âge adulte, le processus automatique de perception développé pour la L1 peut altérer les capacités de distinction de certains contrastes phonétiques dans de nouvelles langues. En effet, la justesse de la perception d’un son en L2 dépend du degré d’éloignement perçu par l’apprenant entre ce son et les sons de sa L1 (Flege et al. 2003). Les difficultés qu’éprouvent les adultes dans le contraste des phonèmes en L2 sont bien connues. Différents modèles ont d’ailleurs été établis dans le but de les expliquer : le modèle d’assimilation perceptive (Perceptual Assimilation Model, PAM) de Best (1995) ou le modèle d’apprentissage de la parole (Speech Learning Model, SLM) de Flege (1995), pour ne citer qu’eux. Ces deux modèles se ressemblent en grande partie dans leur postulat commun que l’apprenant se livre à un processus de catégorisation des phonèmes de la L2 en fonction du cadre fourni par l’expérience de la L1 (Perrin 2013). Il classifie les segments phonétiques en fonction de leur similarité acoustique avec ceux de la L1. Le PAM et le SLM diffèrent toutefois quelque peu dans leur classification. Les modèles reconnaissent tous deux : 1) les segments en L2 appartenant à une catégorie existante en L1, appelés perceptually assimilated dans le PAM et identical dans le SLM, et 2) les segments en L2 ne correspondant à aucune catégorie existante en L1, appelés uncategorizable (PAM) ou new (SLM). Le troisième critère de classification n’est pas commun aux deux modèles. Dans le PAM, il existe une troisième distinction, unassimilable, pour les segments perçus comme des sons non-langagiers. Dans le

(21)

SLM en revanche, le troisième critère, similar, correspond aux segments qui présentent des similarités acoustiques. De manière commune, les deux modèles stipulent que la perception et la production ont plus de chances d’être correctes si le phonème de L2 n’est pas assimilé à un phonème de la L1 (Isaacs 2014). Car si aucune différence entre les deux phonèmes n’est perçue, l’apprenant remplacera simplement le son de L2 par le son de L1 qu’il juge équivalent. Au contraire, les segments jugés très différents, soit les segments uncategorizable (PAM) ou new (SLM), auront tendance à être acquis plus facilement. Cette conclusion est en totale opposition avec l’hypothèse de l’analyse contrastive de Lado (cf. section 2.1.1) qui postule que les sons similaires à la L1 seront acquis plus facilement que ceux qui s’en éloignent (Zampini 2008). Ces deux points de vue parfaitement contradictoires reflètent bien la complexité de la psycholinguistique et peuvent s’expliquer du fait que de nombreux facteurs entrent en jeu dans l’acquisition de la phonologie de la L2 (cf. section 2.3), atténuant pour certains ou renforçant pour d’autres le rôle de la L1.

2.2.2 Lien entre perception et production

Comme nous l’avons vu précédemment, les modèles de Flege et Best prédisent que les apprenants ne créent une nouvelle catégorie phonétique – et, par conséquent, perçoivent correctement un son de L2 – que lorsqu’il diffère suffisamment d’une catégorie existante en L1. Au contraire, l’hypothèse de l’analyse contrastive postule que les sons en L2 similaires à des sons de L1 seront plus facilement acquis. Si ces points de vue en matière de perception sont totalement opposés, ils se rejoignent sur ce qui concerne la production : la justesse de la perception est directement liée à la justesse de la production. De manière évidente, le postulat est qu’il est nécessaire de percevoir un son avant de pouvoir le produire (Isbell 2016). De nombreux linguistes partagent donc l’idée qu’il existe un lien direct entre perception et production, appelé dans la littérature « perception-production link ». Plusieurs études relatives à l’enseignement de la prononciation ont donné la preuve de l’existence de cette relation.

L’une des plus significatives a été menée par Bradlow et al. (1997) et portait sur la distinction des phonèmes anglais /r/ et /l/ par des apprenants japonais. Malgré un entraînement uniquement axé sur la perception de cette distinction, des progrès ont été constatés également en termes de production. Cette découverte révèle qu’en plus d’être une étape nécessaire avant la production, la perception peut, à elle seule, potentiellement permettre de « débloquer » certaines caractéristiques de la L2. Quand bien même le lien entre perception et production est soutenu par de nombreuses théories contemporaines et qu’il permet de réels progrès en

(22)

matière d’enseignement de la prononciation, il convient de le nuancer car il est directement remis en question par certaines expériences.

En effet, il existe de nombreux cas de « perception sans production » (Isbell 2016). Derwing et Munro (2015), par exemple, ont constaté que même si le contraste entre deux phonèmes de L2 est parfaitement perçu, leur production n’est pas systématiquement exacte. Les anglophones ont beau percevoir très clairement la différence entre un /r/ roulé et un /ɾ/ battu, ils éprouvent des difficultés à les prononcer. Ce constat questionne directement le SLM de Flege qui prédit que, dans ce cas précis, le /r/ roulé ne poserait pas de difficulté puisqu’il ne ressemble à aucun son du système phonétique anglais. D’autres études arrivent à cette même conclusion que, malgré une perception exacte, la production de certains sons n’est pas toujours correcte (Kim et Park 1995 ; Chan 2014 ; Oh et al. 2003).

Sheldon et Strange (1982) ont également révélé un rare cas de « production sans perception » en s’intéressant au cas des Japonais apprenant l’anglais et plus particulièrement à la fameuse distinction /r/-/l/. Parmi les apprenants de bon niveau, il a été constaté un taux d’erreur de 1%

à la production, contre 10% à la perception, ce qui signifie que la production de ces sons est plus exacte que sa perception. Cette étude suscite l’idée que les capacités de perception peuvent atteindre une limite qui peut être dépassée par les capacités de production.

Même s’il ne représente bien souvent pas un objet principal d’étude, le lien entre perception et production est aujourd’hui bel et bien reconnu dans la littérature et considéré comme un principe de base de la prononciation. Dans le domaine de l’acquisition d’une seconde langue plus particulièrement, bon nombre de recherches n’en font pas directement mention mais le considèrent comme une évidence et se concentrent plus spécifiquement sur l’influence de la L1 (cf. section 2.1.1) ou les autres facteurs qui peuvent influer sur la performance en L2 (cf.

section 2.3).

2.2.3 Accent et intelligibilité

L’une des principales caractéristiques de la langue parlée est l’accent. Il existe deux types d’accent : l’accent en L1, propre à une région ou un milieu social, et l’accent en L2, résultant de l’influence de la L1. Dans ce travail sur l’acquisition des langues étrangères, nous nous intéresserons uniquement au second type. Nous parlerons donc d’accent pour faire référence aux variations qui existent entre la production des apprenants et celle des natifs dans une langue donnée. Il est nécessaire de garder à l’esprit que l’accent n’existe que parce qu’il est perçu comme tel par l’auditeur natif. Si certaines caractéristiques du locuteur sont plus ou

(23)

moins bien détectées par l’auditeur au moyen du discours seul (sexe ou tranches d’âge), la présence ou l’absence d’accent étranger est celle qui est le plus rapidement et le plus précisément identifiée (Derwing et Munro 2009). Une expérience surprenante a révélé qu’il était possible de distinguer un accent natif d’un accent non-natif sur des enregistrements passés à l’envers (backwards speech) (Munro et al. 2003). Plus étonnant encore, il serait possible de déceler des traces d’accent étranger dans des langues qu’ils ne pratiquent pas. Ces découvertes prouvent que l’accent ne provient pas uniquement d’aspects segmentaux, lexicaux, grammaticaux ou même suprasegmentaux, puisque ces informations sont indisponibles à l’auditeur dans les deux cas mentionnés. Esling et Wong (1983) donnent une piste d’explication en considérant que le conduit vocal des locuteurs se « configure » de manière durable en fonction de la L1. Le transfert de ces configurations propres à chaque langue d’une L1 vers une L2 serait la source principale d’accent.

Si l’accent est un aspect indissociable de l’apprentissage de secondes langues, il est nécessaire de rappeler qu’il n’est pas forcément signe de mauvaise performance. S’exprimer avec un accent n’entrave pas systématiquement la communication. Derwing et Munro (2009) ont développé un concept d’évaluation de l’accent en termes de perception de l’auditeur, car en matière de communication, l’essentiel est ce que les auditeurs perçoivent. Derwing et Munro distinguent trois dimensions perceptuelles : accentedness ou degré d’accent, comprehensibility ou degré de compréhensibilité, et intelligibility ou intelligibilité (traductions personnelles). L’accentedness correspond au degré de différence entre les sons produits et les sons de référence considérés comme « sans accent ». La comprehensibility correspond au degré de difficulté ressenti par un auditeur pour comprendre un extrait de discours. L’intelligibility est quant à elle quelque peu différente puisqu’elle vise à mesurer le degré de compréhension (« combien l’auditeur a compris »).

Cette nouvelle manière d’appréhender l’accent se ressent également dans les principes pédagogiques contemporains d’apprentissage des langues. En effet, l’objectif n’est aujourd’hui généralement plus d’atteindre une prononciation équivalente à celle des locuteurs natifs, mais d’améliorer la compréhensibilité et l’intelligibilité. Il a par exemple été démontré par Catford (1987) que certains contrastes segmentaux sont plus importants que d’autres en matière d’intelligibilité. C’est ce qu’il appelle la « functional load » (charge fonctionnelle). Le contraste entre /s/ et /ʃ/ a une plus lourde charge fonctionnelle que le contraste entre /d/ et /ð/, ce qui signifie qu’une substitution de /s/ par /ʃ/ (par exemple prononcer « so » pour « show ») impactera davantage l’intelligibilité qu’une substitution de /d/ par /ð/ (« day » pour « they »).

(24)

Ces différentes expériences permettent donc de conclure que, si l’accent touche à différents aspects, tous n’ont pas la même importance dans la compréhensibilité et l’intelligibilité.

L’accent n’est pas toujours un obstacle à la communication, mais si c’est le cas, certains points bien précis peuvent permettre d’améliorer facilement l’intelligibilité sans pour autant viser un degré de prononciation parfait, semblable à celui des natifs.

2.3 Facteurs de performance

Les apprenants d’une même L2, malgré le même parcours, n’atteignent pas systématiquement le même niveau. Si l’importance de la L1 n’est plus à démontrer, elle n’est toutefois pas le seul élément agissant sur l’acquisition d’une langue seconde. En effet, différents facteurs jouent également un rôle dans ce processus et sont susceptibles d’influencer la performance.

2.3.1 Âge et période critique

Au début de ce travail, nous avons différencié les apprenants précoces (les enfants) des apprenants tardifs (les adultes). Cette distinction est nécessaire car elle fait référence au facteur de performance le plus important et pratiquement incontesté : l’âge. En effet, les chercheurs s’accordent sur le fait que l’accent – sa nature et son degré d’intensité – est principalement influencé par l’âge auquel l’acquisition de la L2 a débuté (Ioup 2008). De nombreuses expériences ont été menées autour de cette question, en comparant les performances en L2 d’apprenants tardifs avec celles d’apprenants précoces (par exemple Asher et Garcia 1969 ; Oyama 1976 ; Piske et al. 2001). Toutes arrivent à la même conclusion : l’âge est un facteur déterminant dans la capacité des apprenants à atteindre une prononciation similaire à celle des natifs. Si le constat est unanime, les points de vue divergent quant aux causes de cette différence.

Certains l’expliquent par « l’hypothèse de la période critique » (critical period hypothesis) (Archibald 1998) en postulant qu’il existe une période donnée durant laquelle l’apprentissage d’une langue se déroule « naturellement » et « sans effort ». Passé cette période, l’acquisition d’une langue devient difficile ou, du moins, différent. Scovel (1988) affirme que la phonologie est l’aspect de la langue le plus révélateur de cette période critique car il implique des fonctions physiques et neuromusculaires « programmées » durant cette période. Selon lui, les effets de l’âge sont liés à la maturation du cerveau. L’exemple le plus couramment utilisé pour illustrer ce phénomène est l’imprégnation des oiseaux ; les oisillons ne développent

(25)

l’attachement à leur mère que durant un certain laps de temps (Archibald 1998). Une fois écoulée, cette phase ne peut être rattrapée. En ce qui concerne le langage, certains chercheurs affirment que la fin de la période critique correspond à la puberté, lorsque la latéralisation du cerveau est complétée et que celui-ci perd sa plasticité. Des expériences en L1 ont révélé que les jeunes enfants sont capables de transférer la zone du langage de l’hémisphère gauche à l’hémisphère droit en cas de lésion cérébrale. De la même manière, les difficultés qu’éprouvent les adultes dans l’acquisition d’une L2, et plus précisément d’un nouveau système phonétique, sont causées par la latéralisation cérébrale faisant perdre au cerveau sa plasticité. Ainsi, seuls les enfants n’ayant pas encore atteint la puberté seraient en mesure de développer une L2 sans accent et d’accéder à un niveau de prononciation similaire à celui des natifs.

Les modèles de Best (1994) et de Flege (1995), respectivement le modèle d’assimilation perceptive (PAM) et le modèle d’apprentissage de la parole (SLM), tentent également d’expliquer les différences liées à l’âge. De leur point de vue, les enfants se créent des catégories phonétiques en apprenant à prononcer les sons. Une fois ces catégories établies, les capacités de perception et de production des nouveaux sons déclinent. Les sons de la L2 sont comparés aux catégories préexistantes de la L1. S’ils ressemblent (mais ne sont pas identiques) à des sons de la L1, les sons de L2 sont plus difficiles à maîtriser car ils sont substitués par leur équivalent en L1. Ainsi, si un son de L2 et un son de L1 sont jugés équivalents par l’apprenant, ils seront perçus comme un unique son « natif » et l’établissement de nouvelles catégories en L2 sera extrêmement difficile. Ces modèles offrent une piste de réponse, mais ils n’expliquent toutefois pas les éventuels changements qui pourraient être à l’origine du déclin de la perception au fil de la maturité de l’apprenant. Ils n’expliquent pas non plus les mécanismes qui rendent l’acquisition phonologique d’une L2 plus facile pour un enfant que pour un adulte.

2.3.2 Différences individuelles

Si l’âge joue un rôle essentiel dans l’acquisition d’une L2, il n’est pas le seul facteur influant sur la performance finale. En effet, même s’ils ont commencé leur apprentissage au même âge, tous les apprenants n’atteignent pas le même niveau. Cette variation peut s’expliquer du fait que, même en partant des mêmes dispositions, chaque individu est différent face à la pratique d’une nouvelle langue. Chacun possède son propre caractère (facteurs affectifs) et

(26)

ses propres mécanismes d’apprentissage (facteurs cognitifs) ; des différences individuelles qui agissent directement sur la performance en L2.

Les facteurs affectifs appartiennent à la dimension émotionnelle de l’apprentissage d’une langue (Archibald 1998). Certains traits de caractère ont tendance à faciliter ou compliquer l’acquisition de la phonologie. L’anxiété, l’inhibition ou l’incapacité à courir des risques, par exemple, sont des facteurs négatifs (Arnold 2006). Ceux-ci sont particulièrement présents lors de l’apprentissage de la phonologie puisqu’ils impliquent que l’apprenant « se mette à nu » devant un interlocuteur. Comme le mentionne Arnold, « l’exercice qui consiste à prendre la parole devant autrui, utilisant un instrument linguistique instable, implique un haut niveau de vulnérabilité ». La maîtrise imparfaite d’une langue peut être source de stress et engendrer un

« blocage » chez les apprenants anxieux. Au contraire, des facteurs tels que l’empathie et la motivation sont par exemple réputés pour favoriser l’apprentissage. Les personnes empathiques seraient en effet de meilleurs apprenants, car elles ont la capacité de se décentrer et de considérer les choses sous un angle différent (Archibald 1998). Il a également été confirmé que le degré de motivation corrèle positivement avec les performances d’apprentissage. Autrement dit, plus un apprenant est motivé (peu importe la raison), plus l’apprentissage sera un succès.

Les facteurs cognitifs occupent également une place importante en termes de performance.

Par « cognitifs », on entend les aspects relatifs aux mécanismes et aux stratégies d’apprentissage (Archibald 1998). Il existe différents styles cognitifs et différentes stratégies correspondant à la manière dont l’apprenant traite et assimile l’information. On distingue souvent deux grands styles cognitifs : l’indépendance du champ et la dépendance du champ.

L’indépendance du champ est propre aux individus qui ont tendance à percevoir les éléments séparés de leur contexte et qui ne seront donc pas distraits par des informations générales inutiles. À l’inverse, la dépendance du champ caractérise les personnes percevant les choses dans leur ensemble en se focalisant moins sur les éléments isolés. Dans l’apprentissage de langues secondes, les individus de type indépendant auront donc tendance à obtenir de meilleures performances sur le plan analytique – au niveau de la grammaire, par exemple. Les individus de type dépendant tendront en revanche à de meilleurs résultats dans les tâches de synthétisation. Ils auront par exemple une meilleure compétence de communication car ils se concentreront davantage sur le contenu du message à faire passer que sur la justesse de la grammaire. Il existe également différentes stratégie d’apprentissage. Certaines personnes font, par exemple, preuve de plus d’efficacité lorsqu’elles focalisent leur attention sur certains

(27)

aspects spécifiques afin d’éviter une surcharge d’informations ; c’est ce que l’on appelle la stratégie d’attention sélective (directed attention). D’autres assimileront par exemple plus facilement le sens ou la prononciation d’un mot en le répétant plusieurs fois, tandis que d’autres encore progresseront davantage en demandant directement des explications à leur interlocuteur. Ces trois exemples de stratégies permettent d’illustrer le fait que les performances des apprenants peuvent varier en fonction des différentes approches qui peuvent être empruntées au cours de l’apprentissage. Ainsi, même s’ils partent des mêmes dispositions (même âge, même niveau, même classe, même apprentissage), les apprenants n’atteignent pas systématiquement les mêmes performances : les différences affectives et cognitives de chacun sont également de grande influence.

2.4 Évolution de la phonologie au fil de l’apprentissage

Comme nous l’avons vu dans les chapitres précédents, l’acquisition de la phonologie repose sur deux dimensions fondamentales : la perception et la production. Si celles-ci sont fortement influencées par la L1, elles ne sont toutefois pas immuables.

2.4.1 Exemples d’entraînements

En effet, quand bien même elle ne devient jamais aussi robuste et automatique qu’en L1, la perception peut être entraînée grâce à deux types de tâches : l’identification et la discrimination (Strange et Shafer 2008). Dans un exercice d’identification, l’apprenant doit reconnaître la catégorie phonétique d’un stimulus qu’il entend. Dans un exercice de discrimination en revanche, deux stimuli au moins sont présentés à l’apprenant qui doit décider de leur relation : identiques ou différents. Plusieurs études ont été menées dans ce domaine et leurs résultats sont plutôt encourageants : les apprenants seraient en mesure d’améliorer leurs capacités de perception. Une expérience, menée par Strange et Dittmann (1984), s’est intéressée à la paire anglaise /r/-/l/ dont la distinction est réputée difficile pour les apprenants de langue maternelle japonaise. Les deux chercheurs ont proposé aux participants des exercices de discrimination basés sur des paires minimales, c’est-à-dire sur des mots qui ne se distinguent que par un phonème (« rock-lock », par exemple). Des feedbacks instantanés permettaient aux participants de savoir si leur réponse, et donc leur perception, était correcte. Après trois semaines d’entraînement, on a constaté un net progrès chez la majorité des apprenants, aussi bien dans les tâches de discrimination que d’identification. Toutefois, il a été constaté que les difficultés persistaient lorsque la matière

(28)

testée était inconnue ou lorsqu’elle exigeait une plus grande ressource cognitive. Les deux chercheurs en ont donc conclu que l’entraînement ne conduisait pas à une réorganisation complète de la perception, mais qu’il contribuait tout de même à établir de nouvelles catégories permettant d’améliorer la perception de certains contrastes.

La production seule est difficilement mesurable car elle est pratiquement indissociable de la perception. De nombreuses études ont démontré des progrès en matière de prononciation grâce à un entraînement de l’articulation. L’expérience menée par Sisinni et al. (2016), par exemple, vise à évaluer l’éventuelle plus-value d’un système permettant, par ultrasons, une imagerie en temps réel de la position de la langue lors de la production de certaines voyelles.

Les participants sont ainsi en mesure de prononcer certaines voyelles en observant en direct leurs mouvements articulatoires. Les résultats sont clairs : seuls les sujets ayant bénéficié de ce feedback visuel instantané ont progressé dans la prononciation des sons. Cet entraînement conjuguant perception et production a conduit à une meilleure conscience des mouvements, bénéfique pour la prononciation.

2.4.2 Rôle de la technologie

Grâce aux avancées technologiques, de nouvelles formes d’apprentissage et d’enseignement des langues ont vu le jour. Avec l’arrivée des ordinateurs personnels à la fin des années 1970, de nombreux programmes ont été développés pour l’apprentissage des langues, ouvrant la voie à un domaine qui ne cessera de gagner en importance : l’Apprentissage des langues assisté par ordinateur (ALAO ou CALL pour Computer-Assisted Language Learning).

Si, dans leur début, les dispositifs d’ALAO étaient principalement axés sur l’acquisition des connaissances (drill du vocabulaire et de la grammaire), ils sont aujourd’hui de plus en plus utilisés pour l’acquisition des compétences, aussi bien réceptives (lire et écouter) que productives (écrire et parler) (Desmet 2006). D’un point de vue technologique, la lecture et l’écoute sont les compétences les plus faciles à entraîner. Par conséquent, il existe actuellement de nombreux sites permettant d’entraîner d’une part la compréhension écrite et d’autre part la compréhension orale. La figure 6 tirée de Petrovic (2016) en synthétise quelques exemples.

(29)

Figure 6. Exemples de sites web pour l’entraînement de la compréhension orale ou écrite (Petrovic 2016 : 21).

L’entraînement des compétences productives est certes plus complexe, mais commence à gagner du terrain, notamment grâce à l’intégration de systèmes automatique de reconnaissance de la parole (cf. chapitre 3.3 Reconnaissance vocale). Cette technologie a pour but de « permettre à un ordinateur de reconnaître les signaux émis par la voix humaine en vue de les transformer en données numériques»⁶. Elle rend possible un échange vocal entre l’homme et la machine, particulièrement intéressant dans un domaine que nous aborderons au prochain chapitre : l’Enseignement de la prononciation assisté par ordinateur (EPAO ou CAPT pour Computer-Assisted Pronunciation Training). TipTopTalk! (Tejedor-García et al.

2016), par exemple, est un logiciel d’EPAO intégrant la reconnaissance vocale dans ses exercices de production ; l’apprenant enregistre sa prononciation et celle-ci est instantanément évaluée par un système automatique de reconnaissance de la parole. Plus qu’intégrer la reconnaissance vocale, certains logiciels ont été créés entièrement autour de cette technologie.

C’est le cas de CALL-SLT (cf. chapitre 4 CALL-SLT), la plateforme développée par le Département TIM/ISSCO de l’Université de Genève sur laquelle nous avons travaillé pour la partie pratique de ce travail.

6 http://www.granddictionnaire.com/ficheOqlf.aspx?Id_Fiche=8391684 [consulté le 29.08.2017]

(30)

3. ENSEIGNEMENT DE LA PRONONCIATION ASSISTÉ PAR ORDINATEUR (EPAO)

L’apprentissage des langues assisté par ordinateur (ALAO) est un domaine qui s’est largement répandu au cours des dernières décennies. L’intérêt pour les langues ne cesse de croître, notamment en raison de la mondialisation et des opportunités économiques que peut offrir la maîtrise d’une langue étrangère. Grâce aux progrès technologiques, les méthodes d’apprentissage se multiplient et il est désormais possible de s’entraîner en autonomie avec un coach virtuel. La multitude d’applications et de logiciels disponibles sur le marché donne un bel aperçu de l’ampleur de ce phénomène. Dans le cadre de ce mémoire dédié à l’acquisition de la phonologie en langue seconde, nous nous concentrerons sur un domaine particulier de l’ALAO : l’enseignement de la prononciation assisté par ordinateur (EPAO ou CAPT pour Computer-assisted pronunciation training). Nous étudierons tout d’abord les deux niveaux selon lesquels la prononciation peut être considérée (section 3.1), puis les différentes structures et approches qui permettent de l’évaluer automatiquement (respectivement section 3.2 et section 3.3). Nous terminerons par discuter des avantages et inconvénients de l’EPAO (section 3.4).

3.1 Différents niveaux

Lorsqu’un francophone apprend l’anglais, il éprouve souvent des difficultés avec la prononciation de cette langue cible. Selon un sondage réalisé par Capliez (2011), « 48 % de francophones étudiant l’anglais à l’université, tous niveaux confondus, ont affirmé que la phonétique était la matière qu’ils considéraient comme la plus difficile ». L’apprentissage de la phonétique est en effet un processus exigeant puisqu’il implique que l’étudiant acquière un nouveau système de sons. Dans une grande majorité des cas, la production orale en L2 porte l’empreinte plus ou moins importante de la L1 ; c’est ce que l’on appelle l’accent (cf. section 2.1.1). Celui-ci peut impacter deux grands niveaux de la production : la production segmentale, c’est-à-dire de la prononciation des voyelles et des consonnes, et la production suprasegmentale, soit la prosodie. Un enseignement idéal de la prononciation devrait donc non seulement se concentrer sur l’acquisition des phonèmes, mais aussi sur l’acquisition du rythme et de l’accentuation propre à la langue cible.

(31)

3.1.1 Niveau segmental

Le niveau segmental, comme son nom l’indique, fait référence aux segments de la langue. En phonétique, on regroupe sous le terme de « segments » les consonnes et voyelles qui composent le discours⁷. Chaque langue reposant sur un système phonologique qui lui est propre, l’une des premières difficultés qui se dressent devant l’apprenant d’une L2 est l’acquisition de la phonétique de cette langue ; comment les différentes lettres ou combinaisons de lettres se prononcent-elles ? Comme nous l’avons vu à la section 2.2, l’exactitude de la production d’un phonème L2 correspond (inversement ou non selon les théories) à son degré d’éloignement avec un phonème L1 existant. L’apprenant peut produire une « mauvaise » prononciation d’un phonème L2 parce que, jugé identique ou similaire à un phonème L1, il sera substitué par celui-ci (Flege 1995 ; Best 1995). Mais l’inverse est également vrai : l’apprenant peut également éprouver des difficultés à prononcer certains sons, justement parce que ceux-ci diffèrent totalement du système phonologique de sa L1.

Capliez (2011) s’est concentré sur les erreurs de production des francophones apprenant l’anglais, ce qui nous intéresse particulièrement pour ce travail traitant, dans sa partie expérimentale, du même cas de figure. Selon ses observations, « ce sont d’abord les différences phonémiques des systèmes phonologiques du français et de l’anglais qui déclenchent les principales erreurs de production ». La production des fricatives dentales /θ/

et /ð/ est l’une des difficultés les plus connues, de même que celle des phonèmes /r/ ou /h/.

Absentes du système phonologique francophone, ces consonnes sont souvent substituées par des phonèmes français ou, dans le cas du /h/, tout simplement supprimées. Très différent également, le système des voyelles anglaises pose aussi problème aux francophones. Si le français ne repose que sur des voyelles simples, l’anglais fait non seulement une distinction entre monophtongues et diphtongues, mais également parmi les monophtongues, entre voyelles tendues (ou voyelles courtes) et voyelles relâchées (ou voyelles longues). Si la production des diphtongues ne semble pas poser de difficulté significative aux francophones, la distinction parmi les monophtongues s’avère plus compliquée. En effet, l’apprenant francophone aura tendance à utiliser un unique phonème là où l’anglais fait une différence entre voyelle courte et voyelle longue. Les paires courtes-longues /æ/-/ɑ:/, /ɪ/-/i:/ et /ʊ/-/u:/ par exemple deviennent ainsi d’uniques phonèmes /a/, /i/ et /u/. Une seule prononciation pourra alors correspondre à deux mots. La prononciation /liv/ sera utilisée à la fois pour « live » et pour « leave ».

7 https://www.britannica.com/science/phonetics/Suprasegmentals#ref583978 [consulté le 21.09.2017]

Évaluation de la prononciation par reconnaissance vocale : élaboration d&#039;un test de prononciation sur la plateforme CALL-SLT

Master

Reference

Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT

FANNY EICHENBERGER

Évaluation de la prononciation par reconnaissance vocale : élaboration d’un test de prononciation sur la plateforme

CALL-SLT

Mémoire présenté à la Faculté de traduction et d’interprétation pour l’obtention de la Maîtrise en traduction,

mention Technologies de la traduction

Directrice de mémoire : Prof. Pierrette Bouillon

Jurée :

Johanna Gerlach, Ph.D

Université de Genève

Janvier 2018

REMERCIEMENTS

Table des matières

1. INTRODUCTION

1.1 Motivations

1.2 Environnement de travail

1.3 Intercountry

1.4 Questions de recherche

1.5 Plan

I. PARTIE THE ORIQUE

2. ACQUISITION DE LA PHONOLOGIE EN L2

2.1 Interlangue

2.2 Perception et production des sons en L2

2.3 Facteurs de performance

2.4 Évolution de la phonologie au fil de l’apprentissage

3. ENSEIGNEMENT DE LA PRONONCIATION ASSISTÉ PAR ORDINATEUR (EPAO)

3.1 Différents niveaux

Évaluation de la prononciation par reconnaissance vocale : élaboration d'un test de prononciation sur la plateforme CALL-SLT