• Aucun résultat trouvé

Reconnaissance vocale et amélioration de la prononciation : élaboration et évaluation de leçons avec le logiciel CALL-SLT

N/A
N/A
Protected

Academic year: 2022

Partager "Reconnaissance vocale et amélioration de la prononciation : élaboration et évaluation de leçons avec le logiciel CALL-SLT"

Copied!
142
0
0

Texte intégral

(1)

Master

Reference

Reconnaissance vocale et amélioration de la prononciation : élaboration et évaluation de leçons avec le logiciel CALL-SLT

JOLIDON, Aline

Abstract

CALL-SLT, une plateforme en ligne qui repose sur la reconnaissance vocale et la traduction automatique et dont le but est l'apprentissage des langues étrangères assisté par ordinateur (ALAO), est au centre de ce mémoire, lequel comporte deux objectifs. D'une part, il s'agit de déterminer si CALL-SLT peut être utilisé pour l'apprentissage et l'amélioration de la prononciation. D'autre part, nous souhaitons mesurer les éventuels progrès réalisés par des utilisateurs réguliers de CALL-SLT. Afin d'atteindre ces deux buts, nous avons développé des leçons relatives à la prononciation anglaise que nous avons testées pendant plusieurs semaines avec une classe de dix-huit élèves francophones.

JOLIDON, Aline. Reconnaissance vocale et amélioration de la prononciation :

élaboration et évaluation de leçons avec le logiciel CALL-SLT. Master : Univ. Genève, 2013

Available at:

http://archive-ouverte.unige.ch/unige:32179

Disclaimer: layout of this document may differ from the published version.

(2)

ALINE JOLIDON

Reconnaissance vocale et amélioration de la prononciation : élaboration et

évaluation de leçons avec le logiciel CALL- SLT

Mémoire présenté à la Faculté de traduction et

d’interprétation pour l’obtention de la Maîtrise en traduction, mention Technologies de la traduction

Directrice de mémoire : Prof. Pierrette Bouillon

Juré :

Dr Manny Rayner

Université de Genève

(3)

Table des matières

1. Introduction ... 4

2. Origines et évolution de l’Apprentissage des Langues Assisté par Ordinateur (ALAO) ... 6

2.1. Béhaviorisme et constructivisme ... 7

2.2. Les années 1950 et 1960 ... 8

2.3. Les années 1970 et 1980 ... 9

2.4. Les années 1990 et l’ALAO de nos jours ... 11

2.5. Jeu de traduction de Wang et Seneff ... 12

2.6. Conclusion ... 14

3. CALL-SLT ... 16

3.1. À propos de CALL-SLT ... 16

3.2. Fonctionnement ... 17

3.3. Composants de CALL-SLT ... 20

3.3.1. Notions clés ... 21

3.3.2. Regulus ... 24

3.3.3. Reconnaissance vocale ... 25

3.3.4. Traduction automatique ... 29

3.4. Conclusion ... 31

4. Élaboration des leçons... 32

4.1. Les paires minimales ... 32

4.2. Choix des problèmes de prononciation ... 33

4.3. Création du corpus ... 33

4.4. Forme des gloses ... 35

4.5. Niveaux de difficulté et paramètre de préférence ... 37

4.6. Fichiers d’aide ... 39

4.7. Enregistrement des phrases de référence ... 40

(4)

4.8. Conclusion ... 41

5. Le prétest ... 42

5.1. Objectifs ... 42

5.2. Déroulement ... 42

5.3. Résultats ... 42

5.4. Conclusion ... 45

6. Expérience ... 46

6.1. Méthodologie ... 46

6.2. Protocole ... 47

6.3. Choix de la classe et profils des étudiants ... 49

6.4. Les évaluateurs ... 51

6.5. L’instrument de collecte de données : le texte de référence ... 51

6.6. Déroulement ... 52

6.6.1. Plateforme RecArena ... 53

6.6.2. Problèmes techniques ... 53

6.6.3. Communication... 55

6.6.4. Participation ... 56

6.6.5. Questionnaires ... 59

6.7. Conclusion ... 64

7. Résultats ... 65

7.1. Qualité de la reconnaissance vocale ... 65

7.2. Amélioration de la prononciation des étudiants ... 68

7.3. Conclusion ... 72

8. Conclusions ... 74

Bibliographie... 77

(5)

ANNEXES ... 80

I. Corpus ... 80

II. Exemples de règles de collocation ... 89

III. Consignes du prétest ... 91

IV. Résultats du prétest ... 94

V. Questionnaire introductif ... 119

VI. Instructions ... 120

VII. Texte de référence ... 121

VIII. Tableau d’évaluation ... 122

IX. Résultats du questionnaire n° 1... 128

X. Résultats du questionnaire n° 2... 136

XI. Résultats de l’évaluation ... 138

(6)

1. Introduction

CALL-SLT (Computer Assisted Language Learning – Spoken Language Technology) est une plateforme en ligne qui repose sur la reconnaissance vocale et la traduction automatique, dont le but est l’apprentissage des langues étrangères assisté par ordinateur (ALAO). Le développement de ce logiciel se fonde sur la constatation suivante : un des moyens les plus efficaces d’apprendre ou de perfectionner une langue étrangère est de la pratiquer à l’oral avec quelqu’un la maîtrisant déjà.

Grâce à la reconnaissance vocale, CALL-SLT peut devenir un partenaire qui interagit et corrige les erreurs.

Ce mémoire a deux objectifs. D’une part, il s’agit de déterminer si CALL-SLT peut être utilisé pour l’apprentissage et l’amélioration de la prononciation. Jusqu’à présent, seules des leçons portant sur des points lexicaux (les chiffres) et syntaxiques (formuler une question, former des groupes grammaticaux) ou sur des thèmes conversationnels (prendre un rendez-vous, dire l’heure) ont été développées. Il s’agit donc d’évaluer la reconnaissance vocale et d’observer si elle est assez sensible pour différencier une bonne prononciation d’une mauvaise.

D’autre part, nous souhaitons mesurer les éventuels progrès réalisés par des utilisateurs réguliers de CALL-SLT. Afin d’atteindre ces deux buts, nous avons développé des leçons relatives à la prononciation anglaise que nous avons testées pendant plusieurs semaines avec une classe de dix-huit élèves francophones, poursuivant leur deuxième année d’étude au Gymnase français de Bienne, et ayant choisi pour option principale l’anglais.

Ce mémoire est divisé en huit chapitres :

Le premier, constitué de la présente introduction, définit les objectifs poursuivis

et décrit le contenu de ce travail écrit.

Le deuxième propose un aperçu de l’origine et de l’évolution de l’apprentissage des langues assisté par ordinateur et introduit la notion de jeu de traduction.

(7)

Le quatrième chapitre explique les choix et les processus qui ont guidé l’élaboration des leçons de prononciation qui font l’objet d’une expérience.

Dans la cinquième partie, nous abordons le prétest effectué afin d’identifier les atouts et les faiblesses des exercices conçus, qui ont ensuite été adaptés en conséquence.

Le sixième chapitre porte sur l’expérience menée dans le cadre de ce mémoire et décrit son déroulement.

Les résultats de ces tests font l’objet du septième chapitre.

Enfin, la huitième partie tire les conclusions des travaux entrepris pour la réalisation de ce travail de mémoire et ébauche les futures pistes à explorer.

(8)

2. Origines et évolution de l’Apprentissage des Langues Assisté par Ordinateur (ALAO)

CALL-SLT, comme son nom l’indique, fait partie de la famille des systèmes conçus pour l’Apprentissage des Langues Assisté par Ordinateur (ALAO), Computer- Assisted Language Learning en anglais. L’ALAO étant un domaine en constante évolution, changeant de nature au gré des innovations technologiques, informatiques et pédagogiques, nous nous contenterons d’une définition certes générale, mais qui a le mérite d’englober les différents aspects de ce champ de recherche mouvant :

[CALL] is any process in which a learner uses a computer and, as a result, improves his or her language. (Beatty, 2003 : 7)1

Il est intéressant de relever que l’ALAO est un concept principalement utilisé pour l’acquisition d’une langue étrangère, bien qu’il puisse également s’appliquer à l’apprentissage de la langue maternelle. Il s’adresse aussi bien aux enfants débutant en écriture, qu’aux adultes désireux d’acquérir un vocabulaire spécifique à leur secteur d’activité. L’ALAO peut être intégré de différentes manières dans la méthode d’apprentissage. Il peut, bien sûr, être utilisé en complément aux leçons données par un professeur, mais aussi seul, pour un apprentissage à distance ou autodidacte. Le support est lui aussi variable, il peut s’agir d’un appareil exclusivement conçu pour accueillir un système d’ALAO (tel qu’une console spécialement destinée aux enfants), d’un logiciel disponible sur CD-ROM ou en ligne par le biais d’un navigateur (à l’instar de CALL-SLT) ou, de nos jours, d’une application pour téléphones dits intelligents ou tablettes.

Dans ce chapitre, nous commencerons par définir deux visions divergentes de l’enseignement qui ont influencé le développement de l’ALAO : le béhaviorisme, qui considère que l’apprentissage est une modification observable du comportement, et le constructivisme, une approche plus philosophique qui conçoit l’apprentissage comme le résultat de l’expérience. Puis, nous nous intéresserons

(9)

travers trois périodes2 : les années 1950 et 1960, puis 1970 et 1980, et enfin de 1990 à nos jours. Nous nous pencherons enfin sur le jeu de traduction de Wang et Seneff, source d’inspiration du projet CALL-SLT.

2.1. Béhaviorisme et constructivisme

Pour définir ces deux conceptions de l’enseignement, nous nous appuyons sur l’ouvrage de Beatty « Teaching and Researching, Computer-assisted Language Learning » (2003), la publication de Hung « Theories of Learning and Computer- Mediated Instructional Technologies » (2001) et l’article de Torut « Computer- Assisted Language Learning : An Overview » (1999).

L’approche béhavioriste part du principe que la plupart des comportements découlent de l’apprentissage et ne sont pas le fruit de la génétique. Ce modèle est dérivé de la théorie stimulus-réponse de B. F. Skinner qui veut que l’apprenant soit conditionné à répondre à des stimuli. Dans ce contexte, l’accent est mis sur la relation de cause à effet. Les aspects les plus importants du béhaviorisme sont illustrés dans la figure 2.1 (Beatty, 2003 : 17).

Figure 2.1 : Caractéristiques principales du béhaviorisme

Dans le cadre de l’apprentissage des langues, l’application de cette méthode se traduit par des exercices hors contextes répétitifs et basés sur l’imitation, qui font la part belle à la grammaire et à la production orale.

2 Telles que suggérées dans l’ouvrage de Beatty (2003)

(10)

L’approche constructiviste, elle, estime que les connaissances des êtres humains proviennent de leur propre perception et de leurs propres expériences. Cette méthode met l’accent sur les mécanismes, les processus, les interactions et la communication, car l’apprentissage est perçu comme un le résultat d’une découverte active plutôt que comme la somme de différentes connaissances. La figure 2.2 (Beatty, 2003 :17) décrit les aspects principaux de cette tendance.

Figure 2.2 : Caractéristiques principales du constructivisme

Cette théorie a particulièrement favorisé le développement de l’ALAO, car celui-ci permet un apprentissage individuel et personnalisé en contexte.

Les différents logiciels et méthodes présentés dans les sections suivantes ne peuvent souvent pas être considérés comme purement béhavioristes ou constructivistes. Toutefois, il est vrai que les premiers systèmes d’ALAO, et ce jusque dans les années septante, sont plutôt influencés par le béhaviorisme, alors que ceux développés à partir des années quatre-vingt sont davantage imprégnés de constructivisme.

2.2. Les années 1950 et 1960

Dans les années cinquante, les ordinateurs sont des machines énormes et extrêmement coûteuses réservées aux instituts de recherche et aux universités.

(11)

(Programmed Logic for Automated Teaching Operations) est l’un des premiers et des plus importants programmes développés pour l’apprentissage des langues et d’autres disciplines universitaires. Conçu à l’Université de l’Illinois en 1959, il doit explorer d’autres méthodes d’enseignement pour faire face à l’augmentation significative du nombre d’étudiants. En effet, entre 1950 et 1975, leur nombre double aux États-Unis et l’on pense pouvoir réaliser des économies, renoncer à chercher de nouveaux enseignants qualifiés et améliorer la qualité de la formation en investissant dans l’enseignement assisté par ordinateur (Van Meer, 2003 : 2).

De plus, en cette période de guerre froide, le gouvernement américain encourage l’innovation scientifique, en particulier après le 4 octobre 1957, date à laquelle l’Union soviétique met en orbite Spoutnik I, le premier satellite artificiel de la Terre. D’ailleurs, le russe est la première langue pour laquelle PLATO est développé. La méthode employée pour l’élaboration des leçons de PLATO est celle de la « grammaire-traduction », dite « traditionnelle », qui consiste à apprendre des règles de grammaire qui sont ensuite appliquées lors de la traduction littérale d’un texte. À cette époque, les systèmes d’ALAO suivent un schéma linéaire identique pour tous les utilisateurs et ne sont en général qu’une adaptation informatique des manuels et exercices habituellement utilisés et entre dans la catégorie des approches béhavioristes.

2.3. Les années 1970 et 1980

Alors que les développements dans l’ALAO étaient limités dans les années 1950 et 1960 par l’accessibilité réduite aux ordinateurs et par le peu de possibilités qu’ils offraient, les années 1970 et 1980 sont marquées par la révolution micro- informatique (L’Haire, 2011). En effet, en 1971, Intel commercialise le premier microprocesseur, ce qui réduit le coût des ordinateurs et l’espace qu’ils occupent.

Des machines à prix abordables font leur arrivée sur le marché, de même que le premier Personal Computer d’IBM, en 1981. Autre innovation informatique importante : le modem, qui permet de connecter des ordinateurs entre eux via une ligne téléphonique. Grâce à ces nouvelles technologies, et bien d’autres développées à la même époque, les ordinateurs sont plus simples d’accès et offrent des fonctionnalités étendues. Ainsi, les professeurs eux-mêmes peuvent mettre au point leur propre système d’ALAO et des logiciels plus interactifs voient le jour. Les

(12)

types d’exercices sont, par exemple, des textes à trous, des simulations avec des scénarios plus ou moins complexes ou des jeux pour enrichir le vocabulaire.

Notons également l’apparition du vidéodisque, l’ancêtre du CD-ROM et du DVD, un support d’informations que les systèmes d’ALAO exploiteront, à l’instar de Macario, Montevidisco et Interactive Dígame. Macario est une vidéo, dont le but est l’apprentissage de l’espagnol par l’écoute, qui découpe une vidéo commerciale déjà existante et l’agrémente d’informations et d’instructions pédagogiques. Le rôle de l’utilisateur se limite à répondre aux questions insérées dans la vidéo et à stopper ou relancer la lecture. Il peut donc être qualifié de système linéaire à tendance béhavioriste. En revanche, Montevidisco et Interactive Dígame adoptent une approche non linéaire et constructiviste. En effet, les utilisateurs possèdent la possibilité de choisir le contenu et l’ordre de l’apprentissage. Dans Montevidisco, l’élève se trouve confronté à un personnage qui lui pose des questions. Il choisit ensuite parmi des options prédéfinies les réponses qu’il souhaite fournir. Il a donc un rôle actif et peut découvrir et choisir seul les différents sujets de conversation.

(Beatty, 2003 : 25)

L’un des projets d’ALAO les plus importants de cette époque est sans doute ALPP (Athena Language Learning Project) (Beatty, 2003 : 26). Il a été créé en 1983 dans le cadre d’un programme à long terme du Massachusetts Institute of Technology (MIT), qui a bénéficié d’importants moyens financiers et techniques, dont le but était d’explorer le rôle des ordinateurs dans l’enseignement. ALPP fonctionnait sur des systèmes UNIX qui étaient connectés entre eux et à des bases de données textuelles et visuelles grâce à un réseau LAN (Local Area Network). Deux systèmes d’ALAO issus de ce projet méritent d’être mentionnés ici : No recuerdos et À la rencontre de Philippe. No recuerdos met en scène Gonzalo, un scientifique amnésique, qui ne se souvient plus de l’emplacement d’une menace biologique risquant de détruire toute l’Amérique latine. L’utilisateur, animé par l’urgence de la situation, doit interroger Gonzalo afin de l’aider à retrouver la mémoire. En fonction des questions et des réponses, l’aventure prend une tournure différente, tout comme l’apprentissage. Le but est de simuler un dialogue crédible, où le

(13)

de perdre son appartement à Paris, à en trouver un nouveau. Des situations inspirées de la vie réelle (chercher un appartement) sont documentées par des matériaux réels (petites annonces d’appartements). En outre, l’utilisateur est amené à utiliser des téléphones et des fax à l’écran et doit faire attention à des indices. Il est incité à s’investir dans cette quête. Ces deux systèmes d’ALAO appartiennent à la famille des constructivistes.

2.4. Les années 1990 et l’ALAO de nos jours

Le début des années nonante est marqué par la naissance du World Wild Web et par le multimédia. Les ordinateurs sont à présent connectés sur le réseau Internet et prennent en charge des contenus textuels, audio et vidéo. Il va sans dire que l’ALAO mettra à profit ces nouvelles technologies.

Un programme populaire à cette époque est Who is Oscar Lake ?, un programme interactif disponible pour l’apprentissage de l’allemand, de l’anglais, de l’espagnol, du français et de l’italien. L’utilisateur est plongé au cœur d’une enquête et doit explorer les objets et les situations pour résoudre le mystère. Le site Internet3 du produit décrit d’ailleurs le programme de la manière suivante :

Experts agree that language immersion is the most effective way to learn a second language. With Who is Oscar Lake ? you learn by hearing, seeing and doing. And because you interact directly with all the characters you meet, you control the pace of the story, the speed of the learning and even the outcome of the game.4

L’approche est donc volontairement constructiviste et place l’apprenant au centre de la méthode d’apprentissage.

Grâce à Internet, les contacts entre des personnes de langues et de cultures différentes sont facilités. Les systèmes d’ALAO ont également su profiter de ce nouveau moyen d’accéder aux connaissances de locuteurs natifs. Le site Internet

3 Disponible à l’adresse http://whoisoscarlake.com/oscar/oscar.html [site consulté le 10 juin 2013]

4 « Les spécialistes s’accordent pour dire que l’immersion est la manière la plus efficace d’apprendre une langue étrangère. Grâce à Who is Oscar Lake ?, vous apprenez en écoutant, en observant et en accomplissant des tâches. En interagissant directement avec tous les personnages que vous rencontrez, vous contrôlez le rythme de l’aventure, la vitesse de l’apprentissage, et même l’issue du jeu. » (notre traduction)

(14)

gratuit Interpals5, par exemple, a été développé en 1998 dans le but de mettre en relation des individus désireux d’apprendre une langue étrangère en entretenant une correspondance, par courrier postal ou électronique ou par messagerie instantanée, avec une personne de langue maternelle. Au départ un simple forum, le site est aujourd’hui un véritable réseau social qui rassemble des utilisateurs du monde entier.

De nos jours, il existe de nombreuses technologies de traitement automatique des langues (TAL), toujours plus développées, qui ouvrent de nouvelles perspectives pour les systèmes d’ALAO. L’objectif du TAL est de construire des modèles informatiques des langues qui permettent d’analyser et de générer celles-ci. Parmi les outils existants, figurent, entre autres, les correcteurs orthographiques et grammaticaux, les étiqueteurs, la synthèse vocale, les systèmes de reconnaissance de la parole et la traduction automatique (L’Haire, 2011).

Bien que la technologie nécessaire existe, il reste complexe de développer des systèmes d’ALAO qui soient de véritables partenaires de conversation, car la quantité de renseignements contextuels nécessaire à l’établissement d’un dialogue est difficilement gérable, même pour des domaines limités (Rayner, 2010). Des modèles dits à questions fermées, c’est-à-dire où l’utilisateur choisit parmi une liste de réponses prédéfinies ont d’abord été imaginés. Cette méthode n’est toutefois pas idéale, puisque l’apprenant est limité dans ses réponses. D’autres approches ont alors été explorées, afin de développer des logiciels permettant d’améliorer l’aisance à s’exprimer et étant moins complexes à mettre en place.

C’est ainsi qu’a émergé l’idée du jeu de traduction de Wang et Seneff que nous présentons dans le chapitre suivant.

2.5. Jeu de traduction de Wang et Seneff

Le jeu de traduction de Wang et Seneff (Wang et Seneff, 2007) a pour but l’apprentissage du chinois par la traduction de phrases appartenant au domaine de la réservation de vols. Le logiciel est accessible en ligne par le biais d’un navigateur Web. La figure 2.3 montre l’interface utilisateur du logiciel.

(15)

Figure 2.3 : Interface utilisateur du jeu de traduction de Wang et Seneff

Comme illustré ci-dessus, le principe est simple : le logiciel fournit à l’apprenant une phrase en anglais que ce dernier traduit en chinois et saisit dans le champ prévu à cet effet ou prononce dans un micro après avoir appuyé sur le bouton

« Listen ». Les phrases qui seront proposées à l’utilisateur au cours de la session sont répertoriées en bas de l’écran, dans la section « Your Task List ». Elles sont choisies au hasard parmi plus de 1 000 modèles et sont réparties en divers niveaux de difficulté selon leur longueur et leur complexité linguistique. Un exemple du déroulement d’une session d’entraînement est détaillé dans la figure 2.4. Il est intéressant de constater que si l’élève se trompe, par exemple, dans une date, il peut uniquement répéter la partie erronée. De plus, une fonction d’aide, qui affiche un exemple de traduction, est disponible. À la fin de cette série d’exercices, le score de l’utilisateur est affiché et, s’il souhaite démarrer une nouvelle session, ses résultats sont pris en compte pour définir le niveau de difficulté des prochaines phrases à traduire.

(16)

Figure 2.4 : Interactions entre le système et l’utilisateur

Intéressons-nous à présent au fonctionnement technique de ce jeu de traduction.

Deux outils principaux permettent de déterminer si la phrase chinoise prononcée par l’utilisateur est correctement traduite et formulée : un système de reconnaissance vocale et un système de traduction automatique. D’abord, la production orale de l’apprenant est traitée par le mécanisme de reconnaissance vocale. Ensuite, la phrase en chinois ainsi obtenue est comparée au moyen d’une interlangue (cf. chapitre 3.1. À propos de CALL-SLT) à la traduction chinoise de la phrase anglaise ayant servi d’instruction de départ. Si les deux versions chinoises sont identiques au niveau de l’interlangue, la phrase produite par l’utilisateur est considérée comme correcte. Si les phrases diffèrent légèrement, le logiciel demande à l’élève de reformuler la partie erronée. Si elles sont considérées comme trop différentes, l’utilisateur est invité à recommencer.

Ce système a fait l’objet de tests et les participants à l’étude ont tous émis un avis positif envers le logiciel.

2.6. Conclusion

Dans ce chapitre, nous avons survolé les grandes étapes du développement de l’apprentissage assisté par ordinateur. Nous avons pu constater que l’ALAO était au

(17)

programmes plus intelligents et exploitant pleinement les nouvelles possibilités offertes. Nous nous sommes ensuite penché sur le jeu de traduction mis au point par Wang et Seneff, le grand frère de CALL-SLT. Le chapitre suivant entre dans le vif du sujet et s’intéresse au principe et au fonctionnement de CALL-SLT.

(18)

3. CALL-SLT

Dans ce chapitre, nous présenterons le logiciel CALL-SLT et ses composants. Nous commencerons par une brève description de son origine et de ses principes, puis nous nous pencherons sur son fonctionnement et nous terminerons en détaillant les différents outils sur lesquels le système repose.

3.1. À propos de CALL-SLT

CALL-SLT est un projet développé depuis 2009 à l’Université de Genève par le département TIM/ISSCO (Multilingual Information Processing Department) de la Faculté de traduction et d’interprétation et qui bénéficie du soutien du Fonds national suisse (FNS) de la recherche scientifique. Il s’inspire du jeu de traduction de Wang et Seneff, tel que décrit dans le chapitre 2.5. Toutefois, alors que le système de Wang et Seneff ne s’intéresse qu’à une seule paire de langues (le français et le chinois), CALL-SLT a été développé dans une optique multilingue. À ce jour, il prend en charge comme langues sources (L1) l’allemand, l’anglais, l’arabe, le chinois, le français, l’italien et le japonais, et comme langues cibles (L2) l’allemand, l’anglais, le français, le grec, le japonais et le suédois. Toutes les combinaisons de langues ne sont toutefois pas disponibles (par exemple, le grec L2 n’existe qu’avec l’anglais L1). Une autre différence entre les deux logiciels est que celui développé par Wang et Seneff utilise instructions des phrases parfaitement formées en L1, alors que CALL-SLT utilise des représentations sémantiques glosées en L1, telles qu’illustrées dans l’exemple 3.1.

Exemple 3.1 : COMMANDER DE_MANIÈRE_POLIE SOUPE

Could I have soup ?

Soup please.

I would like soup please.

Ces gloses (COMMANDER DE_MANIÈRE_POLIE SOUPE, selon l’exemple précédent) sont obtenues à partir d’une représentation interlangue. L’interlangue (Arnold, 1994 : 75) est une abstraction du sens d’un énoncé qui s’exprime, idéalement, dans

(19)

dans le chapitre 3.3.4 Traduction automatique. La forme des gloses utilisée dans CALL-SLT a l’avantage d’affaiblir le lien entre la L1 et la L2 dans l’esprit de l’apprenant, ce qui lui permet de se détacher plus facilement de la phrase source et de s’exprimer avec plus de liberté. L’idée d’utiliser des pictogrammes et d’ainsi s’affranchir davantage d’une représentation linguistique a même été avancée (Rayner, 2010), comme l’illustre la figure 3.1.

Figure 3.1 : Interlangue graphique pour une version mobile de CALL-SLT

La force de CALL-SLT est que les trois réponses suggérées dans l’exemple 3.1,

« Could I have soup ? », « Soup please. » et « I would like soup please. », seront considérées comme correctes (comme réponse à la glose du même exemple ou à l’interlangue graphique de la figure 3.1), car elles renvoient toutes trois à la même représentation interlangue. Le but premier de CALL-SLT est donc d’inciter l’utilisateur à formuler une phrase le plus librement possible, afin que son aisance à s’exprimer s’améliore.

3.2. Fonctionnement

Avant d’entrer dans les détails techniques du fonctionnement de CALL-SLT et afin de mieux comprendre les chapitres qui suivent, commençons par nous intéresser à son utilisation et à son interface, dont la figure 3.2 est une capture d’écran.

Les icônes et boutons sont très explicites et l’utilisation du logiciel est simple. Dans la case (1), apparaît la glose en L1 ; c’est l’instruction qui explique à l’apprenant ce qu’il devra dire en L2. La navigation entre les différentes gloses se fait à l’aide des flèches vertes situées à gauche et à droite. La partie inférieure (2) est consacrée à l’aide. En cliquant sur le point d’interrogation bleu, l’utilisateur bénéficiera d’exemples écrits et oraux (symbole haut-parleur situé à gauche des phrases) qui lui serviront de référence pour se corriger et progresser. Le bouton violet (3) sert à l’enregistrement. L’inconvénient est qu’il faut maintenir le bouton de la souris enfoncé pendant la durée complète de l’énoncé ; dès que la pression est relâchée, l’enregistrement cesse et la fin de la phrase risque alors d’être coupée. Le résultat

(20)

de la reconnaissance vocale est affiché dans le champ (4). La barre verticale à gauche est verte si l’apprenant a correctement formulé la phrase et rouge s’il a fait une erreur. Il est également possible d’ajouter la couleur orange, résultat qui s’affiche si l’énoncé est grammaticalement correct, mais ne correspond pas à ce qui était attendu de l’élève dans la leçon. Cette option évite qu’une phrase correctement formulée soit sanctionnée par un résultat rouge, ce qui n’est pas souhaitable d’un point de vue pédagogique. Le bouton (5) permet d’écouter ce qui vient d’être enregistré. Cette fonctionnalité permet non seulement de s’assurer du bon déroulement de l’enregistrement (qualité du son, utilisation correcte du bouton d’enregistrement, etc.), mais aussi de se rendre compte des erreurs commises, notamment en ce qui concerne la prononciation. L’utilisateur, en comparant son énoncé à celui disponible dans l’aide, pourra identifier ses faiblesses et s’autocorriger. La barre supérieure (6) contient quatre boutons : le premier permet de sélectionner une paire de langues, le deuxième sert à choisir un domaine alors que le choix des leçons se fait à l’aide du troisième bouton. Le quatrième affiche des informations relatives au développement du logiciel. CALL- SLT possède trois niveaux de difficulté (7) (« easy », « medium » et « hard »), dont l’intérêt et la signification sont détaillés dans la section 3.2.1.1. Ils permettent à des étudiants possédant des connaissances différentes d’effectuer la même leçon ou à un utilisateur d’augmenter la difficulté au fil de son apprentissage et de ses progrès. La jauge (8) à droite représente le niveau sonore du micro. C’est un moyen de vérifier si le micro fonctionne bien ou si son volume est suffisant pour la reconnaissance vocale. Enfin, la barre en bas de page (9) indique quelle leçon est en cours d’utilisation, le nombre d’énoncés ayant été considérés comme corrects (« good ») ou incorrects (« bad »). En outre, à droite de l’écran se trouve un espace pouvant accueillir des informations théoriques à propos de la leçon ou toute autre donnée pertinente. De plus amples détails à ce sujet figurent dans le chapitre 5.6. Fichiers d’aide.

(21)

Figure3.2 : Interface de CALL-SLT

Voyons à présent quelles étapes sont réalisées par le logiciel pour déterminer si un énoncé est correct ou non (Baur, 2010 : 24, 25). La figure 3.3 illustre ce processus.

Tout d’abord, le système choisit une phrase en L2 en fonction de critères définis par le professeur (cf. chapitre 5.3. Élaboration du corpus) dans le corpus de la leçon (1). Cette phrase est transformée, à l’aide de la grammaire de la L2 (GL2), en représentation en L2 (2) puis, grâce à des règles de transfert (RT), en interlangue (3). La grammaire de l’interlangue (GI) permet ensuite d’obtenir une glose en L1 (4). L’utilisateur lit la glose et fait appel à l’aide écrite ou orale s’il en a besoin (5), puis énonce une phrase dans son micro (6). Cette production orale est analysée et convertie par un système de reconnaissance vocale en chaîne de caractères, c’est-à-dire en phrase (7), puis, à l’aide de la grammaire de la L2 (GL2), en représentation en L2 (8). Cette représentation est ensuite transformée en interlangue, grâce à des règles de transfert (9), puis cette interlangue est comparée avec celle de la glose de départ (10). Si les deux sont identiques, le système en déduit que l’exercice est correct et le signale par un feedback positif, une barre verte à gauche du résultat de la reconnaissance vocale (11a). Le système sélectionne alors une autre phrase parmi le corpus (1). Au contraire, si les deux

(22)

interlangues sont différentes, l’utilisateur recevra un feedback négatif, une barre rouge à gauche du résultat de la reconnaissance vocale (11b). Il aura alors la possibilité de faire appel à l’aide écrite ou orale et de réessayer (5).

Figure 3.3 : Schéma du fonctionnement de CALL-SLT

3.3. Composants de CALL-SLT

Maintenant que nous avons décrit les étapes suivies par CALL-SLT pour donner une instruction et déterminer si une production orale correspond à ce qui est attendu ou non, intéressons-nous aux deux outils principaux qui permettent de réaliser ce processus : la reconnaissance vocale et la traduction automatique. Tous deux reposent sur Regulus, une plateforme de logiciels libres, qui permet de développer des applications vocales avec des reconnaisseurs. Dans ce chapitre, nous allons commencer par définir quelques notions clés qui faciliteront la

(23)

à la reconnaissance vocale et aux différentes manières d’influencer sa qualité et enfin à la traduction automatique.

3.3.1. Notions clés

Les quelques définitions qui suivent sont des notions fondamentales en ingénierie linguistique et les exposer ici simplifiera la description des technologies et systèmes présentés par la suite. Nous avons utilisé comme référence principale le matériel des cours d’ingénierie linguistique dispensés au semestre d’automne 2011 à la Faculté de traduction et d’interprétation de l’Université de Genève (Bouillon, 2011).

3.3.1.1. Approche statistique et approche linguistique du TAL

Quand il est question de traitement automatique des langues (TAL), qu’il s’agisse de reconnaissance vocale ou de traduction automatique, deux types d’approche existent : statistique et linguistique.

Un système statistique repose sur des probabilités. Pour déterminer, par exemple, si la phrase reconnue est correcte, il va évaluer, sur la base de corpus, quelles sont, entre autres, les chances qu’un mot apparaisse plutôt qu’un autre (« mètre » ou

« maître ») ou que deux mots (un bigramme) ou trois mots (un trigramme) donnés se suivent (« cent ans » ou « sans ans »).

Un système linguistique, par contre, se fonde sur des connaissances linguistiques, notamment des grammaires, lesquelles sont composées de règles et de lexiques.

Par exemple, pour déterminer s’il convient d’écrire « J’ai chanté. » ou « J’ai chanter. », un système statistique trouvera que le bigramme « ai chanté » apparaît bien plus fréquemment que « ai chanter » dans son corpus et choisira ainsi la solution correcte. Un système linguistique, quant à lui, possédera une règle dans sa grammaire qui dit qu’un syntagme verbal peut être constitué d’un auxiliaire et d’un participe passé, mais ne trouvera pas de règle spécifiant qu’un syntagme verbal peut contenir un auxiliaire suivi d’un verbe à l’infinitif. Il choisira par conséquent également la bonne solution. La section suivante détaille le fonctionnement des grammaires.

(24)

3.3.1.2. Grammaire indépendante de contexte

En ingénierie linguistique, le but des grammaires est de créer un modèle de langage qui soit à la fois descriptif et représentatif. C’est-à-dire qu’il doit, d’une part, permettre de déterminer la structure d’une phrase, et donc de distinguer si cette dernière est grammaticalement correcte ou incorrecte et, d’autre part, il doit pouvoir représenter le rapport hiérarchique entre les différents constituants de la phrase, sous forme d’arbre syntaxique par exemple. La manière la plus répandue pour décrire et représenter une phrase est celle de la structure des constituants (Jurafsky, 2006 : 2). Celle-ci établit que la phrase n'est pas une simple succession de catégories syntaxiques. Au contraire, celles-ci se combinent pour former des syntagmes, qui, à leur tour, forment une phrase. C’est sur ce principe que se fondent les grammaires indépendantes de contexte (CFG pour Context Free Grammar), dont la forme a été définie par Chomsky en 1956 (Jurafsky, 2006 : 4).

Prenons pour exemple la phrase « Le chat mange la souris. » Son arbre syntaxique, selon la structure des constituants, est le suivant :

Figure 3.4 : Arbre syntaxique

Les grammaires indépendantes de contexte décrivent les structures syntaxiques à l’aide de règles formulées de manière très compacte qui permettent de généraliser ces structures. L’exemple 3.2 contient trois règles pour trois phrases différentes.

Exemple n° 3.2 : P det n v det n (le chat mange la souris)

P det adj n v det n (le gros chat mange la souris)

P det adj n v det adj n (le gros chant mange la petite souris)

(25)

Ces phrases peuvent cependant être décrites de manière plus compacte et générale à l’aide d’une grammaire indépendante de contexte qui contient des règles et un lexique, tels qu’illustrés dans l’exemple 3.3.

Exemple 3.3 : Règles P SN SV SN Dét ?Adj N SV V SN Lexique V {mange}

N {chat, souris}

Dét {le, la}

Adj {gros, petite}

Le point d’interrogation placée devant « Adj » signifie que la présence d’un adjectif est optionnelle. Si nous souhaitons que la grammaire accepte aussi les phrases « Le garçon lit un livre. » et « La petite fille écoute la jolie chanson. », il suffit d’enrichir le lexique, pas besoin de créer de nouvelles règles (ce qui serait le cas suivant l’exemple 3.2). C’est là tout l’intérêt de cette méthode. En effet, les grammaires indépendantes de contexte combinent les fonctions descriptives et représentatives et leur formalisme est assez puissant pour décrire toutes les structures syntaxiques.

3.3.1.3. Grammaire d’unification

Une grammaire d’unification (UG pour Unification Grammar) est en fait une grammaire indépendante de contexte agrémentée de paramètres qui définissent, entre autres, l’accord en genre et en nombre, la rection ou le temps des verbes ou la valeur sémantique du lexique. Bien que les CFG permettent de prendre en compte certaines contraintes, il devient difficile d’introduire des caractéristiques plus complexes et le nombre de règles est rapidement multiplié. Les UG, elles, remplacent ces catégories atomiques par des traits, composés d’un attribut et de la valeur de cet attribut. Ainsi, les différents symboles de la grammaire sont chacun décrits par une structure de traits contenant des caractéristiques telles que le nombre ou le type de sujet d’un verbe. L’avantage est que la compatibilité des structures de traits, et donc la conformité de la phrase, peut être vérifiée très

(26)

simplement, par comparaison. Ce processus s’appelle l’unification et est illustré par l’exemple 3.4.

Exemple 3.4 : sv:[sem=concat(V,SN), mode=M, rection=transitif, sem_sujet=S, nombre=N, pers=P]

verb:[sem=V, mode=M, rection=transitif, sem_objet=Objet, sem_sujet=S, nombre=N, pers=P],

sn:[sem=SN, sem_type=Objet].

Dans cet exemple, le système vérifiera que le type sémantique de l’objet du verbe (attribut « sem_objet » de valeur « Objet ») s’unifie avec le type sémantique du syntagme nominal (attribut « sem_type » dont la valeur doit également être

« Objet ») qui suit ce verbe. Cette règle permet d’éviter des phrases telles que « Le chat mange la gare », car la comparaison du type sémantique de « gare » (de valeur

« Lieu », par exemple) avec le type sémantique de l’objet du verbe montre que cette phrase n’est pas bien formée : l’unification n’est pas possible.

Les grammaires d’unification sont plus économes et élégantes que les grammaires indépendantes de contexte et permettent de mieux représenter les relations complexes qui unissent les mots d’une phrase.

3.3.2. Regulus

Regulus est une plateforme open source qui regroupe différents outils permettant de définir un modèle de langage basé sur des règles de grammaire générales, selon le formalisme des grammaires d’unification (Bouillon, 2006). Ce système a entre autres été utilisé dans le cadre du projet MedSLT, un logiciel de traduction de la parole multilingue conçu pour le domaine médical et également développé par le département TIM/ISSCO. Le but de Regulus est de partir d’une seule grammaire d’unification, indépendante de toute application, et de la dériver ensuite en différentes grammaires d’unifications pour des domaines spécialisés, lesquelles sont alors compilées dans le formalisme propre aux grammaires indépendantes de contexte (Rayner, 2004). Ce dernier point est important, car le formalisme CFG est requis par les reconnaisseurs.

(27)

Linguistics into Speech Recognition : The Regulus Grammar Compiler » (Rayner, 2006). Quant à la grammaire d’unification française, il s’agit en fait d’une grammaire partagée pour le français, l’espagnol et le catalan (Bouillon, 2006).

3.3.3. Reconnaissance vocale

Le but de la reconnaissance vocale est de transformer des sons en chaînes de caractères. Le problème principal de ces outils est que plusieurs chaînes de caractères peuvent représenter le même son (les mots « sans », « cent », « sang »,

« sent »et « sens » se prononcent tous [s ). Il existe différents modèles de reconnaissances vocales : linguistique ou statistique. Le choix entre ces deux approches s’effectue sur la base de plusieurs critères. Ainsi, en général, s’il s’agit d’un système plurilocuteur ou si le domaine est bien délimité, une approche linguistique est préférable, alors que dans le cas d’un système monolocuteur (c’est- à-dire que l’empreinte vocale de chaque utilisateur est enregistrée) ou d’une application dont le sujet est général, une approche statistique conviendra mieux.

La figure 3.5 (Bouillon, 2011) schématise le fonctionnement de la reconnaissance vocale.

Figure 3.5 : Schéma illustrant le fonctionnement de la reconnaissance vocale

Comme le montre ce schéma, le modèle acoustique sert à transformer un signal sonore en une suite de phonèmes. Le dictionnaire acoustique, constitué d’un nombre extrêmement important de mots et de leurs prononciations, sert ensuite à transformer ces phonèmes en mots. Plusieurs problèmes surviennent lors de cette étape : les accents, les sons émis qui ne sont pas des mots (signes d’hésitation) et

(28)

les élisions ou liaisons. Pour faire face aux deux derniers obstacles, il est important de réaliser la reconnaissance vocale dans un endroit calme avec un microphone de qualité. En ce qui concerne les accents, qu’il s’agisse d’un locuteur non natif ou d’une personne à l’accent typique de sa région, chacun prononce certains mots différemment. Pour surmonter cette difficulté, il est par exemple possible de spécialiser le modèle pour un utilisateur donné, en enregistrant son empreinte vocale. En outre, les dictionnaires acoustiques contiennent plusieurs prononciations possibles pour chaque mot. Néanmoins, ces outils ne seront jamais exhaustifs et ne prendront pas forcément en compte les noms propres ou étrangers, les acronymes ou les néologismes, par exemple. C’est pour cette raison qu’un bon système doit permettre l’ajout de nouveaux mots et de leurs prononciations. Alors que le modèle acoustique met en lien les sons et les mots, le modèle du langage définit la combinatoire des mots. Ainsi, pour la suite de phonèmes [i l e s ʒ ɛ n], le modèle acoustique proposera « Il est sans/sang/cent/sent/sens gêne » et le modèle du langage devra déterminer lequel de ces homophones est correct dans cette phrase. Pour accomplir cette tâche, le modèle du langage fonctionne soit selon l’approche linguistique, soit selon l’approche statistique, c’est-à-dire qu’il s’appuiera sur une grammaire ou sur des probabilités. L’avantage d’un système linguistique est que, en principe, il ne produit pas de phrases agrammaticales ou asémantiques et évite des fautes de grammaire qu’un correcteur ne détecte pas. De plus, un système statistique, bien que plus robuste, nécessite un corpus conséquent qui peut s’avérer difficile à rassembler.

Le système de reconnaissance vocale de CALL-SLT est un système linguistique qui allie le reconnaisseur Nuance6 et une grammaire CFG spécialisée, notamment à l’aide du corpus correspondant à un domaine donné, et compilée au formalisme propre à Nuance. Nuance fournit les outils nécessaires à la création d’un kit de reconnaissance utilisable ensuite dans diverses applications.

Étant donné que le système de reconnaissance vocale est dérivé de la grammaire spécialisée, elle-même issue du corpus, il ne reconnaîtra que les mots et les

(29)

le système de reconnaissance vocale est spécialisé en fonction du domaine ou de la leçon. Deux avantages principaux pour CALL-SLT découlent de cette méthode.

D’une part, il est possible d’influencer la qualité de la reconnaissance vocale en augmentant ou en réduisant la taille et la complexité du corpus. D’autre part, le champ de reconnaissance étant suffisamment délimité, il n’est pas nécessaire d’enregistrer l’empreinte vocale de chaque utilisateur.

3.3.3.1. Qualité de la reconnaissance vocale

Dans le cadre des leçons développées pour ce travail de mémoire, la qualité de la reconnaissance vocale est particulièrement importante, car il faut non seulement que le logiciel accepte une prononciation correcte, mais également qu’il refuse une prononciation incorrecte. Il est également important de veiller à ce que le taux de reconnaissance ne soit pas trop faible, pour ne pas décourager les utilisateurs.

Nous disposons de quatre moyens afin d’obtenir une reconnaissance équilibrée : ajouter des mots et leurs prononciations au dictionnaire acoustique, ajuster la rigidité de la grammaire, varier la taille du corpus pour influencer les types de phrases et le nombre de mots pris en charge par le système et définir un paramètre de préférence qui détermine dans quelle mesure le résultat de la reconnaissance vocale doit pencher vers la réponse attendue.

La première solution, enrichir le dictionnaire acoustique, n’est pas très pertinente pour les exercices de prononciation que nous souhaitons développer. En effet, nous ne prévoyons pas d’utiliser des noms propres ou des mots rares. Le contenu de notre corpus devrait être couvert par le dictionnaire existant.

La rigidité de la grammaire, définie par les différents traits attribués aux éléments du lexique et des règles, est le deuxième moyen à notre disposition. Les grammaires Regulus doivent contenir des traits, sans quoi la qualité de la reconnaissance est insatisfaisante (Bouillon, 2006 : 3). Seulement, afin que CALL- SLT puisse véritablement distinguer une bonne d’une mauvaise prononciation et ne reconnaisse pas seulement la bonne solution, même si elle est mal prononcée, il faut que, grammaticalement, la phrase mal prononcée puisse être produite par le système. Par exemple, le logiciel demande à l’utilisateur de prononcer la phrase « I hate rain ». Si l’utilisateur ne prononce pas bien le son [h et dit « I ate rain », il faut

(30)

que cette phrase, bien qu’asémantique, soit reconnue par le système et tolérée par la grammaire. Dans le cas contraire, le système produit la phrase « Ihate rain » et l’utilisateur ne se rendra pas compte de son erreur. Les traits sont des paramètres délicats à manipuler dont la modification affecte le fonctionnement général de la grammaire et de tous les outils qui reposent sur celle-ci. Pour le développement des leçons de prononciation, nous n’avons pas expérimenté avec la rigidité de la grammaire. Les quelques changements effectués avaient pour but de permettre la reconnaissance de phrases incorrectes sémantiquement telles que « I ate rain. » Nous avons par contre utilisé la troisième solution, varier la taille du corpus. CALL- SLT propose trois niveaux de difficultés aux utilisateurs : « easy », « medium » et

« hard ». Chaque niveau se fonde sur un corpus de taille différente. Le niveau

« easy » ne prend en compte que les structures syntaxiques et le lexique de la leçon en cours (par exemple, leçon portant sur la prononciation du son [h]). Le niveau

« medium » y ajoute le contenu des autres leçons appartenant au même domaine (par exemple, toutes les leçons du domaine de la prononciation), alors que le niveau « hard » rassemble le corpus de toutes les leçons et de tous les domaines pour une langue donnée. Le chapitre 4.5. Niveau de difficulté et paramètre de préférence détaille la façon dont nous avons expérimenté avec ces différents degrés de difficulté.

Enfin, le quatrième moyen dont nous disposons est d’introduire un paramètre qui définit l’importance de la préférence qui doit être accordée à la solution escomptée. Par exemple, si un utilisateur débutant ne prononce pas encore tout à fait correctement le son [h] dans la phrase « I hate rain. » et que le système indique comme résultat de la reconnaissance « I ate rain », il est possible, afin de ne pas décourager cet utilisateur et de baisser le niveau de difficulté des exercices, d’influencer le résultat de la reconnaissance vocale et de le faire pencher vers la bonne réponse (ici « I hate rain. ») Cette opération s’effectue bar le biais de l’introduction d’un paramètre de préférence, dont la valeur plus ou moins élevée ou plus ou moins basse augmente ou diminue le degré de difficulté de l’exercice.

Les tests effectués avec différentes valeurs sont également expliqués dans le

(31)

3.3.4. Traduction automatique

Intéressons-nous à présent au système de traduction automatique, le deuxième composant sur lequel repose CALL-SLT. Pour cet outil, il existe également une approche statistique, qui se fonde sur des corpus et des probabilités, et une approche linguistique, qui repose sur une grammaire. Dans CALL-SLT, la traduction automatique est effectuée par le biais d’une interlangue, méthode qui se place dans la lignée des systèmes linguistiques. Une interlangue, comme nous l’avons brièvement expliqué précédemment, est une abstraction du sens d’un énoncé qui s’exprime, idéalement, dans une forme indépendante de toute langue et qui reflète les traits communs à plusieurs langues de cette phrase. (Arnold, 1994 : 75). La figure 3.6 (Arnold, 1994 : 79) illustre le fonctionnement d’un tel système de traduction automatique.

Figure 3.6 : Les composants d’un système interlangue

Le texte source est d’abord analysé à l’aide de la grammaire de la langue source et sa représentation interlangue est produite. Ensuite, la grammaire de la langue cible génère le texte cible à partir de cette représentation interlangue. L’un des intérêts de ce système est qu’une représentation interlangue peut être obtenue à partir de différentes phrases dont la valeur sémantique est identique et que, par conséquent, une seule représentation interlangue peut être à l’origine de différentes phrases de valeur sémantique égale. L’exemple 3.5, adapté de (Baur, 2010), illustre ce

(32)

phénomène et ajoute les gloses (forme de surface de l’interlangue) telles qu’utilisées dans CALL-SLT.

Exemple 3.5 : Phrases en français possibles Est-ce que je peux avoir de la soupe ? J’aimerais de la soupe.

Je vais prendre la soupe.

Glose française

COMMANDER DE_MANIÈRE_POLIE SOUPE Représentation interlangue

[(arg2=[eat,soup]), (null=[politeness,politel]), (null=[utterance_type,request])]

Glose anglaise

ASK_FOR POLITELY SOUP Phrases en anglais possibles Could I have soup?

Soup please.

I would like soup please.

Nous constatons que l’anglais est utilisé pour rédiger l’interlangue. En pratique, il n’est pas possible de se défaire complètement des langues pour la représenter. Il est aussi évident que cette méthode ne peut s’appliquer qu’à des domaines limités.

En effet, le nombre de concepts et de relations nécessaires à la description de la langue générale dépasse les limites du réalisable. En revanche, cette méthode est particulièrement adaptée à CALL-SLT, plateforme multilingue qui traite des sujets restreints.

Dans CALL-SLT, la représentation en L2 obtenue suite à la reconnaissance vocale est convertie en interlangue à l’aide de règles de transfert. Les règles de transfert servent à établir le lien entre un mot et sa traduction (« soup » et « soupe ») ainsi qu’entre une structure syntaxique propre à la L1 et la structure correspondante en L2 (par exemple, pour permettre de passer de l’antéposition de l’adjectif épithète

(33)

pour déterminer si l’énoncé produit par l’utilisateur est correct ou non. Il s’agit donc de la clé de la réussite du jeu de traduction. Rappelons que l’utilisation de l’interlangue dans CALL-SLT permet également de produire des gloses lisibles tout en affaiblissant le lien entre la L1 et la L2 dans l’esprit de l’apprenant, ce qui lui permet de se détacher plus facilement de la phrase source et de s’exprimer avec plus de liberté.

3.4. Conclusion

Dans ce chapitre, nous avons décrit de manière générale les mécanismes et les composants sur lesquels repose CALL-SLT, en particulier le système de reconnaissance vocale linguistique et le système de traduction automatique par interlangue. Les prochains chapitres se concentrent sur la partie pratique : l’élaboration des leçons et l’expérience.

(34)

4. Élaboration des leçons

Il a fallu la collaboration de plusieurs personnes, ainsi que de nombreux tests et ajustements, pour obtenir une qualité de reconnaissance vocale satisfaisante et des leçons adaptées à l’amélioration de la prononciation. Comme ce travail n’a pas pour objet l'intégration du vocabulaire ou le développement de la grammaire, ces aspects sont volontairement écartés des chapitres suivants.

En revanche, nous nous pencherons dans cette section sur les choix que nous avons effectués pour obtenir des exercices permettant une véritable amélioration de la prononciation, c’est-à-dire qui offrent des instructions claires, des feedback justes, des références auxquelles se comparer et des descriptions théoriques permettant de se corriger. Nous expliquerons tout d’abord pourquoi nous avons opté pour les paires minimales, comment nous avons choisi les problèmes de traduction et détaillerons les étapes de la création du corpus. Nous passerons ensuite à l’ajustement des niveaux de difficulté et de la valeur du paramètre de préférence et terminerons par la conception des fichiers d’aide et l’enregistrement des phrases de référence.

4.1. Les paires minimales

Le système de reconnaissance vocale de CALL-SLT est fondé sur la grammaire, elle- même dérivée du corpus (cf. chapitre 3.3.3. Reconnaissance vocale). Ainsi, il ne reconnaît que les mots qui sont entrés dans le système. Pour qu’il puisse corriger efficacement la prononciation, il faut qu’il accepte ce qui est juste, mais également qu’il rejette ce qui est faux. Ceci signifie que le corpus doit contenir la bonne et la mauvaise façon de prononcer. C’est pour cette raison que nous avons opté pour les paires minimales comme moyen d’apprentissage de la prononciation.

Une paire minimale est constituée de deux mots qui, d’un point de vue phonétique, ne se distinguent que par un son. Par exemple, « air » et « hair » forment une paire minimale, car leur prononciation ne diffère que par la présence ou l’absence du son [h]. Cette méthode permet de travailler sur des sons similaires et problématiques.

(35)

grammaticale, c’est-à-dire qu’ils remplissent la même fonction syntaxique. En effet, en tant que système linguistique, le logiciel ne produit, en principe, pas de phrases agrammaticales. Par conséquent, si lorsque l’on substitue un mot d’une paire minimale par l’autre, la phrase obtenue est grammaticalement incorrecte, le logiciel ne sera pas en mesure de produire cette phrase. Alors, la solution la plus proche, pour laquelle il optera, risque de contenir l’autre composant de la paire minimale. Le résultat de la reconnaissance vocale ne reflète donc pas la prononciation de l’utilisateur et le feedback est erroné.

4.2. Choix des problèmes de prononciation

Puisque les leçons développées sont destinées à des étudiants de langue maternelle française, deux sons particulièrement problématiques pour les francophones se sont naturellement imposés : le « th », prononcé [Θ comme dans

« think » ou [δ comme dans « them » et le [h . L’idée de départ étant de mener l’expérience sur un mois et d’introduire une nouvelle leçon chaque semaine, il nous manquait encore deux sons. Il nous a paru intéressant de choisir l’un parmi les voyelles et l’autre parmi les consonnes. Le « i » court, [ɪ], et le, « i » long, [iː , sont pertinents pour les francophones et ont été retenus, car il existe de nombreuses paires minimales pour ce couple de sons. Pour des raisons similaires, les trois paires [b] – [p], [d] – [t] et [g] – [k], formant la catégorie des consonnes occlusives sonores7, ont également été choisies.

4.3. Création du corpus

Nos quatre problèmes de prononciations déterminés, il a ensuite fallu trouver des paires minimales, dont les mots qui les composent sont de même catégorie grammaticale, puis imaginer des phrases. Afin de tirer le meilleur parti des paires minimales, nous avons, dans la mesure du possible, opté pour des paires d’énoncés ne se distinguant que par un son, comme l’illustre l’exemple 4.1.

7 Consonne dont le mode d’articulation fait intervenir un blocage complet de l’écoulement de l’air au niveau de la bouche, du pharynx ou de la glotte et le relâchement soudain de ce blocage.

(36)

Exemple 4.1 : Do not sleep on the floor.

Do not slip on the floor.

There is a bear in the tree.

There is a pear in the tree.

Toutes les phrases du corpus ont des structures simples et similaires. L’objectif était, d’une part, d’utiliser la grammaire pour l’anglais déjà existante et, d’autre part, d’obtenir des gloses simples. Le vocabulaire utilisé, sélectionné strictement en fonction de son intérêt phonétique, étant déjà passablement inhabituel, il fallait également éviter de perturber davantage l’étudiant avec des énoncés trop complexes. Au final, le nombre de phrases sélectionnées par leçon est le suivant :

« I think I am sinking. » : 48 phrases

« I climb hills in heels. » : 55 phrases

« The bear eats a pear. » : 41 phrases

« Her hair floats in the air. » : 36 phrases

Le corpus, y compris les phrases non retenues par la suite, constitue l’annexe I.

Par défaut, CALL-SLT sélectionne les phrases au sein d’une même leçon dans un ordre aléatoire. Pour que les exercices aient un sens, il faut que les phrases appartenant à la même paire apparaissent l’une après l’autre. Nous avons pour ce faire utilisé l’attribut « difficulty » qui sert en principe à classer les énoncés par ordre de difficulté croissante. Ici, nous avons simplement attribué la même valeur pour les deux phrases d’une même paire. Ainsi, les groupes de phrases, tels que ceux de l’exemple 4.2, ne sont pas séparés dans l’application et apparaissent dans l’ordre souhaité.

Exemple 4.2 : 'math is my favourite subject', [default, pronunciation_th, difficulty=1]

'the mat is clean', [default, pronunciation_th, difficulty=1]

'moss grows on this tree', [default, pronunciation_th, difficulty=2]

'a moth flies in the room', [default, pronunciation_th, difficulty=2]

(37)

4.4. Forme des gloses

La glose est l’instruction en langue source qui indique à l’étudiant ce qu’il doit dire en langue cible. Le but des leçons étant avant tout de travailler sur la prononciation et non sur la grammaire ou la syntaxe, nous avons réfléchi à la forme que devaient avoir les gloses. La présentation utilisée pour les leçons développées jusqu’à présent nous paraissait peu appropriée, car un peu trop complexe pour notre corpus, qui ne se limite pas à une structure syntaxique ou à un sujet. Trois principales options s’offraient à nous. La première était de ne pas transformer ni traduire les gloses, c’est-à-dire de simplement utiliser les phrases du corpus en anglais. Cette solution n’a pas été retenue, car l’étudiant risque de se contenter de lire les énoncés sans chercher à savoir ce qu’ils signifient si certains mots ne font pas partie de son vocabulaire. Cette démarche est très critiquable d’un point de vue pédagogique et en désaccord avec les principes généraux de l’ALAO. La deuxième consistait à se servir de la traduction en français des phrases, sans changer le point de vue ou leur structure. Cependant, nous trouvions dommage de renoncer à créer une certaine distance dans l’esprit de l’utilisateur entre la L1 et la L2. Nous avons finalement opté pour la troisième possibilité : créer des gloses lisibles en changeant simplement le point de vue. L’exemple 4.3 illustre la structure retenue.

Exemples 4.3 : I would like three sodas. dis_que : tu veux 3 sodas.

Could you turn off the heat? demande à ton ami s’il peut éteindre le chauffage

Ainsi, l’étudiant ne fournit pas trop d’efforts pour comprendre ce qu’il doit dire, mais il doit tout de même reformuler complètement la phrase. De plus, en laissant une certaine liberté à l’étudiant quant au choix des structures ou des temps verbaux, nous préservons l’une des fonctionnalités particulières du logiciel, qui est d’accepter plusieurs formulations pour une même glose, comme le démontre l’exemple 4.4.

Exemple 4.4 : dis_que : tu penses. I think. OU I am thinking.

OU I’m thinking

(38)

Cette forme de glose est obtenue à partir de l’interlangue, à l’aide de règles de transfert et de règles de collocation (exemples disponibles dans l’annexe II). Les règles de transfert transforment la représentation source dans la représentation interlangue, puis la grammaire interlangue génère une glose en anglais à partir de cette nouvelle représentation. Enfin, les règles de collocation transforment les concepts de la glose en mots en langue cible. Dans l’exemple 4.5, la règle de collocation dit que l’expression « spend_time 1-SING » (verbe « to spend time » conjugué à la première personne du singulier au présent) apparaissant dans la glose en anglais sera remplacé par « passes du temps » dans la glose en français.

Exemple 4.5 : better_collocation("spend_time 1-SING", "passes du temps").

De même, la règle de collocation suivante (exemple 4.6) indique que le concept

« my cheek », doit être remplacé par « ta joue » dans la glose en français. L’adjectif possessif « my » devenant « ta » en raison du changement de perspective opéré.

Exemple 4.6 : better_collocation("my cheek", "ta joue").

Afin de vérifier si ces gloses étaient correctement interprétées par les étudiants, nous avons réalisé un test avec quatre personnes. Dans un tableau contenant les gloses dans la colonne de gauche, chacune d’entre elles a écrit ce qu’elle dirait dans la colonne de droite. Il a ensuite suffi de comparer les colonnes de droite avec les phrases du corpus. Ce test visant avant tout à vérifier si la formulation des gloses était suffisamment claire, nous n’avons pas pris en compte la conformité du vocabulaire employé. Les résultats ont été très concluants. Sur les quatre participants, un a toutefois employé la deuxième personne du singulier au lieu de la première pendant une partie du test. Si cette personne avait fait la même faute en utilisant le logiciel, elle aurait très rapidement remarqué sa faute en constatant que rien n’était reconnu et aurait pu corriger son erreur facilement, en consultant l’aide. Suite à ce test, nous avons pu corriger les dernières erreurs restantes dans les règles de transfert et avons obtenu la confirmation que les gloses sont suffisamment claires. Nous n’avons donc pas effectué de changements concernant leur structure.

Références

Documents relatifs

L’évaluation par les étudiants de leurs propres productions et de celles de leurs pairs, à l’aune du concept de clarté, permet de conclure que, pour l’activité résumante

Pour faire face à cette situation, nous avons développé, pour le triage aux Hôpitaux Universitaires de Genève (HUG), le système de traduction BabelDr (FR vers ES, AR, TI, FA, PRS

Nous avons utilisé l’intégrale floue de shoquet, pour fusionner les scores issus des systèmes SVM RBF un contre un et SVM RBF un contre tous, après plusieurs expériences sur

Maintenant que le moteur de reconnaissance vocale tourne et que la grammaire est en place, il faut d'un côté développer la grammaire pour que le nombre de commandes vocales

Jim PETIOT 1 Lila GRAVELLIER 1 Mélanie JUCLA 2 Nicolas MONNIER 3 Lisa QUILLION-DUPRE 3,4 Patrice PERAN 5 Lola DANET 6 Xavier de BOISSEZON 6 Jérôme FARINAS 1 Julien PINQUIER 1.. 1

(Tejedor-García et al. 2016), par exemple, est un logiciel d’EPAO intégrant la reconnaissance vocale dans ses exercices de production ; l’apprenant enregistre

Nous avons ainsi pensé que cette empreinte vocale pouvait potentiellement être entraînée pour s'adapter à des locuteurs possédant des accents différents de ceux pour lesquels

[r]