• Aucun résultat trouvé

des Langues Assisté par Ordinateur

3.1 Survol des différents domaines du TAL et de leur application à l’ALAO

3.1.3 Reconnaissance de la parole

Dans cette section, nous commençons par décrire les buts de l’utilisation de la reconnaissance vocale dans l’ALAO. Nous continuons avec les diffi-cultés rencontrées pour cette technique, en particulier avec les productions

d’apprenants. Nous survolons ensuite les principales techniques utilisées pour cette technique. Puis nous évoquons quelques applications de reconnaissance vocale en ALAO. Nous discutons ensuite de la problématique de la rétroac-tion et de la remédiarétroac-tion. Enfin, nous concluons par des considérarétroac-tions sur l’application de cette technique et sur les besoins futurs.

Parler correctement passe par une bonne prononciation. Or les langues n’utilisent qu’un nombre limité de phonèmes parmi tous ceux qui peuvent être produits par l’appareil phonatoire humain. Très tôt dans le développe-ment de l’enfant, le cerveau apprend à distinguer les phonèmes de la langue maternelle. Les enfants ont encore une forte capacité à apprendre à distin-guer les phonèmes, ce qui favorise leur apprentissage des langues7. Puis cette capacité est fortement amoindrie vers l’âge de la puberté. Ainsi, un locuteur italophone ou francophone aura tendance à prononcer pareillement le mot anglaisthin [TIn] comme le motsin [sIn] (Aist, 1999).

Si un apprenant a des difficultés pour prononcer correctement, Defays et Deltour (2003) constatent un effet dehalo, qui occulte les autres aspects de la langue et qui fait penser à ses interlocuteurs que l’apprenant s’exprime mal, alors que son vocabulaire et sa syntaxe sont bonnes. C’est pourquoi de nombreux logiciels utilisent des techniques plus ou moins sophistiquées de reconnaissance vocale comme aide à la prononciation (Aist, 1999; Nerbonne, 2003).

Eskenazi (1999a,b) et Probst et al. (2002) mentionnent quelques fac-teurs pour un entraînement fructueux de la prononciation : (i) les appre-nants doivent produire une quantité considérable de phrases ; (ii) ils doivent obtenir un feedback pertinent ; (iii) ils doivent entendre différents locuteurs natifs pour aider leur compréhension ; enfin, (iv) la prosodie (amplitude, du-rée, ton) doit être accentuée. Menzel et al. (2001) voient la prononciation comme une tâche de production plutôt que de reproduction, dans un but communicatif, et soulignent la nécessité de fournir une rétroaction suffisante pour identifier les lacunes et donner des moyens de s’améliorer. Les outils de reconnaissance de la parole sont essentiels dans cette optique. Enfin, un ap-prenant doit apprendre le contraste entre différents phonèmes, notamment quand ils ne sont pas différenciés dans sa langue maternelle, comme [K-l]

pour les asiatiques, [s-z-S-Z] pour les finnois, [b-v] pour les hispanophones,

7. Forts de ce constat, depuis quelques années, les programmes scolaires, en Suisse comme dans de nombreux autres pays, incluent l’apprentissage d’une première langue étrangère dès l’âge de 8 ans environ et d’une seconde à l’âge de 10 ans. D’autre part, cette capacité rapide d’apprentissage explique la faculté des enfants d’immigrés de première génération à s’exprimer très rapidement dans la langue du pays d’accueil pour arriver en quelques années à une maîtrise égale ou proche de celle d’un locuteur natif, alors que leurs parents gardent un fort accent et une maîtrise limitée.

etc. (Defays et Deltour, 2003).

Converser avec un locuteur natif est essentiel pour l’apprentissage des langues. Il peut être important de pouvoir entendre plusieurs variétés régio-nales ou sur le plan du registre (Hannahs, 2007). Cependant, les apprenants ont rarement l’opportunité de pratiquer activement la langue (Aist, 1999).

Dans une classe, les apprenants ont nécessairement un temps de parole li-mité (Defays et Deltour, 2003). De plus, Witt et Young (1998) remarquent que l’apprenant a moins peur de se tromper seul face à une machine qu’en classe face à ses pairs. Un logiciel d’ALAO doté de reconnaissance de la pa-role et/ou de synthèse vocale (§3.1.4) peut être un bon palliatif à ces besoins communicatifs (Harless et al., 1999), même si les résultats de la reconnais-sance vocale ne sont pas parfaits.

A présent, nous passons aux difficultés rencontrées par la reconnaissance vocale. La reconnaissance de la parole est certainement un des problèmes les plus ardus du traitement automatique des langues. Elle consiste à transfor-mer un signal (un mot ou un énoncé complet) prononcé dans un microphone en une représentation utilisable par la machine : cette représentation peut être une transcription phonétique (séquence de phonèmes), un mot, une phrase ou un texte correct sur le plan grammatical (pour une introduction générale au problème, v. Egan, 1999; Lamel et Gauvain, 2003). On trouve aujourd’hui de nombreuses applications de dictée vocale ou d’interrogation de serveurs, par téléphone ou devant des bornes interactives de renseigne-ments.

Certains logiciels demandent une prononciation d’une phrase mot à mot en marquant bien les pauses. Dans ce cas, il suffit de faire une recherche de la chaîne phonétique obtenue dans un dictionnaire. D’autres logiciels acceptent une parole continue, plus difficile à traiter : en effet, lorsqu’un locuteur parle normalement, il se produit des phénomènes de co-articulation des mots ; par ailleurs, il faut aussi traiter les faux départs, les répétitions, les bégaiements etc.

Pour la parole continue, une même séquence phonétique peut être trans-crite et découpée de diverses manières, comme le montrent les exemples suivants :

(3) a. cœur ↔ chœur

b. eau ↔ aux↔ au ↔ ô↔ o etc.

c. vieil Armagnac ↔vieillard maniaque

d. Leur livre traînait sur leur bureau. ↔ Leurs livres traînaient sur leurs bureaux.↔ Leurs livres traînaient sur leur bureau. etc.

e. mon beau-frère est masseur ↔mon beau-frère et ma sœur↔ mon beau-frère hait ma sœur etc. (Habert, 2006)

Dans cette situation, un locuteur humain pourra utiliser sa connaissance du monde et du contexte pour retranscrire correctement, ce qui est difficile à modéliser pour un ordinateur.

Enfin, la prosodie est un élément essentiel du langage parlé, qui peut aider à déterminer le sens des énoncés en délimitant des unités de sens (Simon, 2001; Grobet et Simon, 2001) et qui dénote aussi nos émotions (Bänziger et al., 2001). La prosodie peut être définie comme un contour de la phrase. Les trois éléments essentiels de la prosodie sont la fréquence fondamentale (F0, voix grave / aiguë), l’intensité et la durée des syllabes (Martin, 2004b). Mertens et al. (2001) prennent également en compte le rythme, la qualité vocale et les prises de souffle. Simon (2001) et Grobet et Simon (2001) définissent le concept d’unité prosodique comme une unité à la fin de laquelle la fréquence fondamentale diminue.

Pour entraîner le système, certaines applications demandent à l’utilisa-teur d’enregistrer une série de mots ou de phrases, afin d’entraîner le système à reconnaître les contours de la voix. D’autres systèmes peuvent fonctionner en mode multilocuteurs et ne demandent pas d’entraînement préalable.

Pour résumer, diverses contraintes peuvent être imposées au locuteur : parole continue ou discontinue (chaque mot prononcé isolément en marquant une pause), vocabulaire limité ou illimité, débit limité, milieu ambiant calme avec micro de bonne qualité, entraînement préalable du logiciel, etc. Moins les contraintes sont nombreuses, plus la tâche de reconnaissance est difficile.

Passons maintenant aux difficultés d’application de la reconnaissance vo-cale à l’ALAO et aux parades possibles pour pallier les problèmes rencontrés.

Parfois difficile pour des énoncés de locuteurs natifs, la reconnaissance vocale l’est encore plus pour des énoncés parfois très éloignés d’une prononciation correcte.

Pour améliorer la qualité de la reconnaissance, la première possibilité est d’adapter le corpus d’entraînement pour la reconnaissance vocale en y in-cluant des phrases provenant d’apprenants d’une ou plusieurs langues mater-nelles (Ehsani et Knodt, 1998; Rypa et Price, 1999; Raux et Eskenazi, 2004;

Morgan, 2004; Davidson et Isenberg, 2005; Chen et al., 2009). La seconde tactique consiste à restreindre l’étendue de langue à reconnaître : exercices de vocabulaire (The Audio Interactive Tutor, Waters, 1994, 1995), micro-monde à scénarios restreints (§2.7.3, Spoken Electronic Language Learning,

Hilleret al., 1994; Morton et Jack, 2005), syntaxe (mots ou phrases simples, SANTIAGO, LaRocca et al., 1999) ou corpus de phrases entières (MILT,

§B.3.3, Hollandet al., 1999). Une autre technique possible est d’aligner les phonèmes de la phrase de l’apprenant avec ceux d’une phrase-type stockée dans le système, comme pour le logicielWinPitch (Martin, 2004a,b,c).

Généralement, la reconnaissance vocale utilise des méthodes stochas-tiques pour reconnaître les différents sons et obtenir une chaîne phonétique8. Nous citerons l’exemple très répandu desModèles de Markov Cachés(Hidden Markov Models, HMM) qui sont basés sur une approche probabiliste du dé-codage acoustico-phonétique (Knill et Young, 1997; Ehsani et Knodt, 1998;

Manning et Schütze, 2000)9. Le signal est découpé en intervalles temporels réguliers, qui correspondent à un état représentant un modèle phonétique.

Le principe essentiel sous-jacent postule que chaque état du modèle dépend de l’état précédent. Ces modèles peuvent être des phonèmes ou des unités plus grandes comme des diphones, triphones10, syllabes, des mots ou des phrases. Le principe essentiel des modèles de Markov cachés est de calculer les probabilités d’atteindre un autre état à un temps n + 1, n + 2 etc. Ces probabilités sont calculées à partir d’un apprentissage basé sur de grandes quantités de données, si possible représentatives de la tâche à effectuer et du public visé (variation dialectale et sociologique des locuteurs). Chen et al.

(2009) décrivent les différentes techniques d’évaluation de la prononciation d’apprenants, basées notamment sur les HMM.

Décrivons à présent quelques applications basées sur des HMM. Le logi-ciel commercialDragon NaturallySpeaking est intégrable à d’autres logiciels, d’où son succès commercial, et permet d’optimiser la reconnaissance de sé-quences répétitives grâce à des réseaux de transition (§3.3.4.111) dont les étiquettes d’arcs sont les mots à reconnaître. On citera égalementDecipher, Nuance,Hidden Markov Model Toolkit (HTK, Younget al., 2006) et Sphinx-II (Huang et al., 1993).

Examinons quelques exemples de logiciels qui utilisent l’ALAO. D’après Aist (1999), l’apprenant bénéficiera beaucoup plus d’une tâche concrète à réaliser (donner des ordres pour agir sur un micromonde) plutôt que des

8. Pour Ehsani et Knodt (1998) en revanche, cette tâche implique une grande variété de connaissances linguistiques, phonologiques, lexicales, sémantiques, grammaticales et pragmatiques.

9. Voir §3.1.2 pour l’application des HMM aux étiqueteurs.

10. Un diphone est la portion de parole comprise entre deux parties stables de phonèmes consécutifs. Ainsiémigrante est composée des diphones [e] + [em] + [mi] + [iě], etc. Le triphone est la partie stable entre trois phonèmes consécutifs.

11. Bien que cette section concerne l’analyse du langage, le principe des états et des tran-sitions est le même.

exercices de répétition semblable aux exercices sur bande magnétique des laboratoires de langue. Les micromondes en sont le meilleur exemple (Hiller et al., 1994; Rypa et Price, 1999; Leviet al., 2004; Morgan, 2004; Moteet al., 2004; Morton et Jack, 2005), avec des activités variées pilotées par la voix, ou des jeux (Pennington et Esling, 1996; Dalby et Kewley-Port, 1999). Des applications plus classiques existent, comme la dictée d’un texte (Coniam, 1998), comparaison de prononciation avec des locuteurs natifs (Fairfield, 1999), paires minimales (Eskenazi, 1999a; Wachowicz et Scott, 1999) ou aide à l’apprentissage de la lecture (Mostow et Aist, 1999; Mostow et al., 2002).

Abordons maintenant les différents types de remédiation. D’après Eh-sani et Knodt (1998, p. 50), la meilleure remédiation est "a type of feedback that does not rely on the student’s own perception". Une grande partie des logiciels dotés de reconnaissance vocale se basent sur des rétroactions gra-phiques12 – et parfois uniquement sur elles. Le graphique le plus courant est l’oscillogramme (v. fig. 3.1), qui retranscrit simplement les vibrations du signal, ce qui est une indication peu pertinente. L’exemple emblématique de logiciel utilisant un oscillogramme estTalk to me 13 (Hincks, 2003).

Fig. 3.1 – Exemple d’oscillogramme

Les spectrogrammes (fig. 3.2) marquent les vibrations sonores produites par le conduit vocal à différentes fréquences et permettent de distinguer l’énergie en décibels à certaines fréquences. Parmi les logiciels utilisant des spectrogrammes, citons Athena (§B.3.1) et The Rosetta Stone (Fairfield, 1999).

Aist (1999) prône l’utilisation de spectrogrammes simplifiés afin que le locuteur puisse distinguer les formants de sa prononciation et de celle d’un locuteur natif. Chaque son vocalique (ou voyelle) possède quatre formants14,

12. On trouvera une revue des différentes courbes affichées par des logiciels chez Cazade (1999).

13. En guise de remédiation, le logiciel propose aussi courbes mélodiques et des figures montrent la position des lèvres et une coupe de la cavité buccale pour chaque phonème.

14. Les formants sont le reflet des résonances des cavités vocales qui renforcent le son émis

Fig. 3.2 – Exemples de spectrogrammes avec marquage des deux premiers formants

dont deux sont discriminants pour le distinguer des autres sons vocaliques.

Les autres paramètres acoustiques à considérer sont la force, le tempo et la durée.

Il existe également d’autres outils : électropalatographe pour repérer le mouvement de la langue contre le palais (Gibbonet al., 1991), coupe animée du conduit vocal (Carson-Berndsen, 1998), têtes animées (Kirschning, 2004), visualisation des contours intonatifs (Chun, 1998), histogrammes (Cazade, 1999) et calcul d’un score de similarité avec la prononciation correcte (Witt et Young, 1998; Aist, 1999; Harlesset al., 1999).

On trouve aussi des rétroactions orales sous forme de demande de ré-pétition (Rypa et Price, 1999) ou de prononciation de l’énoncé correct en accentuant fortement les points posant problème (Raux et Eskenazi, 2004).

La rétroaction peut être également non verbale, avec des agents dans un

par les vibrations des cordes vocales à des fréquences différentes selon la cavité mise en jeu. Ces cavités sont agrandies ou diminuées par la position des différents organes du conduit vocal (langue, glotte, pharynx, palais, mâchoire, lèvres). Le formant le plus bas en fréquence est appeléfréquence fondamentale (F0).

micromonde qui manifestent par des signes non verbaux qu’ils n’ont pas compris (Hiller et al., 1994; Morton et Jack, 2005). Enfin, Wang et Seneff (2007); Seneff et al. (2007) demandent de traduire une phrase oralement d’anglais à mandarin et traduisent en anglais ce que le logiciel a compris.

Pour conclure cette section, la reconnaissance vocale est la technique de TAL la plus répandue dans les logiciels d’ALAO. Cette popularité est notam-ment due à la relative facilité de mettre en place des outils : les techniques en jeu sont relativement basiques, comme le repérage de phonèmes ; en outre, il existe de bons reconnaisseurs commerciaux dotés d’outils qui permettent leur intégration à d’autres logiciels. La popularité de la reconnaissance vo-cale en ALAO s’explique également par le besoin primordial d’apprendre à communiquer oralement.

Malheureusement, cette abondance de logiciels ne se traduit pas par une grande qualité pédagogique. Les aides à la prononciation sont davantage des gadgets tape-à-l’œil que des véritables apports pédagogiques. Ainsi, dans sa présentation deTalk to me, Hincks (2003) conclut que ce logiciel est mieux adapté aux débutants qui ont une prononciation mauvaise qu’aux appre-nants plus avancés, qui bénéficient peu de ce genre de logiciel. Nous avons vu qu’il existe de nombreuses propositions pour apporter une rétroaction utile pour l’apprenant. Cependant, ces solutions ne sont pour l’instant qu’à l’état de prototype de recherche.

Au niveau pédagogique, les tâches proposées par les logiciels dotés de reconnaissance vocale existant sur le marché ne sont pas satisfaisantes. Les apprenants doivent répéter des mots et des phrases, ce qui n’entraîne pas leurs capacités à communiquer. Ces exercices sont parfois utiles au niveau débutant mais s’avèrent rapidement insuffisants. Il serait utile de faire réali-ser des tâches à l’apprenant, qui dialoguerait avec un interlocuteur fictif qui lui donne un feedback sous forme de conversation.

Avec l’évolution technologique, il est probable que les outils de recon-naissance gagneront en performance dans un proche avenir. Les ordinateurs sont équipés de périphériques audio de qualité suffisante. Les processeurs deviennent de plus en plus performants et les ordinateurs standards ont de grandes capacités de disque et de mémoire. Grâce aux besoins en dictée vocale et en interfaces pilotées par la voix, le secteur de la reconnaissance vocale ne devrait pas manquer de moyens pour la recherche et développe-ment. Logiquement, les logiciels d’ALAO devraient bénéficier de cet essor.

Cependant, pour améliorer les performances des reconnaisseurs, il faut dis-poser de coûteux corpus de parole (§3.1.7), notamment avec des phrases d’apprenants, ce qui pourrait dissuader certains éditeurs de logiciels.

Dans le domaine de la recherche, il est souhaitable de réunir le plus possible de données sur les erreurs typiques des apprenants. Il devrait être possible d’en tirer des typologies qui permettent d’affiner les diagnostics, notamment en fonction de la langue première des apprenants.

Terminons par deux idées pour améliorer la rétroaction. Afin d’apprendre à marquer le rythme, nous suggérons, comme aide secondaire, d’utiliser des battements réguliers à la manière d’un métronome. Cela permet de mieux marquer les rythmes dans une phrase, qui sont parfois des indices d’émotion dans certaines langues. Cet outil pourrait aider les apprenants débutants.

Par ailleurs, le diagnostic devrait être affiné grâce aux modèles de l’ap-prenant (§2.7.4) et, par exemple, la tolérance face aux erreurs devrait être diminuée au fur et à mesure des progrès des apprenants.