• Aucun résultat trouvé

des Langues Assisté par Ordinateur

3.1 Survol des différents domaines du TAL et de leur application à l’ALAO

3.1.4 Synthèse vocale

Dans cette section, nous commençons par décrire les techniques et les problématiques de la synthèse vocale. Puis nous abordons les différentes applications de la synthèse pour l’ALAO. Nous poursuivons par certains exemples de logiciels. Enfin, nous terminons par un bilan et des perspectives de l’utilisation de la synthèse pour l’ALAO.

Commençons par aborder les techniques et problématiques de la synthèse vocale. Cette technique consiste à faire produire par une machine un énoncé oral à partir de de l’écrit, en passant par une transcription phonétique (Fuchs et al., 1993). La synthèse vocale est un domaine assez ancien du TAL. Si les sons produits par les ordinateurs étaient très métalliques à l’origine, voire même difficilement compréhensibles, les résultats actuels sont tout à fait utilisables pour une utilisation large (Harashima, 2006).

Pour synthétiser une phrase, plusieurs étapes sont nécessaires15: – analyse grammaticale ou étiquetage du texte, afin de désambiguïser

les mots et de repérer les syntagmes ;

– représentation phonétique de l’énoncé, à partir d’un lexique contenant une représentation phonétique des mots et/ou de règles de phonétisa-tion ;

– application de paramètres prosodiques ; – génération du son par le synthétiseur.

15. D’autres approches sont possibles, notamment des méthodes stochastiques, mais nous ne les évoquerons pas ici.

Le repérage des syntagmes permet de résoudre la plupart des homo-graphes hétérophones, comment couvent qui se prononce différemment s’il est substantif ou verbe (Gaudinat et Wehrli, 1997; Goldman, 2001). Les autres difficultés sont la prononciation des nombres, des mots inconnus (no-tamment les néologismes, les nom propres, etc.), les abréviations (St. en anglais abrègeSaint etstreet), les sigles, etc.

Passons maintenant à l’application de la prosodie. Pour que la synthèse paraisse naturelle, il est indispensable que le son produit varie en fonction des paramètres prosodiques : hauteur, intensité et durée. Cette variation est indispensable pour produire un son acceptable pour les auditeurs et a un rôle fondamental dans la communication orale. Les marques d’intona-tion sont souvent utilisées par l’interlocuteur comme indice de l’informad’intona-tion que le locuteur a voulu faire passer, par exemple l’accentuation d’un mot ou un groupe de mot. Les synthétiseurs vocaux doivent donc reproduire ces contours mélodiques afin que le son soit acceptable pour une oreille humaine16. D’autres paramètres interviennent, comme le débit, le rythme accentuel et la co-articulation à l’intérieur des mots et entre les mots (Du-toit et Stylianou, 2003). Le rapport du UMIST Centre for Computational Linguistics (2002) énonce les critères de qualité, de flexibilité et le caractère naturel de la synthèse pour une comparaison entre différentes techniques.

Handley et Hamel (2005) ajoutent que la flexibilité du système doit aussi permettre de varier le registre (plus ou moins formel), la voix (masculin, féminin, jeune ou vieux) et le timbre.

A présent, nous abordons l’étape finale, la production de son par l’or-dinateur. Différentes techniques permettent de synthétiser la voix humaine (Dutoit et al., 2002; Dutoit et Stylianou, 2003). Citons parmi d’autres :

– la synthèse par règles, qui modélise la parole sous forme de spectre sonore, en jouant sur les harmoniques ;

– la synthèse par formants, où différents filtres sont appliqués aux sons pour simuler l’effet des cavités vocales sur l’amplification de certaines bandes de fréquences ;

– la synthèse par mots, où les différents mots ou séquences de mots sont pré-enregistrés dans le cadre d’une application à couverture restreinte ; – la synthèse par concaténation de diphones, où des sons pré-enregistrés sont les transitions entre les zones stables de deux phonèmes de la langue ;

– la synthèse par sélection d’unités dans une grande base de données s’apparente à la technique précédente : elle recherche la meilleure unité

16. On se rappellera les robots des films de science-fiction au ton monocorde et métallique, qui lassent vite l’interlocuteur.

(diphone ou autre) dans une base d’enregistrements qui correspond le mieux au résultat voulu, en hauteur et en longueur ; ainsi, le même diphone sera enregistré plusieurs fois avec différentes variantes.

Parmi les techniques évoquées, la dernière obtient les meilleurs résultats, mais demande un espace disque considérable. De plus, la concaténation des sons est rendue plus difficile car il faut calculer le meilleur chemin parmi tous les sons disponibles. Toutefois, le prix des disques durs n’est plus un obstacle important et les processeurs sont de plus en plus performants.

Notons pour terminer qu’aux débuts de la micro-informatique, certains micro-ordinateurs étaient parfois dotés d’un synthétiseur intégré, comme le Commodore 64 (Hackenberg, 1985) ou leVictor 9000 (Fischer, 1986).

Nous passons maintenant à l’utilisation de la synthèse vocale en ALAO.

Si un locuteur natif peut être tolérant à propos d’erreurs de prononciation, ce n’est pas le cas pour un apprenant d’une langue. La synthèse de la pa-role est utilisée comme aide à la prononciation (Nerbonne, 2003) ou comme partenaire virtuel pour simuler une conversation (Handley et Hamel, 2005), afin de simuler une immersion dans la langue, de pouvoir écouter n’importe quelle phrase d’un logiciel et d’éviter les coûts élevés d’un enregistrement sonore professionnel (Hamel et Wehrli, 1997). Skrelin et Volskaja (1998) et Harashima (2006) ajoutent qu’il est utile de synthétiser les consignes des exercices, que les apprenants ont tendance à éviter ou survoler. D’après De-fays et Deltour (2003), la compréhension orale est une tâche fondamentale.

Les apprenants abordent des difficultés et des aspects tels que la différen-ciation des phonèmes, le vocabulaire, les formes grammaticales, les niveaux de langue, l’intonation, le débit, l’accent, le rythme et les paramètres non verbaux (gestuelle) le cas échéant. De même, chaque langue a un contour mélodique différent (Aist, 1999). Il est donc nécessaire de varier aussi les dif-férents modes comme l’exclamation, l’interrogation, l’expression d’émotions etc., ainsi que le timbre avec des voix d’hommes, de femmes et d’enfants (Aist, 1999; Probstet al., 2002; Esling, 1992). Eskenazi (1999b) ajoute qu’il est souhaitable d’écouter des énoncés aux contours prosodiques exagérés (amplitude, durée, ton) et Skrelin et Volskaja (1998) qu’il est important que les apprenants puissent régler le rythme.

L’aide à la prononciation est aussi une application importante. Il est en effet difficile de passer de la prononciation deto laugh, denight, dewomen, de Monsieur, maintenant etc. à la version écrite et inversement. Certaines assimilations phonétiques posent aussi des problèmes, comme par exemple dansexact, prononcé [Egzakt], alors que la lettre x se prononce [ks]. Il n’y a pas d’autres moyens que d’apprendre par cœur ce lien entre prononciation

et graphie. La synthèse vocale permet à l’apprenant d’entendre les mots au lieu de devoir déchiffrer la transcription phonétique dans un dictionnaire, au risque de mal l’interpréter17.

Poursuivons maintenant par la descriptions de quelques logiciels qui uti-lisent la synthèse vocale. Cette caractéristique existe depuis longtemps grâce à l’inclusion de synthétiseurs dans certains modèles de micro-ordinateurs (Generate, Hackenberg, 1985, §B.2.9, Fischer, 1986, Cohen, 1993). Les mi-cromondes bénéficient beaucoup des synthétiseurs (Herr Kommissar, DeS-medt, 1995, §B.3.5, Douglas, 1995; Tomlin, 1995, LingWorlds). Ordictée (Guyomard et al., 1997) est une application de dictée vocale à correction automatique. En outre, on peut aussi citer les logiciels SAFRAN (§B.2.30, Hamel, 1996), le logiciel de Skrelin et Volskaja (1998), VINCI (Thomas et al., 2004a, §B.2.38) etITSPOKE(Forbes-Riley et Litman, 2005, §B.2.41).

Pour conclure, nous passons à un court bilan de l’application de la syn-thèse vocale et aux perspectives d’avenir. L’intelligibilité de la synsyn-thèse vo-cale est aujourd’hui suffisante pour une application pédagogique. Les syn-thétiseurs vocaux permettent de choisir plusieurs voix, et il devient plus difficile de distinguer une voix de synthèse d’une voix naturelle. Cette tech-nique convient parfaitement pour lire un énoncer, dicter un texte, donner la prononciation d’un mot ou d’une phrase, etc.

Par contre, la technique n’est sans doute pas encore parfaitement mûre pour entraîner la compréhension orale ou pour des systèmes de dialogue réaliste. Il faudrait faire varier la prosodie en fonction de l’énoncé, faire ressentir les émotions, varier les registres, etc. L’application de la prosodie a certainement une grande marge de progrès. On pourrait passer par une analyse sémantique de l’énoncé, mais cette solution est encore irréaliste.

Cependant, vu le coût de production de séquences pédagogiques audio ou vidéo ou d’acquisition de documents authentiques, la synthèse vocale est un bon compromis.

Enfin, signalons une piste prometteuse du côté du paramétrage fin de la synthèse vocale. Du côté de l’enseignant, il serait judicieux de pouvoir don-ner des indications au synthétiseur pour accentuer un aspect particulier. Le modèle de l’apprenant (§2.7.4) pourrait aussi fournir des indications utiles sur les lacunes de l’apprenant et sur les aspects à mettre en valeur. En-fin, l’apprenant lui-même devrait pouvoir intervenir sur certains aspects de l’énoncé, pour observer l’effet des modification, ou simplement pour ralentir

17. Cependant, dans une évaluation, Handley et Hamel (2005) constatent que la synthèse vocale est davantage appréciée comme partenaire de conversation ou comme système de lecture que comme aide à la prononciation.

ou accélérer le débit ou accentuer ou diminuer l’amplitude.