• Aucun résultat trouvé

Quelques perspectives

Nous avons proposé d’utiliser des ressources multilingues pour la modélisation acoustique non native. Nos expériences montrent que trois types de données de parole sont utiles pour adapter le modèle non natif. Ce sont les données correspondant à la langue maternelle du locuteur (L1), des données de parole non native prononcées par des locuteurs de même origine, mais dans des langues différentes de la langue cible (L2), et des données correspondant à une langue proche de la langue maternelle du locuteur (L3). Dans ce manuscrit, nous n’étudions pas les caractéristiques qui déterminent la proximité des langues. Une analyse approfondie dans ce sujet sera certainement utile pour trouver davantage de ressources multilingues utiles pour la modélisation non native. De plus, l’adaptation acoustique multilingue est faite en trouvant pour chaque phonème de la langue cible avec un phonème correspondant de la langue source. En fait, les ressources multilingues peuvent être employées d’une différente manière qui est plus intelligente pour créer des modèles non natifs plus performants. De multiples phones de différents corpus multilingues peuvent être utilisés pour adapter un phone d’une langue cible. Une approche qui prend en considération le type, le contexte et la quantité de la parole dans chaque corpus source pourrait certainement améliorer davantage le modèle acoustique pour les locuteurs non natifs. Si quelques phrases non natives sont disponibles, elles peuvent probablement être utilisées pour sélectionner les meilleures phones des ressources multilingues pour l’adaptation, en utilisant des

mesures de distance par exemple la distance de HMM [Juang 1985], l’approche PDTS (Polyphone Decision Tree Specialization) [Schultz 2000] et d’autres qui sont proposées pour la modélisation acoustique multilingue.

L’approche hybride d’interpolation et de fusion est une méthode prometteuse pour modéliser le transfert translingue et le contexte pour des locuteurs non natifs. La performance de l’approche dépend du poids à priori qui est assigné. Nous n’avons pas proposé une méthode automatique pour estimer le poids de modélisation hybride. Une solution simple qui peut être appliquée si nous avions quelques phrases du locuteur, est de faire des alignements forcés avec les modèles acoustiques pré-adaptés (de l’approche hybride), et de mesurer le score acoustique. Le modèle qui donne le score le plus élevé sera choisi. Toutefois, une méthode plus souple qui peut estimer automatiquement les poids serait préférable.

En raison de la difficulté à acquérir la parole non native spontanée, nous n’abordons pas le sujet de l’adaptation du modèle de langage. Les études montrent que les locuteurs non natifs sont susceptibles de transférer leur vocabulaire et leur grammaire native à la langue cible. Il serait intéressant de voir s’il est possible d’utiliser la langue maternelle du locuteur pour adapter le modèle de langage. Les modèles de langage factorisés (Factored language models), qui sont une extension des modèles de langage n-gramme classiques, pourraient être utiles pour cela. La classe lexique ou sémantique peut être attribuée aux mots dans la langue cible et source. Les trigrammes de classe lexique qui représentent les règles de grammaire, et les vocabulaires de langue maternelle du locuteur qui ont les graphèmes similaires par rapport aux vocabulaires de la langue cible pourraient être transférés à la langue cible, par exemple en interpolant les modèles de langage cible et source.

L’alternance codique (code switching) est de plus en plus courante parmi les locuteurs de nos jours. Il s’agit d’une alternance de deux ou plusieurs langues ou dialectes dans une même conversation. Généralement, les personnes impliquées connaissent les langues ou dialectes utilisés. Dans des discours qui concernent l’alternance codique, les études montrent que 84% des cas impliquent l’alternant d’un seul mot, 10% alternant d’une phrase, et 6% alternant d’une proposition (clause) [Skiba 1997]. L’alternance codique est utilisée comme une stratégie par les locuteurs pour surmonter la difficulté à exprimer une idée en langue courante. En conséquence, il doit passer temporairement à une autre langue. Par exemple, dans le domaine de la science et de la technologie, les locuteurs peuvent avoir la difficulté à présenter clairement les termes ou les idées en langue maternelle, donc ils peuvent passer à l’anglais pour l’exprimer. L’alternance codique peut également se produire pour des raisons sociales, par exemple pour s’identifier comme appartenant à un groupe particulier. Par exemple, l’anglais singapourien (Singlish, dialecte anglais parlé à Singapour) est un mélange d’anglais, de malais, de minnan, de teochew et de cantonais. Il est associé à l’identité des Singapouriens. Enfin, l’alternance codique peut également se produire lorsque les locuteurs impliqués veulent limiter une partie de la conversation à un groupe particulier. L’alternance codique est une difficulté supplémentaire pour les systèmes de reconnaissance automatique de la parole. Un système d’identification de la langue typique aura la difficulté parce que la période de changement n’est pas connue et la durée d’alternance est très courte puisqu’elle peut concerner seulement un mot. Par conséquent, la

combinaison de systèmes de reconnaissance vocale en plusieurs langues, avec un système d’identification de la langue pour traiter l’alternance codique n’est pas une bonne solution. Une autre possibilité consiste à traiter l’alternance codique comme un système indépendant. Cela signifie que les modèles cibles contiennent les unités acoustiques, les vocabulaires et la grammaire pour toutes les langues impliquées. En terme de modélisation acoustique, la question intéressante est ce qui concerne la modélisation des différentes unités acoustiques. Nos approches proposées pour la modélisation acoustique peuvent être utiles. Les phonèmes similaires de différentes langues sont modélisés une fois seulement dans un modèle acoustique. Toutefois, les nouveaux phonèmes qui n’existent pas dans la langue cible doivent être adaptés et ajoutés. Les mots des langues impliqués doivent être ajoutés au dictionnaire de prononciation et pris en compte dans le modèle de langage cible. Une étude approfondie des habitudes du locuteur à propos de l’alternance codique peut être également nécessaire. En terme de modèle de langage, il est difficile d’adapter le modèle de langage cible puisque l’alternance codique est observable seulement en conversation, mais pas dans les textes écrits. L’alternance codique n’est pas un processus aléatoire et elle suit certaines règles ou contraintes. Deux contraintes limitent l’alternance chez les locuteurs [Skiba 1997]. Premièrement, les contraintes articulatoires impliquent que le locuteur alterne avec les mots de la langue qui ont une certaine forme similaire à la langue cible. Deuxièmement, une autre contrainte indique que l’alternance codique n’est possible que si elle ne viole pas les grammaires des deux langues. Il serait intéressant de savoir comment ces règles linguistiques peuvent être combinées avec les modèles de langage n-gramme. L’alternance codique est donc un nouveau territoire qui est intéressant et mériterait d’être étudié.

La mesure de confiance pour la parole non native est aussi un sujet intéressant. L’objectif de la mesure de confiance est d’évaluer la qualité du décodage. Dans le domaine de l’apprentissage des langues assistées, la mesure donne aux apprenants une idée de la qualité de leur prononciation. La plupart des techniques existantes sont construites pour analyser la parole native. Des tests doivent être effectués pour savoir si ces approches peuvent être utilisés pour la parole non native. Le système doit être capable d’analyser et de comparer la prononciation des locuteurs non natifs à différents niveaux, par exemple les phonèmes, les syllabes, les mots et les phrases, pour les aider à connaître les types d’erreurs qu’ils font souvent. En plus, la mesure de confiance peut être intégré dans des systèmes de reconnaissance automatique de la parole non native. Pour les décodages en dessous du seuil de mesure, un traitement supplémentaire peut être effectué, ou le locuteur peut répéter ce qu’il a dit. Cela permettrait d’améliorer la performance du système de reconnaissance de parole non native.

Documents relatifs