• Aucun résultat trouvé

Réglage de la reconnaissance automatique spécifiquement pour

6.3 Étude de l’interaction avec la reconnaissance automatique

6.3.4 Réglage de la reconnaissance automatique spécifiquement pour

le taux WER passe de 40 à 25 %, mais semble plafonner pour des taux inférieurs. Dans tous les cas, l’évolution du score Bleu reflète celle de l’évaluation humaine, même si cette dernière semble plus sensible aux erreurs introduites par la reconnaissance automatique que ne l’est Bleu.

6.3.4 Réglage de la reconnaissance automatique spécifiquement pour la traduction

Enfin, un dernier axe de recherche que nous évoquons est l’opportunité de modifier la façon dont fonctionne la reconnaissance automatique en vue d’optimiser les per-formances globales de la traduction de la parole. En effet, les systèmes de RAP sont attentivement développés de manière à diminuer le taux de mots erronés. Mais on peut envisager de « dérégler » ces systèmes, quitte à légèrement augmenter le taux de mots erronés, pour faire en sorte que leur sortie soit malgré tout mieux traduite. Voici les quelques articles que nous avons recensés sur ce sujet.

Dans [Gales et al., 2007], plusieurs stratégies de combinaison de systèmes de RAP sont comparées du point de vue de la traduction. Les tâches considérées sont la traduction de journaux télévisés et d’interviews de l’arabe vers l’anglais et du mandarin vers l’anglais.

À chaque fois, deux systèmes de RAP sont combinés ou bien par ROVER, ou bien paradaptation croisée. L’adaptation croisée permet d’adapter les modèles acoustiques d’un système en lui présentant la sortie d’un autre système. Pour la traduction de l’arabe vers l’anglais des journaux télévisés, alors que la combinaison par ROVER obtient de meilleurs taux de mots erronés que la combinaison par adaptation croisée, la traduction du résultat de l’adaptation croisée est très légèrement meilleure que la traduction du ROVER. Les résultats dans les autres conditions sont plus contrastés, mais il en ressort que les gains en taux de mots erronés obtenus par le ROVER par rapport aux systèmes seuls ne se répercutent pas toujours en une amélioration de la traduction. Pour expliquer ce résultat, Gales et al. [2007] rappellent que la combinaison ROVER est déterminée en deux étapes : l’alignement des hypothèses de reconnaissance et le vote sélectionnant les mots. Ces deux étapes sont susceptibles de « casser » des groupes de mots, ce qui peut gêner la traduction.

Nous avons exploré une idée similaire à l’aide d’expériences où étaient traduites une combinaison de systèmes par ROVER, une sortie d’un système avec décodage consen-sus et une sortie sans décodage consenconsen-sus. En effet, le décodage consenconsen-sus comme le ROVER permettent d’abaisser le taux WER mais le font en contredisant les choix du modèle de langage source. Ces expériences sont décrites dans [Déchelotte et al., 2007a]

et au chapitre 8.

6.3. Étude de l’interaction avec la reconnaissance automatique 103

Dans [Al-Onaizan and Mangu, 2007], plusieurs modifications sont apportées au système de RAP dans le but d’améliorer la traduction de sa sortie. Parmi ces modifications, le vocabulaire du système de RAP est étendu pour inclure celui du système de traduction.

De plus, un modèle de langage est construit en incluant des mots composésartificiels, correspondant aux entrées de la table de traduction qui apparaissent au moins 20 fois dans les données d’entraînement. Malheureusement, l’article ne fournit pas les résultats de ces expériences. Par ailleurs, les poids du système de RAP sont modifiés de telle sorte qu’il ait plus tendance à supprimer des mots de la transcription. Cette tendance est mesurée par le ratio du nombre de suppressions par celui d’insertions. Deux points de fonctionnement sont comparés, entre lesquels le scoreBleuest pratiquement inchangé mais le taux TER s’améliore légèrement.

Nous étudions plus en détail le lien entre les taux d’insertions et de suppressions de la reconnaissance et les performances de la traduction au chapitre 8.

Dans [Zhou et al., 2007], l’objectif est de faire préférer à la reconnaissance les groupes de mots que la traduction connaît et sait bien traduire. Pour cela, le système de RAP est modifié par le biais de son modèle de langage. Un nouveau modèle de langage est appris uniquement sur les groupes de mots source de la table de traduction, un poids plus important étant attribué aux groupes de mots source dont la traduction est peu ambiguë. Ce modèle de langage est alors interpolé avec le modèle utilisé normalement par le système de RAP. Le modèle de langage interpolé parvient à améliorer le taux WER de la reconnaissance automatique de près de 2 points sur les données de test, mais ses effets sur la traduction ne sont sensibles que sur le système de traduction entraîné sur peu de données, avec des gains entre 0,4 et 0,8 pointBleu.

Chapitre 7

Traduction d’un flux de mots

7.1 Introduction

Ce chapitre traite de plusieurs aspects spécifiques de la traduction de la parole et se place dans la situation suivante. Étant donné un flux audio, un système de reconnais-sance de la parole produit un flux de mots dans une langue source, et ce flux doit être traduit en une série de phrases dans une langue cible. Dans ce chapitre, le système de RAP est considéré comme une « boîte noire » ; il peut s’agir d’un seul système ou d’une combinaison de systèmes développés sur plusieurs sites. Le système de traduction n’a accès qu’à la suite de mots, éventuellement pourvus d’indications temporelles, que le système de RAP considère être sa meilleure hypothèse. Par contraste, le chapitre suivant envisagera une interaction plus étroite avec le système de reconnaissance de la parole.

L’approche poursuivie dans ce chapitre est d’identifier et de corriger les divergences entre les données servant à entraîner le modèle de traduction et les données effecti-vement traduites pendant la phase d’évaluation. Plus précisément, voici les difficultés pour lesquelles nous proposons des solutions :

1. Les transcriptions de la parole peuvent contenir des disfluences, comme des hé-sitations, des répétitions, des mots d’appui, etc, qui apparaissent naturellement dans la parole. Le système de traduction doit reconnaître et supprimer ces phé-nomènes de la traduction1.

2. La parole n’est pas segmentée explicitement en phrases, et retrouver cette seg-mentation automatiquement est une tâche difficile qui implique d’exploiter des informations linguistiques et acoustiques. De plus, les règles de placement des ponctuations faibles et moyennes (les virgules, par exemple) ne sont pas claire-ment définies et les systèmes de RAP sont souvent construits et développés sans comptabiliser les signes de ponctuation dans les taux de mots erronés.

3. Enfin, la normalisation des mots produits par la RAP peut être différente de celle attendue par le système de traduction, et aboutir à des performances

sous-1C’est du moins la consigne qui semble avoir été communiquée pour la traduction manuelle des données de développement.

106 Chapitre 7. Traduction d’un flux de mots

optimales. Cet écueil est particulièrement sensible lorsque l’on traduit la sortie d’un système de RAP développé par un autre site, ou que l’on traduit le résultat d’une combinaison de systèmes.