Accroître la robustesse du système de compréhension aux erreurs de tra-

L’exemple donné précédemment peut alors être représenté sous la forme suivante :

En utilisant l’option de MOSES qui prend en compte les tags XML comme informa-tion de segmentainforma-tion, nous obtenons la sortie traduite suivante :

Tout le corpus d’apprentissage est traduit de cette façon avant un nouvel apprentis-sage du modèle de compréhension en langue cible.

4.5 Accroître la robustesse du système de compréhension aux erreurs de traduction

Nos expériences (qui seront présentées plus loin dans ce manuscrit), ainsi que d’au-tres travaux (Lefèvre et al., 2010; Jabaian et al., 2010), ont montré que la méthode la plus performante pour la portabilité d’un système de compréhension est aussi la plus simple, la méthode TestOnSource. Le défaut principal de cette méthode est que la qua-lité de l’étiquetage sémantique dépend principalement de la quaqua-lité de la traduction préalable. Ainsi, le système de compréhension doit prendre en compte des entrées brui-tées par des erreurs de traduction.

Afin d’améliorer la robustesse de cette approche, nous proposons deux méthodes différentes qui peuvent être utilisées séparément ou mises en cascade. La première prend en compte le bruit venant de la traduction durant le processus d’apprentissage des modèles de compréhension ; la seconde corrige automatiquement la sortie du sys-tème de traduction avant de la transférer au syssys-tème de compréhension. Il est important de noter que, bien que pas encore évaluées dans ce cadre, les deux méthodes sont aussi

tel-00818970, version 1 - 30 Apr 2013

FIGURE4.7 –Accroître la robustesse de la méthode TestOnSource en utilisant des données d’ap-prentissage bruité.

tout à fait adaptées pour traiter les erreurs dues à la reconnaissance automatique de la parole dans le cadre d’un système de dialogue réel.

4.5.1 Apprentissage sur des données bruitées (SCTD)

Vu que l’étiqueteur sémantique utilisé dans la méthode TestOnSource est appris sur des données propres (corpus source), sa capacité à étiqueter correctement des données bruitées (sortant d’un traducteur automatique) peut être limitée dans certains cas. Pour cela nous proposons une méthode d’apprentissage sur des données bruitées (Smeared Crosslingual Training Data, SCTD) dans laquelle des données similaires aux entrées automatiquement traduites sont prises en compte durant l’apprentissage du modèle.

Le principe de cette méthode est d’apprendre un modèle de compréhension (dans la langue source) avec des données additionnelles provenant de la sortie d’un système de traduction automatique.

En pratique, nous proposons de traduire les données d’apprentissage disponibles de la langue cible vers la langue source et ensuite d’inférer les concepts associés à ces don-nées bruitées (en suivant la même méthode que TrainOnTarget). Puis nous ajoutons les données corrompues (maintenant annotées sémantiquement) aux données originales et l’ensemble est utilisé pour apprendre un nouveau modèle de compréhension (dans la langue source) qui alors intégrera le bruit présent dans les données traduites. Cette méthode est illustrée dans la FIGURE4.7.

tel-00818970, version 1 - 30 Apr 2013

4.5. Accroître la robustesse du système de compréhension aux erreurs de traduction

FIGURE4.8 –La mise en série des méthodes proposées pour accroître la robustesse de la méthode TestOnSource aux erreurs de traduction.

4.5.2 Post-édition statistique (SPE)

Plusieurs travaux récents en traduction automatique comme (Simard et al., 2007;

de Ilarraza et al.,2008;Béchara et al.,2011), ont proposé d’utiliser une approche basée sur un système de traduction pour post-éditer les sorties d’un autre système de tra-duction. Un tel système de post-édition statistique (Statistical Post Edition, SPE) a été proposé pour améliorer la qualité des données traduites avant leur envoi à des post-éditeurs humains. Pour entrainer un tel post-éditeur, (Simard et al., 2007;de Ilarraza et al.,2008) utilisent les sorties d’un système de traduction avec comme données paral-lèles leur post-édition manuelle.

Dans notre cas, dans la mesure où la sortie du système de traduction sera utilisée comme entrée du système de compréhension entrainé sur les données en langue source, nous proposons de post-éditer cette sortie afin de diminuer le bruit dû à la traduction.

Pour apprendre un post-éditeur statistique, notre choix a été de traduire automa-tiquement l’ensemble des données disponibles dans la langue cible, puis d’utiliser les sorties traduites avec leurs versions originales transcrites manuellement, comme cor-pus parallèle. Nous pensons que le module de post-édition permettra ainsi de réordon-ner quelques mots ou de retrouver des mots manquants dans un certain nombre de phrases. La FIGURE4.8illustre la mise en série des deux méthodes proposées pour la robustesse des systèmes de compréhension.

tel-00818970, version 1 - 30 Apr 2013

4.6 Conclusion

La portabilité d’un système de compréhension a pour but de minimiser le coût et l’effort humain lié à la création d’un nouveau système. Dans ce chapitre nous avons proposé plusieurs méthodes pour une portabilité rapide d’un système de compréhen-sion de la parole vers une nouvelle langue. Ces méthodes, basées sur des techniques de traduction automatique, peuvent être classées dans deux catégories : la première pro-pose de porter le système au niveau du test et donc traduire les entrées de l’utilisateur sans devoir apprendre un nouveau système ; la deuxième cherche à apprendre un nou-veau système dans la nouvelle langue et donc porter les données d’apprentissage déjà disponibles vers la langue cible. Deux méthodes sont proposées pour accroître la ro-bustesse du système de compréhension aux erreurs de traduction automatique. L’éva-luation et la performance des méthodes proposées dans ce chapitre seront présentées dans le chapitre suivant.

tel-00818970, version 1 - 30 Apr 2013

Chapitre 5

Portabilité : expériences et résultats

Sommaire

5.1 Introduction . . . . 80 5.2 Matériau expérimental. . . . 80 5.2.1 Le corpus MEDIA . . . . 80 5.2.2 Les métriques d’évaluation . . . . 83 5.2.3 Les systèmes de traduction . . . . 83 5.3 Evaluation des approches proposées pour la portabilité . . . . 85 5.3.1 Les modèles de référence . . . . 85 5.3.2 Evaluation sur la totalité des données . . . . 86 5.3.3 Evaluation sur des données partielles . . . . 88 5.3.4 Evaluation des méthodes robustes aux erreurs de traduction. . 89 5.3.5 Combinaison . . . . 90 5.4 Validation des approches de portabilité proposées . . . . 91 5.4.1 Validation en utilisant des traductions en ligne . . . . 91 5.4.2 Validation sur une autre langue (arabe) . . . . 93 5.4.3 Pré-annotation automatique. . . . 95 5.5 Conclusion . . . . 98

tel-00818970, version 1 - 30 Apr 2013

5.1 Introduction

Le choix d’un couple de langues pour appliquer les méthodes proposées dans cette thèse dépend de considérations techniques et également des données disponibles.

Disposer de données manuellement traduites ou annotées, disposer d’annotateurs ou d’outils spécifiques pour la langue cible, peut faire la différence quant au choix des langues. Dans cette thèse, nous avons proposé plusieurs approches pour la portabilité d’un système de compréhension automatique de la parole vers une nouvelle langue.

Vu la disponibilité du corpus de dialogue MEDIA, la langue source est le français tan-dis que la langue cible considérée est l’italien puisque nous tan-disposons au départ d’une partie du corpus MEDIAtraduite manuellement en italien. La description des données disponibles ainsi que les outils et les métriques utilisés dans cette thèse se trouvent dans la section5.2.

L’évaluation et la comparaison des approches proposées pour la portabilité ainsi que les approches proposées pour la robustesse des systèmes sont présentés dans la section 5.3. Nos premières évaluations des approches de portabilité du français vers l’italien supposent la disponibilité d’une partie des données françaises traduites ma-nuellement en italien. Nous sommes conscients de la proximité des langues source et cibles dans cette étude et aussi de la difficulté à obtenir dans tous les cas des données cibles manuellement traduites, donc nous proposons une validation de ces approches une fois en utilisant des traductions en ligne et une autre fois en utilisant une langue cible différente de l’italien (l’arabe). Pour finir nous validons aussi nos propositions dans le cadre d’un scénario d’annotation semi-automatique réalisé dans le cadre du projet PORT-MEDIA1.3. Les différentes validations sont présentées dans la section5.4.

Dans le document Systèmes de compréhension et de traduction de la parole : vers une approche unifiée dans le cadre de la portabilité multilingue des systèmes de dialogue ~ Association Francophone de la Communication Parlée (Page 75-80)