• Aucun résultat trouvé

Comparaison selon l’état initial : corpus parallèle ou parallèle bruité ? . 103

Chapitre 6 : Apprentissage non supervisé pour la traduction automatique :

6.1. Présentation des approches utilisant la technique RIT à base d’un système de

6.2.2. Comparaison selon l’état initial : corpus parallèle ou parallèle bruité ? . 103

*

2

Ensuite, les distributions des scores d’évaluation pour trois groupes de phrases (235 paires pour chaque groupe) sont calculées et présentées dans la Figure 6-5. Le but est de vérifier si l’utilisation des mesures automatiques dans le module de recherche d’information permet de bien classifier les phrases.

Si nous comparons les deux systèmes Sys1 et Sys2, nous constatons que les distributions des scores ont tendance à avoir la même forme. L’utilisation des mesures reposant sur des taux de mots erronés tels que WER, PER, TER pour classifier des groupes de phrases semble cependant peu efficace. Par contre, les mesures reposant sur des ressemblances telles que BLEU, NIST et SWR peuvent classifier des phrases dans une certaine mesure avec un seuil. Parmi les métriques d’évaluation, NIST et SWR semblent donner les meilleurs scores.

6.2.2. Comparaison selon létat initial : corpus parallèle ou parallèle

bruité ?

L’un des objectifs de ce test est de savoir si nous pouvons construire un premier module de traduction acceptable pour la tâche RIT à partir d’un corpus parallèle bruité, versus un corpus vraiment parallèle. Afin de bien contrôler l’expérimentation, nous avons choisi le couple de langues français – anglais. Les paires de phrases parallèles ont été choisies dans le corpus Europarl, version 3 [Koehn 2005].

Deux modules de traduction ont été construits, l’un fondé sur un corpus vraiment parallèle C1 (Sys3), un autre basé sur un corpus parallèle bruité C2 (Sys4) (Figure 6-6). Le corpus « artificiel » C2 a été construit par l’introduction d’un grand nombre de paires de phrases non-parallèles dans les données non-parallèles (50 %) (il peut ainsi être considéré comme un corpus parallèle bruité). Pour être cohérents avec le cas réel des langues peu dotées, la taille des données expérimentales a été choisie relativement petite. Ainsi, le corpus C1 ne contient que 50 000 paires de phrases parallèles correctes. Le corpus C2 contient 25 000 paires de phrases parallèles correctes (retirées à partir de C1) et 25 000 paires de phrases non-parallèles (créées manuellement). Le corpus D, données d’entrée pour le processus d’extraction, a été construit, quant à lui, avec 10 000 paires de phrases parallèles correctes et 10 000 paires de phrases non-parallèles, différentes des paires de phrases de C1 et C2. Afin de contrôler la précision et le rappel du processus d’extraction, ces paires de phrases sont marquées comme étant parallèles ou non parallèles.

Figure 6-6 : Comparaison selon l’état initial : corpus parallèle ou parallèle bruité pour le module de recherche d’information

La première question à laquelle nous voulons répondre tout d’abord est de savoir si le module de traduction basé sur un corpus parallèle bruité peut être utilisé pour filtrer les données d’entrée aussi efficacement que le module de traduction basé sur un corpus parallèle propre. Pour répondre à cette question, le côté français du corpus D a été traduit par les systèmes de TA Sys3 et Sys4. Ensuite, les traductions ont été comparées avec le côté anglais du corpus D. Trois métriques d’évaluation ont été utilisées pour cette comparaison : BLEU, NIST et SWR (les métriques d’évaluation WER, PER, TER ont, quant à elles, été écartées). Ensuite, les distributions des scores d’évaluation pour les paires de phrases parallèles correctes et les paires de phrases non-parallèles sont calculées et présentées dans la Figure 6-7.

A partir de la Figure 6-7 nous pouvons faire des observations intéressantes : les distributions des scores ont la même forme entre les deux systèmes Sys3 et Sys4. En particulier, les distributions des scores pour les paires non-parallèles sont presque identiques pour les deux systèmes. Ainsi, un corpus parallèle bruité (issu d’un corpus comparable) peut remplacer un corpus parallèle dans la construction du module de traduction initial. Par conséquent, cette méthode peut être réellement appliquée dans le cas du manque de données parallèles initial.

- Métrique d’évaluation : BLEU, NIST, SWR Corpus parallèle C1 : 50K paires Paires de phrases pertinentes Module de traduction Module de recherche d’information Phrase en langue cible Corpus D : 10K paires parallèles + 10K paires non parallèles

Module de recherche d’information translingue

- Métrique d’évaluation :

BLEU, NIST, SWR Corpus parallèle bruité C2 :

25K paires parallèles + 25K paires non parallèles

Module de traduction Module de recherche d’information Phrase en langue cible Corpus D : 10K paires parallèles + 10K paires non parallèles

Module de recherche d’informationtranslingue

SYS3 SYS4 Paires de phrases pertinentes voir la section 6.2.3 Le côté cible Le côté source Le côté cible Le côté source

Figure 6-7 : Les distributions des scores d’évaluation pour les paires de phrases parallèles et non parallèles des deux systèmes Sys3 et Sys4

Pour filtrer les paires de phrases, un seuil a été utilisé. Une paire est considérée comme une paire parallèle si sa métrique d’évaluation (BLEU, NIST, SWR) est plus grande qu’un certain seuil. Un autre résultat important que nous pouvons voir est que le SWR, un score simple et facile à calculer, peut être considéré comme le meilleur score pour filtrer les paires de phrases parallèles correctes. La F-mesure du processus d’extraction atteint 97,10 % (pour Sys3) et 94,24 % (pour Sys4) lorsque le seuil de SWR est 0,35. Le Tableau 6-2 présente la précision et le rappel du filtrage des paires de phrases parallèles des deux systèmes Sys3 et Sys4.

Tableau 6-2 : Précision et rappel du filtrage des paires de phrases parallèles (avec 10K paires des phrases parallèles correctes)

Filtré par

Sys3 – corpus vraiment parallèle Sys4 – corpus parallèle bruité

# de paires trouvées # de paires correctes Précisio n (%) Rappel (%) F1-mesure (%) # de paires trouvées # de paires correctes Précisio n (%) Rappel (%) F1-mesure (%) BLEU=0,1 6 908 6 892 99,76 68,92 81,52 6 233 6 218 99,75 62,18 76,61 NIST=4 8 350 8 347 99,96 83,47 90,97 7 110 7 108 99,97 71,08 83,08 SWR=0,3 10 342 9 785 94,61 97,85 96,20 10 110 9 468 93,65 94,68 94,16 SWR=0,35 9 764 9 595 98,27 95,95 97,10 9 236 9 064 98,14 90,64 94,24 SWR=0,4 9 390 9 333 99,39 93,33 96,27 8 682 8 629 99,38 86,29 92,37 SWR=0,5 8 191 8 187 99,95 81,87 90,00 7 154 7 150 99,94 71,50 83,36

6.2.3. Processus itératif dextraction

Malgré les résultats encourageants du paragraphe précédent, on remarque toutefois que le résultat du filtrage du système Sys4 est légèrement plus faible que celui du système Sys3 (le nombre de paires de phrases correctes extraites est réduit). C’est pourquoi nous proposons un processus itératif, afin d’améliorer la qualité du module de traduction, puis d’augmenter le nombre de paires de phrases extraites correctement.

A l’issue de la première extraction, les paires de phrases extraites sont combinées avec les données ayant servi à développer le module de traduction de référence S0, selon plusieurs manières pour créer un nouveau module de traduction. Nous espérons ici que les données

extraites vont permettre d’adapter le module de traduction vers le corpus d’extraction D, qui sera ainsi mieux traduit avec pour conséquence souhaitée une augmentation du nombre de paires de phrases correctes extraites.

Lors d’une nouvelle itération, on re-traduit le côté source par le nouveau module de traduction, re-calcule les métriques d’évaluation et re-filtre les paires de phrases parallèles. Pour utiliser les données extraites, quatre combinaisons différentes sont proposées :

- W1 : le module de traduction à la ieme étape est entraîné par un corpus consistant en C2 et Ei-1 (les données extraites à la dernière itération) ; E0 étant les données extraites lorsque le module de traduction est entraîné par C2 seulement (S0) ;

- W2 : à la ieme itération, une nouvelle table de traduction est construite basée sur des données extraites Ei-1 ; le module de traduction décode en utilisant deux tables de traduction combinées dans un modèle log-linéaire : S0 et cette nouvelle table ; les poids associés à chacune des tables sont identiques ;

- W3 : la même combinaison que W2, mais la table de traduction de S0 et la nouvelle table sont combinées en donnant plus d’importance aux données extraites Ei-1 (par exemple 1:2) ;

- W4 : le module de traduction à la ieme étape est entraîné par un corpus comprenant C2 et E0 U E1 U...UEi-1 (les données sont extraites aux itérations précédentes).

Augmenter le nombre de paires de phrases correctes extraites :

Les paires de phrases extraites sont combinées avec le système de référence S0 des quatre manières différentes citées ci-dessus. L’expérience avec les itérations a été effectuée pour le système Sys4 (corpus initial bruité). Afin d’obtenir le nombre maximal de paires de phrases correctes extraites, pour toutes les itérations, nous avons choisi le score d’évaluation SWR avec un seuil égal à 0,3, ce qui a donné un rappel maximum de 94,68 % pour le système de référence. La Figure 6-8 présente le nombre de paires de phrases extraites correctement après 6 itérations pour les quatre combinaisons différentes W1, W2, W3 et W4. Le nombre de paires correctes extraites est augmenté dans tous les cas, mais la combinaison W4 introduit le plus grand nombre de paires de phrases correctes. Les combinaisons W2 et W3 ne sont pas vraiment efficaces parce que la deuxième table de traduction est construite à partir d’une faible quantité de paires de phrases. La combinaison W4 semble plus efficace que la combinaison W1 car les données d’apprentissage de W4 sont meilleures que celles de W1.

Figure 6-8 : Nombre de paires de phrases extraites correctement après 6 itérations pour quatre combinaisons différentes

Augmenter la précision et le rappel du processus de filtrage :

La précision et le rappel de ces quatre combinaisons sont présentés dans la Figure 6-9. Parce que le processus de filtrage se concentre sur l’extraction du plus grand nombre de paires de phrases correctes extraites, la précision diminue. Toutefois, en utilisant la combinaison W4, le rappel après 6 itérations (97,77 %) atteint presque le rappel du système Sys3 (97,85 %).

Figure 6-9 : Précision et rappel du filtrage en utilisant des combinaisons différentes

Évaluation du module de traduction :

La qualité du module de traduction est évaluée également. Un ensemble de test contenant 400 paires de phrases parallèles français – anglais qui ont été extraites du corpus Europarl, est utilisé. Chaque phrase française n’a qu’une seule référence en anglais. La qualité est calculée selon BLEU, NIST et TER. La Figure 6-10 donne les scores d’évaluation pour les systèmes après chaque itération.

L’évaluation du module de traduction révèle un résultat important : la qualité du module de traduction augmente rapidement au cours des premières itérations, mais diminue après. Nous pouvons expliquer que, dans les premières itérations, un grand nombre de paires de phrases parallèles nouvelles sont extraites et sont incluses dans le modèle de traduction. Toutefois, dans les itérations suivantes, lorsque la précision du processus d’extraction diminue, des paires de phrases non pertinentes sont ajoutées au système ; le modèle de traduction est alors dégradé et la qualité du module de traduction est réduite. Après environ 3 ou 5 itérations, le score BLEU peut augmenter d’environ 2 points lorsque les données ajoutées sont faibles. Nous noterons qu’il n’y a ici aucun réglage des paramètres du modèle log-linéaire à chaque itération (pas de données de développement utilisées, etc.).

[Sarikaya 2009] présente une méthode semi-supervisée avec des itérations mais le système de TA initial est fondé sur un corpus parallèle. Ils utilisent la métrique d’évaluation BLEU pour le filtrage, et une combinaison semblable à notre combinaison W4. Cependant, à la différence de nos travaux systématiques, les auteurs ne fournissent pas une explication complète sur la façon dont ils choisissent la métrique d’évaluation, ou la méthode de combinaison (une seule méthode de combinaison est proposée) ; de plus, la fluctuation de la qualité du module de traduction après plusieurs itérations n’est pas mentionnée dans cette étude.

Figure 6-10 : Évaluation du module de traduction après itérations