• Aucun résultat trouvé

Chapitre 5. Simulation d’une mémoire de traduction

5.2. Simulation de la traduction d’une année d’alertes

5.2.1. Résultat de la simulation

La figure 5.2 montre le résultat de la simulation sur un an, pour une mémoire initialisée avec le corpus portage et avec la sauvegarde des nouvelles phrases activées. On observe un ratio de match moyen des phrases autour de 55% dans les deux directions. Le taux de phrases multimatchées oscille autour de 12%. La figure 5.3 compare les performances de matchs pour les deux directions avec ou sans sauvegarde des nouvelles alertes traduites. Cette mémoire est initialisée avec le corpus portage. Enfin, la figure 5.4 compare les performances de matchs entre les différents corpus d’initialisation, empty, portage et portage+sftp-beforeMars2018, avec la sauvegarde des nouvelles alertes activée.

Ces trois simulations permettent de mettre en évidence l’apport du corpus d’initialisation et de la redondance intrinsèque du corpus de test.

Comme on peut le voir sur les statistiques de la table 5.6, le ratio de phrases distinctes dans le corpus sftp-mars2018-test est de 53,6 %, donc le ratio de phrases redondantes est

ra tio p hr as es ra tio p hr as es

Fig. 5.2. Pourcentage de matchs (figure du haut) et pourcentage de multimatchs (figure du bas) pour les groupes de 100 phrases pour une simulation de la mémoire de traduction sur un an, initialisé avec le corpus portage et une stratégie de sauvegarde.

de 46,4%. Sachant que dans cette simulation, dès qu’une phrase est traduite, elle est auto- matiquement sauvegardée dans la mémoire avec sa référence, la redondance dans le corpus augmente automatiquement le ratio de matchs. Cette redondance joue la part principale des matchs comme on peut l’observer sur la figure 5.3, ou l’on peut voir que la grande majorité des matchs proviennent de la redondance du corpus de test. En effet, lorsque la sauvegarde est désactivée, on peut voir le ratio de matchs tomber alors autour de 8% en moyenne.

La figure 5.4 montre les différences de performances entre différents corpus d’initialisa- tion. Le corpus empty initialise la mémoire dans un état vide, le corpus portage correspond au même corpus que les deux expériences précédentes et portage+sftp-beforemars2018 cor- respond à la concaténation de portage et de sftp avant mars 2018.

ra tio p hr ases ra tio p hr as es

Fig. 5.3. Taux de matchs et de multimatchs pour les groupes de 100 phrases pour la si- mulation de la mémoire de traduction sur 1 an et initialisée avec le corpus portage, si on sauvegarde ou non les nouvelles phrases.

en2fr fr2en nombre de phrases 55 056 5 612

Tab. 5.7. Nombre de phrases de chaque direction dans le corpus sftp-test-Mars2018.

nb phrases distinctes Fr nb phrases distinctes En

portage 1 401 (4,5 %) 1 032 (3,9 %)

portage+sftp-before201803 1 721 (5,5 %) 1 303 (4,9 %)

Tab. 5.8. Nombre de phrases et ratio des phrases distinctes à la fois dans sftp-201803-test et les corpus d’initialisations. Moins de 6% des phrases sont présentes dans les corpus d’initialisations.

Sur la table 5.8, on observe que le recouvrement entre portage-train et sftp-test-201803 est d’environ 5% pour chaque direction de traduction. Dans le cas de la mémoire sans sau- vegarde, il faut prendre en compte la redondance du corpus de test pour retrouver les 8% de matchs observés sur les résultats de l’expérience : 5% × (1 + 10055) ≈ 8%. On observe

ra tio p hr ases ra tio p hr as es

Fig. 5.4. Taux de matchs et de multimatchs pour les groupes de 100 phrases pour la simu- lation de la mémoire de traduction sur 1 an, en fonction du corpus d’initialisation, avec la sauvegarde des nouvelles phrases activées.

une grande différence de performance entre l’expérience avec sauvegarde et l’expérience sans sauvegarde, autour de 45% de matchs en moins. Cette différence importante indique que seulement une faible portion des 45% des phrases redondantes dans sftp sont présentes dans portage, et donc que la sauvegarde est un paramètre important permettant d’utiliser au mieux la redondance des phrases. Cependant, la performance moyenne de la mémoire ne semble pas s’améliorer au cours du temps, et cela semble indiquer que la sauvegarde d’une phrase au temps T n’a pas une grande influence sur la performance de traduction des nou- velles phrases pour t >> T . C’est-à-dire qu’une partie importante des nouvelles phrases n’ont jamais été vues auparavant, l’accumulation d’un grand corpus de phrases du passé ne permettrait de traduire qu’environ 5% des nouvelles phrases non redondantes.

On observe également que la variance dans la direction de traduction du français vers l’anglais est plus importante que de l’anglais vers le français. Cela s’explique par le fait

que le nombre de phrases dans la direction du français vers l’anglais est dix fois inférieur à l’anglais vers le français, comme on peut le voir sur la table 5.7.

Le taux de multimatchs est en moyenne plus élevé du français vers l’anglais, ce qui est cohérent avec les facteurs de branchement observés dans portage pour chacune des langues. Comme expliqué dans la partie sur la traduction automatique, cela est dû au fait que les phrases sont plus souvent traduites dans la direction de l’anglais vers le français.

La différence de performance observée pour l’expérience avec le corpus vide et l’expé- rience avec portage est seulement de 4% de matchs environ. Ce résultat est cohérent avec la redondance entre sftp-201803-test et portage-train, car il indique que le corpus de test contient déjà suffisamment de redondance pour quasiment recréer les résultats du corpus de portage. L’apport de sftp-mars2018 n’apporte pas de gain important de performances, seulement 2% environ.

Documents relatifs