• Aucun résultat trouvé

5.4. Alignement structurel

5.4.2. Évaluation du résultat

Dans cette section, nous évaluons d’abord le résultat de l’application de notre système à un

sous-corpus parallèle anglais-français utilisé pour la compagne d’évaluation ARCADE I. Ensuite, nous

réalisons une évaluation comparative sur les résultats d’alignement d’un texte trilingue pour 3 couples

de langues (anglais – en, français – fr, vietnamien – vn).

5.4.2.1. Corpus de référence

Le tableau Tableau 5-3 montre la taille de notre corpus d’évaluation. Il s’agit du roman Le petit

prince dans trois langues : français, anglais et vietnamien, et du corpus JOC, qui nous a été fourni pour

le test blanc de la campagne ARCADE II, en français et en anglais.

Corpus JOC Le petit prince

fr en fr en vn

Nombre d’unités lexicales 277 616 238 189 18 286 20 881 18 500

Nombre de phrases 9025 9035 1 674 1 660 1 663

Tableau 5-3 Dimensions du corpus de référence

Les alignements de référence sont, d’une part, fournis par la campagne ARCADE II (corpus JOC),

et d’autre part, obtenus par l’alignement automatique avec révision manuelle grâce à notre outil de

concordance multilingue (Le petit prince).

69 Rigoureusement, il serait nécessaire de calculer l'aire de la zone située de part et d'autre de l2n, à une distance inférieure à |l1n - l2n|, mais cela présente l'inconvénient de rendre la mesure asymétrique – le résultat n'est pas le même si l'on considère que la cible est l1 ou l2 –, et ne change pas les ordonnancements qualitatifs impliqués par la valeur calculée sur les paires de longueurs possibles.

Figure 5-3 Proportion des types d’alignement du corpus JOC fr – en

La Figure 5-3 présente la proportion des types d’alignement du corpus JOC. Environ 95% des

alignements sont des substitutions (alignements 1-1) ; des 5% qui restent, la plupart sont des

alignements 2-1 ou 1-2 (compression ou extension). Un dixième des alignements non 1-1 concerne les

« grande compression », c’est-à-dire les alignements m :1 ou 1 : m, où m≥ 3. Nous avons remarqué

que la valeur au pire de m est 5, et que la plupart des cas d’alignements sont du type m : 1 (m phrases

françaises alignées à une phrase anglaise). Cela vient en particulier du fait que ces « phrases »

anglaises se composent d’une séquence de « phrases » courtes séparées par des « ; ». Le même

phénomène est observé dans le texte Le Petit Prince en anglais, ce qui explique en partie la proportion

des alignements 1-1 est plus élevée pour le couple de langues fr-vn (cf. Figure 5-4, Figure 5-5, Figure

5-6). Cela illustre l’impact possible sur l’alignement des choix de segmentation : peut-être serait-il

préférable, bien qu’il ne s’agisse pas « officiellement » d’une ponctuation forte, de considérer en

anglais le point virgule comme une limite de phrase.

Figure 5-4 Proportion des types d’alignement du texte Le Petit Prince français - anglais

Compression 75% Mélange 5% Suppression 5% Grande compression 15% Substitution 90% Autres 10% Grande Autres 5% Compression 90% Mélange 2% Suppression 1% compression 7% Substitution 95%

Figure 5-5 Proportion des types d’alignement du texte Le Petit Prince français – vietnamien

Figure 5-6 Proportion des types d’alignement du texte Le Petit Prince anglais – vietnamien

Une autre source de complexité de l’alignement dans le corpus Le Petit Prince, pour les couples

fr-en et fr-en-vn, est que la représfr-entation des dialogues dans la version anglaise est différfr-ente par rapport

au français et au vietnamien, ce qui implique une segmentation non cohérente entre ces trois langues.

Nous avons également noté que toutes les suppressions recensées apparaissent dans les versions

anglaises et vietnamiennes – ce qui est logique puisqu’elles correspondent majoritairement à des

défauts de traduction.

Nous passons maintenant aux résultats d’alignement de ces textes, obtenus par notre système

d’alignement structurel.

5.4.2.2. Résultat

Pour l’évaluation du résultat d’alignement, nous faisons appel aux taux de précision et de rappel,

ainsi qu’à la F-mesure, présentés à la section 5.2.2. Les mesures de précision et de rappel sont

calculées avec les longueurs définies en nombre de caractères.

Le Tableau 5-4 présente les valeurs de ces trois indices pour l’alignement structurel appliqué sur le

corpus JOC dans les deux langues française et anglaise, ainsi que le corpus Le Petit Prince dans les

trois langues fr, en et vn.

Substitution 95% Autres 5% Compression 92% Mélange 3% Suppression 2% Grande compression 3% Substitution 91% Autres 9% Compression 74% Mélange 6% Suppression 5% Grande compression 15%

Corpus JOC Le Petit Prince

fr – en fr – en fr – vn en – vn

Précision 99,09% 96,02% 90,46% 81,42%

Rappel 97,52% 90,96% 87,73% 76,21%

F-mesure 98,30% 93,42% 89,08% 78,73%

Tableau 5-4 Évaluation du résultat de l’alignement structurel

Comme nous pouvons le constater, l’alignement fr-en est en général d’assez bonne qualité, en

particulier pour le texte institutionnel JOC. Pour le texte trilingue Le Petit Prince, le résultat se

dégrade progressivement en passant du couple fr–en au couple fr–vn, puis en–vn. Il peut paraître

surprenant au premier abord que l’alignement fr-vn soit de qualité si moyenne alors que, d’après la

Figure 5-5, il s’agit du bitexte pour lequel la plus grande partie des alignements sont de « simples »

substitutions (1 : 1). L’explication de ce phénomène est donné par la Figure 5-7 (page suivante), qui

présente la répartition des rapports de longueur entre phrases alignées pour les trois couples de langue

fr-en, fr-vn et en-vn. Le couple fr-en est celui pour lequel les rapports sont les plus cohérents, montrant

un « pic » marqué vers la valeur 0,95 ; ensuite vient le couple fr-vn, pour lequel la variance de ce

rapport est plus importante, et enfin en-vn, pour lequel les valeurs sont très étalées. Cette

caractéristique est naturellement un obstacle au fonctionnement de notre méthode, qui se fonde sur

l’hypothèse simplificatrice que ce rapport est sensiblement constant. Le Tableau 5-5 donne un aperçu

synthétique de cette différence en présentant les moyennes et écarts types des rapports observés.

On constate à l’étude des textes parallélisés qu’il arrive que certaines phrases soient « résumées »

dans la traduction vietnamienne par rapport à leur contenu original, ce qui explique la plus grande

dispersion des rapports de longueur entre phrases alignées dans les couples fr-vn et en-vn.

L’alignement en-vn est naturellement le plus « irrégulier » (et aussi celui pour lequel les résultats sont

le moins bon), puisque il y a entre eux la distance de deux traductions, le texte original étant en

français.

0 20 40 60 80 100 120 140 160 180 0,00 0,50 1,00 1,50 2,00 2,50 3,00 FR-EN FR-VN EN-VN

Figure 5-7 Densités de répartition des rapports entre longueurs de phrases alignées dans Le Petit Prince

fr-en fr-vn en-vn

Moyenne 0,95 1,10 1,22

Ecart type 0,22 0,27 0,39