• Aucun résultat trouvé

Chapitre 5 Notre approche de Segmentation

5.3 Évaluation de la performance prédictive de l’algorithme de segmentation

par nbocc (nombre d’occurrences minimal d’un segment observé comme un mot à part dans le corpus) et score (score minimal d’une segmentation). Notons qu’il existe des mots finnois qui sont fréquents et qui sont composés de plusieurs morphèmes. Le but de notre algorithme de segmentation est d’améliorer la qualité de l’alignement en créant une certaine symétrie entre les segments finnois et les mots anglais. Il vaut mieux, alors, considérer les mots fréquents que de les ignorer. Dans le cas où l’on veut considérer exclusivement les mots qui sont rarement rencontrés dans le corpus ou qui n’ont pas été observés lors de l’entraînement, il suffit d’ajouter un hyperparamètre contrôlant le nombre d’occurrences maximal pour qu’un mot soit considéré par la segmentation. Cependant, comme il a été précisé, ceci est inutile.

5.3 Évaluation de la performance prédictive de l’algorithme de

segmentation

Pour pouvoir mesurer la performance prédictive de notre algorithme de segmentation, nous avons adopté une méthode d’évaluation qui nous permet de comparer les différentes configurations de segmentations et d’identifier celles qui procurent les meilleures traductions. Cette méthode d’évaluation consiste à comparer un échantillon de traductions relatif à un ensemble de mots finnois avec les traductions établies par notre algorithme de segmentation. L’échantillon des mots finnois est formé de 10000 mots distincts, obtenus par tirage aléatoire à partir du vocabulaire d’entraînement du corpus finnois non prétraité fourni par (Clifton et Sarkar, 2011). Ce vocabulaire contient environ 438000 mots distincts. La traduction de 10000 mots tirés au hasard est réalisée à l’aide de

Google Translator Toolkit12. Nous avons décidé de prendre les traductions données par Google comme les traductions de référence. En effet, une fois ces traductions de référence obtenues, celles-ci sont comparées aux traductions obtenues à partir de notre algorithme de segmentation.

Notons, qu’il est très probable, qu’un certain nombre de mots, appartenant à l’échantillon des 10000 mots finnois tirés au hasard, ne soient pas retenus par les différentes configurations de segmentation générées par notre algorithme. Pour ces mots, la traduction qui est sera adoptée est celle qui correspond à la forme lexicale la plus probable générée par Moses.

Pour mesurer la performance de notre modèle de traduction et de l’algorithme de segmentation sous-jacent nous utilisons les critères d’évaluation usuels à savoir la précision, le rappel et la mesure F ou « F–mesure ». La précision est un indicateur qui permet de mesurer le degré de précision de notre algorithme alors que le rappel permet d’illustrer le degré de pertinence de celui-ci. Plus spécifiquement la précision permet de mesurer la proportion des traductions générées par notre segmentation et qui, en même temps, font partie de la traduction de référence. le rappel permet d’indiquer la proportion des traductions qui doivent être identifiées par la procédure de segmentation. La F-mesure combine la précision et le rappel. Elle permet de mesurer à la fois la pertinence et la précision des résultats générés par notre algorithme. L’expression de ces mesures est donnée par les équations suivantes :

(5.6) (5.7)

(

5.8) 12http ://translate.google.com/toolkit/

représente le nombre d’observations qui est égal au nombre de mots finnois, 10000 dans notre cas.

représente le nombre de traductions (en termes de mots), pour un mot finnois, générées par l’algorithme de segmentation, et qui figurent dans la référence.

représente le nombre de traductions (en termes de mots), pour un mot finnois, générées par l’algorithme de segmentation, et qui ne figurent pas dans la référence.

représente le nombre de traductions de références (en termes de mots) qui n’ont pas été identifiées par notre segmentation.

Le tableau 5.3 illustre le calcul des mesures de précision et de rappel pour la traduction de 3 mots finnois.

Pour le premier mot du tableau, on aura une précision de 2/3 et un rappel de 2/2 alors que pour le deuxième, la précision est égale à 2/3 et le rappel est égal à 2/4. Le troisième mot n’est pas segmenté par notre algorithme. La traduction la plus probable, générée par Moses, est alors choisie. Dans ce cas, la précision et le rappel sont tous les deux égaux à 0/2.

Mot finnois Traduction

par l’algorithme

Référence Google

Rajavalvontavirasto Border control

agency

border agency

2 1 0

Lennonjohtojärjestelmä traffic system

reform

air traffic control

system

2 1 2

Sääntelyohjeet regulation regulatory

guidelines

0 2 2

Dans le cadre de l’évaluation de la performance de notre système de traduction et de l’algorithme de segmentation sous-jacent, plusieurs combinaisons des hyperparamètres ont été testées. Cet exercice de simulation a engendré un grand nombre de configurations de segmentation. Les valeurs des hyperparamètres qui ont pu être testés sont données comme suit :

.

Il est important de noter que le vocabulaire finnois contient environ 438000 mots distincts.

Le tableau 5.4 montre les résultats obtenus par ces simulations. Les configurations retenues dans ce tableau sont celles qui donnent les meilleures valeurs de la F- mesure. Pour une configuration optimale donnée, la colonne 6 indique le nombre de mots qui ont pu être segmentés, parmi la liste des 10000 mots tirés au hasard. Notons que les meilleures segmentations sont obtenues pour des valeurs nulles des hyperparamètres nbocc et score. On peut constater, de même, qu’une hauteur maximale supérieure à 2 n’a pas d’influence (ne modifie pas) sur le résultat de la segmentation. Une segmentation correspondant à une hauteur maximale égale à deux engendre au plus 22 segments.

Notons aussi que la liste des 10000 mots finnois, traduits par Google Translator Toolkit, contient seulement 0.6 % de mots finnois (soit 60) dont les traductions correspondent à plus de 5 mots en anglais (22<5<23). Donc il est très rare qu’un mot puisse être segmenté en plus de 4 segments.

Documents relatifs