Corpus d’évaluation - P RETRAITEMENT DES D ONNEES

P RETRAITEMENT DES D ONNEES

2. Corpus d’évaluation

2.1. Caractéristiques du corpus d’évaluation

Le corpus utilisé pour l’évaluation de la méthode de désambiguïsation et de prédiction de traduction proposée dans ce travail diffère du corpus d’apprentissage. Il s’agit de la partie anglais-grec du corpus parallèle multilingue EUROPARL (Koehn, 2003, 2005). Ce corpus est constitué de textes extraits des

actes du Parlement Européen et il est disponible dans onze langues243_{. Le corpus}

a été traité afin de le rendre conforme à l’utilisation dans la Traduction Automatique statistique. Les textes bruts du corpus ont été obtenus à partir du site Web du Parlement Européen et ont été alignés au niveau du document. Dans la version initiale du corpus, les textes sont également disponibles dans un autre format, alignés au niveau des phrases. L’alignement a été réalisé en utilisant l’algorithme de Gale et Church (1993), basé sur la similarité de la longueur des phrases des deux langues en termes de nombre de mots. Les données alignées au niveau des phrases sont fournies dans des fichiers différents pour chaque langue, de manière à ce que les phrases alignées de deux langues se situent sur la même ligne dans chacun des fichiers correspondants244_.

Nous utilisons ici la version initiale du corpus, la version ‘1.1’, qui contient des données d’avril 1996 jusqu’à décembre 2001. Cette version comprend environ 20 millions de mots par langue, dans 740 000 phrases. Nous avons choisi cette version en raison de la disponibilité de textes alignés au niveau des phrases245_.

2.2. Prétraitement du corpus d’évaluation

2.2.1. Etapes de prétraitement

Avant d’être utilisé pour l’évaluation, le corpus de test a subi, lui aussi, desétapes de prétraitement. La première étape a consisté à filtrer le bruit présent au sein des fichiers grecs, dû à des erreurs de segmentation des mots. Le corpus a été ensuite étiqueté morpho-syntaxiquement et lemmatisé. Pour pouvoir procéder à ces prétraitements, il a d’abord fallu effectuer certaines étapes d’apprentissage, qui nous ont fourni le matériel et l’outil nécessaires (pour la première et la deuxième étape, respectivement). Ce processus est décrit dans la partie du diagramme de flux de données reprise dans la figure 9.

243_{Français, italien, espagnol, portugais, anglais, hollandais, allemand, danois, suédois, grec et} finnois.

244_{Par exemple, le contenu de la quatrième ligne de l’un des deux fichiers est aligné avec le contenu} de la quatrième ligne de l’autre.

Figure 9. Apprentissage pour le prétraitement du corpus de test

Les étapes finales de prétraitement consistent à élaborer des échantillons de test des mots ambigus puis à les filtrer en fonction des EQVs de traduction de ces mots au sein du corpus de test. Ces étapes sont décrites dans la partie du diagramme de flux de données, reprise dans la figure 10. Nous détaillerons plus précisément chacune de ces étapes dans les paragraphes suivants.

Figure 10. Constitution d'échantillons de test

2.2.2. Correction de la segmentation en mots

La partie grecque de la première version du corpus EUROPARL, que nous avons utilisée, contenait du bruit, dû au découpage erroné des mots

contenant un caractère précis : ‘ χ’. Ce découpage consistait à inserer une espace avant et après le caractère en question. Ce phénomène aurait un impact sur la qualité de la tokenisation246_{, qui influencerait, à son tour, la qualité de}

l’étiquetage morpho-syntaxique et de la lemmatisation. Pour remédier à ce problème, nous avons construit un filtre à partir de la troisième version du corpus EUROPARL, où ce problème avait été résolu. Ce filtre a alors permis d’éliminer les espaces insérées au sein des mots qui contenaient ce caractère spécifique, dans les textes de la première version. Le filtrage ainsi effectué a permis à la tokenisation, qui a eu lieu lors de l’étiquetage et de la lemmatisation, d’être de bonne qualité.

2.2.3. Etiquetage morpho-syntaxique et lemmatisation

L’apprentissage des méthodes non supervisées d’acquisition de sens et de désambiguïsation que nous proposons opère sur les formes de mots de catégories grammaticales précises, trouvés dans les contextes des mots polysémiques étudiés. Ces informations sont aussi utilisées pour la modélisation des correspondances sémantiques inter-langues – entre les mots ambigus et leurs équivalents de traduction – établies lors de l’apprentissage. La désambiguïsation et la prédiction de traduction pour de nouvelles instances des mots polysémiques, repérées dans le corpus de test, sont effectuées en comparant le contexte de ces nouvelles instances aux informations qui représentent les correspondances établies.

La comparaison de ces informations contextuelles à l’état brut (c’est-à-dire, l’état dans lequel elles apparaissent dans les textes) aux informations modélisées, qui correspondent aux formes des mots, ne serait pas possible. En outre, étant donné que l’apport des éléments contextuels pour la désambiguïsation est variable, le repérage des éléments contextuels pertinents n’est pas évident en raison du manque d’informations morphosyntaxiques au sein du corpus de test. Par conséquent, pour que la comparaison entre informations des nouveaux contextes et informations modélisées soit possible, il a fallu lemmatiser et étiqueter morphosyntaxiquement les textes du corpus de test.

Pour la lemmatisation et l’étiquetage de la partie anglaise du corpus anglais- grec EUROPARL, nous avons utilisé l’étiqueteur TreeTagger (Schmid, 1994) et le fichier de paramètres disponible pour l’anglais. Le jeu d’étiquettes utilisé consiste en un raffinement du jeu d’étiquettes Penn-Treebank (Santorini, 1991 ; Marcus et al., 1993)247_{. Cependant, un tel fichier de paramètres n’étant pas disponible pour}

le grec, nous avons dû le créer nous-même. L’entraînement du TreeTagger, nécessaire pour la création de ce fichier, a été effectué sur la partie grecque de notre corpus d’apprentissage. A partir du corpus, nous avons généré :

- un lexique : fichier contenant le lexique des formes pleines des mots. Chaque ligne du lexique correspond à une occurrence (forme fléchie) d’un mot et contient l’occurrence en question et une séquence de paires étiquette- lemme. Par exemple :

πηλίκoυ NoCmNeSgGe πηλίκο απoμίμησης NoCmFeSgGe απομίμηση διατυπώθηκαν VbMnIdPa03PlXxPePvXx διατυπώνω

- un fichier de mots de classe ouverte : fichier contenant la liste des étiquettes de mots de classe ouverte (mots de contenu), qui constituent des étiquettes possibles pour des occurrences de mots inconnues. L’étiqueteur se réfère à ces informations lorsqu’il rencontre des mots inconnus, c’est-à-dire des mots qui ne sont pas contenus dans le lexique.

- un fichier d’entrée : fichier contenant des données d’entraînement étiquetées dans un format « un mot par ligne ». Chaque ligne contient donc une occurrence et une étiquette.

Les informations comprises dans ces trois fichiers ont été extraites du corpus d’apprentissage, corpus lemmatisé et morphosyntaxiquement étiqueté. A l’aide de ces fichiers, nous avons créé le fichier de paramètres adapté au grec, qui a été ensuite utilisé pour l’étiquetage et la lemmatisation de la partie grecque du corpus d’évaluation.

Il faut noter ici que l’étiquetage et la lemmatisation du corpus d’apprentissage n’avaient pas été validés à la main. Par conséquent, le fichier de paramètres constitué à partir de ce corpus est « bruité ». L’exploitation des

informations incluses dans ce fichier pour l’annotation du corpus de test provoque ainsi des erreurs au niveau de l’étiquetage morphosyntaxique et de la lemmatisation au sein du corpus de test.

2.2.4. Constitution de sous-corpus d’évaluation

Pour chaque mot polysémique étudié, des sous-corpus ont été constitués à partir du corpus d’évaluation, de la même manière que dans le cas du corpus d’apprentissage (cf. §1.3.10.). Chaque sous-corpus contient les unités de traduction où le mot polysémique apparaît dans le segment de la LS. Le processus de constitution de sous-corpus exploite le résultat de l’alignement phrastique effectué sur le corpus EUROPARL. Les unités de traduction peuvent contenir de 1 à 2 phrases par langue. En raison du nombre variable de phrases par langue, nous parlerons de segments source et de segments cible mis en relation au sein d’une unité de traduction, comme dans le cas de l’alignement phrastique du corpus d’apprentissage. Le corpus étant aligné au niveau des phrases, les unités de traduction constituées par des phrases en anglais contenant de nouvelles instances des mots polysémiques et leurs traductions en grec, ont été automatiquement extraites. Des sous-corpus ont été ainsi construits, tant pour les 10 mots polysémiques pour lesquels nous avons procédé à un repérage manuel des équivalents que pour les 150 mots retenus du lexique bilingue anglais-grec, issu des résultats de l’alignement lexical automatique du corpus d’apprentissage. Ces sous-corpus ont la même forme que les sous-corpus construits à partir du corpus d’apprentissage (cf. figure 7, §1.3.10.). Les sous- corpus constitués pour un mot polysémique seront dorénavant appelés sous- corpus de test du mot polysémique.

2.2.5. Filtrage des sous-corpus en fonction des équivalents

Le sous-corpus correspondant à un mot polysémique comprend les unités de traduction où ce mot apparaît au sein du segment source. Les différentes instances du mot (m) au sein du sous-corpus sont traduites par des équivalents de traduction différents dans les segments de la LC. Le sous-corpus constitué

pour un mot polysémique a été filtré en fonction de ses équivalents. Ce filtrage est effectué de manière identique à celui du corpus d’apprentissage (§1.3.11.). La liste des équivalents possibles de chaque mot est extraite du lexique bilingue constitué lors de l’apprentissage et les unités de traduction sont triées en fonction de la présence d’un de ces équivalents en elles (cf. figure 8, §1.3.11.). Bien évidemment, l’utilisation des ensembles d’équivalents construits à partir du corpus d’apprentissage ne signifie pas que les mots étudiés ne peuvent pas être traduits par d’autres mots de la LC au sein du corpus de test. Cependant, ce qui nous intéresse est d’évaluer la performance de la méthode de désambiguïsation et de prédiction de traduction qui utilise les informations trouvées dans le corpus d’apprentissage. Les instances des mots qui sont traduits par d’autres équivalents dans le corpus de test ne sont, par conséquent, pas prises en compte.

Lors du filtrage effectué, les unités de traduction dont le segment de la LC contient plus d’un des équivalents possibles du mot polysémique sont éliminées, de la même manière que lors du filtrage des sous-corpus générés à partir du corpus d’apprentissage. La raison en est qu’un des équivalents peut traduire un autre mot de la phrase source, sans que nous puissions connaître celui qui traduit effectivement l’instance du mot source étudié. L’équivalent traduisant l’instance du mot polysémique dans les unités de traduction retenues constitue la traduction de référence. Celle-ci sera comparée à la proposition faite par notre méthode de sélection lexicale, ce qui permettra d’en évaluer la performance.

C

ONCLUSION

Dans ce chapitre, nous avons présenté les étapes de prétraitement des corpus d’apprentissage et d’évaluation qui seront utilisés dans la suite de ce travail. Cette chaîne de prétraitement peut être complètement automatisée, si la qualité des lexiques bilingues générés à l’issue de l’alignement des mots est bonne, tant en matière de précision que de rappel. Mais, ne disposant pas de résultats de très bonne qualité concernant ces deux aspects, nous avons introduit une étape de repérage manuel de traductions, dont les données nous serviront pour présenter en détail le fonctionnement des méthodes que nous proposons.

Une autre intervention manuelle a eu lieu au niveau du filtrage des entrées des lexiques bilingues automatiquement générés, dans le but d’en retenir un sous- ensemble (150 entrées) contenant des informations de traduction de bonne qualité. Ces étapes manuelles auraient pourtant pu être évitées si la quantité et la qualité des informations incluses dans les lexiques automatiquement générés étaient plus importantes.

Dans le chapitre suivant, nous allons présenter la manière dont les informations retenues du corpus d’apprentissage au bout de cette chaîne de traitement sont exploitées par notre méthode d’acquisition de sens. Néanmoins, avant d’en arriver à la présentation de cette méthode, nous allons décrire les résultats obtenus par l’application, au sein du cadre traductionnel dans lequel nous nous situons, d’une méthode d’acquisition de sens développée pour le traitement dans un cadre monolingue. Nous analyserons les problèmes que nous avons rencontrés lors de cette première expérience au niveau de la modélisation des correspondances inter-langues et nous expliquerons pourquoi les distinctions sémantiques obtenues par cette méthode ne seraient pas conformes à la désambiguïsation et à la prédiction de traduction dans un cadre bilingue. Les questions que nous nous sommes posées au moment de cette première expérience nous ont aidé à mieux comprendre les problèmes et à procéder, ainsi, au développement de la méthode que nous proposons finalement. Cette méthode d’acquisition de sens orientée vers la traduction sera présentée au chapitre suivant.

A

CQUISITION DE

S

ENS DANS UN

C

ADRE

M

ONOLINGUE

I

NTRODUCTION

Malgré le statut de la désambiguïsation lexicale (WSD) en tant que tâche intermédiaire, la majeure partie des méthodes de WSD développées jusqu’à présent sont indépendantes d’une application particulière, et il en va de même pour les inventaires sémantiques utilisés. Dans ce chapitre, nous explorerons l’applicabilité, dans un cadre de traduction, d’une méthode d’acquisition de sens développée dans un cadre monolingue, ainsi que la possibilité d’utilisation de ses résultats pour la WSD dans un cadre de traduction.

Le rôle de la WSD au sein d’une application traductionnelle consiste à identifier le sens véhiculé par de nouvelles instances des mots ambigus248_{de la}

248_{Le mot ambigu à analyser est souvent appelé mot cible dans les travaux d’acquisition de sens et}

C

H

A

P

IT

R

E

5

LS – dans les cas où cela serait utile – dans un but de prédiction de traductions sémantiquement pertinentes. Cette tâche peut impliquer la création de correspondances entre mots source et équivalents (EQVs) au niveau du sens, ce qui implique, à son tour, le repérage des éléments des deux langues qui seraient mis en relation. Ces éléments seraient les sens des mots ambigus, du côté de la LS, et du côté de la LC, leurs EQVs de traduction. Par conséquent, la création de correspondances sémantiques présuppose, d’une part, le repérage des sens véhiculés par un mot ambigu et, d’autre part, le repérage de ses EQVs possibles.

Dans la suite de ce chapitre, nous décrirons l’expérience que nous avons menée à propos de l’exploitation, pour la WSD et la prédiction de traductions, des correspondances inter-langues créées sur la base des sens repérés par une méthode monolingue. Nous étudierons le fonctionnement de cette méthode et nous analyserons la nature des correspondances établies pour l’échantillon de mots étudié. Nous présenterons ensuite les résultats du processus de WSD et de prédiction de traductions, ainsi que les conclusions tirées de cette expérience concernant l’applicabilité d’une telle méthode monolingue dans un cadre de traduction.

Dans le document Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction (Page 188-198)