• Aucun résultat trouvé

P RETRAITEMENT DES D ONNEES

1. Corpus d’apprentissage

1.1. Caractéristiques du corpus d’apprentissage

Les méthodes d’acquisition de sens, de désambiguïsation et de prédiction de traduction qui ont été implémentées sont des méthodes dirigées par les données. Ces méthodes ne présupposent pas l’utilisation de ressources de connaissances externes. Les informations nécessaires sont recueillies à partir de corpus textuels, lors d’une étape d’apprentissage non supervisé. Le corpus utilisé pour cette tâche est donc appelé corpus d’apprentissage. Il ne constitue bien souvent qu’une partie d’un corpus, l’autre partie étant réservée à l’évaluation. Ceci n’est pas le cas dans notre travail, dans la mesure où le corpus utilisé pour l’évaluation (la partie anglais-grec du corpus EUROPARL) diffère du corpus d’apprentissage. Dans ce paragraphe nous allons décrire la nature et les caractéristiques de notre corpus d’apprentissage et nous présenterons ensuite les étapes de son prétraitement.

Le corpus utilisé pour l’apprentissage correspond à la partie anglais-grec du corpus parallèle multilingue INTERA (Gavrilidou et al., 2004). La partie anglais- grec du corpus comprend environ 4 000 000 mots ; les textes relèvent de cinq domaines différents : droit (42% des textes du corpus), santé (24%), éducation (21%), tourisme (11%) et environnement (2%). Outre le Journal de l’Union Européenne, qui constitue la principale source de textes pour les quatre

premiers domaines, les autres sources utilisées pour la constitution du corpus sont les suivantes : le Réseau Judiciaire Européen, la Cour de justice des Communautés européennes et le Ministère grec des Affaires étrangères (droit) ; l’Office national hellénique du Tourisme (tourisme) ; l’Institut Pasteur d’Athènes (santé) ; le Centre national d’orientation professionnelle (EKEP), l’Agence européenne pour le développement de l’éducation des personnes ayant des besoins particuliers et le Réseau d’information sur l’éducation en Europe (éducation) ; l’Organisation Internationale ‘Biopolitics’ (environnement).

Ce corpus parallèle présente la particularité que la direction de traduction n’est pas la même pour tous les textes. Il s’agit d’un corpus bi-directionnel (Altenberg et Granger, 2002b), qui contient des textes originaux dans les deux langues (anglais et grec) et leurs traductions dans l’autre. Cette particularité du corpus pourrait avoir un impact significatif sur les résultats d’une analyse. L’existence de caractéristiques propres aux textes traduits ayant été démontrée à plusieurs reprises (Baker, 1993, 1995 ; Mauranen, 2002 ; Frawley, 1984b), il serait par conséquent important que la nature des textes soit prise en compte lors de l’étude des phénomènes révélés par ce corpus197. La possibilité de procéder à une

analyse par type de textes (originaux et traductions) rendrait alors possible la comparaison des résultats obtenus et l’étude de leurs divergences, et permettrait ainsi d’aboutir à des conclusions probablement intéressantes à propos des caractéristiques des textes traduits, qui les différencient des textes originaux198.

Le problème qui se pose dans le cas de notre corpus et qui empêche toute séparation entre textes originaux et traductions dans les deux langues ainsi que la comparaison des résultats de l’analyse sur les deux types de texte, est que la direction grec-anglais est assez « défavorisée ». Ainsi, des 534 textes originaux, seuls 106 d’entre eux (soit 19,85 %) sont des originaux grecs, les 428 autres textes étant des originaux anglais (80,14 %). Une tentative de division du corpus en deux selon la nature des textes a bien été entreprise, mais il a été tout de suite

197 La nécessité de prendre en compte ce paramètre n’est pas valable pour toutes les études traductionnelles. Par exemple, dans la méthode d’analyse sémantique ‘Miroirs Sémantiques’ (Dyvik, 2003, 2005), la traduction est considérée comme symétrique. Cette méthode sera présentée en détail dans le chapitre 6.

198 L’analyse de ces résultats permettrait l’élaboration d’hypothèses sur les facteurs qui interviennent lors des choix lexicaux dans les traductions, et qui diffèrent probablement de ceux

évident que la différence d’étendue des deux parties aurait eu une influence conséquente sur l’analyse, rendant même impossible la comparaison entre les résultats obtenus par chacune des deux parties. Plus concrètement, l’un des objectifs de l’apprentissage dans le cadre de ce travail est l’analyse sémantique d’un ensemble de mots anglais au moyen d’informations relatives aux mots grecs qui leur correspondent du point de vue de la traduction (partie gauche de la figure 1). Ces informations relatives aux mots grecs proviennent des contextes des instances du mot anglais source qui leur correspondent199. L’utilisation pour

la même tâche des textes originaux grecs et de leurs traductions impliquerait l’exploitation d’informations liées aux mots grecs source, issus des textes de la LS et traduits par le mot polysémique anglais en question, pour l’analyse de la sémantique du mot anglais (cf. partie droite de la figure 1). Dans ce cas, les informations relatives aux mots grecs proviendraient des contextes correspondants aux instances de leur équivalent de traduction, dans les textes de la LC.

Si la comparaison des résultats de ces deux démarches était possible, nous pourrions éventuellement aboutir à des conclusions concernant l’apport respectif des contextes des mots dans des textes originaux (premier cas) et dans des textes traduits (deuxième cas) pour l’analyse de leur sémantique. Néanmoins, le petit volume de textes originaux grecs ne permet pas le repérage d’instances pour l’ensemble des mots grecs qui sont des équivalents possibles du mot anglais source200. De plus, les instances du mot anglais dans les traductions ne véhiculent

qu’une faible partie des sens qu’il véhicule en tant que mot source dans le reste du corpus.

199 Nous expliquerons en détail cette procédure dans le paragraphe 1.3. du chapitre 6.

200 Dans la figure, tous les équivalents grecs sont retrouvés comme mots source dans les textes originaux grecs traduits par le mot anglais dans la LC. Cette représentation sert à illustrer l’utilisation des équivalents en tant que mots source mais, dans la pratique, cette symétrie parfaite ne se retrouve pas.

Figure 1. Correspondances utilisées au sein des sous-corpus de textes originaux anglais et grecs

Face à ce faible nombre de textes originaux grecs, nous avons tenté de mener notre analyse sur deux étapes : la première étape impliquait les informations contenues dans l’ensemble du corpus et la deuxième impliquait seulement celles qui se trouvent dans la partie du corpus constituée des textes originaux anglais et de leurs traductions en grec. Ainsi, même si le volume des textes originaux grecs ne permettait pas une analyse complète et bien fondée, les éventuelles différences des résultats des deux étapes auraient pu être imputables à leur absence. Cette distinction a pourtant vite été abandonnée. D’une part, parce que les différences entre les résultats obtenus n’étaient pas importantes et, d’autre part, parce que ces divergences concernaient plutôt des résultats non pertinents dans le cas du corpus contenant seulement les textes originaux en anglais201.

1.2. Première étape de prétraitement du corpus d’apprentissage

1.2.1. Etiquetage morphosyntaxique et lemmatisation

Le corpus d’apprentissage que nous avons utilisé avait déjà subi certaines étapes de prétraitement. Ces étapes seront décrites comme la première phase de prétraitement du corpus. mot_AN éq_GR1 éq_GR2 éq_GR3 eq_AN mot_GR2 mot_GR3 mot_GR1 1

direction AN-GR direction GR-AN AN: anglais

Plus concrètement, les deux parties du corpus (anglaise et grecque) avaient été étiquetées morphosyntaxiquement et lemmatisées. L’étiquetage morphosyntaxique consiste à attribuer une étiquette de partie du discours à chaque mot d’un texte, tandis que le processus de lemmatisation consiste à associer à chaque occurrence d’un mot sa forme canonique (lemme). L’analyse morphosyntaxique et la lemmatisation des textes anglais du corpus ont été effectuées à l’aide de l’étiqueteur TreeTagger (Schmid, 1994) en utilisant le jeu d’étiquettes du Penn-TreeBank (Marcus et al., 1993). Le TreeTagger est un étiqueteur probabiliste qui évalue la probabilité de séquences de mots étiquetés (c'est-à-dire, la probabilité de transition entre un ensemble d’étiquettes) à l’aide d’un arbre de décisions. L’annotation des textes grecs a, quant à elle, été effectuée avec l’étiqueteur des parties du discours de l’Institut pour le Traitement du Langage et de la Parole202 (ILSP). L’architecture de cet étiqueteur est similaire à

celle de l’étiqueteur à base de transformations de Brill (1995), auquel quelques modifications ont été apportées, permettant un traitement plus efficace des particularités du grec (Papageorgiou et al., 2000).

Le jeu d’étiquettes utilisé pour le grec est conforme au jeu d’étiquettes PAROLE (Labropoulou et al., 1996) et comprend 584 étiquettes de parties du discours différentes. La taille du jeu d’étiquettes utilisé s’explique par la grande quantité d’informations qu’il vise à capter. Les informations encodées pour les noms, par exemple, concernent la partie du discours (nom), le type de partie du discours (nom commun ou propre), le genre (masculin, féminin, neutre), le nombre (singulier, pluriel) et le cas (nominatif, génitif, accusatif, datif, vocatif)203.

Des traits similaires sont encodés pour les adjectifs et les articles. Un plus grand nombre de traits est encodé pour les pronoms, tandis que les étiquettes les plus longues correspondent aux verbes204. Les résultats d’une évaluation de la

performance de l’étiqueteur, rapportés dans Papageorgiou et al. (ibid.), varient selon la quantité d’informations encodées prise en compte. Ainsi, le taux

202 ‘Institute for Language and Speech Processing’ (ILSP), Athènes, Grèce.

203 L’étiquette ‘NoCmMaSgNm’, par exemple, encode les informations suivantes : No(un), C(o)m(mon), Ma(sculine), S(in)g(ular) et N(o)m(inative).

204 Ces étiquettes contiennent les traits suivants : type de partie du discours, perfectivité, temps, aspect, voix, nombre, genre et cas.

d’erreur205 de l’étiqueteur est très faible (4,23%) lorsqu’il s’agit de la catégorie de

base mais augmente lorsqu’il s’agit du genre (6,26%). La considération des traits verbaux n’affecte pas beaucoup la performance (6,92%), contrairement à l’ajout de traits d’accord (cas et nombre) qui provoque une augmentation importante du taux d’erreur (10,57%). Même si le grec est une langue hautement flexionnelle, un fort degré d’ambiguïté existe entre formes flexionnelles de parties du discours différentes et même entre formes flexionnelles au sein du même paradigme morphologique. Le premier type d’ambiguïté provoque des erreurs quant à la catégorie de base, tandis que le deuxième type modifie la performance de l’étiqueteur concernant le genre et les traits verbaux, ainsi que l’accord.

Les informations sur les lemmes sont extraites du lexique morphologique de l’ILSP pour le grec. Chaque occurrence d’un mot du corpus est ramenée à sa forme canonique qui lui est ensuite attribuée. Les fichiers contenant les informations d’étiquetage morphosyntaxique et de la lemmatisation sont en format XCES206.

1.2.2. Alignement phrastique

Le corpus parallèle INTERA est un bitexte (Harris, 1988a,b ; Isabelle, 1992), aligné au niveau des phrases207. Nous parlons de bitexte dans le cas d’un corpus

parallèle où des parties des textes de la LS sont appariées avec des parties des textes de la LC. L’appariement des textes, appelé aussi alignement, est un processus qui prend en entrée un corpus parallèle (c’est-à-dire un corpus qui contient des textes originaux dans une langue et leurs traductions dans une autre) et donne à la sortie des appariements entre les deux textes mettant en correspondance les régions textuelles qui sont des traductions l’une de l’autre (Langlais et El-Bèze, 1997). Autrement dit, soit un texte et sa traduction, un

205 Le taux d’erreur est calculé sur la base du nombre de mots auxquels une étiquette de partie du discours est attribuée. Ainsi, la ponctuation, les chiffres, les dates, les délimiteurs de phrases, etc. reconnus par le tokeniseur, qui effectue aussi la segmentation en phrases, ne sont pas pris en compte lors de cette évaluation.

206 Corpus Encoding Standard for XML.

207 Le terme « bitexte » (ou « bi-texte ») est souvent employé dans la littérature pour décrire un corpus parallèle qui contient des versions originales des textes et leurs traductions dans une autre

alignement est une segmentation des deux textes telle que le nième segment d’un texte soit la traduction du nième segment de l’autre. L’opération d’alignement consiste à extraire un sous-ensemble du produit cartésien des ensembles de segments source et cible. Les régions textuelles mises en correspondance lors de l’alignement peuvent concerner des unités textuelles plus ou moins grandes, allant du document jusqu’au mot, voire au caractère208.

Les méthodes proposées pour l’alignement au niveau des phrases se basent souvent sur des propriétés de surface des textes, qui concernent des proportionnalités de la longueur des segments appariés, calculées en termes de mots (Brown et al., 1991a) ou en termes de caractères (Gale et Church, 1991, 1993). Ces méthodes reposent sur l’hypothèse qu’il existe une corrélation forte entre les longueurs des segments qui sont traduction l’un de l’autre. D’après cette hypothèse, des phrases longues dans une langue ont tendance à être traduites par des phrases plus longues dans une autre, tandis que des phrases plus courtes sont souvent traduites par des phrases courtes. Ces méthodes s’appuient donc sur les caractéristiques formelles des textes et sont caractérisées comme statistiques.

D’autres méthodes font usage d’informations sur le contenu des régions à aligner. Dans le cas de l’alignement phrastique, ces informations concernent l’appariement des unités lexicales composant les phrases. Le modèle de Kay et Röscheisen (1988, 1993), par exemple, repose sur une relation entre alignements de mots et alignements de phrases, basée sur l’observation que si deux phrases contiennent une paire de mots alignés, elles doivent être, elles aussi, alignées. Dans ce modèle, un alignement lexical partiel sert donc à améliorer l’alignement au niveau des phrases. L’idée de Kay et Röscheisen, qui consiste à faire reposer l’appariement des phrases sur l’appariement des mots, est reprise dans la méthode de Debili et Sammouda (1992). Ces derniers soutiennent que, pour obtenir un appariement fin des mots, il faut apparier les phrases, et que pour apparier les phrases, un appariement grossier des mots serait nécessaire. La comparaison de deux phrases, dans ce modèle, repose sur l’appariement des mots qui les composent (à l’aide d’un dictionnaire de transfert de mots simples) ;

208 Les unités intermédiaires pouvent être le chapitre, la division, le paragraphe, la phrase, la proposition ou le terme.

plus cet appariement est dense, les mots appariés longs et leur séquentialité respectée, et plus les phrases sont proches.

L’amélioration de l’alignement statistique passe donc souvent par le recours à une petite quantité d’informations linguistiques. La méthode de Simard et al. (1992) utilise également de telles informations pour surmonter les faiblesses de la méthode de Gale et Church. Plus précisément, cette méthode exploite les informations de cognates, qui sont des paires d’occurrences de mots de langues différentes partageant des propriétés phonologiques, orthographiques voire sémantiques, et qui sont probablement des traductions mutuelles. La méthode proposée par Papageorgiou et al. (1994) exploite, quant à elle, des informations linguistiques de surface combinées à des informations sur la charge sémantique d’une phrase, exprimée par les motifs d’étiquettes de parties du discours des mots de contenu qui y apparaissent. Une connexion entre deux unités textuelles est établie si la charge sémantique d’une unité est proche de la charge sémantique de l’autre.

La méthode utilisée pour l’alignement phrastique de notre corpus d’apprentissage repose sur un ensemble de points d’ancrage initialement définis entre les textes des deux langues, et qui consistent en des correspondances de mots ou de séquences de mots (Triantafyllou et al., 2000)209. Les points d’ancrage

repérés sont utilisés pour établir des correspondances entre les phrases des textes parallèles. L’alignement phrastique se base sur le modèle de Gale et Church (1991, 1993), qui exploite des informations sur la longueur des phrases en nombre de caractères. L’alignement optimal des phrases s’obtient en faisant appel à une technique de programmation dynamique.

Les phrases alignées du corpus sont regroupées au sein d’unités de traduction. Une unité de traduction peut contenir de 0 à 2 phrases par langue. Par exemple, un alignement 2:1 met en correspondance deux phrases du texte de la LS avec une phrase du texte de la LC, au sein d’une unité. Un alignement 1:0 indique un cas d’omission, lorsque la phrase du texte de la LS n’a pas de correspondance dans le texte de la LC, tandis qu’un alignement 0:1 indique un ajout, c’est-à-dire le fait qu’une phrase ait été ajoutée dans la traduction sans

qu’une phrase correspondante n’existe dans le texte original. La correspondance de type 2:2 permet de capter les correspondances croisées, c’est-à-dire les cas où l’ordre de 2 phrases dans le texte de la LS est renversé dans la LC. Il faut néanmoins remarquer que la plupart des correspondances établies entre les phrases sont de type 1:1. Ce type de correspondance est illustré par la figure 2.

<seg id="seg.EN.125"> The Council may, acting unanimously on a proposal from the Commission, decide to shorten or terminate the transitional period indicated in the first paragraph. </seg>

<seg id="seg.EL.125"> Το Συμβούλιο μπορεί, αποφασίζοντας ομόφωνα βάσει προτάσεως της Επιτροπής, να αποφασίσει τη συντόμευση ή λήξη της μεταβατικής περιόδου που αναφέρεται στην πρώτη παράγραφο.</seg>

Figure 2. Unité de traduction regroupant une phrase par langue

Nous parlerons dorénavant de segments de la LS et de la LC mis en correspondance au sein d’une unité de traduction et non de phrases. Nous choisissons d’utiliser ce terme en raison du nombre variable de phrases pouvant être incluses dans un segment. Les informations d’alignement des phrases sont encodées dans les fichiers XCES qui contiennent les informations d’étiquetage morphosyntaxique et de lemmatisation, au moyen de numéros (identifiants) attribués aux segments des deux langues.

Les unités de traduction définies lors de l’alignement phrastique nous serviront à délimiter le contexte lexical (ou la fenêtre textuelle) nécessaire à l’application des méthodes contextuelles que nous proposons sur les données du corpus d’apprentissage.

1.3. Deuxième étape de prétraitement du corpus d’apprentissage

1.3.1. Diagramme de flux de données

Les étapes de prétraitement décrites jusqu’ici (première phase) ont été effectuées au sein de l’ILSP avant le commencement de ce travail. En revanche, la deuxième phase de prétraitement du corpus concerne les étapes qui ont été menées dans le cadre de ce travail de thèse. Ces étapes sont illustrées dans le

diagramme de flux de données inclus en Annexe A1. Ce diagramme global est une représentation graphique du traitement des données lors des trois principales phases de ce travail : le prétraitement, l’apprentissage et l’évaluation. Il permet de structurer et de visualiser le traitement effectué et aide à préciser et à décrire les transformations qui s’opèrent, au sein du système, sur les données d’entrée pour générer des données de sortie.

Dans ce diagramme, les rectangles représentent des entités externes, qui correspondent à des sources ou à des destinations de données. Les ellipses représentent des processus qui reçoivent des données en entrée, les traitent et les fournissent en sortie, tandis que les flèches représentent le flux de données. La partie du diagramme qui décrit les étapes de prétraitement du corpus d’apprentissage est reprise dans la figure 2.

Les données d’entrée du corpus INTERA (AN-GR) sont des fichiers de format XCES, qui contiennent les informations ajoutées lors des étapes de prétraitement décrites dans les paragraphes précédents. A ce stade, le corpus est donc lemmatisé, morphosyntaxiquement étiqueté et aligné au niveau des phrases.

1.3.2. Alignement lexical

La première étape de la deuxième phase de prétraitement consiste à aligner le corpus au niveau des mots. L’objectif de l’alignement lexical est d’identifier des liens de traduction entre mots (ou unités lexicales complexes) des segments source et cible (Brown et al., 1993 ; Vogel et al., 1996 ; Ahrenberg et al., 1998 ; Och et Ney, 2000 ; Tiedemann, 2004). L’alignement lexical s’appuie généralement sur le résultat de l’alignement des phrases et, dans ce cas, le but est de créer des correspondances entre les mots contenus dans des phrases déjà appariées. Il a été justement démontré que l’exploitation de l’appariement des phrases exerce une influence bénéfique sur les résultats de l’alignement lexical (Debili et Sammouda, 1992) : s’appuyer sur l’alignement des phrases permet en effet de réduire la combinatoire en délimitant les champs d’investigation, c’est-à-dire les parcelles de texte dans lesquelles il est possible de trouver l’expression correspondante recherchée. Les expressions mises en correspondance lors de l’alignement lexical sont internes aux phrases et la recherche se limite ainsi à l’intérieur des phrases. Les possibilités de choix étant réduites, les probabilités d’erreurs se voient à leur tour minimisées. La recherche de correspondances dans une paire de phrases fait