L’alignement par correspondances de mots - L’alignement automatique des phrases

L’alignement automatique des corpus

2.2 L’alignement automatique des phrases

2.2.3 L’alignement par correspondances de mots

Dans la section précédente nous avons montré que les mots apparentés (les traductions mutuelles dont la stabilité est relativement élevée) se révèlent utiles pour l’alignement. Cette approche peut être vue comme une étape vers l’utilisation d’un autre critère d’alignement basé sur les correspondances de mots dans les phrases liées sur le plan de la traduction.

Historiquement, l’alignement par correspondance de mots est né pratiquement en même temps que l’alignement par longueur de segments. Les deux algorithmes possèdent un certain nombre de points en commun. Ils utilisent des points d’ancrage dans le corpus pour apparier le matériau textuel qui se situe autour, cf. Somers [2001]. La différence principale entre les deux algorithmes réside dans la nature de ces points d’ancrage. L’alignement par longueur privilégie des indices structurels (le découpage en sections, paragraphes, etc.), tandis que l’alignement par correspondance de mots fait appel aux propriétés distributionnelles des unités lexicales.

L’alignement par correspondances de mots pose comme hypothèse temporaire, et pas toujours régulière que lorsque deux phrases source possèdent des mots en

Chapitre 2 : L’alignement automatique des corpus 63

commun, leurs traductions respectives tendent aussi à posséder des mots en commun. Cette propriété est liée directement à la notion de compositionnalité de

traduction (cf. section 2.1.3). Elle montre que l’on peut exploiter des régularités

statistiques dans la distribution des mots en correspondance à l’intérieur des phrases pour déterminer ensuite l’appariement adéquat des ces dernières.

Une première description détaillée de l’algorithme d’alignement par correspondances de mots a été donnée par Kay et Röscheisen [1993]. Les auteurs soulignent la difficulté d’obtenir une mise en correspondance précise entre les mots des deux textes mais considèrent que leur appariement, même imparfait, est susceptible de conduire à un alignement satisfaisant au niveau des phrases. Le calcul est effectué en deux étapes :

(1) On détermine d’abord un ensemble de paires de phrases candidates à l’appariement. On décide que les premières phrases de chaque texte se correspondent ainsi que les dernières. Respectivement, les phrases intermédiaires sont en correspondance dans un couloir diagonal relativement étroit (cf. Figure 2.3 ).

(2) Pour chaque phrase du texte source on calcule l’ensemble de phrases qui peuvent lui correspondre dans le texte cible, en respectant les contraintes suivantes (les mêmes que pour l’algorithme d’alignement par longueur des segments) :

• les correspondances croisées sont interdites ;

• le nombre maximal de correspondances plusieurs-pour-plusieurs est restreint.

Exemple : Supposons que S1, S2, S3 … Sn et T1, T2, T3 … Tm sont des phrases

respectives de textes source et cible. Selon les contraintes retenues, S1 pourra

correspondre soit à T1, soit à la combinaison de T1,–T2, mais ne peut être liée à T2 toute seule. Lorsque l’on s’approche du milieu du texte, le nombre

Chapitre 2 : L’alignement automatique des corpus 64

(3) On procède à l’analyse des correspondances lexicales compatibles avec l’alignement initial des phrases. L’algorithme compare les distributions des mots à l’intérieur de l’ensemble de phrases appariées. Pour chaque couple de mots, on procède à la vérification à partir d’un seuil préétabli. Si les distributions dans les phrases sont proches, on considère que ces mots sont en rapport de traduction 55.

Exemple : Si le mot X apparaît n fois dans le texte cible, et le mot Y – n fois dans

le texte source, on teste l’existence d’un appariement associant chaque phrase qui contient X avec une phrase qui contient Y. On fait l’hypothèse que et Y sont des correspondances de traduction.

Les deux étapes sont répétées de manière itérative, pour assurer un échange de données entre les deux calculs, et la convergence vers une solution optimale. Les mots fournissent alors un ensemble de points d’ancrage qui permettent de réduire le couloir diagonal des alignements de phrases candidates. Un alignement complet est généralement obtenu en 3-4 cycles. Notons que la méthode de Kay et Röscheisen met en valeur un principe de dépendance réciproque dans

l’alignement des phrases et des mots. On retrouve ce principe à la base d’un

grand nombre de systèmes d’alignement automatique.

L’algorithme proposé par Chen [1993] repose sur un certain nombre d’hypothèses proches de celles élaborées par Brown P. et al. [1991] et Kay et Roschëisen [1993]. La principale originalité réside dans ce cas dans l’utilisation plus importante des informations lexicales qui permettent d’augmenter la précision, notamment lorsqu’il s’agit de corpus parallèles avec un taux de bruit élevé (omissions, différences structurelles, etc.).

Pour un couple de mots, la mesure de similarité distributionnelle est donnée par le calcul du coefficient de Dice [1945] : 2c / ( NA(υ) + NB(ω) ), où c est le nombre de correspondances de

mots trouvées dans les phrases appariées, NT(x) - le nombre d’occurrences du mot X dans le

Chapitre 2 : L’alignement automatique des corpus 65

L’ancrage lexical est central dans la méthode DK-vec (Dynamic K-vec 56) [Fung et McKeown, 1994]. L’algorithme reçoit en entrée deux textes parallèles segmentés en occurrences (tokens) de formes graphiques ou lemmes (le choix des unités minimales de décomptes dépend des objectifs de l’expérimentation).Pour chaque mot w de ces textes, la méthode permet de calculer un vecteur de distance

Dw=<d1w,…,dnw>, qui représente les distances relatives exprimées en nombre d’occurrences consécutives du mot w. La notation d_iw correspond à la distance relative entre l’occurrence du mot w dans la position i et son occurrence précédente dans le texte. Notons que d1w marque la distance entre la première occurrence de w et le début du fichier [Choueka et al., 2000]. Selon l’hypothèse de départ, les fragments de textes en correspondance de traduction ont des longueurs similaires, d’où les similitudes dans les valeurs de distance associées aux positions des occurrences de mots liés sur le plan de la traduction. En conséquence, les vecteurs des mots en correspondance se ressemblent beaucoup plus que ceux des mots qui ne se correspondent pas 57.

56_{Dans sa premiè re version, l’algorithme est connu sous le nom de} _K-vec [Fung et Church, 1994]. Les distributions lexicales sont représentées par des vecteurs binaires de présence/absence des occurrences des mots au travers des textes bilingues, divisés parallèlement en K-fragments de même longueur. Ainsi, pour le mot w présent dans le 3ème, 5ème et le 8ème fragment du texte divisé en 10 fragments (K=10), on note : Vw =<0,0,1,0,1,0,0,1,0,0>.

Les vecteurs Vw et Vw’ sont comparés au cours d’un calcul probabiliste de similarité qui utilise

l’information sur la présence/absence réciproque des mots bilingues w et w’ dans les fragments de texte en correspondance (mutual information similarity metrics). L’algorithme a démontré que les informations fréquentielles et positionnelles obtenues sur les mots du corpus sans appel à des connaissances a priori, peuvent être suffisantes pour l’appariement lexical. Dans la version ultérieure de l’algorithme (Dynamic K-Vec), les informations positionnelles utilisées sont complétées par un calcul de distance entre les occurrences consécutives [Fung et McKeown, 1994].

Plusieurs mesures statistiques de similarité ont été proposées pour porter une estimation sur les ressemblances des vecteurs, cf. Ahrenberg et al. [2000] ; Choueka et al. [2000] ; Fung, [2000] ; Fung et McKeown [1994] ; Jones et Somers [1995] ; Somers [2001]. La mesure de distorsion temporelle dynamique (Dynamic Time Warping Score) utilisée par Fung et McKeown permet de déterminer la paire de mots les plus proches en utilisant la distance normale à la droite x=y avec un point d’abscisse la position dans le texte S et pour ordonnée la position dans le texte C. Le filtrage sur la fréquence générale est utilisé pour réduire le nombre de mots - candidats à l’appariement.

Chapitre 2 : L’alignement automatique des corpus 66

Dans le document Approches quantitatives de l'extraction de ressources traductionnelles à partir de corpus parallèles (Page 63-67)