Amélioration introduisant la notion de

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

2.3 Méthodes avec amélioration par exploitation d’informations lexicalesd’informations lexicales

2.3.1 Amélioration introduisant la notion de « cognats »

Comme nous l’avons vu précédemment, tout en considérant la méthode ba-sée sur la corrélation des longueurs comme une méthode simple et performante, Simard et al. (1992) font remarquer sa faiblesse qui apparaît dès que le problème devient un peu compliqué. Ils supposent alors que l’introduction de certaines connaissances linguistiques aiderait probablement la résolution de ce problème. Ils déduisent de leur intuition que la notion de « cognats » pourrait fournir une telle source de connaissances pour un coût minimal. Les cognats sont présen-tés comme des chaînes de caractères identiques, ou proches graphiquement, se trouvant dans les lexiques de langues ayant une relation historique plus ou moins étroite.

Leur amélioration consiste à calculer la « cognacité » (cognateness en anglais) des phrases en s’appuyant sur la conjecture : la relation de traduction entre deux phrases dans des langues différentes et leur cognacité sont corrélées, c’est-à-dire 68

2.3. Méthodes avec amélioration par exploitation d’informations lexicales

qu’une paire de phrases qui sont des traductions mutuelles contient beaucoup plus de cognats qu’une paire aléatoire de phrases.

Nous allons maintenant étudier plus précisément ce qu’est un cognat et com-ment les détecter dans les corpus parallèles. Nous passerons ensuite à l’exposé des méthodes pour introduire la cognacité en vue d’améliorer l’alignement.

Cognats et transfuges

Le terme anglais cognates désigne d’après le glossaire (Bearth, 2003) les « mots apparentés ». On les appelle également « cognats » en français, terme qui constitue lui-même un exemple de cognat !

Cette notion est étudiée par exemple dans le cadre de la linguistique compara-tive ou la théorie de la traduction, en particulier sur les false cognates qu’on appelle en français mais aussi en anglais « faux amis ».

Dans l’article de Simard et al. (1992), on trouve la définition :

« Informally speaking, cognates are pairs of tokens of different lan-guages which share "obvious" phonological or orthographic and se-mantic properties, with the result that they are likely to be used as mutual translations. The pairs generation/génération and error/erreur constitute typical examples for English and French. »

Les auteurs ajoutent ensuite leur extension de cette définition en vue de l’aligne-ment :

« One might want to extend the notion so as to include such things as proper nouns (Paris ; London and Londres), numerical expressions and even punctuation (question marks, parentheses, etc.). »

Ces extensions de cognats, invariants à la traduction, sont appelés transfuges par Langé & Gaussier (1995).

Détection des cognats dans Simard

Simard et al. décrivent un algorithme de reconnaissance des cognats comme suit :

Soit S1et S2un paire de phrases.

– création des listes T₁et T₂de mots t de chaque phrase ;

– comparaison des éléments des deux listes. Soient deux candidats t₁et t₂des listes de mots respectivement T1et T2;

– catégorisation des éléments des listes. t est un candidat pour une paire de cognat, s’il correspond à l’une des catégories suivantes :

1. t est entièrement composé de lettres et de chiffres et contient au moins un chiffre ;

2. t est exclusivement composé de lettres et contient au moins quatre lettres ;

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

3. t est un caractère de ponctuation simple. – t1et t2sont cognats si et seulement si

1. les deux appartiennent à la catégorie 1 ou 3 et qu’ils sont complète-ment identiques ;

2. les deux appartiennent à la catégorie 2 et qu’ils ont leurs quatre pre-miers caractères identiques.

Ainsi, pour détecter une paire de cognats, Simard définit la sous-chaîne com-mune maximale comme une sous-chaîne initiale contenant au moins quatre lettres. Mais, il existe également d’autres méthodes de comparaison des chaînes.

Autres méthodes de détection des cognats

Borin (1998) qui a étudié l’efficacité de différents types de méthodes de com-paraison de chaînes pour détecter les cognats, cite des méthodes comparant les sous-chaînes, outre initiales comme Simard, finales (Tiedemann, 1991) ou de po-sition libre (Zhang & Kim, 1990).

Borin parle également des méthodes utilisant des connaissances linguistiques plus sophistiquées, en particulier celle de Covington (1996). La méthode consiste en un calcul des coûts d’alignement entre deux chaînes, qui représente la possi-bilité pour ces chaînes de former des cognats. Les coûts sont attribués selon des règles de nature phonologique. Le tableau 2.2 montre une partie de ces règles.

C (consonne) avec C identique 0 V (voyelle) avec V identique 5 V brève avec V longue, ou V avec S (semi-voyelle) 10

V avec V différente 30

C avec C différente 60

TAB. 2.2 – Règles d’attribution des coûts

D’après les études de Borin, cette méthode utilisant des connaissances linguis-tiques, ne produit pas, contrairement aux attentes de l’auteur, de résultats plus corrects que les méthodes par simple comparaison des caractères.

Parmi les méthodes simples, il en existe également qui calculent de manière plus complexe le coût pour définir une méthode plus précise de détection des cognats. Mettant en doute l’efficacité d’une simple comparaison de n-grammes, Kraif (1999, 2001) propose le calcul du rapport entre les longueurs des mots et celles des sous-chaînes maximales communes (SCM ci-après) à l’instar de la mé-thode de comparaison des chaînes de Debili et Sammouda (décrite dans la section 2.3.2), qui autorise les sauts. Par exemple, la longueur de la sous-chaîne des mots

docteur/dottore (italien) selon les méthodes précédemment décrites est de 2,

tan-dis qu’avec la méthode de SCM autorisant les ruptures, elle est de 2 + 1 + 1 = 4 (do + t + r).

2.3. Méthodes avec amélioration par exploitation d’informations lexicales

Mais cette méthode ne tenant pas compte de la combinaison des sous-chaînes, elle risquait de générer beaucoup de bruit. Kraif a donc créé une ver-sion plus contraignante n’autorisant que les sous-chaînes quasiment parallèles, c’est-à-dire celles qui n’ont que des décrochements (insertion ou suppression) isolés entourés de caractères identiques et non pas des décrochements consécu-tifs. Ainsi, « pragmatique » qui est entièrement inclus dans « paradigmatique » n’est pas considéré comme une sous-chaîne, car « di » représente deux décrochements consécutifs¹.

Le rapport r entre les longueurs des mots et celles des SCM ainsi calculées, est obtenu comme suit :

soit M1et M2la paire de mots considérée,

r (M₁, M₂) = ^{L(SC M)} max(L(M1),L(M2)) où L(m) est la longueur de la chaîne de caractères m.

Exploitation des cognats dans l’alignement

N’ayant pas obtenu de meilleurs résultats par une méthode d’alignement ex-ploitant uniquement les cognats, Simard et al. introduisent la cognacité unique-ment dans les situations où la méthode basée sur la corrélation des longueurs pré-sente des problèmes pour aligner les phrases.

Leur méthode procède en deux passages : le premier passage est essentielle-ment identique à la méthode de Gale, excepté le fait que le résultat est consti-tué d’une liste des meilleurs alignements et non du meilleur alignement unique-ment. Si le résultat du premier passage ne permet pas de choisir une solution unique, le programme réalise alors un second passage et utilise la fonction de cal-cul des scores basée sur les cognacités de phrases, qui remplace celle basée sur les longueurs de phrases. La cognacité γ de la paire de phrases P₁et P₂est définie comme :

γ = _(n+m)^c

où n et m sont les nombres de mots des phrases P1et P2et c le nombre maximum de paires de cognats réalisables sans utiliser deux fois le même mot.

La notion de cognacité est exploitée également pour l’amélioration d’ancrage par Langlais (Langlais, 1997 ; Langlais & El-Bèze, 1997), Kraif (1999, 2001) ainsi que Simard & Plamondon (1998). Ces méthodes sont basées sur des algorithmes de dernière génération qui combinent de manière beaucoup plus stratégique les mé-thodes existantes qui utilisent des informations différentes telles que longueurs, cognats ou distribution lexicale. Nous étudierons ces méthodes dans la section 2.4.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Dans le document Alignement automatique de textes parallèles Français-Japonais (Page 69-73)