Méthodes adaptées pour l’alignement avec des textes japonaisjaponais

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

2.6 Méthodes adaptées pour l’alignement avec des textes japonaisjaponais

Afin de terminer l’état de l’art des techniques d’alignement des phrases, nous nous intéressons à présent aux méthodes adaptées à l’alignement du japonais.

Nous aborderons tout d’abord la méthode proposée par Murao (1991), utilisée par Utsuro et al. (1994) ainsi que par Collier & Takahashi (1995).

Nous présenterons ensuite celle développée par Uchiyama & Isahara (2003) qui diffère de cette dernière par l’absence d’utilisation d’informations statistiques. Puis nous nous intéresserons à la méthode utilisée pour le système BACCS (Isahara & Haruno, 2000 ; Haruno & Yamazaki, 1996).

Enfin, nous terminerons l’exposé par l’étude de Hwang qui a proposé une mé-thode originale pour l’alignement entre le japonais et le coréen (Hwang & Nagao, 1994).

2.6. Méthodes adaptées pour l’alignement avec des textes japonais 2.6.1 La méthode proposée par Murao

Nous étudions maintenant la méthode de Murao (1991) basée sur les corres-pondances lexicales utilisant un dictionnaire bilingue anglais-japonais. Cette mé-thode est également utilisée par d’autres chercheurs. Le système d’appariement proposé par Utsuro et al. (1994) l’utilise pour l’étape d’appariement au niveau des phrases. Collier & Takahashi (1995) ont également utilisé un système basé sur la méthode de Murao à l’occasion de la compilation d’un corpus bilingue au Centre

for Computational Linguistics (CCL, Manchester), constitué d’articles du Asahi, un

des grands quotidiens japonais.

Algorithme général

Avant l’alignement, les mots sont extraits de chaque phrase éventuellement après une analyse morphologique. Les correspondances des mots extraits sont dé-tectées à l’aide de dictionnaires bilingues ainsi que d’informations statistiques.

En utilisant ces informations de correspondance lexicale, on calcule le score de chaque perle. Pour la constitution d’une perle, cinq possibilités de combinai-sons (1-1, 1-2, 1-3, 1-4 et 2-2) sont considérées. Le score h d’une perle p est calculé comme suit :

Considérons la perle p constituée de x phrases s_a−x+1,..., sa dans le texte S et de

y phrases t_b−y+1,..., t_bdans le texte T .

Soient n_s(a, x) et n_t(b, y) les nombres de mots contenus dans les phrases consti-tuant une perle des textes S et T respectivement, et nst(p) le nombre de paires de mots correspondants dans la perle p. Alors, le score h de p est défini comme le ratio de n_st(p) sur la somme de n_s(a, x) et n_t(b, y) :

h(p) =_n ⁿ^st^(p)

s(a, x) + nt(b, y)

L’alignement est obtenu par calcul de la séquence des perles constituant le meilleur score. Cette opération est réalisée comme un problème classique de pro-grammation dynamique.

2.6.2 La méthode proposée par Uchiyama et Isahara

Uchiyama & Isahara (2003) présentent une méthode de constitution de corpus parallèles à partir de deux corpus non entièrement parallèles : un corpus japonais constitué d’articles publiés entre septembre 1989 et décembre 2001 du journal

Yo-miuri d’une part, et un corpus anglais constitué d’articles du journal Daily YoYo-miuri

de la même période d’autre part.

Les articles du journal Daily Yomiuri sont des traductions de certains articles du journal Yomiuri, représentant moins de 6% du nombre total d’articles du cor-pus japonais. Si bien que leurs travaux commencent par l’extraction des articles parallèles. Elle est réalisée avec une méthode de recherche d’informations par croisement de langues (CLIR). Les articles en japonais sont d’abord transformés

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

en un ensemble de mots anglais par consultation d’un dictionnaire. La recherche est ensuite réalisée avec un article anglais comme requête, de la même manière que la recherche d’informations classique.

Par ailleurs, du fait du nombre important de paires de phrases mal alignées à cause de la présence de bruit dans le corpus (omission de traduction, différences dues aux adaptations réalisées par le traducteur, etc.), ils proposent également une méthode d’évaluation de la fiabilité d’alignement afin de sélectionner les paires de phrases qui ont une forte chance d’être correctement alignées, et qui sont réelle-ment utiles à une utilisation postérieure. La mesure tient compte non seuleréelle-ment de la similarité des phrases mais aussi de la probabilité de correspondance des articles.

Méthode d’alignement par programmation dynamique

L’alignement est réalisé par une méthode de programmation dynamique tout comme la méthode proposée par Murao décrite précédemment.

Mais, contrairement à cette dernière, la méthode d’Uchiyama et Isahara n’uti-lise pas d’informations sur la probabilité de correspondance des mots, obtenues par calcul statistique. Les auteurs considèrent que les résultats d’alignement uti-lisant uniquement des informations qu’ils peuvent obtenir avec un dictionnaire sont suffisamment satisfaisants.

La similarité est donc calculée à l’aide uniquement d’un dictionnaire bilingue constitué spécifiquement – à partir des dictionnaires EDR japonais-anglais et anglais-japonais –, sans avoir recours à des informations statistiques. L’ensemble des mots pleins est d’abord constitué pour chaque phrase, après analyse morpho-logique parChaSenpour les textes japonais, et après tagging par Brill’s Tagger puis lemmatisation à l’aide de librairies duWordNetpour les textes anglais.

Pour calculer la similarité des paires de phrases, un alignement des mots est d’abord réalisé comme suit :

1. la liste de toutes les paires (j,e) appartenant au dictionnaire est constituée ; 2. l’ambiguïté de chaque paire est calculée : c’est le nombre total de mots qui se trouvent dans le dictionnaire en tant que traduction du mot japonais considéré, donc l’ambiguïté d’une paire de mots (j,e) est le cardinal de l’en-semble M = {m|(j,m) ∈Dictionnaire} ;

3. la liste des paires de mots est triée dans l’ordre croissant d’ambiguïté ; 4. les paires sont examinées une par une afin d’obtenir une liste des mots

ali-gnés L : pour une paire considérée (j_m,e_n), s’il existe déjà le mot japonais

j_m−i tel que (j_m−i,en) ∈ L ou le mot anglais e_n−k tel que (jm,e_n−k) ∈ L, la paire (j_m,e_n) est rejetée, sinon la paire (j_m,e_n) est inscrite dans la liste L. La similarité des phrases est calculée avec la formule suivante :

Soient J et E les ensembles de mots pleins contenus dans les phrases à comparer :

sim(J,E) = ^co^{(J ∩ E) + 1} |J| + |E| − 2co(J ∩ E) + 2 86

2.6. Méthodes adaptées pour l’alignement avec des textes japonais

où

– |X |, fréquence totale de l’ensemble des mots appartenant à X calculée par P

x∈X f (x) où f (x) est la fréquence de x dans X ;

– J ∩ E est l’ensemble des paires de mots (j,e) considérés comme traduction l’un de l’autre tels que j ∈ J et e ∈ E ;

– co(J ∩ E), fréquence totale de cooccurrence des mots alignés calculée par P

(j,e)∈J∩Emin(f (j ), f (e)).

Avec les similarités ainsi calculées, l’alignement des phrases est réalisé par une méthode de programmation dynamique avec comme modèles de traduction pos-sibles, les paires 1-n et n-1, où 1 ≤ n ≤ 6.

2.6.3 La méthode du système BACCS

Haruno, Yamazaki et Ishihara présentent la méthode d’alignement utilisée pour l’environnement graphique d’alignement BACCS (Bilingual Aligned Corpus

Construction System) (Isahara & Haruno, 2000 ; Haruno & Yamazaki, 1996). Cette

méthode, basée sur celle de Kay, est également caractérisée par la combinaison de l’utilisation de dictionnaires bilingues et d’une méthode statistique.

La principale différence par rapport à la méthode de Murao se trouve dans le choix, non d’une méthode de programmation dynamique, mais d’une approche itérative – tout comme la méthode de Kay – pour calculer l’alignement des phrases à partir des informations de correspondance lexicale. Les auteurs justifient ce choix, que beaucoup de chercheurs ont abandonné à cause de la lourdeur de cal-cul nécessaire, par la précision du résultat qu’il peut offrir.

L’autre caractéristique réside dans la façon de calculer la similarité. Pour ce faire, le système utilise l’information mutuelle et le t-score. L’information mu-tuelle représente la similarité des distributions d’occurrences de mots. Le t-score représente la fiabilité de l’information mutuelle obtenue (voir la section 2.1.7).

Algorithme général

Le système reçoit comme données des textes parallèles japonais-anglais. Il utilise deux principales structures de données : la matrice des phrases ali-gnables appelée ASM (Alignable Sentence Matrix) et la matrice d’ancres dite AM (Anchor Matrix).

La matrice ASM représente l’ensemble des phrases susceptibles d’être alignées entre des ancres, et correspond donc à la table « Alignable Sentence Table » (AST) de l’algorithme de Kay (cf. section 2.1.3). La matrice AM représente, comme la table « Sentence Alignment Table » (SAT) de l’algorithme de Kay (cf. section 2.1.5), l’ensemble des ancres.

Dans le document Alignement automatique de textes parallèles Français-Japonais (Page 85-88)