• Aucun résultat trouvé

Mise à jour de la matrice ASM :

É TAT DE L ’ ART : MÉTHODES D ’ ALIGNEMENT DES PHRASES

Algorithme 1 Alignement des phrases de Kay et Röscheisen

5. Mise à jour de la matrice ASM :

En utilisant les nouvelles ancres obtenues, on calcule à nouveau l’ensemble des phrases dont l’alignement est envisageable.

On répète les opérations 3, 4 et 5 en diminuant la valeur des paramètres – les seuils de score et ANC –, ce qui permet, selon les auteurs, d’obtenir des appariements selon l’ordre de précision d’abord et de fournir ainsi un meilleur résultat que celui obtenu par une méthode de programmation dynamique.

2.6.4 Méthode d’alignement japonais-coréen

Hwang propose une méthode originale pour le coréen (Hwang & Nagao, 1994), consistant à traduire les phrases du texte de base afin de trouver leur phrase cor-respondante dans le texte en regard par ressemblance avec cette traduction.

Il part d’abord de deux critiques sur les méthodes classiques. Premièrement, lorsqu’un être humain cherche à réaliser l’alignement manuel d’un texte paral-lèle, il traduit les phrases pour trouver leurs correspondants, au lieu de compter le nombre de caractères ou de mots. Deuxièmement, les méthodes basées sur le nombre de mots nécessitent une analyse morphologique, ce qui pose des pro-blèmes dans le cas de l’alignement du coréen car il n’existe pour le moment aucun analyseur morphologique coréen capable de fournir un résultat satisfaisant.

Il a donc posé comme hypothèse que si l’on arrivait à traduire les phrases du texte de base en séquences ressemblant aux phrases du texte en regard, on pourrait aligner facilement les phrases automatiquement. De plus, la ressem-blance non seulement structurelle mais aussi lexicale des langues japonaise et 88

2.6. Méthodes adaptées pour l’alignement avec des textes japonais

coréenne, qui permet avec une traduction basique d’obtenir des phrases relati-vement proches de celles présentes dans le texte original, est un argument très encourageant.

Cependant, étant donné qu’il est impossible d’obtenir par traduction des phrases strictement identiques à celles du texte original, il introduit, pour la mise en correspondance des phrases traduites avec les phrases originales, le degré de similarité des séquences de caractères et la valeur statistique d’appariement des phrases japonaises et coréennes.

Dorénavant, pour faciliter la compréhension, tout au long de cette étude, nous utiliserons exclusivement le terme phrases originales pour les phrases présentes dans l’un des textes parallèles d’entrée et phrases intermédiaires pour les phrases obtenues par traduction des phrases originales au cours du traitement, phrases qui seront ensuite comparées avec les phrases originales du texte en regard afin de trouver les correspondances avec les phrases originales du texte de base.

La méthode est constituée de deux grande étapes : transformation des phrases japonaises en phrases coréennes et appariement des phrases par calcul de simila-rité.

Transformation des phrases japonaises en phrases coréennes

Dans cette étape, on réalise une analyse morphologique du texte japonais et on cherche la traduction de chaque mot extrait, à l’aide d’un dictionnaire bi-lingue japonais/coréen (voir Hwang et al. (1993)) pour transformer les phrases ja-ponaises en phrases coréennes.

En cas d’échec de traduction d’une phrase, la transformation est réalisée à l’aide d’un tableau de transfert des caractères japonais/coréens et d’un tableau de transfert des caractères adjacents.

Transformation avec dictionnaire japonais-coréen L’auteur affirme que

l’ordre des mots dans les phrases japonaises et coréennes étant très proches, la traduction mot à mot peut souvent produire une phrase ressemblant à celle du texte original et le simple remplacement mot à mot à l’aide d’un dictionnaire peut fournir des résultats satisfaisants. L’auteur définit tout de même quelques règles élémentaires permettant de traiter correctement les exceptions dues à la variation de forme des verbes ou liées à la dérivation, ou encore aux allomorphes des parti-cules coréennes.

Transformation à l’aide du tableau de transfert des caractères adjacents ja-ponais/coréens Cependant, les mots ne figurant pas dans le dictionnaire ne

peuvent pas être traités de cette manière. Or, les mots japonais constitués uni-quement d’idéogrammes, kanji, peuvent souvent être traduits en mots coréens par simple remplacement caractère par caractère. Toutefois, certains caractères se traduisent différemment selon le caractère qu’ils précèdent ou selon leur

po-2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

sition dans le mot. Ainsi, pour le remplacement caractère par caractère, un autre type de tableau appelé NH-Table (Nihongo to Hangul conversion Table) est aussi utilisé.

NH-Table est créée à partir du dictionnaire bilingue en ne considérant que les

entrées constituées exclusivement de kanji, dont le nombre de caractères est égal au nombre de caractères de leurs correspondants coréens. Ce tableau est une ma-trice dans laquelle la valeur NH(x, y) de la case (x, y) est le caractère correspondant en coréen au caractère japonais x lorsqu’il est adjacent au caractère y. Il existe deux types de NH-Table : le tableau de transfert des caractères adjacents droits et le tableau de transfert des caractères adjacents gauches. Dans le premier type de tableau, y est le caractère qui suit le caractère x, et dans le second y représente le caractère qui précède le caractère x dans le mot.

Transformation à l’aide du tableau de transfert des caractères japo-nais/coréens Les mots constitués en kanji que l’on n’a pas réussi à

transfor-mer avec les NH-Table, peuvent être remplacés caractère par caractère en mots coréens. On réalise donc, pour les mots entièrement en kanji qui ne sont traduits ni avec le dictionnaire ni avec les tableaux de transfert de caractères adjacents, une transformation à l’aide du tableau de transfert des caractères. Il contient environ quatre mille caractères japonais avec leur caractère correspondant en coréen. Les mots constitués uniquement avec le syllabaire katakana – utilisé pour les mots emprunts – sont également traités avec cette méthode.

Appariement des phrases par calcul de similarité

Calcul de la similarité des phrases intermédiaire et originale Pour la mise

en correspondance des phrases originale et intermédiaire dans la même langue, est utilisée la similarité de phrases (SP) obtenue par le rapport des longueurs de phrases (RL) et par la similarité des séquences de caractères (SC).

Soient Ji les phrases japonaises (où i = 1,...,n), Is les phrases inter-médiaires (traductions de Ji, s = 1,...,m), Ck les phrases coréennes (k = 1,...,u) et RM le rapport moyen des longueurs de phrases japo-naise et coréenne soit 9 : 10 (= 0,9).

SP(Ji,Ck) = SC(Is,Ck) · RL(Ji,Ck)

SC (Is,Ck) = similarité des séquences de caractères (précisée ci-dessous)

RL(Ji,Ck) = (C Ji

k· RM) si (Ji< Ck· RM) (Ck· RM)

Ji sinon

La similarité des séquences de caractères est calculée en tenant compte de l’ordre des caractères comme suit :

2.6. Méthodes adaptées pour l’alignement avec des textes japonais

Soient n le nombre de caractères de Is, m le nombre de caractères de

Ck et W = 4 la valeur maximum du bonus attribué aux caractères se succédant à l’identique dans les deux séquences.

– Calcul de la similarité SC des chaînes de caractères Iset Ck:

SC (Is,Ck) =score(n,m) – Calcul du scorescore(i , j ) :

score(i , j ) =          0 si (i =0)∨(j=0) max   score(i −1,j −1)+min(sc(i ,j ),W ), score(i −1,j ), score(i ,j −1)   si (1≤i≤n)∧(1≤j≤m)

– Calcul de la similarité sc des caractères aiet bj:

sc(i , j ) =

½ 0 si (i = 0) ∨ (j = 0)

sc(i − 1, j − 1) +comp(i , j ) si (1 ≤ i ≤ n) ∧ (1 ≤ j ≤ m) – Comparaisoncompdes caractères aiet bj:

comp(i , j ) =

½ 0 si ai6= bj 1 si ai= bj

Appariement des phrases Cinq modèles d’appariement sont définis : type

0 (1-1), type 1 (1-2), type 2 (1-3), type 3 (2-1) et type 4 (3-1). Pour chaque phrase originale de base, les similarités avec les phrases intermédiaires selon les cinq mo-dèles sont calculées.

Lorsque la similarité des phrases du type 0 est la plus élevée, la détermination de l’appariement pour une phrase de base donnée prend également en compte la possibilité d’appariement de la phrase suivante, afin de pénaliser le type 0 ayant tendance à produire une similarité des séquences relativement élevée.

L’alignement est réalisé à partir des premières phrases. Une fois l’appariement des phrases considérées déterminé, l’appariement de la phrase suivante com-mence.

2.6.5 Avantages et faiblesses

N’ayant aucun élément de surface indiquant la correspondance de deux phrases tel que les cognats pour les langues européennes, les chercheurs japonais recourent à des informations extérieures, les dictionnaires. Conscients du pro-blème de l’absence de certains mots dans le dictionnaire, ils exploitent également les informations lexicales obtenues par méthode statistique. Cette approche per-met de réaliser des aligneurs adaptés à l’alignement des langues ayant des struc-tures et des systèmes d’écriture très différents telles que le japonais et l’anglais.

2. ÉTAT DE L’ART:MÉTHODES D’ALIGNEMENT DES PHRASES

Cependant, ces méthodes présupposent la disponibilité non seulement de dictionnaires électroniques – même si les auteurs soulignent que des diction-naires non spécialisés et très basiques sont suffisants –, mais aussi d’un analyseur morphologique capable de produire des résultats satisfaisants. Or, les paires de langues vérifiant une telle condition sont encore restreintes. Pour une opération élémentaire telle que l’alignement, il est préférable de concevoir des algorithmes ne dépendant pas trop de moyens extérieurs.

Hwang essaie de résoudre les problèmes liés justement à l’absence de ces moyens extérieurs. Il a fait le choix de spécialiser entièrement ses travaux à une paire donnée, japonais-coréen, et a cherché à exploiter au maximum les particula-rités propres à cette paire de langues et favorables à l’alignement. Cette approche est intéressante – en dépit d’une absence totale de portabilité de l’algorithme – dans la mesure où elle indique une direction, complètement opposée au courant classique, pour la conception d’outils multilingues capables de traiter les paires de langues européenne/européenne et surtout les paires de deux langues non-européennes.

C

H A P I T R E

3