• Aucun résultat trouvé

L’alignement à l’aide de dictionnaires bilingues

L’alignement automatique des corpus

2.2 L’alignement automatique des phrases

2.2.4 L’alignement à l’aide de dictionnaires bilingues

Des méthodes d’alignement similaires à celles de Kay et Röscheisen ont été développées par deux autres groupes de chercheurs, celui de Catizone, Russel et Warwick [1989] et celui de Debili et Sammouda [1992]. La différence principale est que ces nouvelles méthodes font appel à un dictionnaire bilingue : « /…/ la

motivation est de simplifier la tâche en utilisant des connaissances linguistiques a priori. Au lieu de chercher les corrélations statistiques à travers toutes les paires formées par les mots contenus dans les phrases candidates à l’alignement, on restreint l’attention aux paires de mots qui figurent dans le dictionnaire bilingue. La combinatoire des possibilités est alors considérablement réduite »

[Isabelle et Warwick-Armstrong, 1993, p. 299].

Malgré quelques différences, la méthode de Debili et Sammouda est fortement influencée par celle de Kay et Röscheisen. Les auteurs proposent d’intégrer des connaissances linguistiques pour pouvoir non seulement aligner deux phrases, mais aussi les comparer. Ils soulignent que l’approche statistique et l’approche linguistique proprement dite possèdent des potentiels différents pour l’alignement : « L’approche statistique ne pose que le problème de l’appariement

des phrases, et ne peut répondre lorsque l’on a à comparer que deux phrases. L’approche linguistique, qui s’inspire de ce que nous ferions nous-mêmes intuitivement, paraît plus puissante, puisqu’elle porte en elle les ingrédients qui permettraient de répondre aussi lorsque, à la comparaison, ne sont soumises que deux phrases » [Debili et al., 1994, p. 6]. L’algorithme appuyé sur l’emploi d’un

dictionnaire fait intervenir des relations de dépendance qui s’établissent respectivement entre les différents mots de deux phrases, pour examiner tous les appariements possibles et choisir le meilleur parmi eux. Globalement, la densité d’appariement des mots détermine l’appariement des phrases. L’alignement final est obtenu par une analyse combinant trois critères :

(1) taille similaire de deux phrases ;

(2) positions similaires des phrases dans l’ensemble du texte (enchaînement) ;

Chapitre 2 : L’alignement automatique des corpus 67

(3) similarités des mots contenus dans deux phrases (appel à un dictionnaire) 58

L’alignement se construit à travers trois étapes :

construction :

établissement d’un maximum de liens potentiels entre les deux phrases ;

élimination :

implémentation de procédés de rapprochement syntaxique pour résoudre les ambiguï tés d’appariement d’une part, et écarter les appariements incorrects d’autre part ;

reconstruction :

augmentation de la résolution.

Lors de la première étape, l’appariement grossier des mots permet d’apparier les phrases. Considérons deux phrases S et C :

S = s1, s2 ... si ... sm C = c1,c2 …cj ... cn

Sur la figure 2.3, la matrice associée à ce couple de phrases est obtenue par comparaison successive de chacun des mots de S à tous les mots de C. Les mots

si et cj appartenant respectivement à S et C se correspondent, si les conditions

suivantes sont vérifiées :

• les mots des deux ensembles sont identifiés comme traductions mutuelles dans le dictionnaire ;

• les positions des mots dans les phrases respectives sont similaires ;

• les mots entretiennent le même type de relations syntaxiques avec les mots environnants.

58

Le premier critère rappelle l’alignement par longueur de segments. La notion d’enchaînement séquentiel des unités dans la traduction est à la base du second critère. Cette notion est utilisée dans la plupart des algorithmes d’alignement des phrases. Cependant, la méthode de Debili et Sammouda [1992] ne traite pas l’enchaînement séquentiel de traduction comme un critère absolu. Les correspondances croisées des phrases sont admises dans une certaine mesure.

Chapitre 2 : L’alignement automatique des corpus 68

Exemple : On compare une par une toutes les traductions du mot français calcul

au mot anglais compute et inversement [Debili et al., 1994, p. 9] :

calcul compute arithmetic calculer calculation computer calculus computation reckoning stone

L’implication des dictionnaires et des thésaurus bilingues pour l’alignement est relativement coûteuse en calcul et nécessite une lemmatisation cohérente du corpus. De plus, les ressources dictionnairiques adéquates ne sont pas toujours disponibles pour les textes issus de domaines spécialisés ou rédigés dans des langues rares.

L’algorithme d’alignement de Haruno et Yamazaki [1996] est fondé sur une utilisation combinée de méthodes statistiques et de ressources dictionnairiques. L’implication de méthodes statistiques permet d’établir les premières correspondances lexicales en corpus. Le recours au dictionnaire vient ensuite pour corriger, compléter et affiner les résultats de l’alignement. L’appel au dictionnaire rend possible la détection de correspondances de faible fréquence, tandis que l’implication de mesures statistiques permet de compenser le silence des dictionnaires lorsqu’il s’agit de termes spécifiques qui y sont absents.

Chapitre 2 : L’alignement automatique des corpus 69 mot cible mot source ci … cj … cn si

sj

sm

Figure 2.4 :

La comparaison matricielle des mots d’un couple de phrases lors de l’alignement à l’aide de dictionnaires bilingues [Debili et Sammouda, 1992]

Guide de lecture : Lors de la recherche dictionnairique, chaque couple (sj , ci,) reçoit une note

de proximité. Au plan algorithmique, Debili et Sammouda s’appuient notamment sur les ressemblances de paramètres des chaînes à comparer et n’examinent presque pas leurs différences.

Le calcul de la note est effectué de façon suivante : chaque traduction de sj répertoriée dans le

dictionnaire est comparée à ci, et inversement. Le calcul de la note globale s’appuie sur la

comparaison de la somme de tous les points représentant les meilleures correspondances mutuelles des mots d’un couple de phrases en question.

La mise en correspondance des mots est établie à l’aide d’un dictionnaire de transfert des mots simples. Cette technique permet d’appliquer la recherche dictionnairique non seulement aux mots entiers mais aussi aux sous-chaînes qu’ils contiennent. Elle permet de compenser le silence des dictionnaires de transfert de mots simples. Cette approche est particulièrement adaptée aux couples de langues dont les lexiques sont suffisamment proches (comme le français et l’anglais, par exemple).

phrase cible phr as e s our ce

Chapitre 2 : L’alignement automatique des corpus 70