• Aucun résultat trouvé

É LABORATION D ’ UN SYSTÈME

Exemple 1 Considérons deux chaînes, un mot français et une retranscription

2. la procédure principale, au cours de laquelle les phrases sont alignées par un calcul de similarité de la distribution des mots qu’elles contiennent

3.6 Évaluation des résultats obtenus

3.6.3 Remarques générales

FIG. 3.15 – Répartition par modèle de traduction

Beaucoup d’études ont montré que les modèles complexes (c’est-à-dire ceux qui sont constitués de plusieurs phrases comme 1-3) perturbaient considérable-ment les systèmes d’aligneconsidérable-ment basés sur des méthodes probabilistes unique-ment, au point de fausser tous les alignements effectués après l’analyse d’un mo-dèle complexe.

3.6.3 Remarques générales

Le tableau 3.16 présente les résultats des trois étapes du système : le résultat de préalignement, le résultat partiel du noyauAlALeRet le résultat complet.

Bio FIV G8 Unicode EU Balth Zadig

Préalignement Rappel 0,57 0,53 0,42 0,62 0,81 0,23 0,14 Précision 0,98 0,93 1 0,96 0,98 0,99 0,91 Partiel Rappel 0,81 0,66 0,95 0,87 0,91 0,49 0,66 Précision 1 1 1 0,98 1 0,96 0,95 Complet Rappel 0,99 0,94 1 0,96 0,96 0,89 0,86 TAB. 3.16 – Résultats d’alignement

Le très bon résultat de préalignement d’Unicode montre l’efficacité de l’ali-gnement des cognats et des transfuges pour les textes informatiques.

Mais, ce n’est pas le cas pour les textes littéraires. Ce qui est efficace pour ces textes, c’est l’exploitation des retours chariots et des mots en katakana.

Le taux de rappel très bas de certains textes est dû au résultat limité du pré-alignement pour les textes littéraires, et à la présence importante de mots de fré-quence faible pour FIV. C’est un point faible des méthodes basées sur la similarité de distribution.

Mais, dans notre système, un appariement final basé sur la corrélation des lon-gueurs a bien compensé cet inconvénient. Cet ensemble de résultats nous per-met de dire également que le système supporte assez bien les modèles complexes. Cette robustesse est due au résultat partiel extrêmement fiable.

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR 3.6.4 Analyse des résultats de chaque étape

Chaque étape de traitement est source d’erreurs qui sont répercutées dans le résultat final.

Découpage en phrases

Les découpages erronés n’influent pas directement sur le résultat proprement dit, mais ils augmentent la difficulté d’alignement. De façon générale, l’aligne-ment de phrases une pour une (1-1) est plus facile que une pour deux (1-2) ou deux pour une (2-1).

Lorsque le système reconnaît incorrectement les phrases et qu’il découpe un passage en deux phrases au lieu d’une ou inversement, la possibilité de corres-pondance croît et le risque d’erreur augmente considérablement.

C’était le cas par exemple avec le texte « Bio ». Le symbole indiquant une note de bas de page précédé directement par un séparateur de phrase, a empêché la segmentation correcte des phrases. Cette mauvaise segmentation a entraîné une perle de phrases du type 1-3, ce qui a multiplié la difficulté d’alignement.

Nous avons défini certaines règles détaillées permettant de traiter correcte-ment des exceptions, mais les cas inattendus subsistent toujours comme nous en avons rencontrés dans le texte « Bio ».

Lemmatisation

La lemmatisation entraînant un regroupement des mots a une influence sur les associations des lemmes (de la tableMAL) car elle modifie la fréquence et la distribution de ces lemmes, éléments décisifs de la mise en correspondance.

La plupart des lemmatisations erronées proviennent de l’absence de règles plus complexes telles que celles permettant de regrouper les mots « famine » et « faim » (dans G8) ou « gène » et « génétique » (dans FIV). Conséquence : la lem-matisation erronée empêche la mise en correspondance correcte des lemmes.

Ces problèmes pourraient être résolus, en grande partie, par la définition de règles plus détaillées. Mais, l’introduction de règles très complexes propre à une langue peut représenter un obstacle en cas d’adaptation à une nouvelle langue. De plus, l’analyse morphologique n’est pas notre objectif principal et l’influence de ce problème ne semble pas déterminante sur le résultat final. Nous n’avons donc pas cherché une amélioration de cette méthode de lemmatisation dans le cadre de cette thèse.

Quant au japonais, le résultat de la segmentation par recherche des sous-chaînes communes a été extrêmement satisfaisant. Quelques petites erreurs ont été constatées notamment dans le cas des conjonctions dont la première partie est écrite en idéogramme : ce type de conjonction est mal segmenté par la méthode de segmentation par type de caractère – l’idéogramme est rattaché au substantif précédant la conjonction –, ce que la recherche des sous-chaînes communes ne permet pas de corriger à moins que le substantif ne soit reconnu ailleurs.

3.6. Évaluation des résultats obtenus

Cependant, elles n’ont probablement pas d’influence sur le résultat de la mise en correspondance des mots, car une séquence non correctement lemmatisée est généralement une chaîne d’occurrence faible qui n’est de toute façon pas prise en compte lors de l’appariement des mots. Lorsque la séquence a une fréquence suf-fisamment élevée pour qu’elle soit prise en compte pour l’appariement, le lemme est généralement détecté correctement suite à la recherche des sous-chaînes com-munes.

Mise en correspondance des lemmes

Le calcul des phrases correspondantes étant basé sur le nombre de mots cor-respondants qu’elles contiennent, une mauvaise association des lemmes a une influence directe sur le résultat final.

Les mauvaises associations de lemmes proviennent premièrement, comme nous venons de le voir, des lemmatisations incorrectes.

Deuxièmement, elles sont influencées par le contenu de la tableCPR, hypo-thèse des paires de phrases à aligner. En effet, la mise en correspondance est réa-lisée par comparaison des mots appartenant aux phrases supposées être alignées. Or si ces hypothèses sont elles-mêmes fausses, nous comparons des mots sans au-cun rapport entre eux et nous obtenons des associations complètement fausses.

Le troisième type de problème est lié à la polysémie et à la synonymie et il est beaucoup plus difficile à résoudre. Dans un contexte monolingue, ces deux phénomènes illustrent « ce que l’on peut appeler la non-biunivocité des rapports entre le plan des formes et le plan des sens » (Fuchs, 1996). Dans un contexte bi-lingue, ils entraînent souvent un rapport non-biunivoque entre deux unités de langue différente. Or, l’algorithme d’alignement « grossier » des mots que nous employons ne prévoit que le rapport un à un (one-to-one) des unités, empêchant l’alignement d’une unité française avec une unité japonaise lorsque cette pre-mière a déjà été mise en correspondance avec une autre unité japonaise (ou vice-versa).

Par exemple, le mot japonaisßç(shokuryô) apparaît (dans « G8 ») aussi bien en tant que traduction de « alimentaire » que de « nourriture ». Cette traduction multiple peut provoquer deux types de conséquences : soit le mot est apparié avec la traduction dont la distribution est la plus proche, entraînant éventuelle-ment une fausse mise en correspondance de l’autre traduction, soit les distribu-tions sont si différentes qu’aucune association n’est réalisée.ßç(shokuryô) s’est retrouvé dans la première catégorie. Il a été apparié avec « alimentaire », et « nour-riture » a été associé avec le mot « disponibilité »12.

Dans Kitamura & Matsumoto (1997), est présentée une méthode d’apparie-ment de ce type de mots polysémiques. Lorsqu’un mot du texte 1 est apparié avec un mot du texte 2 ayant une fréquence moins élevée, on continue à chercher

12Cela s’explique par le fait que› f(kyôkyû, disponibilité) est toujours employé avecß ç

(shokuryô), dans les phrases oùßç(shokuryô) est traduit par « nourriture » (e.g. « la nourriture disponible », « la nourriture est disponible », etc.).

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

une autre correspondance de ce mot du texte 1 en soustrayant de sa fréquence le nombre d’occurrences déjà appariées avec la première traduction. Par exemple,

ßç(shokuryô) de fréquence 31 est d’abord apparié avec « alimentaire » de fré-quence 26. Ensuite, on cherche une autre correspondance deßç(shokuryô) avec une fréquence de 5 (31 −26) et on trouve « nourriture » de fréquence 4 dont la dis-tribution est très proche. Toutefois, nous avons estimé qu’il n’était pas nécessaire de traiter aussi finement ce problème. Le calcul, sans doute assez coûteux, semble apporter une précision non indispensable pour notre système.

Un autre type de problème : les mots (ou expressions) composés qui ont comme correspondant dans l’autre langue une seule unité. Certains mots corres-pondent seulement à une partie d’expression composée ou même à un des mor-phèmes constituant un mot. Par exemple, le terme japonais ‚(ketsujo) est ap-parié avec « insécurité » alors que « insécurité » est traduit non seulement par un mot, mais par un ensemble de mots formant le syntagme nominal‰hÝœn ‚(anzen hoshô no ketsujo). Dans le résultat de cette évaluation, la partie non alignée‰hÝœ(anzen hoshô) n’est alignée avec aucun mot français, mais elle aurait aussi bien pû entraîner une fausse association.

Dans le cas de mots composés, leur détection et leur alignement sont assez simples à réaliser, si chaque mot composant n’est utilisé que dans le même mot composé – c’est-à-dire, par exemple « categories » et « job » sont utilisés unique-ment dans le mot composé « job categories » et jamais séparéunique-ment. Nous avons tout simplement conservé toutes les paires ambiguës – c’est-à-dire celles ayant exactement la même similarité. Ainsi, nous avons réussi à obtenir l’appariement correct de plusieurs mots composés :w .(shokushu) avec « job » et «

catego-ries »,º„Ç•(jinteki shigen) avec « resource » et « human ». Ce choix a entraîné, bien entendu, du bruit. Mais, malgré ce désavantage, cette méthode semble plus intéressante que l’abandon pur et simple de toutes les paires qu’on ne peut pas désambiguïser.

Lemmatisation et appariement des mots en katakana

Le tableau 3.17 page suivante présente le résultat d’extraction et d’alignement des mots en katakana : le nombre de mots extraits, le nombre de ceux qui sont appariés et le nombre d’appariements erronés.

Le rappel est la proportion des mots appariés parmi l’ensemble des mots ex-traits.

La précision est la proportion d’appariements corrects parmi les apparie-ments effectivement réalisés.

La précision est satisfaisante alors que le taux de rappel n’est, à première vue, pas très élevé. Toutefois, lorsqu’on constate que ce sont principalement des noms propres et des néologismes qui ont un fort risque de ne pas figurer dans le diction-naire, ce taux d’alignement correct de 40 à 50% représente un résultat intéressant. 128

3.6. Évaluation des résultats obtenus

Bio FIV G8 Unicode EU Balth Zadig

Mots extraits 50 43 21 163 62 34 152

Mots alignés 23 19 10 50 29 17 68

Erreurs 3 1 1 2 1 0 2

Rappel 0,46 0,44 0,48 0,31 0,47 0,5 0,43

Précision 0,87 0,95 0,9 0,96 0,97 1 0,97

TAB. 3.17 – Résultats d’alignement des mots en katakana