De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue

(1)

Thesis

Reference

De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue

CARTONI, Bruno

Abstract

L'objectif de ce travail est d'évaluer l'exploitation en traduction automatique de l'inférence entre les néologismes construits dans différentes langues. Sur le plan théorique, nous questionnons les fondements de cette inférence et proposons une première ébauche de modélisation, par l'intermédiaire de Règles de construction des lexèmes (RCL) bilingues. Pour formaliser ces RCL bilingues, nous proposons une méthodologie de morphologie contrastive, permettant de comparer les systèmes morphologiques des deux langues. D'un point de vue pratique, nous décrivons l'élaboration d'un système permettant de traduire automatiquement les néologismes préfixés de l'italien en français. Evidemment, une telle implémentation est confrontée à de nombreux problèmes pratiques d'ambiguïtés formelles et de spécificité des ressources. Chaque étape du traitement des néologismes est donc évaluée et affinée. En outre, les questions plus générales de faisabilité et de portabilité sont également abordées, notamment en envisageant l'extension du système à d'autres langues et à d'autres procédés de [...]

CARTONI, Bruno. De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue. Thèse de doctorat : Univ. Genève, 2008, no.

ETI 5

URN : urn:nbn:ch:unige-6343

DOI : 10.13097/archive-ouverte/unige:634

Available at:

http://archive-ouverte.unige.ch/unige:634

Disclaimer: layout of this document may differ from the published version.

(2)

B RUNO C ARTONI

___________________________________

D E L ’ INCOMPLETUDE LEXICALE EN TRADUCTION AUTOMATIQUE :

V ERS UNE APPROCHE MORPHOSEMANTIQUE MULTILINGUE

________________________________

Thèse présentée à l’Ecole de Traduction et d’Interprétation de l’Université de Genève pour l’obtention du titre de docteur en traitement informatique

multilingue

Jury composé de :

Prof. Margaret King, directrice Prof. Pierrette Bouillon, présidente Prof. Fiammetta Namer, examinatrice Prof. Anthony Hartley, examinateur

S

OUTENUE LE

27 J

UIN

2008

(3)

(4)

(5)

(6)

Résumé

L’ambition de ce travail est d’évaluer la faisabilité d’une implémentation informatique de l’inférence entre les langues. Nous avons concentré notre attention sur les phénomènes d’inférence dans la construction des mots, que nous avons regroupés sous le terme de liens morphosémantiques multilingues, et sur la faisabilité de leur implémentation en traduction automatique. Ce travail se veut à la fois théorique et pratique. D’un point de vue théorique, il questionne les fondements de cette inférence et propose une première ébauche de modélisation. D’un point de vue pratique, il montre comment cette inférence pourrait être exploitée pour résoudre en partie un problème important : l’incomplétude lexicale en traduction automatique

Toutes les applications de traitement de la langue basées sur les lexiques dépendent de la richesse de cette ressource. Un mot absent du lexique ne peut en effet pas être traité par le système, ce qui a des conséquences plus ou moins dommageables sur la qualité de la sortie.

Suivant les applications, de nombreuses solutions ont été envisagées pour pallier cette incomplétude lexicale et deviner l’inconnu. Dans un système de traduction automatique, où l’on passe d’une langue à l’autre, deviner l’inconnu est une tâche très complexe, qui recouvre une étape d’analyse du mot inconnu et une étape de génération de la traduction de ce mot.

Les mots inconnus des systèmes de traduction automatique sont de différentes sortes (noms propres, mots issus de la créativité lexicale, mots erronés), mais ce sont les mots issus de la créativité lexicale qui nous intéressent dans ce travail. Ces mots constituent un ensemble dynamique : certains vont un jour entrer dans le lexique, d’autres n’existeront que dans le temps de leur production. L’exploitation des liens morphosémantiques multilingues en traduction automatique a donc pour but, in fine, de proposer une traduction pour les mots construits néologiques, sans devoir forcément les enregistrer dans le lexique. D’un point de vue pratique, nous nous sommes volontairement concentré sur un procédé de construction (la préfixation) et sur deux langues (l’italien et le français). Il n'en reste pas moins que les méthodes et les solutions proposées sont applicables à d’autres procédés de formation néologique et d’autres paires de langues.

Dans un premier temps, cette recherche présente différentes études sur l’incomplétude lexicale dans différents systèmes de traduction automatique et dans d’autres lexiques d’applications informatiques de traitement de la langue. Ces études ont montré que ce phénomène était constant et que la solution à l’incomplétude lexicale ne pouvait résider dans une simple alimentation du lexique. Par ailleurs, l’analyse qualitative de ce phénomène a souligné la présence d’un nombre important de néologismes formés selon des procédés réguliers. Ces néologismes construits sont en outre influencés par le contact entre les langues, ce qui permet d’envisager un certain parallélisme entre les constructions néologiques et donc d’imaginer une traduction automatique des néologismes.

Dans un deuxième temps, nous définissons plus précisément la notion de lien morphosémantique multilingue, qui permet de rendre compte des similitudes de construction entre deux langues. Ce lien est défini selon une double reproductibilité, à la fois au sein d'une même langue et entre les langues. Pour être exploités dans la traduction automatique des néologismes construits, ces liens sont formalisés par l’intermédiaire de règles de construction des lexèmes (RCL) bilingues, en adoptant l’approche lexématique de la morphologie, qui dispose d’outils descriptifs idéaux pour le traitement de la néologie. L’élaboration de ces RCL passe nécessairement par une étude approfondie des systèmes morphologiques des deux langues et une étude contrastive des procédés de construction. Cette démarche contrastive se

(7)

fonde sur l’utilisation d’un tertium comparationis, qui joue le rôle d’un point de comparaison sur lequel nous pouvons projeter les éléments des deux langues. Cette projection nous a fourni le matériel traductionnel permettant d’implémenter les règles de construction des lexèmes bilingues. Elle a également permis, dans les étapes d’affinage, de rendre compte des divergences structurelles présentes dans les règles de préfixation des différentes langues.

La troisième partie de ce travail porte sur l’implémentation informatique de ces RCL bilingues dans le contexte de la traduction automatique des mots construits. Pour ce faire, nous avons mis au point un prototype de traducteur automatique, permettant de traduire des néologismes préfixés. Ce prototype nous a permis d’expérimenter pas à pas les étapes de la traduction automatique, en évaluant chaque principe et chaque contrainte implémentés. Nous montrons que le défi principal résidait dans la partie « analyse » des mots inconnus, étape sur laquelle nous avons concentré nos efforts pour implémenter de mécanismes de contrainte permettant d’assurer une correction optimale de cette analyse. La partie génération, pour sa part, requiert avant tout un lexique bilingue approprié pour la traduction automatique des néologismes construits. Mais la génération morphologique est également confrontée à un certain nombre de problématiques inhérentes à la préfixation, à savoir l’alternance entre préfixes (multidimensionnel ou pluridimensionnel) et l’alternance entre bases (anticancer ou anticancéreux).

Enfin, dans la quatrième partie, nous avons évalué notre démarche, d’une part, sous l’angle de la qualité de la traduction des néologismes construits et de l’influence de leur résolution sur la qualité de la phrase et, d’autre part d’un point de vue plus global, en posant des questions de faisabilité et de portabilité de notre approche. Nous avons pu ainsi souligner que les fondements théoriques forts, les contraintes adéquates et des ressources appropriées étaient les conditions essentielles à l’exploitation des liens morphosémantiques multilingues en traduction automatique.

(8)

Abstract

Lexical incompleteness in machine translation:

a multilingual morphosemantic approach

The objective of this research is to evaluate the feasibility of exploiting inference between languages in NLP. We focus on inference phenomena within word formation, which we have named multilingual morphosemantic links, and on the feasibility of their exploitation in machine translation. This work aims to be both practical and theoretical. On the theoretical side, we question the grounds for this type of inference and propose a first attempt at formalising it. On the practical side, we show how this inference can be exploited to solve an important issue in machine translation: lexical incompleteness.

Any NLP applications based on lexica highly depend on the completeness of the resource. A word that is not in the lexicon cannot be processed by the system, which can have consequences - more or less important - on the quality of the output of the system. Depending on the application, many different solutions have been investigated for how to compensate for lexical incompleteness and to guess the unknown. In a machine translation system, where a transfer between two languages is implied, guessing the unknown is very complex because it involves dealing with the unknown at both the analysis and the generation steps of the translation process.

Unknown words in machine translation systems can be of different kinds (proper name, erroneous words, words coming from lexical creativity), but in this research we concentrate on the latter ones. These words constitute a dynamic class of items: some will eventually be added to the lexicon; others will exist only at the time at which they are produced and perceived. Exploiting and formalising multilingual morphosemantic links in machine translation aims to propose a translation for an unknown word, without having to add it to the lexicon.

For practical reasons, we concentrate on only one construction process (prefixation) and on two languages (Italian and French, voluntarily chosen because they are “related”, and have consequently less divergences). Nonetheless, the proposed methods and solutions are applicable to other neological formation processes and to other language pairs.

The first part of this work presents various studies of lexical incompleteness in different machine translation systems and other NLP tools. These studies showed that the phenomenon of lexical incompleteness is constant whatever the system evaluated, and that the solution to this problem cannot simply be to “feed the lexicon” with unknown words. Moreover, a qualitative analysis of the unknown words highlights that a large number of them are neologisms that are constructed from regular processes. These constructed neologisms are also strongly influenced by the contact between languages, which brings us to imagine a parallelism in creating neologisms between languages, and possible exploitation in machine translation.

The second part precisely defines the notion of a multilingual morphosemantic link, which helps us represent construction similarities between languages. This link is defined according to a double reproducibility: within one language and between two languages. To be exploited in machine translation, these links are formalised through bilingual Lexeme Formation Rules (LFR), adopting a lexematic approach of morphology that provides ideal descriptive means to deal with neologisms. Building up these LFR necessarily requires a deep study of the morphological systems of the two languages, and a contrastive study of the construction processes. This contrastive approach is based on the use of a tertium

(9)

comparationis, which is a theoretical platform onto which we can “project” the elements to be compared. The “projection” gives the translational material to implement bilingual LFR, and shows, in a refinement step, structural divergences that have to be taken into account.

The third part of this work deals with implementing the LFR in a machine translation context. To do so, we build a prototype system to translate automatically prefixed neologisms.

This system allows us to experiment with every step of the automated translation process. We show that the main challenge is in the stage dealing with the analysis of the unknown words.

This is where most of the work with special constraints has to be done to ensure optimal performance of the output. The generation stage mainly requires an adequate bilingual lexicon, but some specific issues have also been found related to prefixation, i.e. alternating prefixes (like in multidimensionel or pluridimentionel), and alternating bases (anticancer or anticancéreux).

In the fourth and final part we evaluate the entire approach. The first step consists in evaluating the quality of the translated neologisms, and the influence on the quality of the entire sentence once the neologism is translated. The second is to raise the question of the feasibility and portability of this approach in order to highlight the main conditions necessary to make such a system work. We show that strong theoretical grounds with linguistic principles and appropriate constraints and resources are the main prerequisite to take advantage of multilingual morphosemantic links to deal with unknown words in machine translation system.

(10)

Sommaire

Résumé...5

Abstract ...7

Sommaire ...9

Remerciements ...11

Introduction...13

Chapitre 1 : Le lexique et l’incomplétude lexicale ...17

1.1 Le lexique d’un point de vue théorique ...17

1.2 Les lexiques artefactuels...21

1.3 L’incomplétude lexicale ...25

Chapitre 2 : Expériences sur l’incomplétude lexicale ...29

2.1 Les données des expériences ...29

2.2 Un lexique exhaustif est-il possible ?...33

2.3 De la spécificité des mots inconnus ...38

2.4 Caractérisation de l’incomplétude lexicale...43

Chapitre 3 : La créativité lexicale ...49

3.1 La dynamique lexicale et la créativité lexicale ...49

3.2 Les procédés de formation du lexique et les matrices lexicogéniques...52

3.3 Le néologisme : différents points de vue...56

3.4 Quantification des néologismes ...58

Chapitre 4 : La créativité lexicale et le contact entre les langues ...67

4.1 Les emprunts...67

4.2 L’internationalisation du vocabulaire...71

4.3 La néologie et la traduction ...73

Chapitre 5 : Une approche morphosémantique multilingue ...77

5.1 Les liens morphosémantiques multilingues : état de l’art en TALN...77

5.2 Similitudes entre les langues : une approche morphosémantique multilingue...84

5.3 Formalisation des liens morphosémantiques multilingues : première ébauche de règle 88 5.4 Délimitation du champ d’étude...89

Chapitre 6 : La préfixation ...93

6.1 La morphologie lexématique ...93

6.2 Les règles de construction des lexèmes...97

6.3 Les préfixes dans la formation des lexèmes ...104

6.4 Des RCL bilingues ...109

Chapitre 7 : De la traduction (automatique) des mots préfixés...111

7.1 Traduire les mots préfixés ?...111

7.2 Les études contrastives ...117

7.3 Matériel et méthodes de la linguistique contrastive ...119

7.4 Un inventaire des préfixes dans les deux langues...122

(11)

Chapitre 8 : Analyse contrastive de la préfixation...131

8.1 Classification sémantique de la préfixation...131

8.2 Projection des préfixes sur le tertium comparationis ...135

8.3 Implémentation des RCL bilingues...142

Chapitre 9 : Analyse automatique ...147

9.1 Analyse automatique des phénomènes morphologiques ...147

9.2 Analyseur morphologique des mots inconnus d’un système de traduction automatique ...153

9.3 Le fonctionnement de l’analyseur implémenté dans ce travail...158

Chapitre 10 : Évaluation de l’analyse automatique ...169

10.1 Question d’évaluation...169

10.2 Évaluation de l’application des contraintes ...172

10.3 Évaluation globale...176

Chapitre 11 : Le transfert et la génération...181

11.1 Le transfert et la génération des néologismes construits ...181

11.2 Problématiques générales ...184

11.3 Difficultés inhérentes à cette approche...192

Chapitre 12 : Évaluation de la traduction ...203

12.1 Évaluation de la traduction automatique ...203

12.2 Évaluation de la correction des unités construites ...208

12.3 Évaluation de l’amélioration globale de la traduction...216

Chapitre 13 : Évaluation de la faisabilité et de la portabilité ...221

13.1 Évaluation de la faisabilité : bilan...221

13.2 Évaluation de la faisabilité : considérations pragmatiques...226

13.3 Evaluation de la portabilité ...228

Conclusion ...233

Annexes ...237

Annexe I : Règles de construction des lexèmes préfixés bilingues : études de cas...239

Annexe II : Projection des préfixes sur le tertium comparationis : synthèse des études morphologiques...277

Annexe III : Implémentation informatique et évaluation...303

Annexe IV : Évaluation des phrases-test...327

Tables des illustrations ...333

Table des matières ...335

Bibliographie ...343

(12)

Remerciements

J’aimerais tout d’abord exprimer ma gratitude à ma directrice, Margaret King, pour son encadrement, sa confiance, ses conseils et son amitié tout au long de ce travail. Mes remerciements vont également à Pierrette Bouillon, qui dès le début de cette recherche m’a soutenu, orienté, corrigé et épaulé dans les moments de doute. Je remercie aussi chaleureusement Fiammetta Namer, pour ses encouragements, ses conseils théoriques et amicaux qui m’ont permis d’éclaircir de nombreux aspects théoriques qui, sans elle, seraient restés très flous. Son accueil à Nancy restera également inoubliable. Il semble bien peu de choses de dire ici que, sans ces trois personnes d’exception, ce travail ne serait pas ce qu’il est aujourd’hui. Enfin, je remercie très sincèrement Anthony Hartley qui a gentiment accepté de faire partie du jury.

En outre, je remercie vivement Sabine Lehmann et Carole Tiberius pour leur pré- encouragements et leur anté-re-lectures, Erika Salsnik pour son œil italophone supra- implacable, Marie-Aude Lefer, ma consœur « morphologue-contrastiviste », pour nos discussions passionnées trans-nationales, Marianne Starlander pour son humour super- caféiné ; Paula Estrella pour ses conseils perlesques, Agnès Lisowska pour ses conseils anglophonesques et son soutien de co-locataire de bureau, Nancy Underwood pour ses over- corrections et son anglo-humour souvent salvateur, Laurent Gottardo pour ses auto-solutions informatiques, Sandrine Zufferey et Andrei Popescu-Belis pour leur soutien et leur regard extra/hyper-lucide, Philippe Baudrion pour nos échanges inter-volants, essentiels pour garder les pieds sur terre, et Selja Seppälä qui a été omni-présente, même de loin ; enfin, un grand merci particulier à Séverine Cuendet pour ses re-lectures archi-attentives et ses points- virgules. Mes pensées vont également à tous mes collègues, amis et parents qui m’ont soutenu tout au long de ce travail.

Enfin, un remerciement très spécial pour Guy, qui a supporté mes absences autant que ma présence, particulièrement pendant les étapes finales du présent travail.

(13)

(14)

Introduction

En 1997, un étudiant francophone, résidant à Bologne pour parfaire sa pratique de l’italien, entendit parler pour la première fois de la « clonazione della pecora Dolly ». De retour dans son pays, c’est tout naturellement qu’il discuta avec ses amis de cette grande innovation scientifique : la clonation de la brebis Dolly. Ses amis, surpris, le corrigèrent :

« mais non, on dit clonage, pas clonation ».

Cette anecdote, bien que centrée sur un terme technique, est intéressante à plusieurs titres. Premièrement, notre protagoniste a été confronté à une divergence morphologique entre les deux langues (le français et l’italien) : ce n’est apparemment pas le « même » suffixe qui a été utilisé pour former ce néologisme à partir de l’anglais cloning. Deuxièmement, l’étudiant de l’anecdote s’est sans doute basé sur les similitudes de formation qu’il avait souvent constatées entre l’italien et le français pour former dans sa langue clonation sur clonazione.

C’est à ses dépends qu’il a découvert un cas rare de divergences morphologiques entre deux langues apparemment proches.

Les similitudes entre les langues font l’objet de nombreuses études, particulièrement quand il s’agit de formations néologiques. Du point de vue du traitement automatique des langues, que se passe-t-il lorsqu’un programme informatique, conçu avant la naissance de notre brebis, rencontre un néologisme comme clonazione ? La difficulté est encore plus grande si ce programme est censé devoir traduire ce néologisme dans une autre langue. Ce programme pourrait-il alors, à l’instar de notre protagoniste, « inférer » la traduction de clonazione et proposer en français le terme clonage ou tout au mieux clonation ?

L’ambition de ce travail est d’évaluer la faisabilité d’une implémentation informatique de cette inférence interlinguistique. Nous concentrons notre attention sur les phénomènes d’inférence dans la construction des mots, que nous avons regroupés sous le terme de liens morphosémantiques multilingues et sur la faisabilité de leur implémentation en traduction automatique. Ce travail se veut à la fois théorique et pratique. D’un point de vue théorique, il questionne les fondements de cette inférence et propose une première ébauche de modélisation. D’un point de vue pratique, il montre comment cette inférence pourrait être exploitée pour résoudre en partie un problème important : l’incomplétude lexicale.

Toutes les applications de traitement de la langue basées sur les lexiques dépendent de la richesse de cette ressource. Un mot absent du lexique ne peut en effet pas être traité par le système, ce qui a des conséquences plus ou moins dommageables sur la qualité de l’output.

Suivant les applications, de nombreuses solutions ont été envisagées pour pallier cette incomplétude lexicale et deviner l’inconnu. Dans un système de traduction automatique, où l’on passe d’une langue à l’autre, deviner l’inconnu est une tâche très complexe, qui recouvre une étape d’analyse du mot inconnu et une étape de génération de la traduction de ce mot.

Les mots inconnus des systèmes de traduction automatique sont de différentes sortes, (noms propres, mots issus de la créativité lexicale, mots erronés), mais ce sont les mots issus de la créativité lexicale qui nous intéressent dans ce travail. Ces mots constituent un ensemble dynamique : certains vont un jour entrer dans le lexique, d’autres n’existeront que dans le temps de leur production. L’exploitation des liens morphosémantiques multilingues en traduction automatique a donc pour but, in fine, de proposer une traduction pour les mots construits néologiques, sans devoir forcément les enregistrer dans le lexique.

L’exploitation de ces liens nécessite une étape importante de formalisation, permettant de « capturer » les similitudes de construction présentes dans deux langues proches. Cette

(15)

formalisation requiert une connaissance approfondie des systèmes morphologiques des langues à traiter, ainsi que la mise en parallèle de ces deux systèmes.

Nous expérimentons donc, d’un point de vue pratique, l’exploitation informatique de ces liens pour reconnaître et traduire les mots inconnus dans un système de traduction automatique. Dans l’approche lexématique que nous avons choisie¹, la formation d’un mot construit est modélisée par l’intermédiaire de Règles de construction des lexèmes (RCL).

Mais pour permettre de traduire un mot construit par un autre mot construit, nous envisageons la construction de RCL bilingues qui interviennent dans toutes les étapes de la traduction automatique. Dans la figure 1 ci-dessous, nous montrons le scénario « idéal » envisagé pour exploiter ces RCL dans un système de traduction automatique.

Figure 1 : Les RCL bilingues dans le processus de TA

Dans l’étape A, un mot inconnu est repéré par le système de traduction automatique dans un texte en langue source. Si le mot est construit, il peut alors être analysé (étape B) par la partie « analyse » de la RCL bilingue. L’analyse produite est alors transférée en langue cible (étape C), selon les instructions de la RCL bilingue. La partie « génération » de la RCL permet ensuite la génération (étape D) en langue cible d’un équivalent de traduction selon les instructions reçues par la RCL bilingue.

Evidemment, l’apparente simplicité d’une telle approche ne doit pas masquer les problématiques centrales que nous abordons dans ce travail, à savoir la conception des RCL bilingues et leur insertion dans le processus de traduction, ainsi que l’évaluation de la faisabilité d’une telle démarche.

Cette étude se veut globale et prospective. Mais pour arriver à des conclusions précises et concrètes, nous concentrons nos études sur la construction de différents prototypes de traitements des néologismes, permettant d’évaluer les principes décrits. Ces prototypes ont avant tout un but de recherche et ne sauraient être considérés comme une application informatique aboutie. Ils permettent en revanche d’appréhender de manière très concrète les besoins (notamment en ressources) et les implications pratiques d’une telle entreprise d’exploitation informatique. De plus, ils fournissent un « terrain » très pratique pour évaluer la performance et la faisabilité d’une telle approche.

1 à la suite notamment des travaux de (Fradin 2003b)

si mot construit

A : Mot inconnu B : Analyse

C : Transfert

D : Génération RCL bilingue

(16)

La créativité est présente dans toutes les langues et constitue un vaste champ d’étude.

Dans le présent travail, nous nous sommes volontairement concentré sur un procédé de construction (la préfixation) et sur deux langues (l’italien et le français). Il n'en reste pas moins que les méthodes et les solutions proposées seront également resituées, au terme de ce travail, dans le cadre plus large d'un traitement complet des néologismes construits dans les systèmes de traduction automatique, quels que soient les procédés dont ils sont issus, et quelles que soient les langues du système.

Organisation du travail

Le présent travail peut être divisé en quatre parties principales, auxquelles s’ajoutent un certain nombre d’annexes.

La première partie, qui regroupe les chapitres 1 à 4, délimite les problèmes de l'incomplétude lexicale. Le chapitre 1 définit la fonction du lexique dans les systèmes de traitement de la langue et pose les problèmes de l’incomplétude lexicale, particulièrement en traduction automatique. Cette incomplétude est généralement due à trois types de mots : les noms propres, les mots erronés, et les mots issus de la créativité lexicale. Le chapitre 2 décrit un certain nombre d’expériences autour de la notion d’incomplétude, permettant de préciser l’ampleur du phénomène. Une des conclusions importantes de ces expériences est que l’incomplétude est un phénomène constant, qui ne saurait être géré par une alimentation frénétique des lexiques. De plus, une part importante de cette incomplétude est due aux mots issus de la créativité lexicale : les néologismes. Le chapitre 3 s’attache à définir plus précisément cette notion de néologisme, et restreint notre approche à la néologie formelle, qui est par essence la plus propice à une formalisation à base de règles morphosémantiques. Le chapitre 4 se penche sur la néologie dans sa dimension multilingue. En effet, la créativité lexicale de chaque langue est influencée par les autres langues, notamment grâce à l’emprunt.

Ce chapitre introduit également la notion d’internationalisation du vocabulaire, qui permet d’envisager un parallélisme dans les constructions néologiques de deux langues proches, et donc la traduction d’un mot construit par un autre mot construit.

La deuxième partie de ce travail présente la dimension linguistique de notre approche, en explicitant les options théoriques choisies et les méthodes d’analyse employées. Le chapitre 5 définit la notion de lien morphosémantique multilingue, et passe en revue différents projets qui ont appliqué, de près ou de loin, une approche morphosémantique multilingue. Dans ce chapitre, nous revenons en outre sur la notion de cognat, qui nous semble peu appropriée pour cette entreprise. Nous motivons aussi nos choix de procédés de construction et des deux langues de ce travail. Le chapitre 6 définit plus clairement la préfixation et situe ce procédé dans le cadre théorique de la morphologie lexématique. A la fin de ce chapitre, nous proposons une première ébauche de RCL bilingue. Le chapitre 7 s'intéresse aux aspects plus « traductionnels » ou « contrastifs » de la question, en présentant les différentes problématiques qu’implique la mise en parallèle de deux procédés de construction. Dans le chapitre 8, nous présentons la mise en œuvre de notre approche contrastive, en nous fondant sur la sémantique du procédé de construction, afin d'apparier des règles de préfixation entre elles. Nous posons également le problème de la délimitation de la classe des préfixes. Ainsi, nous disposons d’un ensemble de RCL bilingues qui rend compte de l’équivalence traductionnelle des procédés de préfixation dans les deux langues. C’est à partir de cet ensemble que nous proposons d’implémenter le système de traduction automatique des néologismes préfixés.

(17)

La troisième partie s’intéresse aux aspects plus informatiques de cette entreprise. Le chapitre 9 s’applique à décrire l'algorithme d'analyse, qui est une formalisation de la partie italienne de nos RCL bilingues. Cette implémentation est ensuite évaluée dans le chapitre 10, tant du point de vue de la performance globale que de l'application de certaines contraintes sur les règles d'analyse. Le chapitre 11 s'intéresse quant à lui à la partie de transfert et de génération, qui se fonde sur la partie française de chaque RCL. Après avoir décrit les principes fondamentaux de la génération en TA, nous nous attardons sur divers aspects étroitement liés à la traduction des mots construits préfixés.

La quatrième partie soulève les questions d’évaluation de la qualité de la traduction produite, ainsi que de la faisabilité et de la portabilité de notre approche. Le chapitre 12 s’intéresse à l’évaluation de la qualité. Après une brève description des différentes méthodes d’évaluation de la traduction, nous présentons les résultats de deux évaluations effectuées, centrées d’une part sur l’existence de mots générés en corpus, d’autre part sur l’amélioration de la qualité de la phrase traduite, une fois le mot inconnu résolu. Le chapitre 13 pose la question de la faisabilité d’une telle approche, en termes de ressources et de méthodes à mettre en œuvre. C’est dans ce chapitre que nous résumons la méthodologie que nous avons mise au point pour élaborer les RCL, et synthétisons les arguments que nous avons présentés en faveur de la possibilité de l’exploitation de la morphosémantique en traduction automatique. Nous évaluons également la portabilité d’une telle méthode vers d’autres paires de langues et vers d’autres procédés de construction.

Les annexes décrivent plus précisément un certain nombre de points évoqués tout au long du travail. L’annexe principale (annexe I), présente dans sa totalité l’implémentation des RCL bilingues pour un certain nombre de procédés de construction des mots particulièrement intéressants. C’est l’occasion de décrire complètement les travaux mis en œuvre pour décrire une règle de construction des lexèmes bilingues, puis pour l’implémenter informatiquement dans une optique de traduction automatique. Cette annexe présente également une évaluation très complète des étapes d’analyse et de génération pour les procédés choisis.

La dimension « globale » de ce travail nous a contraint, dans un souci de lisibilité, à résumer la plupart des études morphologiques consultées et les différentes implémentations et évaluations réalisées pour chaque règle de préfixation. C’est pourquoi nous présentons dans les annexes II et III, à titre d’information, la totalité des travaux effectués en amont. Tout d’abord, l’annexe II propose la synthèse des données morphologiques, récoltées dans les différentes études consultées en italien comme en français pour tous les procédés de préfixation étudiés. C’est à partir de ces données que nous avons pu comparer les systèmes préfixaux des deux langues, et proposer les premières ébauches de RCL bilingues. Ensuite, l’annexe III se concentre sur l’évaluation des programmes construits dans ce travail ainsi que sur les étapes d’analyse et de génération de chaque règle. Ainsi, nous montrons avec précision comment nous avons implémenté chaque règle, et quels ont été les résultats de son application sur un corpus de test. Enfin, l’annexe IV présente la batterie de phrases-test utilisée dans l’évaluation de l’amélioration de la traduction dans son ensemble, présentée au chapitre 12.

(18)

Chapitre 1 : Le lexique et l’incomplétude lexicale

Le terme lexique est ambigu, il possède plusieurs sens bien distincts qui sont le reflet de ses limites théoriques et descriptives. Il désigne d’une part l’ensemble théorique des mots d’une langue et d’autre part les ensembles de mots récoltés ou collectionnés dans un but précis. Dans ce chapitre, nous nous attardons tout d’abord sur la première acception, en nous inspirant du modèle de dynamique lexicale proposé par Tournier (1985) (section 1.1.1) puis nous développons l’unité abstraite du lexique : le mot (section 1.1.2). Ensuite, nous décrivons les lexiques en tant qu’artefact (section 1.2), en nous intéressant plus particulièrement à ceux qui jouent un rôle dans les applications de traitement automatique des langues (TAL) (section 1.2.1) et plus précisément dans les applications de traduction automatique (section 1.2.3).

Enfin, nous expliquons la notion d’incomplétude lexicale (section 1.3) et son « unité » (le mot inconnu) (section 1.3.1), en donnant un état de l’art de la quantification de celle-ci, et de ses solutions possibles (sections 1.3.2 et 1.3.3).

1.1 Le lexique d’un point de vue théorique

En linguistique, lexique « désigne l’ensemble des unités formant le vocabulaire, la langue d’une communauté, d’une activité humaine, d’un locuteur, etc. » (Dubois, Giacomo et al. 2001). Cet ensemble n’est qu’ « une entité théorique » (Polguère 2003), entité qui ressemble d’avantage à un « ensemble flou » (Polguère ibid). Cette idée de flou se retrouve chez (Lehmann et Martin-Berthet 2000) qui déclarent que cet ensemble « n’est pas clos, et [que] ses contours ne sont pas fixés de manière absolue ».

Cette absence de frontières précises aura un impact sur la conception des lexiques informatisés, ou sur toute autre tentative de représentation. Par exemple, les emprunts à une langue étrangère font-ils partie ou non du lexique d’une langue ? Et si oui, à partir de quand peuvent-ils être assimilés à celui-ci. Citons également les expressions figées, comme les proverbes ou les locutions (Polguère 2003) qui par leur absence de délimitation constituent des cas limites pour les entreprises de lexicographie. (Lehmann et Martin-Berthet 2000) soulèvent d’autres cas limites, comme les noms propres et les mots « virtuels », qui sont des mots possibles dans le lexique. Ils sont présents « en puissance » dans la langue (de Saussure 1915), comme indécorable, que tout locuteur a le sentiment de connaître et de comprendre, même s’ils sont absents de tous les dictionnaires courants (Le Larousse, Le Robert ou le Trésor de la langue française, par exemple).

Si ces divers cas limites montrent bien la difficulté de définir le lexique, c’est parce que cette notion recouvre en fait différents aspects. Ainsi, Tournier (1985) décrit le lexique selon quatre ensembles disjoints. Il distingue le lexique réel (qui regroupe toutes les formes réalisées), le lexique potentiel (pour les formes pas encore réalisées, mais possibles), le non-lexique, qui contient toutes les formes impossibles, et le xénolexique, qui est l’ensemble du lexique réel, mais pour un autre système linguistique (c’est-à-dire une autre langue).

Au sein du lexique réel, Tournier distingue le lexique répertorié, ensemble qui correspond plus ou moins aux catalogues que sont les lexiques artefactuels (dont nous reparlerons à la section 1.2), et le lexique non répertorié, qui regroupe toutes les unités lexicales réalisées, mais pas encore répertoriées. Dans un ouvrage ultérieur (Tournier 1991), Tournier précise ces deux notions en les qualifiant de zone sûre et de zone floue, distinction qui se retrouve dans la « zone floue, à la frontière du lexique », dont parlent Lehmann et Martin-Berthet (2000). Nous reproduisons ci-dessous le schéma de Tournier :

(19)

Figure 2: Les quatre lexiques

Cette distinction en quatre ensembles permet d’envisager plus clairement les différents éléments qui composent le lexique et en fait bien ressortir la complexité. Tournier considère également que « l’analyse des lexies appartenant à la zone sûre permet d’induire les mécanismes de formation » (Tournier 1991) qui sont à l’origine de la formation des mots possibles du lexique potentiel. En revanche, si un mot apparaît en ne suivant aucun mécanisme du lexique réel, il appartient alors théoriquement à l’ensemble du non-lexique, qui regroupe tous les mots dont il est impossible de prédire l’existence avec les mécanismes actuels de formation des mots.

Même si cette vision du lexique est sans doute simpliste et définie sans prendre en compte les récentes avancées (en psycholinguistique ou en linguistique de corpus), elle permet de rendre compte des interactions entre ces ensembles, interactions que Tournier regroupe sous le terme : dynamique lexicale.

1.1.1 La dynamique lexicale

Le lexique est donc un ensemble qui est ni uniforme ni figé. Il existe en effet des mouvements constants entre les différents ensembles disjoints qui constituent le lexique. Ces mouvements sont regroupés sous le terme de dynamique lexicale.

Ci-dessous, nous reproduisons le même schéma de la figure 3, en symbolisant avec des flèches les différents transferts que nous explicitons ultérieurement. Par souci de clarté, nous avons volontairement simplifié le modèle original de (Tournier 1985).

Non-lexique Lexique

potentiel

Xénolexique

Lexique réel Lexique répertorié

Lexique non-répertorié

(20)

Figure 3: La dynamique lexicale

Ce schéma montre trois transferts distincts entre les différents ensembles.

Premièrement, les transferts depuis l’ensemble du lexique potentiel vers l’ensemble du lexique réel (numéro 1 dans la figure 3) ont lieu quand un mot présent potentiellement dans la langue est réalisé en discours. Deuxièmement, les transferts depuis l’ensemble du xénolexique (c’est-à-dire le lexique réel d’une autre langue) vers le lexique réel (numéro 2) est plus communément appelé l’emprunt, et sera abordé au chapitre 4. Enfin, le transfert du non- lexique vers le lexique réel (numéro 3) est un phénomène avant tout théorique mais qu’il faut prendre en compte, même s’il est plutôt rare. Il regroupe les cas d’apparition de mots dans le lexique réel à partir de processus de construction qui n’existent pas encore dans la langue. Un tel transfert engendrera sans doute la création d’une nouvelle règle de construction des mots.

Evidemment, Tournier ajoute que ces trois types de transferts ne sont pas identiques d’un point de vue quantitatif. En effet, nous verrons dans les chapitres qui suivent que la majeure partie des mots nouvellement entrés dans le lexique réel existaient potentiellement dans le lexique, mais n’avaient pas encore été réalisés. Les emprunts (transfert depuis le xénolexique) sont également un phénomène important.

Il existe en outre un transfert entre le lexique non répertorié et le lexique répertorié, transfert qui est en fait l’entrée d’un mot dans un lexique artefactuel.

1.1.2 La notion de mot

Les frontières imprécises de la notion théorique de lexique sont non seulement dues à la dynamique lexicale que nous venons de présenter, mais également à la difficulté de définir les unités qui composent le lexique.

Pour tout un chacun, la notion de mot semble clairement correspondre à l’unité du lexique. Mais à y regarder de plus près, il est difficile de trouver un consensus sur une définition précise de cette notion.

Il est communément admis qu’un mot est constitué d’une forme, d’un sens et d’une catégorie (Lehmann et Martin-Berthet 2000). Mais ces trois composantes sont elles-mêmes porteuses d’ambiguïtés. Ainsi, la relation « un mot = un sens » est bien souvent mise à mal car il n’est pas rare de rencontrer un mot qui soit doté de plusieurs sens. Il en va de même pour la relation « un mot = une catégorie ». Enfin, l’équation « un mot = une forme » est également rarement vérifiée, et dans ce cas de figure, il faut tout d’abord distinguer l’unité lexicale de la forme fléchie, et ensuite l’unité lexicale de la forme graphique.

Non-lexique Lexique

potentiel

Xénolexique

Lexique réel Lexique répertorié

Lexique non-répertorié

1 2

3

(21)

La première distinction (entre les formes fléchies et unité lexicale) permet de rendre compte que les formes fléchies d’un mot ne sont que les réalisations de la même unité lexicale. Pour éviter toute confusion, le terme lexème est souvent employé pour désigner les unités de langue abstraites, qui se réalisent sous des formes fléchies en discours. Pour clarifier cette distinction Polguère (Polguère 2003) donne l’exemple de l’apprentissage d’un nouveau mot dans une langue étrangère. Dans ce cas, le mot mot désigne un lexème c’est-à-dire un

« élément de base de la connaissance lexicale », une « entité générale qui se matérialise dans les phrases » par des formes fléchies. Enfin, ajoutons que le lexème est au cœur de l’approche lexématique de la morphologie que nous adoptons dans ce travail (cf. plus loin chapitre 6).

La deuxième distinction (entre mot graphique et unité lexicale) a son importance dans les études de linguistique appliquée, et notamment en TAL. En effet, un mot graphique est défini par des séparateurs, généralement l’espace, mais parfois aussi le trait d’union, l’apostrophe, etc. Evidemment, il est fréquent de rencontrer des mots graphiques qui ne sont pas des unités lexicales comme parce ou prou qui ne prennent leur statut d’unité lexicale que dans les locutions parce que et peu ou prou.

Enfin, il convient de relever une dernière distinction, propre à la statistique lexicale, entre les occurrences, mots graphiques d’une partie de discours, et les formes, mots distincts de cette même partie. Ainsi, un texte de 100 mots contient 100 occurrences, mais sans doute beaucoup moins de formes étant donné que celles-ci sont répétées plusieurs fois dans le discours.

Pour résumer, nous pouvons dire que le terme mot véhicule un certain nombre d’ambiguïtés insolubles. C’est pour cette raison que certains auteurs préfèrent tout simplement éluder le mot mot en employant des termes plus techniques, comme lexie (à l’instar de (Polguère 2003) qui lui-même l'emprunte à (Potier 1962)). Dans le présent travail, nous emploierons le terme d’unité lexicale, ou, dans des cas précis, de lexème, sans pour autant nous priver, dans un souci stylistique, d’utiliser le mot mot, tout en restant conscient de l’imprécision qu’il transporte. Et nous faisons nôtre la déclaration de G. Matoré, qui déclarait que la notion de mot est « peu claire … mais … commode ». (cité par Tournier 1985, p. 27).

Dans la section suivante, nous nous attardons sur la notion de lexique dans sa dimension artefactuelle, et plus particulièrement sur les lexiques employés dans les applications du traitement automatique des langues. Nous reviendrons sur la notion de dynamique lexicale dans les chapitres 3 et 4 consacrés à la créativité lexicale et aux emprunts.

(22)

1.2 Les lexiques artefactuels

Les considérations théoriques propres aux lexicologues évoquées dans la section précédente se reflètent plus ou moins dans l’activité des lexicographes, qui ont pour tâche d’étudier et de constituer des lexiques en tant qu’artefact. Le terme lexique désigne alors un objet que nous qualifions d’artefactuel, car il est le résultat d’une élaboration humaine. Là où les linguistes sont « affranchis des contraintes pratiques [pour élaborer] une description générale et abstraite des phénomènes lexicaux » (Mortureux 1997), les lexicographes sont eux confrontés à différents problèmes matériels comme celui de l’exhaustivité des lexiques artefactuels. En effet, en lexicographie, le terme lexique évoque des listes de lexèmes récoltées en fonction de certains critères (langue générale, terminologie scientifique, équivalent de traduction pour les dictionnaires bilingues). Celles-ci sont certes des ensembles finis et clos, mais elles servent généralement à représenter l’ensemble non fini et dynamique dont nous venons de faire état. Ces listes peuvent prendre de nombreuses formes, et avec l’évolution des techniques et l’arrivée du numérique, le dictionnaire papier s’est petit à petit informatisé. Ce changement de support a provoqué de nombreux bouleversements, chez les concepteurs comme chez les utilisateurs². Parmi les dictionnaires informatisés, Pruvost (2000) distingue trois types de dictionnaires : « les dictionnaires-machines, les dictionnaires informatisés et les dictionnaires en ligne » qu’il définit sommairement ainsi : « les dictionnaires-machines ont en réalité pour destinataire, comme leur désignation l’indique, la machine, c’est-à-dire qu’ils sont destinés à travailler pour nourrir l’ordinateur selon un programme choisi, et […] les deux autres types de dictionnaires sont à usage humain […] ».

C’est le dictionnaire-machine (ou lexique informatisé) qui occupera une place centrale dans notre travail. Evidemment, nous ferons parfois un parallèle avec les autres ouvrages lexicographiques (dictionnaires papiers), même si ce parallèle peut être hasardeux étant donné que les dictionnaires papiers sont souvent bien moins explicites que les lexiques informatisés (Hutchins et Somers 1992). Dans cette section, nous présentons la structure générale d’un lexique informatisé (section 1.2.1) avant de passer en revue les différentes fonctions que celui-ci peut avoir suivant les applications de traitement de la langue dans lequel il est utilisé (section 1.2.2), en nous concentrant bien évidemment sur les lexiques des systèmes de traduction automatique (ci-après TA) (section 1.2.3).

1.2.1 Le lexique en TALN

« Le traitement automatique des langues a besoin de connaissances [sur la langue, et donc] sur les mots » (Ingria, Boguraev et al. ms). En effet « tout système de traitement des langues [contient] un stock d’informations sur les mots et la langue, que l’on nomme généralement dictionnaire ou lexique ». (Ritchie et Russell 1992). Cependant, avec (Ingria, Boguraev et al. ms) nous constatons qu’« il y a très peu d’accord sur la nature exacte de ce qui doit se trouver dans un lexique ».

Le lexique permet de faire un lien « entre des formes de surfaces et des informations linguistiques. » (Ritchie 1987). L’ensemble constitué de la forme de surface (le mot) et des informations est généralement désigné par le terme entrée lexicale (Ritchie 1992). Notons au passage que ce terme prend ici une acception plus précise qu’en lexicologie en général, comme nous l’avions déjà défini plus haut.

La forme de surface concerne le fait de langue pour lequel l’application informatique devrait fournir des informations. Les informations peuvent être divisées en trois types : les

2 Pour de plus amples discussions sur l’informatisation des dictionnaires, nous renvoyons à (Pruvost 2000)

(23)

informations syntaxiques qui fournissent notamment des informations sur la catégorie morphosyntaxique du mot ; des informations phonologiques qui précisent la manière de prononcer le mot ; des informations sémantiques qui explicitent le sens du mot³. Toutes ces informations sont généralement regroupées sous le terme d’informations intra-lexicales. Elles spécifient le contexte dans lequel le mot apparaît, mais elles restent inhérentes aux mots eux- mêmes.

Les informations phonologiques sont évidemment indispensables dans les lexiques visant à traiter la langue orale, mais peuvent également parfois entrer en ligne de compte dans le traitement de l’écrit. Les informations syntaxiques incluent la catégorie syntaxique (noms, verbes, …) et les informations de sous-catégorisation. Ces dernières regroupent, par exemple, les informations spécifiant les structures des compléments des verbes. Enfin, ses informations classées sous le label sémantique sont très variées. Certaines sont purement sémantiques, comme des pointeurs vers une ontologie sémantique, mais d’autres sont davantage syntaxiques. La distinction entre traits sémantique et syntaxique est bien souvent floue (Ingria, Boguraev et al. ms) étant donné que ces deux informations apparaissent bien souvent ensemble dans la description de l’unité lexicale.

Les informations inter-lexicales se distinguent des informations intra-lexicales car elles relient les mots entre eux dans le lexique. Il est en effet particulièrement intéressant, dans un lexique informatisé, de pouvoir décrire les liens qui existent entre mangeait, mangé et manger, entre rapide et rapidement, ou encore les liens entre cheval et étalon.

Le premier type de lien (entre mangeait, mangé et manger) est un lien morphologique de type flexionnel. Ces trois formes de surface appartiennent au même paradigme flexionnel du verbe manger. Dans le lexique informatisé, il est souvent pertinent de formaliser ce type de lien, avant tout pour une question de rationalisation des informations. En effet, toutes les formes d’un même paradigme flexionnel possèdent les mêmes informations sémantiques et syntaxiques. Si le lien entre toutes les flexions est explicité, la déclaration de ces informations peut ne se faire qu’une seule fois. Notons également que ce premier type de lien peut être également utile suivant la finalité de l’application pour laquelle le lexique est conçu. C’est le cas notamment des lemmatiseurs qui exploitent ces liens pour réduire les mots d’un texte à leur forme de base, facilitant ainsi leur traitement ou leur décompte.

Le deuxième type de lien est également morphologique mais relève de la morphologie constructionnelle⁴. L’exploitation de ce type de lien n’est pas uniforme suivant les liens.

Ainsi, certains d’entre eux sont exploités par souci de rationalisation et de place de stockage dans les lexiques, comme le paradigme adjectif/adverbe, qui définit la dérivation régulière des adverbes à partir d’une base adjectivale. D’autres liens dérivationnels, plus complexes, sont également utilisés dans d’autres types d’application (en recherche documentaire notamment (Hathout, Namer et al. 2002))⁵.

Enfin, le troisième type de liens, qui relie cheval à étalon est sémantique. Ceux-ci permettent d’expliquer des relations de synonymie ou d’antonymie par exemple. Les utilisations de ce type d’informations sont très nombreuses, mais la constitution de lexique

3 A ce stade, notons simplement que la présence de certaines informations dans un lexique est conditionnée par la fonction du lexique ou de l’application dans lequel il s’insère. Par exemple, les informations phonologiques auront leur importance dans une application gérant la parole, mais pas dans les applications traitant les corpus textuels.

4 Suivant les théories linguistiques, le terme constructionnel est préféré à dérivationnel. Nous l’employons ici pour englober tous les procédés de formation des mots (dérivation, composition, …). D’autres auteurs préfèrent le terme morphologie lexicale (par opposition à la flexion).

5 Il nous faut également signaler, à ce stade, que la morphologie dérivationnelle a longtemps été considérée comme insuffisamment régulière pour être exploitable en TALN. La tendance semble s’inverser avec la compréhension de plus en plus précise des procédés constructionnels (Dal, 2002)

(24)

sémantique est bien plus complexe que la construction de lexiques contenant essentiellement des informations morphosyntaxiques. Certains projets d’envergure sont déjà bien développés pour certaines langues comme Wordnet (Fellbaum 1999).

Jusqu’à présent, nous avons décrit la partie « information » de l’entrée lexicale, sans nous préoccuper de la forme de surface. Il est cependant intéressant de noter que celle-ci, bien que peu problématique, dépend uniquement du choix des concepteurs du lexique. En effet, comme le décrit (Ritchie et Russell 1992), la forme de surface est « une séquence de caractères d’un alphabet prédéfini ». La notion d’alphabet prédéfini implique que le concepteur du lexique peut choisir quels sont les caractères qui peuvent entrer dans la construction d’une forme de surface. Par extension, nous pouvons dire que c’est le concepteur du lexique qui définit ce qu’est une forme de surface, et donc, ce qu’est un mot. Cette forme peut donc être constituée de plusieurs mots graphiques, comme parce que, si le concepteur décide de créer une entrée lexicale pour cet item.

Mais le contenu des entrées lexicales dépend également de la finalité de l’application pour laquelle le lexique est conçu. Dans la suite, nous décrivons les principales fonctions du lexique en TALN, et en traduction automatique.

1.2.2 Le rôle du lexique en TALN

Si, d’un point de vue linguistique, le lexique constitue l'ensemble de toutes les entrées lexicales d'une langue, d’un point de vue taliste, la couverture et la qualité du lexique dépendent de l’application pour laquelle le lexique est élaboré (Arnold, Balkan et al. 1994).

Suivant les applications, le rôle du lexique est différent. Mais en général, il est d’usage de distinguer deux fonctions principales : le « lookup » (ou analyse) et « la génération ». Le lookup est le processus qui en partant d’une forme de surface, fournit les informations qui lui sont associées. A l’inverse, la génération, est le processus qui, à partir d’informations données, sélectionne la forme de surface adéquate (Ritchie 1987).

Par exemple, un analyseur morphosyntaxique rend explicite les informations linguistiques des mots qui lui sont soumis et fournit une représentation de ces mots. A l’inverse, un générateur de mot en langue naturelle produira des données textuelles (des formes de surfaces) à partir d’informations abstraites.

Comme nous le verrons dans la suite, le lexique, dans un système de TA, est utilisé dans les deux sens, pour l’analyse de la phrase à traduire comme pour la génération de la traduction. Cette double opération implique une organisation du composant « lexique » sensiblement différente dans un système de TA que pour n’importe quel système de TALN.

1.2.3 Le lexique des systèmes de TA

Rappelons quelques principes architecturaux des systèmes de TA, avant de parler des lexiques plus précisément.

D’une manière assez simpliste, il faut distinguer trois types d’architecture des systèmes de TA : les systèmes directs, indirectes et par interlangue. Ces architectures sont ainsi classées schématiquement en fonction du niveau de représentation par lequel le transfert entre les deux langues est effectué. Là où les systèmes directs opèrent une simple mise en correspondance des unités lexicales de la langue source avec leur équivalent en langue cible, les systèmes indirects passent par une représentation linguistique plus profonde de la phrase. C’est alors la représentation de la phrase en langue source qui est mise en correspondance avec la

(25)

représentation de la phrase en langue cible, dans une étape dite « de transfert ». Les niveaux de représentation peuvent être plus ou moins abstraits selon les systèmes, les plus abstraits étant les systèmes interlingues qui utilisent une représentation conceptuelle qui sert de « pivot

» entre les différentes langues.

Suivant l’architecture utilisée, le lexique prend une place plus ou moins grande et contient des informations plus ou moins « denses ». Les lexiques constituent cependant, au sein des systèmes de TA, le composant le plus important en termes de quantité d’informations (Arnold, Balkan et al. 1994). Celles-ci sont en effet plus nombreuses, et plus complexes à traiter, étant donné que l’application a pour but de gérer plusieurs langues en même temps (Hutchins et Somers 1992). Ces informations sont stockées et gérées de différentes manières suivant les systèmes. En général (c’est le cas dans la plupart des systèmes par transfert, comme le système METAL (Schneider 1992)), deux types de lexiques doivent être distingués : les lexiques monolingues et le lexique de transfert⁶. Les premiers contiennent les informations morphologiques, syntaxiques et sémantiques nécessaires à l’analyse et à la génération. Le lexique de transfert a pour but de fournir « un lien entre la langue source et la langue cible, en indiquant [les conditions contextuelles dans lesquelles] telle entrée lexicale de la langue source doit être reliée avec telle entrée lexicale de la langue cible » (Schneider 1992). En revanche, dans un système interlingue, les informations de traduction sont en soi inutiles, car chaque entrée lexicale doit être uniquement reliée au concept de l’interlangue qu’elle représente, et non pas à son équivalent de traduction.

Une entrée lexicale de système de TA peut parfois être un peu différente d’une entrée lexicale d’un système de TAL en général, car l’opération de mise en correspondance entre deux unités lexicales de deux langues différentes oblige à rendre explicite des informations qui ne seraient pas nécessaires dans un système monolingue. Ces phénomènes sont généralement regroupés sous le terme de décalage, dont les exemples peuplent la littérature⁷. Par exemple, le mot anglais brother est traduit en japonais par otooto si celui-ci est plus jeune, et par oniisan si celui-ci est plus vieux (Jurafsky, Martin et al. 2000). De telles divergences peuvent être résolues selon différentes stratégies : l’une consiste à considérer dans l’étape d’analyse le mot brother comme ambigu, et donc « le choix de l’équivalent correct en japonais serait comme une désambiguïsation »,(Jurafsky, Martin et al. 2000) ; l’autre consiste plutôt à appliquer des contraintes lors de la génération pour choisir l’équivalent japonais correct. En général, c’est la première option qui est préférée, ce qui implique que les informations de l’entrée brother dans un système de TA anglais-japonais seraient beaucoup plus importantes et/ou précises que dans un lexique anglais destiné à des tâches plus simples.

En parlant des lexiques, nous avons distingué les deux processus que sont l’analyse et la génération. Pour reprendre une image introduite par (Bouillon, Lehman et al. 1998), « analyse et génération partent du connu, pour extraire l’inconnu ». L’« inconnu » correspond, pour l’analyse, à la représentation du texte, et pour la génération, au texte. Mais que se passe-t-il quand l’analyse ne parvient pas à « extraire l’inconnu », c’est-à-dire qu’elle ne réussit pas à fournir une représentation du texte ? Cet échec est généralement dû à des lacunes au niveau des ressources linguistiques des systèmes de traitement des langues, regroupées généralement sous le terme d’incomplétude lexicale.

6 Certaines architectures sont beaucoup plus complexes et distinguent par exemple différents lexiques, pour les mots très fréquents, pour les expressions idiomatiques, etc… (Hutchins et al 1992)

7 Pour de plus amples informations sur les ambiguïtés lexicales ou lexico-structurelles, nous renvoyons à (Vandooren 1993).

(26)

1.3 L’incomplétude lexicale

Un lexique artefactuel est donc une liste, un catalogue figé, qui, selon les applications, contient toutes les informations nécessaires à l’exécution des tâches demandées. Mais dans bien des applications généralistes du traitement automatique des langues, le lexique doit traiter une langue en mouvement, une langue dynamique⁸. En effet, nous l’avons vu, la langue est un ensemble en mouvement, représenté par (Tournier 1985) sous le terme de dynamique lexicale. Il en résulterait donc que tout lexique artefactuel, élaboré à un instant T, est par essence incomplet. Cette incomplétude a fait l’objet de nombreuses études et travaux de recherche. Dans la suite, nous commençons par définir un peu mieux le concept d’incomplétude lexicale, puis, nous passons en revue les différents travaux qui l’ont déjà quantifiée et caractérisée.

1.3.1 Définition de l’incomplétude lexicale et des mots inconnus

L’incomplétude lexicale désigne généralement l’ensemble des unités de langue absentes d’un lexique artefactuel. Ces éléments absents sont désignés de manière générique, par le terme mots inconnus. Ce terme n’est pas complètement erroné, car il s’agit majoritairement de mots (des noms propres, des néologismes), mais il peut arriver que l’on classe dans cette catégorie des éléments du discours qui ne sont pas vraiment des « mots ». En effet, le lexique artefactuel n’est qu’une étape de traitement dans les applications des lexiques. Ainsi, une erreur de traitement antérieure à l’analyse lexicale peut générer un phénomène d’incomplétude lexicale, même si, linguistiquement, le lexique n’est alors pas en cause⁹.

Mais hormis ces cas limites, le terme mot inconnu désigne toutes les unités absentes du lexique, bien au-delà du débat sur la notion de mot, car, le fait même qu’il soit inconnu rend difficile sa définition. En effet, parce qu’il est inconnu, nous devons nous contenter de dire qu’il s’agit d’une suite de caractères, qui correspond à la notion graphique d’unité lexicale et qui est absente du lexique de référence. Il n’en reste pas moins que l’incomplétude lexicale est un phénomène important et présent dans de nombreuses applications, comme l’atteste le bref état des lieux que nous présentons ci-dessous.

1.3.2 État de l’art

Dans le cadre de différents projets, de nombreux auteurs soulignent le manque d’exhaustivité des lexiques artefactuels. Ainsi, (Habert, Nazarenko et al. 1997) citent (Krovetz 1991) qui indique que « 50 à 60 % des mots susceptibles d’être retenus comme clé d’indexation par un système de recherche documentaire sont absents du Longmann Dictionary of Contemporary English ». De même, une base lexicale de langue générale conviendra assez mal pour traiter des langues de spécialité. (Habert, Nazarenko et al. 1997) citent par exemple (Agirre et Rigau 1996) qui signalent que 11 % des noms de leur corpus ne figurent pas dans Wordnet. (Maurel 2004), dans son étude sur un corpus de texte journalistique obtient un taux de 4 % de mots inconnus sur l’ensemble des occurrences du texte, et de 13 % si l’on ne tient compte que du nombre de mots distincts. La couverture lexicale est donc rarement parfaite et peut dépendre du type de texte. De plus, même si le pourcentage des mots inconnus peut paraître relativement bas, les conséquences de leur présence peuvent être plus importantes. Un mot non reconnu dans une phrase peut empêcher

8 Nous excluons ici volontairement les textes rédigés selon des règles de pré-édition (des langages contrôlés) qui, par définition, ne sont pas de même nature, surtout du point de vue de la créativité lexicale.

9 C’est notamment le cas de l’incomplétude de listes d’exclusion des segmenteurs, phénomène sur lequel nous aurons l’occasion de revenir dans le chapitre 3

De l&#039;incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue

Thesis

Reference