• Aucun résultat trouvé

Chapitre 1 : Le lexique et l’incomplétude lexicale

1.3 L’incomplétude lexicale

Un lexique artefactuel est donc une liste, un catalogue figé, qui, selon les applications, contient toutes les informations nécessaires à l’exécution des tâches demandées. Mais dans bien des applications généralistes du traitement automatique des langues, le lexique doit traiter une langue en mouvement, une langue dynamique8. En effet, nous l’avons vu, la langue est un ensemble en mouvement, représenté par (Tournier 1985) sous le terme de dynamique lexicale. Il en résulterait donc que tout lexique artefactuel, élaboré à un instant T, est par essence incomplet. Cette incomplétude a fait l’objet de nombreuses études et travaux de recherche. Dans la suite, nous commençons par définir un peu mieux le concept d’incomplétude lexicale, puis, nous passons en revue les différents travaux qui l’ont déjà quantifiée et caractérisée.

1.3.1 Définition de l’incomplétude lexicale et des mots inconnus

L’incomplétude lexicale désigne généralement l’ensemble des unités de langue absentes d’un lexique artefactuel. Ces éléments absents sont désignés de manière générique, par le terme mots inconnus. Ce terme n’est pas complètement erroné, car il s’agit majoritairement de mots (des noms propres, des néologismes), mais il peut arriver que l’on classe dans cette catégorie des éléments du discours qui ne sont pas vraiment des « mots ». En effet, le lexique artefactuel n’est qu’une étape de traitement dans les applications des lexiques. Ainsi, une erreur de traitement antérieure à l’analyse lexicale peut générer un phénomène d’incomplétude lexicale, même si, linguistiquement, le lexique n’est alors pas en cause9.

Mais hormis ces cas limites, le terme mot inconnu désigne toutes les unités absentes du lexique, bien au-delà du débat sur la notion de mot, car, le fait même qu’il soit inconnu rend difficile sa définition. En effet, parce qu’il est inconnu, nous devons nous contenter de dire qu’il s’agit d’une suite de caractères, qui correspond à la notion graphique d’unité lexicale et qui est absente du lexique de référence. Il n’en reste pas moins que l’incomplétude lexicale est un phénomène important et présent dans de nombreuses applications, comme l’atteste le bref état des lieux que nous présentons ci-dessous.

1.3.2 État de l’art

Dans le cadre de différents projets, de nombreux auteurs soulignent le manque d’exhaustivité des lexiques artefactuels. Ainsi, (Habert, Nazarenko et al. 1997) citent (Krovetz 1991) qui indique que « 50 à 60 % des mots susceptibles d’être retenus comme clé d’indexation par un système de recherche documentaire sont absents du Longmann Dictionary of Contemporary English ». De même, une base lexicale de langue générale conviendra assez mal pour traiter des langues de spécialité. (Habert, Nazarenko et al. 1997) citent par exemple (Agirre et Rigau 1996) qui signalent que 11 % des noms de leur corpus ne figurent pas dans Wordnet. (Maurel 2004), dans son étude sur un corpus de texte journalistique obtient un taux de 4 % de mots inconnus sur l’ensemble des occurrences du texte, et de 13 % si l’on ne tient compte que du nombre de mots distincts. La couverture lexicale est donc rarement parfaite et peut dépendre du type de texte. De plus, même si le pourcentage des mots inconnus peut paraître relativement bas, les conséquences de leur présence peuvent être plus importantes. Un mot non reconnu dans une phrase peut empêcher

8 Nous excluons ici volontairement les textes rédigés selon des règles de pré-édition (des langages contrôlés) qui, par définition, ne sont pas de même nature, surtout du point de vue de la créativité lexicale.

9 C’est notamment le cas de l’incomplétude de listes d’exclusion des segmenteurs, phénomène sur lequel nous aurons l’occasion de revenir dans le chapitre 3

l’analyse de la phrase entière. Ainsi, par extension, (Gdaniec, Manandise et al. 2001) estiment que la résolution de 1 % des mots inconnus d’un texte peut améliorer le traitement de 10 % des phrases d’un document.

D’un point de vue qualitatif, quelques recherches ont proposé une caractérisation de l’incomplétude lexicale, afin de déterminer où investir les efforts pour améliorer ces ressources ((Ren et Perrault 1992), (Froissart et Lallich-Boidin 1996), (Dister et Fairon 2004), (Maurel 2004)). Plus loin, dans le chapitre 2, nous présenterons une typologie précise des différents types de mots inconnus. Pour l’instant, nous explicitons simplement les trois grandes catégories : les mots issus de la créativité lexicale, les noms propres et les erreurs.

Nous présentons ci-dessous un panorama général de ces trois catégories.

Le premier type de mots inconnus concerne les noms propres. Les noms propres sont en soi une problématique. Comme les mots communs, leur ensemble est infini et leur listage est tout aussi difficile. De plus, leur mode de formation est également hétérogène, comme l’atteste les différences évidentes entre France, Jacques Chirac et Organisation mondiale de la santé. En TAL, la difficulté principale réside dans l’identification du nom propre. Bien souvent, la majuscule est utilisée comme indice. (Maurel 2004) estime que cette technique a l’avantage d’être simple et d’avoir une marge d’erreur réduite (1 %). Cette technique ne peut cependant faire ces preuves que dans des langues où la majuscule est un indicateur du nom propre, ce qui n’est pas le cas de l’allemand, par exemple, qui capitalise également les substantifs. De plus, dans le cas des noms propres composés, la majuscule n’est pas présente sur tous les formants du nom propre, ce qui pose le problème de la reconnaissance de la limite droite (Friburger 2002). D’un point de vue quantitatif, les noms propres représentent, suivant les études, ((Yoshimoto, Kinoshita et al. 1997), (Maurel 2004), et (Coates-Stephens 1993)), entre 10 % et 20 % du total des occurrences d’un texte. Parmi les mots inconnus, (Silberztein 1995) (cité par (Dister et Fairon 2004)) a calculé que près de 80 % des mots inconnus étaient des noms propres.

Les erreurs (fautes d’orthographe ou de frappe) constituent un autre problème important en traitement des langues. En fait, tous les systèmes sont construits pour des données langagières « correctes », et les erreurs, quelles qu’elles soient, constituent un réel problème de traitement. Certaines erreurs peuvent être dues à une non-prise en compte de certaines variations orthographiques dans le lexique. Par exemple, certaines règles édictent l’usage du trait d’union dans certains mots construits. (Grevisse 1980) précise que les composés commençant par le préfixe anti « soudent ensemble, sans trait d’union, les éléments composants ». Or, une note du TLF10 énonce que anti forme des « composés soudés ou avec trait d'union ». L’application de la première norme amènerait à considérer comme faux des l’exhaustivité des lexiques informatisés. Cette problématique constitue le centre de notre travail et il est donc intéressant de regarder plus précisément comment différents auteurs caractérisent ces créations lexicales. Maurel, par exemple, ne distingue que deux groupes : la création lexicale et les emprunts à une langue étrangère. (Dister et Fairon 2004) quant à eux opèrent une classification plus minutieuse et distinguent les mots étrangers, les mots provenant de la féminisation des noms de métiers, les québécismes11 et les néologismes,

10 Trésor de la langue française, http://atilf.atilf.fr/ consulté le 8 avril 2005.

11 Rappelons que l’étude de (Dister et Fairon 2004) porte sur l’analyse de corpus journalistique québécois.

groupe dans lequel ils différencient les apocopes et les phénomènes de construction morphologique. Selon le décompte de (Maurel 2004), deux cinquièmes des mots inconnus proviennent de la création lexicale (néologismes, abréviations, dérivés de noms propres, onomatopées, …) et un cinquième est constitué d’erreurs (fautes de frappe, fautes d’accent, fautes d’orthographe).

De nombreuses autres typologies pourraient être encore présentées, mais toutes ont en commun le fait d’accorder une large place donnée aux phénomènes relevant de la morphologie constructionnelle dans les créations lexicales, d’où le terme fréquemment rencontré de néologisme construit. De plus, notons également que tous ces typologies ont toutes comme but (même non avoué) de distinguer les différents types de mots inconnus pour pouvoir ensuite proposer des solutions distinctes pour tel ou tel problème. Si, pour certains types de mots inconnus, l’enrichissement du lexique reste la solution la plus évidente (Ren et Perrault 1992) (comme pour les abréviations notamment), les néologismes construits sont plus difficiles à cerner, notamment à cause de leur fort potentiel productif (Ren et Perrault 1992).

1.3.3 Résolution de l’incomplétude lexicale en TA : état de l’art

Quand un système de traitement de la langue repose sur les informations syntaxiques et sémantiques associées aux mots, l’absence d’un mot dans le lexique cause quelques problèmes (Gdaniec, Manandise et al. 2001), qui peuvent provoquer un certain nombre d’erreurs plus ou moins importantes dans la sortie du traitement.

La langue étant en perpétuelle évolution et la couverture lexicale des lexiques étant

La gestion même des mots inconnus doit être également suffisamment efficace pour que ceux-ci n’entravent pas le reste du processus. Beaucoup de systèmes commerciaux optent pour le « Transliteration of unknown words »12 , où le mot inconnu en langue source est tout simplement transposé tel quel en langue cible. Cette technique se révèle fort pratique et efficace quand le mot inconnu est un nom propre dont la graphie ne varie pas d’une langue à l’autre.

Cependant, si d’un point de vue technique le système peut se permettre d’ignorer les mots inconnus et de les transposer dans la langue d’arrivée, il faut garder à l’esprit la qualité du résultat que l’on désire obtenir. (Amba et Vineet 1996) considèrent en effet que le lecteur ne devrait pas rencontrer plus de 1 ou 2 % de mots inconnus dans un texte traduit par un système de TA. Au-delà de cette limite, le lecteur aura de la difficulté à comprendre ce qu’il lit.

De son côté, le logiciel de TA Systran gère les mots inconnus pendant le processus de lookup en déclenchant une routine. Celle-ci vérifie d’abord si l’unité absente du dictionnaire est un nombre (auquel cas, elle assigne l’information appropriée). Si ce n’est pas le cas, elle regarde ensuite une table des terminaisons, qui lui indiquera les informations grammaticales les plus probables. Si ce processus échoue, une étiquette neutre (POS- part-of-speech) lui est alors assignée (Whitelock et Kilby 1995). Ce processus de « devinette » de la catégorie morphosyntaxique permet d’améliorer l’analyse de la phrase, malgré l’absence d’informations

12 @prompt Translation software, http://www.translation.net/prompt.html , consulté le 2 novembre 2004.

linguistiques sur le mot inconnu. Si cette technique pallie certains dommages importants que pourrait causer la présence d’un mot inconnu dans une phrase du point de vue de l’analyse morphosyntaxique (elle est d’ailleurs employée dans bon nombre de parseurs), elle n’améliore en aucun cas la traduction du mot inconnu.

Des recherches récentes penchent sur d’autres solutions de gestion des mots inconnus en traduction automatique. Ainsi, (Sinha 2001) propose une translittération « adaptée » des mots inconnus. En effet, son étude porte sur la traduction anglais-hindi, langues entre lesquelles il existe un grand nombre d’emprunts, ce qui permet à Sinha d’ajouter au mot translittéré des suffixes de la langue cible pour proposer une traduction du mot anglais en hindi. Cette méthode semble fonctionner de manière satisfaisante, étant donné que la langue hindi a une forte propension à emprunter des mots anglais et à leur appliquer des règles de formation comme celle du genre, du nombre, et de la nominalisation déverbalisante propre à la langue hindi.

(Gdaniec, Manandise et al. 2001) proposent également de se fonder sur les propriétés morphologiques des mots construits inconnus pour tenter une traduction de ces mots. Dans ce travail d’amélioration du système IBM MT, les auteurs envisagent ainsi un système de règles morphosémantiques capable non seulement d’analyser les mots inconnus en les décomposant, mais également de générer une traduction de ces mots, en « reconstruisant » l’équivalent possible en langue cible. De plus, une traduction d’un syntagme plus complexe est aussi envisagée (où un adverbe construit sur un adjectif en français (ADJ+ment) est traduit par une locution adjectivale en anglais (in a ADJ manner)). D’un point de vue quantitatif, peu d’informations sont fournies dans cet article quant à l’amélioration réelle de la traduction. Au niveau méthodologique, le lecteur reste sur sa faim concernant les méthodes d’élaboration des règles. Ce projet constitue tout de même l’une des tentatives d’exploitation des liens morphosémantiques multilingues, que nous présentons plus largement au chapitre 5.

Enfin, citons également les études récentes basées sur les principes de l’analogie (à la suite des travaux de (Lepage 1998) notamment), qui permettent d’inférer les traductions potentielles de mots inconnus dans les systèmes de traduction automatique statistique (Denoual 2007).

Conclusion

Dans ce chapitre, nous avons tout d’abord étudié la notion théorique de lexique et expliqué le concept de dynamique lexicale, qui permet notamment de décrire l’entrée de mots nouveaux dans le lexique réel. Nous avons ensuite défini les lexiques artefactuels, en examinant leur rôle et leur contenu suivant les applications informatiques auxquelles ils participent. Nous avons défini le concept d’incomplétude lexicale et de mot inconnu, en donnant quelques chiffres sur ce phénomène. Nous avons également montré que peu de recherches affrontaient le problème, et que la majorité des solutions ne relèvent que du bricolage au cas par cas. Dans les solutions davantage linguistiques, le traitement de l’incomplétude lexicale se base essentiellement sur des règles, et donc sur les connaissances des mécanismes de la dynamique lexicale. L’acquisition de ces connaissances est un travail ardu, et peut-être insuffisamment rentable pour qu’il ait été entrepris plus souvent.

Nous décrirons dans le chapitre 3, les différents mécanismes de la dynamique lexicale qui alimentent le lexique réel et qui sont donc à l’origine de l’incomplétude lexicale des lexiques artefactuels. Mais avant cela, dans le chapitre suivant, nous présentons les résultats de quelques expériences autour de l’incomplétude lexicale des lexiques informatisés, qui nous permettent de définir un peu mieux les contours de notre problématique.

Documents relatifs