Les données des expériences - : Expériences sur l’incomplétude lexicale

Chapitre 2 : Expériences sur l’incomplétude lexicale

2.1 Les données des expériences

Toute expérience sur les mots inconnus nécessite la constitution d’un corpus de mots inconnus. Ceux-là sont généralement obtenus en confrontant un lexique (qui est alors considéré comme un ensemble de mots connus) avec un corpus textuel. Pour nos expériences, nous employons un certain nombre de ressources, lexicales et textuelles, que nous décrivons ci-dessous.

2.1.1 Les corpus textuels

Dans les expériences décrites dans ce chapitre, nous avons utilisé deux corpus textuels comparables dans les deux langues de notre travail, le français et l’italien. Par corpus comparable, nous entendons une « sélection de textes similaires dans plus d’un langage ou dans plusieurs variétés d’un langage » (Habert, Nazarenko et al. 1997). Ces deux corpus sont publiés par ELRA, dans le cadre des corpus MLCC (multilingual corpora for co-operation, 1997). Pour l’italien, il s’agit des éditions du mois de février 1992 de Il Sole 24 ore, quotidien italien d’actualité économique¹⁴ (notre corpus contient 1 667 227 occurrences). Pour le français, il s’agit des éditions du mois de juillet 1993 du journal Le Monde¹⁵, journal français d’actualité (908 953 occurrences).

Les deux journaux sont comparables du point de vue de leur contenu et de leur portée, et les dates de leur publication sont assez proches l’une de l’autre pour que ces deux corpus soient considérés comme synchroniques. Comme ces corpus se présentent sous la forme de fichiers importants du point de vue de leur taille, et que leur traitement n’est pas forcément aisé suivant les applications, nous avons utilisé des tranches mais rarement l’intégralité.

2.1.2 Les bases lexicales de référence

Pour extraire les mots inconnus du corpus, il nous faut évidemment définir la base lexicale de référence qui, rappelons-le, représente une liste de mots connus. Nous présentons ci-après ces bases lexicales, issus de lexiques généraux et de systèmes commerciaux de traduction automatique (section 2.1.2.1 et 2.1.2.2). Nous mentionnons également une

13 Les résultats de ces expériences ont fait l’objet d’une publication dans les actes de la conférence TALN 2006, à Leuven (Cartoni 2006a).

14 http://www.ilsole24ore.com/ visité le 27 mai 2005.

15 http://www.lemonde.fr/ visité le 27 mai 2005.

typologie des mots inconnus qui nous a servi de référence pour la suite de ce travail (section 2.1.2.3).

2.1.2.1 Les bases lexicales Mmorph

Dans un premier temps (pour l’expérience décrite au point 2.2 ci-dessous), nous avons utilisé les bases lexicales construites dans le cadre du projet Multext¹⁶. Ces deux bases lexicales sont utilisées dans une chaîne d’étiquetage pour attribuer à chaque unité lexicale une étiquette morphosyntaxique, permettant ainsi une désambiguïsation syntaxique de la phrase (étiqueteur Tatoo¹⁷). Ces unités lexicales sont individualisées dans une étape de segmentation, antérieure à l’analyse lexicale proprement dite. Cette segmentation, réalisée par le segmenteur iseg¹⁸, permet de tenir compte des unités lexicales complexes (parce que, étant donné que, etc.). Cette approche comprend des avantages évidents, mais cause également quelques restrictions, notamment en ce qui concerne les mots inconnus composés. Pratiquement, ces deux bases sont implémentées par l’intermédiaire d’un automate à deux niveaux (Mmorph).

Elles sont d’ailleurs désignées, dans la suite de ce travail, par les abréviations Mmorph-IT et Mmorph-FR.

D’un point de vue quantitatif, la base française contient 279 000 formes fléchies, et la base italienne 739 000 (cette forte différence s’explique par les nombreuses formes cliticisées des verbes italiens). Ces deux bases avaient été constituées pour le projet Multext, mais elles ont ensuite été utilisées dans d’autres projets (SYLEX¹⁹, FLAG (Alphonse, Bouillon et al.

2003)) au cours desquels elles ont été complétées. Nous pouvons donc considérer qu’elles sont suffisamment complètes. Comme elles s’inscrivent dans un processus d’étiquetage, elles partent cependant du principe qu’un wordguesser et qu’un taggueur statistique pourront tenter de traiter les mots absents de leur base lexicale.

2.1.2.2 Les bases lexicales des systèmes de TA

Pour une seconde expérience (décrite au point 2.3 ci-après), nous avons souhaité évaluer la couverture lexicale d’outils commerciaux de traduction automatique, étant donné que c’est l’incomplétude de tels systèmes qui est au centre de notre recherche. Même si cette incomplétude lexicale n’est pas forcément différente, sur le fond, de l’incomplétude des lexiques informatisés en général, elle appelle la mise en œuvre d’autres solutions.

Nous avons donc employé deux outils de traduction automatique, Reverso© (2003) et Comprendium© (2002), auxquels nous avons soumis notre corpus du journal Le Monde (ces deux outils ne traitant pas la langue italienne, du moins dans les versions dont nous disposions). Pratiquement, nous leur demandions de traduire notre corpus en anglais, puis analysions les mots inconnus listés par les systèmes. Reverso© propose en effet un fichier

« statistique » regroupant tous les mots qu’il n’a pas pu traduire, et Comprendium© marque des mots inconnus par une balise particulière.

2.1.2.3 La typologie de référence des mots inconnus

Dans la section 2.4.1, nous présentons une classification des mots inconnus de notre corpus. A titre de comparaison, nous utilisons les proportions données par Denis Maurel dans son article « Les mots inconnus sont-ils des noms propres ? » (2004). Dans cet article, l’auteur propose une analyse poussée de mots inconnus obtenus après la confrontation d’un corpus issu du journal Le Monde et du logiciel d’analyse lexicale Intex (Silberztein 1993). Comme

16 http://www.issco.unige.ch/projects/MULTEXT.html, consulté le 27 mai 2005

17 The ISSCO Tagger Tool : http://issco-www.unige.ch/staff/robert/tatoo/tatoo.html, consulté le 27 mai 2005

18 segmenteur intégré à la chaîne d’étiquetage de l’étiqueteur Tatou

19 http://www.issco.unige.ch/projects/sylex/intro.html, consulté le 27 mai 2005

l’indique le titre, cet article se focalise sur les noms propres, mais il fournit aussi une typologie des « autres » types de mots inconnus dont nous nous inspirons pour caractériser les mots inconnus issus de nos expériences.

2.1.3 Considérations méthodologiques

La manipulation de données lexicales entraîne un certain nombre de problématiques, qui relèvent à la fois de l’unité de décompte en général (les unités lexicales) et également des caractéristiques de ces unités. Nous présentons tout d’abord quelques considérations concernant la manière d’individualiser ces unités et de les compter, puis nous mentionnons quelques choix méthodologiques concernant les types de mots inconnus.

Pour quantifier l’incomplétude d’un lexique artefactuel, la méthode la plus évidente consiste à confronter ce lexique à un corpus de données langagières. Dans notre travail, nous nous concentrons sur l’étude des données textuelles, pour lesquelles une grande partie des lexiques informatisés ont été conçus, et éludons volontairement les lexiques pour les corpus oraux, qui soulèvent d’autres problématiques.

Cette confrontation doit également s’opérer à l’aide d’outils d’analyse lexicale. Ces outils reposent d’une part sur une base lexicale (dont nous étudions ici l’incomplétude), d’autre part sur un « module » de segmentation, qui permet d’individualiser dans les textes les unités lexicales à analyser. Ce processus de segmentation implique une définition (en tout cas informatique, mais largement inspirée de faits linguistiques) de la notion de mot.

Généralement, le segmenteur se base sur la définition graphique du mot, (cf. chapitre 1), en considérant comme mot toute suite de N caractères délimitée à ses deux extrémités par un caractère délimiteur (un espace, un signe de ponctuation, …) (Lebrart et Salem 1994). Les caractères délimiteurs sont eux-mêmes définis dans le programme. Cette définition du mot graphique implique que l’outil doit également prévoir de pouvoir gérer les exceptions, c’est-à-dire des unités lexicales contenant des délimiteurs, comme parce que, aujourd’hui, …

Une fois que les unités lexicales d’un corpus textuel sont individualisées, nous pouvons distinguer deux manières de mesurer l’incomplétude lexicale. En effet, nous pouvons d’une part distinguer occurrences et formes, et d’autre part formes fléchies et formes de bases (ou lemmes).

La première distinction relève de la simple comparaison de chaînes de caractère et de leur nombre d’apparitions dans le texte. Si la chaîne xyz, bornée à ces deux extrémités par un délimiteur, apparaît 20 fois dans un corpus, il existe alors 20 occurrences de la même forme xyz. La forme se définit alors comme une unité de chaîne de caractères, qui peut avoir plusieurs occurrences dans un texte. Cette distinction ne repose sur aucune connaissance linguistique, contrairement à la seconde distinction entre formes fléchies et formes de base.

En effet, il existe des liens linguistiquement motivés entre mangeraient et mangions, car ces deux formes (fléchies) ont une même forme de base manger (ou forme canonique, selon la terminologie employée). Un lexique informatisé se doit donc de rendre compte de ces liens, en permettant de regrouper toutes les formes fléchies d’une même forme de base. Ce faisant, le lexique permet donc, pour un texte donné, de distinguer le nombre d’occurrences du nombre de formes lemmatisées.

Quand il s’agit de rendre compte quantitativement de l’incomplétude lexicale, nous nous intéressons aux chaînes de caractères inconnues d’un lexique, pour lesquelles, par essence, nous ne disposons d’aucune information linguistique. Il est donc impossible de faire la distinction entre lemme inconnu et forme fléchie inconnue. En revanche, nous pouvons faire

une distinction entre occurrence inconnue et forme inconnue. Dans les études que nous présenterons ci-dessous, nous nous limiterons donc à étudier les formes graphiques et leurs occurrences, sans procéder à une lemmatisation. Comme le rappelle L. Lebart et A. Salem, même si « la forme graphique ne constitue en aucun cas une unité naturelle pour le dépouillement de texte », ce genre d’études statistiques « se révèle peu sensible aux variations de l’unité de décompte » (Lebrart et Salem 1994). Pour pouvoir comparer ce qui est comparable, nous conserverons cette unité de décompte également pour les données pour lesquelles nous disposons d’informations linguistiques (les mots connus). Nous nous attarderons également sur le phénomène des hapax, terme grec désignant « toute chose dite une seule fois » (Lebrart et Salem 1994). Les hapax sont en effet un phénomène important, notamment quand il s’agit de quantifier l’incomplétude lexicale.

D’un point de vue qualitatif, les mots inconnus sont de trois sortes : les noms propres, les mots erronés et les mots issus de la créativité lexicale. Nous avons également déjà mentionné que ces trois types de mots peuvent être traités de manières différentes par les outils de TAL. Ainsi, si le repérage des mots issus de la créativité lexicale et les mots erronés sont difficiles à distinguer, les noms propres sont plus facilement repérables. En effet, en français et en italien, la majuscule en début de mot est un indice suffisant pour distinguer les noms propres. A ce sujet, (Maurel 2004) a montré que la catégorisation sous le label « noms propres » des mots inconnus commençant par une majuscule était une méthode robuste qui n’engendrait un taux d’erreur que de 1%. Par conséquent, nous ne nous sommes pas privés, dans la plupart des expériences présentées ci-dessous, d’exclure les noms propres²⁰, qui représentent une problématique relativement différente par rapport aux autres mots inconnus.

20 Les cas contraires seront mentionnés

Dans le document De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue (Page 30-34)