• Aucun résultat trouvé

Chapitre 2 : Expériences sur l’incomplétude lexicale

2.4 Caractérisation de l’incomplétude lexicale

Jusqu’à présent, nous avons présenté l’incomplétude lexicale en termes chiffrés, il nous faut maintenant évoquer ce qui la caractérise. Nous proposons ci-dessous une typologie des mots inconnus de nos lexiques, inspirée notamment de (Ren et Perrault 1992; Dister et Fairon 2004; Maurel 2004). Si la caractérisation automatique des mots inconnus se révèle difficile, la classification manuelle n’en est pas moins ardue. Dans les études mentionnées ci-dessus, très peu d’informations étaient données sur la méthode, ni sur le choix des classes utilisées.

En effet, si la distinction des trois classes principales de mots inconnus (noms propres, mots nouveaux, mots erronés) semble communément admise, les subdivisions sont parfois moins claires. Par exemple, faut-il inclure les dérivés de noms propres dans la classe des noms propres, ou dans la classe des mots nouveaux ? Les mots latins ont-ils le même statut que les mots étrangers, ou sont-ils des mots davantage intégrés à la langue ?

Ce manque de clarté entre les différentes catégories provoque des difficultés pour la classification manuelle des mots inconnus. Ainsi en est-il de la chaîne grata, qui est un élément de l’expression persona non grata. Toute la question est de savoir s’il faut considérer grata comme une erreur de segmentation, un mot étranger, ou une lacune du lexique. Malgré ces difficultés, nous avons tenté une classification des mots inconnus extraits au cours des expériences précédentes.

En effet, au terme des expériences décrites précédemment, nous disposions d’ensembles de mots inconnus un peu particuliers qu’il nous a paru intéressant d’analyser, pour caractériser ces phénomènes et mesurer la portée des solutions que nous envisagerons au terme de ce travail.

EXP 1-FR et EXP 1-IT sont deux ensembles issus de la dernière tranche des corpus (italien et français) de l’expérience décrite à la section 2. Les mots contenus dans ces deux ensembles n’étaient pas présents dans les tranches précédentes du corpus, ils sont donc pour la plupart des hapax.

EXP 2 est un ensemble de mots inconnus qui provient de l’intersection de MI 1 et MI 2 (MI 1 ∩ MI 2) dans la comparaison des mots inconnus des deux systèmes de TA. Ce groupe de mots inconnus est particulier, car il s’agit d’un échantillon qui regroupe (et peut-être qui représente plus fidèlement) les mots inconnus des outils de TA.

2.4.1 Les différentes catégories de mots inconnus

Nous avons donc effectué une typologie des différents mots inconnus des ensembles présentés ci-dessus, en divisant ces mots en trois grands groupes. Nous avons exclu tout de suite les noms propres, cette problématique ayant déjà été brièvement abordée précédemment.

Sous le terme créativité lexicale, nous avons en fait distingué les emprunts des créations lexicales, qui regroupent tous les mots formés selon des procédés plus ou moins identifiables. Dans ce deuxième groupe, une large place est occupée par les « néologismes »23, qui sont des mots nouveaux généralement construits avec des matériaux lexicaux existants (citons notamment24, cohabitationniste, conjoncturellement, constitutionnalistes,

23 Nous reviendrons dans le chapitre suivant sur les différents types de néologismes, et sur les distinctions qu’ils convient de faire entre néologismes et mots construits. Pour l’instant, soulignons simplement que dans nos analyses, tous les mots

« néologiques » étaient construits, ce qui n’est pas étonnant étant donné que très peu de néologismes sont formés ex-nihilo, c'est-à-dire à partir d’éléments pas déjà présents dans la langue.

24 Sauf avis contraire, les exemples sont tirés de nos corpus de mots inconnus.

contractualisation, … ). Dans ce groupe se trouvent également d’autres mots construits comme les « dérivés de noms propres », qui peuvent être relatifs à des entités géographiques (cannois, champenoise, montpelliéraine, …) ou à des personnes (chiraquien, gaullien, giscardiens, …). Parmi les emprunts, nous n’avons effectué aucune distinction particulière, contrairement à Maurel (2004) qui distingue les emprunts et les mots latins.

Sous le terme mots erronés, Maurel (2004) propose une distinction entre fautes d’accent, fautes d’orthographe et fautes de frappe. Nous n’avons pas jugé pertinent de conserver cette distinction dans un travail où cette problématique n’est pas centrale. Nous avons cependant cru bon d’ajouter une catégorie pour les erreurs de segmentation. En effet, nous avons parfois découvert des unités lexicales inconnues qui étaient en fait des composantes de locutions plus complexes (comme par exemple tournemain de l’expression en un tournemain). Ces erreurs relèvent davantage de l’incomplétude des listes d’exclusion des segmenteurs plutôt que des lacunes du lexique lui-même (cf. section 2.1.3 ci-dessus).

Enfin, nous avons réservé une catégorie à un ensemble de mots inclassables, qui ne pouvaient être considéré comme des créations et qui, selon nous, auraient dû être dans le lexique.

Nous présentons dans la suite les typologies de mots inconnus dans les différents ensembles analysés. Nous commençons par analyser ce qui se cache dans l’ensemble des créations lexicales (section 2.4.2), puis nous présentons les proportions d’emprunts (section 2.4.3) et de mots erronés (2.4.4). Dans les différents tableaux ci-dessous, nous mentionnons à titre de comparaison les chiffres fournis par Maurel (2004)25.

2.4.2 Les créations lexicales

Nous avons regroupé sous le terme « création lexicale » tous les mots formés selon différents procédés, morphologiques ou non. Comme le montre le tableau ci-dessous, les principales différences se trouvent dans les proportions de chiffres romains (mieux traités par les lexiques de TA) et dans les abréviations, qui sont quasiment inexistantes dans notre ensemble EXP 2, sans doute à cause du fait qu’elles sont majoritairement écrites en majuscules, et qu’elles ont par conséquent été exclues automatiquement, en même temps que les noms propres.

Maurel 2004 EXP 2

Sigles 6 %

Abréviations 9 % 0.8 %

Chiffres romains 5 % 0 %

Dérivés de noms propres 6 % 6.3 %

Néologismes 17 % 20.2 %

Onomatopées 2 % 0.2 %

Total 45 % 27.5 %

Tableau 6 : Créations lexicales dans l’ensemble EXP 2

Il est également intéressant de constater que la proportion de néologismes est sensiblement la même dans les deux études, alors que les dérivés des noms propres sont plus fréquemment inconnus des lexiques de TA.

25 Nous avons parfois « simplifié » les catégories proposées par (Maurel 2004).

En revanche, la typologie effectuée sur les ensembles EXP 1 permet de voir certaines différences intéressantes.

Maurel 2004 EXP 1-IT EXP 1-FR

Sigles 6 %

Abréviations 9 % 3 % 0 %

Chiffres romains 5 % 0 % 0 %

Dérivés de noms propres 6 % 1 % 3 %

Néologismes 17 % 32 % 25 %

Onomatopées 2 % 0 % 0 %

Total 45 % 36 % 28 %

Tableau 7 : Créations lexicales dans les ensembles EXP 1-IT et EXP 1-FR La proportion des néologismes semble plus grande dans les mots inconnus qui restent après alimentation (EXP 2) que dans la classification de Maurel, ce qui tendrait à prouver que, contrairement à l’ensemble des mots étrangers que nous verrons ci-dessous, l’ensemble des mots néologiques est plus ouvert et plus propice à l’extension. Il est également intéressant de constater que les dérivés de noms propres ont tendance à être moins présents.

2.4.3 Les emprunts

La proportion de mots étrangers inconnus des systèmes de TA est beaucoup plus importante que dans les mots inconnus du logiciel Intex (typologie de Maurel 2004), comme le montre le tableau ci-dessous.

Maurel 2004 EXP 2 EXP 1-IT EXP 1-FR

Mots étrangers 13 % 19.3 % 11 % 4 %

Tableau 8 : Pourcentage d'emprunts parmi les mots inconnus

Cette disparité peut également être mise sur le compte de la difficulté de gérer les emprunts dans un lexique bilingue comme celui d’un système de TA. En revanche, les mots étrangers représentent la même proportion dans le corpus italien et dans la caractérisation de Maurel. Il faut cependant remarquer une disparité intéressante pour notre corpus français, où le pourcentage de mots étrangers en français n’est que de 4 %. Cette différence importante entre le comptage de Maurel (qui travaillait également sur le français et sur un extrait du journal Le Monde) semble montrer que l’ensemble des mots étrangers n’est pas aussi infini qu’il n’y paraît, étant donné que, après les alimentations successives du lexique dans l’expérience dont est issu EXP 2, le pourcentage de ces mots diminue grandement. Cette

« finitude » des emprunts est sans doute à mettre en perspective avec l’aspect beaucoup plus infini des néologismes.

2.4.4 Les erreurs

Les proportions d’erreurs amènent un éclairage un peu différent, car les erreurs ont plus trait à la qualité du corpus qu’à la qualité des lexiques (qui, à notre connaissance, ne possède pas de correcteur d’orthographe intégré).

Maurel 2004 EXP 2 EXP 1-IT EXP 1-FR Accents incorrects 2 %

Fautes de frappe 4 %

Fautes d’orthographe 16 %

33.5 % 23 % 24 %

Fautes de segmentation - 14.4 % 4 % 9 %

Total 22 % 32 % 27 % 33 %

Tableau 9 : Pourcentage d'erreurs parmi les mots inconnus

On remarque cependant que dans les deux corpus utilisés (français et italien) apparaît le même pourcentage d’erreur. Nous constatons également un certain nombre d’erreurs de segmentation, qui, elles, dépendent de la qualité de prétraitement des corpus par les outils.

Enfin, soulignons que dans l’ensemble EXP 2, seuls 33.5 % des mots sont erronés, ce qui montre que les mots inconnus de ces deux systèmes de TA ne sont pas que des erreurs, comme nous l’avions envisagé.

2.4.5 Les mots qui restent

Dans ces deux caractérisations, nous sommes resté avec un nombre (certes faible) de mots inclassables, qui ne sont pas vraiment néologiques, (comme allers, bravos, consorts, pleuvent, sandwiches, truchement, untel). Ces mots représentent 4,64 % de l’ensemble EXP 2, 19 % de EXP 1-IT et jusqu’à 35 % de EXP1-FR.

Une partie de ces mots pourraient être considérés comme des néologismes flexionnels (Pruvost et al, 2003), c’est-à-dire des formes fléchies incorrectes ou rares, mais possibles dans certains contextes. Mais plus généralement, ce phénomène montre, selon nous, que les facteurs « inhérents à la langue » (c’est-à-dire la présence dans les textes de noms propres ou de néologismes) ne sont pas les seuls responsables de l’incomplétude lexicale. En effet, la constitution de lexiques étant un travail humain, elle reste une entreprise qui peut avoir ses faiblesses. C’est sans doute ces quelques cas marginaux que nous avons rencontrés.

2.4.6 Conclusion de la caractérisation

Bien que la caractérisation reste une tâche hasardeuse, elle fournit cependant un certain nombre d’informations, notamment si nous comparons les mots inconnus de EXP 1 après l’alimentation successive par tranches du corpus. Ce genre de données nous permet d’entrevoir quelques tendances relatives à l’étendue de certains phénomènes. Ainsi, l’emploi des mots étrangers semble être beaucoup moins régulier que celui des mots construits. Cela revient à dire que les mots étrangers dans une langue sont un ensemble beaucoup plus clos qu’il n’y paraît, alors que l’ensemble des néologismes peut davantage être qualifié d’ensemble « en extension ». De plus, ces néologismes, majoritairement construits, semblent représenter la partie la plus importante de l’incomplétude lexicale, une fois les noms propres exclus.

La typologie que nous avons présentée a été effectuée manuellement. Mais, d’un point de vue taliste, il nous faut également envisager l’automatisation d’une telle typologie, pour permettre le repérage de tel ou tel type de mot inconnu. En effet, si le repérage automatique du mot inconnu lui-même peut paraître évident (par confrontation avec un lexique de référence), la caractérisation « automatique » du mot inconnu est une tâche plus complexe.

Dans le cas des noms propres (à l’exception des noms propres composés), nous l’avons vu, la majuscule est un indice suffisant pour un repérage automatique, en tout cas pour certaines

langues. En revanche, la distinction entre mots inconnus erronés et mots inconnus néologiques est plus ardue. En effet, quand un mot est inconnu du lexique, il est particulièrement difficile de savoir s’il s’agit d’un mot mal orthographié ou d’une création lexicale. Même si certains systèmes de traitement des langues proposent des correcteurs automatiques (voir (Ren et Perrault, 1992) pour un large panorama de ces techniques), la distinction entre mot nouveau et mot erroné reste une problématique importante dont nous tiendrons compte tout au long de ce travail. En effet, cette problématique n’est pas sans rappeler la frontière ténue qui existe entre néologisme et faute, dans les nombreuses situations où un mot nouveau est tout d’abord « rejeté » par la norme.

Conclusion

Toutes les études citées (les nôtres ou celles d’autres chercheurs) semblent converger vers le constat que l’incomplétude lexicale est un phénomène important et régulier.

L’expérience d’alimentation systématique a également confirmé qu’il existe un seuil d’exhaustivité qu’il est impossible de franchir, sûrement à cause de la créativité inhérente à la langue. Mais cette régularité est à nuancer par le fait que l’incomplétude lexicale, et ce qui la compose, sont des items très variables. La comparaison des différents ensembles de mots inconnus des trois lexiques à la section 2.3.2.1 a prouvé que relativement peu de mots étaient inconnus des trois lexiques en même temps.

Dans les différentes typologies de mots inconnus que nous avons présentées, nous avons pu constater que, malgré leurs divergences en termes de quantité et de classification, trois grands types de mots inconnus se dégagent : les erreurs, les noms propres et les mots issus de la créativité lexicale. Nos analyses plus poussées ont également permis de montrer que chaque type de mots inconnus est différent, en termes de fréquence. Nous avons notamment mis en lumière la plus grande constance de l’emploi des néologismes, comparés, par exemple, aux emprunts.

Les solutions à l’incomplétude lexicale diffèrent selon le type de mots inconnus. Si, pour les abréviations ou les onomatopées, l’alimentation du lexique semble la seule possibilité envisageable, d’autres solutions doivent être étudiées pour les autres types de mots inconnus.

En effet, la constance de l’apparition des néologismes et le caractère unique de certains mots inconnus rendent impossible la mise en œuvre d’une alimentation constante des lexiques. Il faudrait alors envisager la formalisation de règles abstraites permettant de traiter les mots nouveaux quand ils apparaissent dans les textes. A ce sujet, Ren et Perrault (1992) signalent que :

« Même si nous agrandissions nos dictionnaires, nous ne pourrions jamais inclure tous les mots dérivés, tellement ils sont productifs. C’est pourquoi la solution semble résider dans une approche sous forme de règles de dérivation […] ».

Le cœur du présent travail sera l’étude de règles permettant d’analyser les mots inconnus. Mais toute construction de règles doit s’appuyer sur une connaissance des phénomènes linguistiques à formaliser. Dans le chapitre suivant, nous nous attardons donc sur les notions que regroupe le terme créativité lexicale.

Documents relatifs