Un lexique exhaustif est-il possible ? - : Expériences sur l’incomplétude lexicale

Chapitre 2 : Expériences sur l’incomplétude lexicale

2.2 Un lexique exhaustif est-il possible ?

Sans nous étendre ici ni sur la manière de construire un lexique, ni sur celle de l’alimenter, nous pouvons dire que, généralement, les lexiques informatisés sont constitués à un instant T, dans un contexte donné et pour une application donnée. Mais, nous l’avons dit, de nombreuses études constatent que ces lexiques ne couvrent pas toute la langue. Sans aborder la question du caractère infini du lexique de toute langue, la question de l’alimentation des lexiques mérite d’être soulevée, car la première solution à l’incomplétude lexicale reste l’ajout des mots qui manquent dans les lexiques. Bien que naïve, cette solution doit être envisagée dans l’absolu, même si certains aspects pratiques la remettraient rapidement en cause.

Dans la suite, nous montrons les résultats d’une expérimentation visant à prouver que l’incomplétude lexicale est constante et inéluctable, ce qui rend vaine toute tentative d’alimentation frénétique d’un lexique.

2.2.1 Déroulement de l’expérience

L’idée principale de l’expérience est de découper un corpus en tranches, et de le soumettre à l’analyse lexicale tranche après tranche²¹. Entre chaque tranche, nous ajoutons à notre lexique les mots inconnus de la tranche précédente, avant d’analyser la tranche suivante avec ce lexique nouvellement alimenté. Nous obtenons ainsi, pour chaque tranche, deux données. D’une part, la proportion des mots inconnus avant alimentation, et d’autre part la proportion des mots inconnus après alimentation du lexique par les mots inconnus des tranches précédentes.

Dans chaque tranche, nous comparons ensuite le pourcentage de mots inconnus avant et après alimentation, pour voir si celui-ci diminue et dans quelle proportion. En effet, une diminution linéaire tendrait à montrer que l’exhaustivité est possible dans l’absolu, car nous pourrions potentiellement parvenir à 0 % de mots inconnus, alors qu’une diminution exponentielle montrerait qu’il existe un « seuil », une sorte de limite au-delà de laquelle il est vain de vouloir être exhaustif. La figure ci-dessous tente de modéliser l’hypothèse :

21 Nous employons le terme analyse lexicale dans une acception la plus large possible, pour décrire toute tâche d’attribution d’information à des données lexicales. En fonction de la finalité de l’outil, les informations peuvent être de différentes sortes.

Figure 4 : Hypothèse de progression

Nous avons donc effectué cette expérience avec les 2 lexiques (Mmorph, en français et en italien) et nos deux corpus décrits à la section 2.1.2.

2.2.2 Modalités pratiques

Pour mener à bien cette expérience, nous avons défini un certain nombre de paramètres aussi bien pour des raisons pratiques que théoriques. Premièrement, nous disposions pour l’italien d’un corpus déjà découpé en 26 tranches plus ou moins égales. Nous ne nous sommes donc pas privé de les exploiter telles quelles, le nombre 26 nous paraissant suffisant pour obtenir des tranches représentatives (environ 65 000 occurrences par tranche). Par souci de cohérence, nous avons découpé le corpus français dans les mêmes proportions.

Deuxièmement, nous avons présenté les tranches selon trois ordres de passage différents, pour éviter tout biais provenant de l’ordre de passage et de la disparité des tranches (en termes de richesse de vocabulaire, de pourcentage de mots inconnus, etc.). Troisièmement, nous avons exclu les noms propres, qui représentent une autre problématique et dont le repérage automatique est plus aisé. Enfin, notons également que nous avons ajouté dans le lexique uniquement des mots-formes (tels qu’ils se présentaient dans le corpus), sans lemmatisation et par conséquent sans génération de toutes les flexions possibles. Nous pensons que cette option méthodologique n’influence que très peu la diminution des mots inconnus. En effet, la génération des formes fléchies ne ferait tout au plus qu’accélérer la diminution de mots inconnus au fil des tranches, mais ne modifierait pas la tendance générale.

2.2.3 Résultats pour l’italien

La première constatation relative au corpus italien porte sur la distribution particulièrement homogène des mots inconnus dans les 26 tranches. En effet, nous avons pu constater que les mots inconnus se répartissaient d’une manière égale dans les différentes tranches du corpus (autour de 13 % par tranche), ce qui permet d’envisager les résultats qui suivent de manière confiante. Dans le graphique ci-dessous, nous présentons, pour chaque passage, le pourcentage des mots inconnus avant et après alimentation. La progression entre chaque point montre alors l’évolution du nombre de mots inconnus. Les différentes courbes

correspondent aux trois ordres de passage effectués et la courbe représentée en gras sur le graphique représente la moyenne des trois passages.

Figure 5 : Mots inconnnus par tranche

Ces courbes, et particulièrement la courbe moyenne (la ligne la plus épaisse), montre clairement une tendance exponentielle. En effet, dans un premier temps, nous observons une chute spectaculaire du pourcentage de mots inconnus, entre la première tranche et les deux suivantes. Par la suite, cette diminution a tendance à s’amenuiser, pour finalement arriver à une pente presque plate. La première diminution est explicable par le fait que, dans cette première étape, a été ajouté un certain nombre de mots fréquents, qui étaient des lacunes évidentes du lexique de référence. Par la suite, la tendance à l’aplatissement de la courbe tendrait à montrer que l’on arrive à ce seuil fatidique de mots inconnus uniques, au-delà duquel il est vain de vouloir à tout prix alimenter le lexique. Nous présentons ci-dessous les résultats de la même expérience faite avec le français.

2.2.4 Résultats pour le français

La première différence de taille entre les données de l’italien (corpus et lexique) et les données du français, c’est que le pourcentage global de mots inconnus est nettement moindre et que la répartition par tranche est sensiblement inégale. En effet, suivant les tranches, le pourcentage de mots inconnus passe de 3,62 % pour la plus petite, à 8,79 % pour la plus grande. Cette disparité semble constituer un biais assez important pour que les résultats ne soient pas aussi probants que dans le cas de l’italien.

Le graphique ci-dessous, à l’image de celui proposé pour l’italien, montre les trois courbes de progression et les moyennes de celles-ci.

Mots inconnus par tranches, avant et après alimentation

0 2 4 6 8 10 12 14 16

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Mots inconnus, après alimentation, 1er passage Mots inconnus après alimentation, 2ème passage Mots inconnus après alimentation, 3ème passage Mots inconnus après alimentation, (moyenne) Mots inconnus avant alimentation, 1er passage Mots inconnus avant alimentation, 2eme passage Mots inconnus avant alimentation, 3eme passage Mots inconnus avant alimentation (moyenne)

Figure 6 : mots inconnus par tranche

Nous constatons clairement que la différence des proportions de mots inconnus par tranche modifie, en tout cas graphiquement, l’aplatissement que nous avions constaté pour l’italien. Nous pouvons cependant avancer que cette différence tend davantage de l’effet graphique. La seule progression que laisse entrevoir ce graphique se trouve dans l’écart entre les deux moyennes. En effet, celui-là semble se creuser, dès le début, pour ensuite devenir de plus en plus constant. Pour pallier cet effet graphique, nous proposons de montrer les résultats du point de vue des écarts.

2.2.5 Les écarts

Pour pallier ces problèmes d’inégalité de proportion entre les tranches, nous avons calculé, pour chaque tranche, l’écart entre le pourcentage de mots inconnus avant et après alimentation par les mots inconnus de la tranche précédente. Comme nous avons, pour chaque langue, trois ordres de passages des tranches, nous avons ensuite fait une moyenne de ces écarts.

Les deux graphiques ci-dessous montrent clairement la similitude de tendance dans la progression des écarts pour les deux langues.

Mots inconnus par tranche, avant et après alimentation

0 1 2 3 4 5 6 7 8 9 10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

M ots inconnus après alimentation (1er pas s age) Mots inconnus après alimentation (2eme pas s age) Mots inconnus après alimentation (3eme pas s age) M ots inconnus après alimentation (moyenne) Mots inconnus avant alimentation (1er pas s age) Mots inconnus avant alimentation (2eme pas s age) M ots inconnus avant alimentation (3eme pas s age) Mots inconnus avant alimentation (moyenne)

Figure 7 : Progression des écarts

En effet, pour les deux langues, nous assistons tout d’abord à une augmentation rapide de l’écart, (la différence entre les mots inconnus avant et après alimentation est importante), puis, cette augmentation de l’écart s’amenuise pour tendre ensuite vers l’aplatissement. Ainsi, plus le lexique est alimenté, moins l’écart entre le pourcentage initial de mots inconnus et le pourcentage après alimentation progresse.

2.2.6 Conclusion de l’expérience

Cette expérience nous apporte la preuve du caractère unique des mots inconnus, car plus l’analyse des tranches avance, plus ces tranches sont constituées de mots qui n’étaient pas présents dans les tranches précédentes. De plus, il y a de fortes chances pour que ces hapax n’apparaissent plus dans les textes soumis à ces lexiques. Cette unicité des mots inconnus est sans doute à mettre en relation avec la part importante de néologismes dans l’ensemble des l’incomplétude lexicale, en analysant ce phénomène dans différents lexiques.

Italien

Dans le document De l'incomplétude lexicale en traduction automatique : vers une approche morphosémantique multilingue (Page 34-39)