• Aucun résultat trouvé

WordNet est un référentiel en ligne dont le développement est inspiré par des théories actuelles en psycholinguistique. Les noms anglais, les verbes et les adjectifs y sont organisés en ensembles de synonymes. Différentes relations lient ces ensembles de synonymes. WordNet vise finalement à modéliser les connais- sances lexicales d’une personne dont la langue maternelle est l’anglais. Pour se faire, l’idée sous-jacente est de se rapprocher de l’organisation des connais- sances lexicales de l’homme. C’est pourquoi cette initiative est basée sur des théories psycholinguistiques qui concernent l’organisation de la mémoire lexi- cale humaine [MBF+90].

Classiquement, l’organisation des informations lexicales se fait à l’aide de dictionnaires. Ceux-ci regroupent les mots qui ont une orthographe similaire tandis que les mots ayant une signification proche sont dispersés. Malheureu- sement, il n’y a pas d’alternative simple pour rechercher un mot sans y passer un peu de temps. L’outil informatique a permis d’apporter une réponse à ce problème. L’ordinateur est utilisé pour faire des recherches instantanées dans des dictionnaires informatisés comme il en existe sur la toile. Cependant, il est rapidement apparu qu’il était grossièrement réducteur d’utiliser des machines aussi puissantes comme de simples "tourneuses de pages rapides". Le problème est donc de trouver ce qu’on pourrait bien leur faire faire de plus. WordNet est une proposition qui tend à répondre à cette question. Finalement, WordNet s’inscrit dans le courant de la gestion des connaissances qui vise à proposer des solutions pour stocker des connaissances sur un support informatique afin de pourvoir ces machines de capacités de raisonnement.

Le Murray’s Oxford English Dictionary a été créé selon des principes histo- riques et personne ne remet en doute la valeur de ce dictionnaire concernant la clarté des explications sur l’utilisation des mots. Cependant, en se focalisant sur des considérations historiques (diachroniques), les dictionnaires standards né- gligent les questions concernant l’organisation synchronique des connaissances lexicales. Ces dictionnaires sont issus d’une étude de l’évolution des termes plu- tôt que d’une étude des rapports entre termes coexistants d’un état de la langue. Cette lacune peut aujourd’hui être comblée. Le 20ème siècle a vu l’émergence de la psycholinguistique qui ouvre un champ de recherche interdisciplinaire concer- nant les bases cognitives des compétences linguistiques. Les psycholinguistes ont découvert de nombreuses propriétés du lexique mental qui peuvent être exploi- tées en lexicographie. En 1985 un groupe de psychologues et de linguistes à l’université de Princeton ont entrepris de développer une base de données lexi- cale selon les idées de Miller [Mil85]. L’idée initiale était de fournir une aide pour la recherche conceptuelle dans un dictionnaire. Pour cela la base de don- nées serait utilisée conjointement avec un dictionnaire en ligne conventionnel. WordNet est le résultat de ces travaux.

Une différence fondamentale entre un dictionnaire classique et WordNet est que WordNet divise l’ensemble du lexique en 5 catégories : noms, verbes, adjec- tifs, adverbes et mots fonctionnels. En réalité, WordNet contient uniquement les noms, verbes, adjectifs et adverbes. L’ensemble relativement restreint des mots fonctionnels anglais est omis du fait que ceux-ci sont (selon certaines obser- vations sur des patients aphasiques) probablement stockés séparément comme partie des composants syntaxiques du langage. C’est l’étude des associations de mots qui a mis en évidence le fait que les catégories syntaxiques diffèrent dans leur organisation subjective. Fillenbaum and Jones [FJ65] ont demandé à des sujets parlant l’anglais de donner le premier mot auquel ils pensaient en réponse à des mots tirés de différentes catégories syntaxiques. Le mot donné en réponse et celui proposé appartiennent majoritairement à la même catégorie : un nom entraîne un nom en réponse dans 79% des cas, un adjectif entraîne un adjectif en réponse dans 65% des cas, un verbe entraîne un verbe en réponse dans 43% des cas.

Puisque WordNet est censé être organisé selon les principes propres à la mémoire lexicale humaine, la décision d’organiser les noms en une hiérarchie

reflète un jugement psycholinguistique à propos du lexique mental. La plupart des psycholinguistes sont d’accord sur le fait que les noms anglais sont orga- nisés hiérarchiquement dans la mémoire sémantique, mais sur le fait que les informations génériques soient stockées de façon redondante ou héritées est dis- cutable [Smi78]. Collins et Quillian [CQ69] ont fait des expérimentations qui les ont amenés à conclure que les informations génériques n’étaient pas stockées de façon redondante mais retrouvées au besoin. En revanche, d’autres psycholin- guistes ne sont pas d’accord avec ces conclusions. Dans WordNet, les noms sont organisés selon une hiérarchie.

La plupart des recherches ayant un intérêt en psycholexicologie utilise un sous-ensemble restreint du lexique anglais et souvent concentré uniquement sur les noms. Une des motivations pour le développement de WordNet est de fournir une extension complète de ce lexique. Par exemple, dans sa version 2.0, WordNet renferme 141690 paires mot-sens pour les noms, 24632 pour les verbes, 31015 pour les adjectifs et 5808 pour les adverbes.

Dans nos expérimentations, nous utilisons la hiérarhie des noms de WordNet qui nous permet par sa taille de tirer des conclusions probantes. Pour cela, nous nous appuyons sur l’application développée par Pedersen et al. [PPM04].