• Aucun résultat trouvé

2. Les outils d'analyse textuelle

2.3. Désambiguïsation sémantique lexicale

2.3.1. Aperçu des précédentes méthodes

Introduction

Une application qui entend gérer le sens du texte dans une base documentaire à travers l’analyse linguistique des énoncés qui la composent ne peut se passer d’une procédure visant à identifier la signification des unités de sens manipulées dans les documents de cette base. La désambiguïsation sémantique (Word Sense Di-sambiguation, WSD), qui permet de décider du sens des unités lexicales dans un texte, constitue une « tâche intermédiaire » (Wilks et Stevenson,1996) essentielle 12. En effet, il suffit d’assigner au nœud considéré un trait littéral d’attribut $STACK dont la valeur correspond à la chaîne de caractères de l’expression synonymique.

2.3. Désambiguïsation sémantique lexicale

dans le cadre de nombreux processus de traitement automatique de la langue¹³, et principalement dans les applications visant la compréhension de texte en langage naturel (Ide et Véronis,1998).

Du fait de cette grande variété d’intérêts, les difficultés liées à la problématique de la désambiguïsation sémantique ont très tôt été identifiées. Toutefois, les solu-tions qui ont été proposées dans chaque domaine ont également été multiples et très diverses, en fonction des besoins et des savoirs afférents à chacune des ma-tières concernées. La définition du problème elle-même ne fait pas l’unanimité. En effet, si un consensus est atteint pour définir la désambiguïsation sémantique comme l’association d’un mot apparaissant dans un contexte avec sa signification ou sa définition – laquelle peut être distinguée des autres définitions qu’on peut at-tribuer à ce mot –, en revanche le même accord n’existe pas pour ses sous-tâches.

Il s’agit en effet de déterminer d’abord l’ensemble des sens que peut prendre chaque mot dans la langue.Kelly et Stone(1975) montrent que l’attribution objec-tive d’un sens particulier à une unité lexicale polysémique dans un contexte donné n’est pas chose aisée. Toutefois, à l’heure actuelle, les travaux en désambiguïsa-tion sémantique s’effectuent principalement à partir de sens prédéfinis, grâce à diverses ressources lexicales et sémantiques. D’autre part, l’assignation d’un sens particulier à une unité lexicale exploite deux informations principales, à savoir le contexte d’apparition des occurrences de chaque mot, et une ou plusieurs bases de connaissances externes qui permettent de mettre en rapport les mots en contexte avec leur sens. C’est sur la nature de la base de connaissance que survient ici le désaccord, certaines méthodes privilégiant des ressources d’un ordre plutôt lexi-cal pour fournir ces données (knowledge-driven word sense disambiguation), d’autres leur préférant des informations sur le contexte provenant de corpus aux unités lexicales préalablement désambiguïsées (corpus-based word sense disam-biguation).

Parmi les différentes méthodes de détermination de la signification des mots en contexte, nous ne nous intéressons toutefois qu’à celles qui correspondent aux res-trictions que nous nous sommes fixées dans le cadre de cette thèse, à savoir les mé-thodes qui se fondent sur des critères linguistiques pour effectuer la tâche qui leur est confiée. Par ailleurs, la désambiguïsation sémantique s’inscrit ici dans le con-texte d’un processus d’enrichissement du con-texte qui lui est soumis, et doit de ce fait permettre la sélection de l’information lexico-syntaxique la plus riche et la plus pré-cise, ce qui implique l’utilisation d’une ressource lexicale bien structurée. De plus, le texte qui est soumis à la désambiguïsation sémantique est libre et susceptible 13. L’état de l’art deIde et Véronis(1998) recense six grands domaines pour lesquels la compré-hension du langage est un enjeu intermédiaire : traduction automatique, recherche d’information et navigation hypertexte, analyse thématique et du contenu, analyse grammaticale, traitement de la parole, traitement du texte.

2. Les outils d’analyse textuelle

d’atteindre un volume important, d’où une nécessité de robustesse. Ces exigences limitent donc l’horizon des systèmes de désambiguïsation sémantique auxquels nous nous intéressons. Nous ne ferons qu’évoquer succinctement les autres.

Un précurseur : la traduction automatique

Dans les années qui ont suivi la seconde guerre mondiale, la traduction auto-matique fut la première spécialité à s’intéresser aux problèmes liés à la polysémie des mots. Très vite, les travaux qui s’y consacrèrent admirent l’importance déter-minante du contexte (Weaver,1949;Kaplan,1955) d’un mot à désambiguïser (que nous appelons « cible », target), et ensuite l’influence très marquée des relations syntaxiques entre la cible et son contexte (Reifler,1955).

Par la suite, les besoins de connaissance d’un univers plus large pour effectuer les distinctions de sens ont initié deux tendances : tout d’abord la réduction du trai-tement à des domaines restreints, ce qui amène l’utilisation d’un lexique spécialisé dont la polysémie est limitée et donc la désambiguïsation facilitée (Panov,1960), mais cette approche n’est pas envisageable dans le cadre du texte tout-venant ; ensuite, inspirée par la notion de langue-pivot, l’idée développée parMasterman

(1957,1961) d’une abstraction de la forme de surface en concepts dans un réseau sé-mantique structuré, qui permet de choisir le sens correspondant au concept le plus proche du contexte. Cette seconde tendance très novatrice préfigure le travail de l’intelligence artificielle en désambiguïsation sémantique. Par ailleurs, la direction prise entre autres par les approches décrites dansPimsleur(1957) et dansMadhu et Lytle(1965), qui exploitent l’étude quantitative de la polysémie du lexique ainsi que la probabilité d’apparition d’un sens dans un contexte donné pour effectuer le choix du sens, inaugure l’application de méthodes statistiques au domaine.

La veine de l'intelligence artificielle

La plupart des méthodes de sélection du sens en intelligence artificielle n’ont donné lieu qu’à des implémentations extrêmement limitées au niveau du vocabu-laire et au niveau du contexte. Cette limitation ne permet pas d’appliquer ces mé-thodes à du texte réel. Toutefois, certaines approches sont intéressantes par leur principe, qui pourra être réutilisé dans d’autres perspectives.

Le réseau sémantique deMasterman(1961) permet d’abstraire le sens des phra- sesdansunelangue-pivotcomposéedeconceptsfondamentaux.Autourd’unecen-taine de types de concepts primitifs (thing, do…), un dictionnaire de 15 000 con-cepts est construit sous la forme d’un réseau hiérarchique qui autorise l’héritage vertical descendant des propriétés. Le choix des sens est implicite et s’effectue au 60

2.3. Désambiguïsation sémantique lexicale

niveau de la phrase : ce sont les nœuds du réseau correspondant aux concepts les plus proches qui sont activés, fournissant ainsi la signification de chacune des uni-tés lexicales. Les approches symboliques ultérieures qui visent l’exploitation d’un réseau sémantique vont s’atteler à donner une étiquette sémantique aux liens qui constituent le réseau (Quillian,1968), ainsi qu’à fournir un cadre informationnel sur les unités lexicales et leurs relations entre elles (Hayes,1977), mais conservent le principe du chemin le plus court entre deux nœuds comme meilleur choix de sens.

Le système proposé dansHirst(1987) exploite lui aussi un réseau sémantique et des cadres informationnels liés aux unités lexicales afin de définir le chemin le plus court entre deux nœuds, mais il introduit en plus un mécanisme appelé « mots polaroïds » (polaroid words) qui élimine progressivement les sens qui ne peuvent être appliqués à cause d’indices fournis soit par une analyse syntaxique, soit par l’information présente dans le cadre informationnel. Il note toutefois que si la phrase sort du cadre informationnel défini, aucune décision ne pourra être prise.

Tout en abandonnant le principe du réseau sémantique,Wilks(1975) insiste lui aussi sur les relations que la cible entretient avec son entourage contextuel. Pour chaque unité lexicale, il établit un réseau de préférences sémantiques sous la forme de restrictions de sélection régissant la combinaison syntaxique et sémantique de la cible avec d’autres lexèmes. Ces restrictions peuvent progressivement être as-souplies dans les cas où les règles les plus strictes n’aboutissent pas à un résultat.

Pour la désambiguïsation sémantique de sa méthode de compréhension du lan-gage naturel,Dahlgren(1988) utilise plusieurs informations, dont des syntagmes figés, des restrictions de sélection syntaxico-sémantiques et un moteur de raison-nement « de bon sens », qui consiste à chercher un ancêtre commun à deux mots appartenant au contexte dans une ontologie, commeResnik(1995) le fera égale-ment. Dahlgren note que la moitié des désambiguïsations sont effectuées par ce module ontologique, que les restrictions de sélection des verbes sont une impor-tante source d’information pour la désambiguïsation des noms.

Suite à la notion d’« amorçage sémantique »¹⁴(semantic priming), le courant connexionniste va exploiter les réseaux sémantiques selon des modèles de « pro-pagation d’activation » (spreading activation), c’est-à-dire que dans un réseau sé-mantique, les concepts sont activés lorsqu’ils sont mentionnés dans le document, et cette activation est transmise aux nœuds qui sont connectés à ces concepts. L’tivation se délite progressivement, mais il est possible qu’un même nœud soit ac-14. L’amorçage sémantique (semantic priming) est une théorie psycholinguistique selon laquelle l’introduction d’un concept dans un énoncé va influencer et faciliter la compréhension de concepts ultérieurs sémantiquement reliés (Meyer et Schvaneveldt,1975).

2. Les outils d’analyse textuelle

tivé par différentes sources, ce qui renforce son activation par rapport aux autres. Bien que ces approches pondérées ne correspondent pas à une méthode linguis-tique,Bookman(1987) a introduit dans le réseau des traits sémantiques (opposi-tion fondamentales, durée, lieux…) pour permettre de contraindre plus précisé-ment la sémantique des nœuds activés. Ces approches n’ont cependant pas été me-nées à une échelle suffisante pour être exploitables dans une application en taille réelle.

Les méthodes basées sur des ressources lexicales

Les méthodes de désambiguïsation sémantique avancées dans le domaine de l’intelligence artificielle présentent surtout le défaut d’une couverture lexicale in-suffisante. Dès que les possibilités matérielles ont permis la gestion de grands vo-lumes de données, les recherches en désambiguïsation sémantique se sont atta-chées à utiliser des ressources lexicales de grandes dimensions.Michiels(1982) at-tire notamment l’attention sur la richesse de l’information contenue dans ces res-sources. Il insiste sur l’intérêt que ces données représentent pour le traitement du langage en général, et pour le traitement de la sémantique en particulier.

Les premières tentatives ont été faites avec les dictionnaires au format

électro-nique, dont on essayait d’extraire une information lexicale et sémantique.

Cepen-dant, une information rigoureuse n’est pas facile à obtenir, ces dictionnaires pré-sentant deux défauts majeurs : ils comportent de grandes incohérences ( Kilgar-riff,1994) et ils sont conçus pour être utilisés par des humains, sans tenir compte des besoins logiciels. Dès lors, les approches appliquent un principe de sécurité, préférant donc la robustesse à la finesse. L’idée force de ce principe est qu’un mot polysémique voisin d’un autre mot dans un contexte possède celui de ses sens qui se rapproche le plus du sens de son voisin. Les indices de proximité entre les sens de deux mots varient en fonction des méthodes. Ce principe favorise bien entendu les modèles statistiques, même si des notions plus linguistiques peuvent y être ad-jointes dans certaines approches.

Lesk(1996) imagine un système qui génère une base de connaissances à partir d’un dictionnaire de langue, constituant pour chaque sens de chaque lexème une « signature » composée de la liste des mots apparaissant dans la définition de ce sens. La désambiguïsation de la cible se fait par sélection du sens qui présente la plus grande intersection avec les signatures des mots du contexte.Wilks etal.(1993) améliorent cette méthode fruste en augmentant la part accordée aux statistiques : il calcule la fréquence de co-occurrence des mots dans les définitions afin de défi-nir un degré de relation entre les mots.Véronis et Ide(1990) reprennent aussi la méthode de Lesk et l’exploitent dans un réseau neuronal où chaque mot est relié à 62

2.3. Désambiguïsation sémantique lexicale

ses sens, qui sont reliés à chaque mot de leur définition, eux-même reliés à chacun de leurs sens, etc.

Cowie et al.(1992) s’intéressent à une information supplémentaire, à savoir les catégories sémantiques définies dans le Longman Dictionary of Contemporary English (LDOCE) qui sont de deux types : les box codes qui présentent des catégories sé-mantiques (abstrait, humain…) et les subject codes qui correspondent à des do-maines d’application (économie, ingénierie…). Ils améliorent la méthode de Lesk en imposant au sens sélectionné une correspondance de trait sémantique avec son contexte. Il reste que cette information sémantique n’est pas systématique dans le LDOCE. Plus grave, le LDOCE, comme la plupart des dictionnaires électroniques, manque cruellement d’informations pragmatiques permettant d’établir des liens entre les unités lexicales et entre les informations dont elles sont porteuses.

Les thesaurus sont le deuxième type de ressources lexicales, plus systématiques que les dictionnaires et fournissant des relations essentiellement synonymiques entre les mots. Chaque occurrence d’un mot dans une catégorie d’un thesaurus correspond à un de ses sens, chaque catégorie rassemblant des mots ayant approxi-mativement le même sens. Cette particularité de conception a valu aux thesaurus d’être très tôt exploités pour le traitement automatique de la sémantique, notam-ment pour la constitution du réseau sémantique deMasterman(1957) (voir2.3.1 page 60).

Les méthodes qui exploitent les thesaurus sont généralement axées sur une in-formation statistique importante, à l’image deYarowsky(1992), qui établit un mo-dèle statistique basé sur le contexte. Chaque catégorie du Roget’s Thesaurus est con-sidérée comme une classe de mots. À partir de chacun des éléments de chaque classe, Yarowsky construit un ensemble contextuel de cent mots extraits d’un cor-pus et établit la probabilité statistique que chaque mot de la classe et chacun des cent mots de son contexte soient co-occurrents. La désambiguïsation sémantique est effectuée par l’application de la formule de Bayes sur la probabilité pour chaque classe contenant la cible d’être choisie.

Enfin, les dictionnaires informatiques, exploitables seulement par une applica-tion logicielle, rassemblent sous la forme de bases de connaissances des informa-tions plus ou moins liées au lexique¹⁵au niveau morphologique, syntaxique et/ou sémantique. La désambiguïsation sémantique exploite essentiellement WordNet (Fellbaum,1998b), dont l’information peut se rapprocher tantôt d’un dictionnaire 15. Il s’agit de ressources développées à la main dans un format adapté non à l’usage humain, mais à une exploitation par ordinateur. Certaines ressources ne sont pas attachées à une langue particu-lière : CyC, Mikrokosmos. Pour l’anglais, il y a principalement ACQUILEX (Briscoe,1991), COMLEX et

WordNet (Miller et al.,1990;Fellbaum,1998b). Pour le français AlethDic (GENELEX,1994) et

2. Les outils d’analyse textuelle

(définitions), tantôt d’un thesaurus (groupes de mots quasi-synonymes appelés synsets, hiérarchie conceptuelle), ou bien d’un réseau sémantique (relations

hy-ponymiques, méronymiques, antonymiques), etc. On notera toutefois que cette

ressource ne contient pas d’information syntaxique.

Voorhees(1993) exploite l’information hyponymique de WordNet dans une pers-pective de recherche d’information en cherchant, grâce à la construction des sous-graphes hyponymiques de chaque mot, à établir des similitudes sémantiques entre les mots de la requête et ceux de sa réponse. Ces similitudes sont obtenues grâce au décompte des synsets des unités composant la requête et ceux des documents. Ce-pendant, aucun choix réel de sens fin n’est effectué par cette méthode, seulement un rapprochement de deux mots.Sussna(1993), dans une semblable perspective de recherche d’information, attribue un poids à chaque type de relation entre deux unités lexicales et donne à chaque lexème une mesure liée au nombre de relations de même type qui la relient à d’autres. Ces mesures servent de base à un calcul appliqué aux chemins qui relient deux unités lexicales voisines dans un texte, et le sens choisi est celui qui obtient le meilleur résultat. Sussna observe l’importance de sens proches dans un même contexte. Il note également l’intérêt d’utiliser d’autres relations sémantiques que le classique is-a. S’appuyant sur les travaux décrits dans

Dahlgren(1988) en intelligence artificielle,Resnik(1995) recherche dans la hiérar-chie is-a unterme générique commun à deux lexèmes (ou plus) d’un texte et calcule la longueur du chemin permettant de déterminer la portion d’information com-mune aux lexèmes. Toutefois, il se distingue deSussna(1993) en considérant que la distance entre deux nœuds du réseau varie selon le type de relation qui les unit. Nous notons que ces différentes méthodes ne s’appliquent qu’aux substantifs, et que la distinction entre les sens est effectuée par le calcul d’une distance ou d’un poids pour chaque sens de chaque mot, qui permettent de rapprocher ou d’oppo-ser des données sémantiques. Il est toutefois intéressant de constater le bénéfice apporté d’une part par les différentes relations sémantiques qui constituent le ré-seau, et d’autre part par la distinction de l’importance qu’il faut apporter à ces re-lations sémantiques. Cependant, le contenu de WordNet n’est pas parfait, la dis-tinction des sens elle-même étant souvent trop fine¹⁶, et l’information syntaxique manquant cruellement.

Un autre type de ressources lexicales informatiques existe, qui ne décrit pas les différents sens des mots de la manière énumérative classique, mais sous la forme de règles qui décrivent les sens de manière relative. C’est le lexique

géné-ratif (Pustejovsky,1991). Divers travaux tendent à utiliser ce type de ressources génératives pour effectuer un travail de désambiguïsation sémantique (Viegas et

16. La distinction des sens est parfois trop subtile, et n’est pas forcément évidente même pour un utilisateur humain.

2.3. Désambiguïsation sémantique lexicale

Bouillon,1994;Viegas et al.,1999). Toutefois, l’absence de dictionnaire génératif pour le français et le manque d’information permettant d’aboutir à un enrichisse-ment de texte nous ont amené à écarter ces méthodes.

Les méthodes basées sur l'analyse de corpus

Les méthodes basées sur l’étude de grands corpus textuels s’adaptent bien à l’éla-boration de modèles statistiques qui reposent sur l’étude de fréquences rencon-trées dans les textes. Cependant, des méthodes linguistiques basées sur des obser-vations et sur la construction de règles à partir de ces obserobser-vations ont abondam-ment utilisé les corpus pour obtenir l’information dont elles avaient besoin.Weiss

(1973) a démontré sur cinq mots et un corpus d’une vingtaine de phrases pour cha-que mot cha-que des règles de désambiguïsation sémanticha-que pouvaient être extraites de phrases étiquetées sémantiquement.Kelly et Stone(1975) ont suivi son exem-ple : à partir d’un corpus de 500 000 mots,Kelly et Stoneont extrait manuellement des règles de désambiguïsation sémantique pour chaque sens de l 800 mots poly-sémiques. Ces règles exploitaient des indices tels que la collocation, les relations syntaxiques et l’appartenance à une même catégorie sémantique. Bien que réalisés sur une petite échelle, ces tests donnaient d’excellents résultats.

Cependant, les modèles statistiques se sont rapidement imposés lorsque le vo-lume de données contenues dans les corpus a commencé à devenir réellement im-portant :Black (1988), par exemple, a extrait des arbres de décision sémantique d’un corpus de 22 millions de mots dont il avait étiqueté environ 2 000 occurren-ces de cinq lexèmes. Toutefois, cette méthode elle-même, comme celles de Kelly et Stone, met en évidence les difficultés d’exploiter des corpus pour un traitement sémantique. En effet, il s’agit non seulement d’étiqueter manuellement ces textes, mais aussi d’obtenir des documents qui comportent des occurrences de chacun des sens de chacun des mots du lexique, et cela en nombre suffisant pour pouvoir inférer des normes de comportement, que ce soit dans les méthodes linguistiques ou statistiques. Les tentatives d’améliorations ont donc porté sur deux problèmes. Il a d’abord fallu trouver des moyens d’étiqueter par le sens ces grandes bases textuelles par des techniques automatiques. Une solution proposée est l’amorçage (bootstrapping), qui comporte une phase d’apprentissage d’informations qui