Désambiguïsation lexicale basée sur des connaissances

2.1. Recours à des ressources externes pour la désambiguïsation dans un cadre monolingue

2.1.1. Sources de connaissances manuellement élaborées

Les premières méthodes de désambiguïsation lexicale ont été développées dans le cadre de l’Intelligence Artificielle (IA), au sein de systèmes plus larges visant la compréhension de la langue naturelle. Une des approches adoptées dans ce cadre (Quillian, 1968) repose sur l’utilisation de réseaux sémantiques représentant des mots (occurrences), des concepts (formes) et les relations sémantiques les associant. La désambiguïsation s’effectue, dans ces modèles, par la recherche des chemins d’association les plus courts entre les nœuds activés par les mots d’entrée.

Un autre type d’approche concerne la construction de réseaux de cadres contenant des informations sur les mots, leurs rôles et leurs relations (Hayes, 1977 ; Hirst, 1987). Hirst a introduit les mots polaroids, mécanisme qui élimine progressivement les sens inappropriés des mots sur la base d’évidence syntaxique et de relations sémantiques observées dans le réseau150_.

Small (1979) a proposé l’utilisation de systèmes experts pour la désambiguïsation151_{. Dans une telle approche, un système expert est créé pour}

chaque mot qui contient un réseau de discrimination des sens de mot. Ce réseau est parcouru sur la base d’informations fournies par le contexte et par d’autres experts ; à la fin, un seul sens demeure, qui est ensuite ajouté à la représentation sémantique de la phrase.

150_{Pourtant, lorsqu’un mot est employé au sein d’une phrase dans un sens métaphorique,} métonymique ou non connu, les polaroids finissent souvent par éliminer tous les sens possibles et échouent. Si cette approche est efficace pour la désambiguïsation des homonymes, elle ne l’est pas pour d’autres types de polysémie.

Autre approche, très importante, celle de la sémantique préférentielle proposée par Wilks (1975 ; Wilks et Fass, 1992), qui spécifie des restrictions de sélection concernant les combinaisons d’éléments lexicaux dans une phrase, à l’aide de traits sémantiques. Cette approche vise à attribuer l’interprétation la plus « cohérente » à une phrase, en termes de satisfaction du nombre maximal possible de préférences internes de ses parties.

Les méthodes de désambiguïsation développées dans le cadre de l’IA sont des méthodes essentiellement connexionnistes. Ces méthodes sont basées sur le principe d’amorçage sémantique, d’après lequel l’introduction d’un concept influence et facilite le traitement des concepts introduits par la suite et qui lui sont sémantiquement liés. Cette idée a été implémentée dans les modèles de propagation de l’activation (Collins et Loftus, 1975 ; Quillian, ibid. ; Cottrell et Small, 1983 ; Waltz et Pollack, 1985), où les concepts d’un réseau sémantique sont activés lors de leur utilisation et où l’activation se propage aux nœuds connectés. Outre les liens d’activation, ces réseaux peuvent aussi contenir des liens d’inhibition qui servent à supprimer, certains voisins du nœud activé.

La difficulté et le coût de l’encodage manuel des sources de connaissance nécessaires aux systèmes développés dans le cadre de l’IA les ont restreints à des implémentations qui traitent de minuscules parties de la langue (toy implementations) et ont empêché la généralisation du travail effectué en dehors de ces domaines très limités. En outre, l’évaluation de ces procédures de désambiguïsation était réalisée sur de petits ensembles de test et dans un contexte limité, ce qui rendait difficile la détermination de leur efficacité sur des textes réels. L’apparition de ressources lexicales informatisées de grande envergure dans les années 80 a ouvert la voie au développement de méthodes de désambiguïsation capables d’exploiter les informations fournies dans ces ressources, et permettant d’éviter l’étape, longue et fastidieuse, de l’encodage manuel.

2.1.2. Ressources lexico-sémantiques informatisées

Les dictionnaires et les autres inventaires sémantiques ont donc constitué une source alternative d’informations exploitables pour la désambiguïsation

lexicale. Lorsqu’ils sont disponibles sur support électronique, ces ressources sont alors directement exploitables par les méthodes automatiques de désambiguïsation152_{. Les méthodes qui exploitent des informations d’une}

ressource externe sont caractérisées comme des méthodes dirigées par les connaissances153_.

La première méthode de ce type à être proposée, et qui a eu une grande influence sur les méthodes qui ont suivi, est celle de Lesk (1986). Dans le cadre de cette méthode, la sélection du sens véhiculé par une nouvelle instance d’un mot ambigu se fait en calculant le recouvrement entre les mots inclus dans les définitions des sens du mot et ceux inclus dans les définitions des cooccurrents de sa nouvelle instance au sein d’un dictionnaire informatisé154_{. Le sens}

sélectionné est celui dont la définition contient le plus grand nombre de mots communs avec les définitions des sens des mots du nouveau contexte. La désambiguïsation a donc lieu en choisissant, pour le mot ambigu et les mots qui l’entourent, les définitions qui se recoupent le plus155_.

Le principal inconvénient de cette méthode est de reposer sur la correspondance exacte entre les mots trouvés dans les définitions dictionnairiques. Cette exigence de correspondance exacte la fait donc dépendre fortement des mots utilisés dans les définitions et la rend très sensible à la présence (ou non) d’un mot au sein de ces définitions. Elle ne lui permet pas, en outre, de capter des relations moins directes entre les mots, c’est-à-dire des relations qui ne sont pas explicitement décrites dans les définitions (Véronis et Ide, 1990). Malgré cet inconvénient, l’idée principale de la méthode de Lesk a été reprise et élaborée dans de nombreux travaux qui ont suivi.

152_{Ressources lexicales fréquemment utilisées : dictionnaires unilingues de langue générale, comme} le ‘COLLINS COBUILD English Dictionary’, le ‘LDOCE’ (‘Longman Dictionary of Contemporary English’), l’‘Oxford English Dictionary’ (‘OED’), l’‘Oxford Advanced Learners Dictionary’, le ‘Merriam-Webster’ et l’‘American Heritage Dictionary of the English Language’ pour l’anglais, et les ‘Petit Robert’ et ‘Petit Larousse’ pour le français ; dictionnaires bilingues, comme les dictionnaires anglais-français ‘Robert & Collins’ et ‘Oxford-Hachette’ et des thésaurus, comme le ‘Roget’s Thesaurus’ pour l’anglais et le thésaurus ‘Larousse’ pour le français.

153_{A différencier des méthodes « dirigées par les données », décrites dans le paragraphe suivant.} 154_{Dans cette méthode, les cooccurrents sont les mots qui apparaissent dans une fenêtre textuelle de} dix mots autour de la nouvelle instance du mot ambigu.

La méthode proposée par Wilks et al. (1990) permet d’estimer la similarité entre entrées de sens156_{et contextes, même s’ils ne partagent pas de mots en}

commun. Cette manière de procéder est rendue possible par l’expansion des entrées de sens du dictionnaire et des contextes à l’aide de données de cooccurrence, collectionnées à partir des définitions des sens157_{. Cette expansion}

se fait par l’inclusion de mots liés aux mots présents dans les contextes et les entrées de sens. Un vecteur de mots est alors construit pour l’entrée de chaque sens et un autre pour le contexte (la phrase où le mot apparaît), en ajoutant les vecteurs des mots liés à chacun des mots de l’entrée ou du contexte, respectivement, et en excluant le mot ambigu. Le sens retenu est celui dont le vecteur est le plus similaire au vecteur du contexte.

Cette idée de désambiguïsation par mise en évidence des liens sémantiques entre les mots utilisés dans une phrase existe déjà dans la méthode proposée par Sparck Jones (1986) 158_{, qui vise l’identification du sens des mots dans un texte et}

le repérage du sujet traité. Cette méthode consiste à représenter chaque mot d’un texte par une liste des entrées dans lesquelles il apparaît dans un thésaurus (1986 : 22-23)159_{. Etant donné le nombre élevé de mots ambigus, chaque mot est}

représenté par une liste contenant plus d’une entrée du thésaurus. La comparaison des listes attribuées aux mots différents d’un texte permet de repérer les entrées qui apparaissent dans plus d’une liste ; celles-ci spécifient l’usage du mot ambigu et indiquent le sujet traité par le texte.

Une des différences distinguant la méthode de Sparck Jones de celle de Wilks et al. (ibid.) est que cette dernière n’est pas capable de désambiguïser tous les mots de la phrase en même temps, à cause du phénomène d’explosion combinatoire. Le fait que la désambiguïsation simultanée de plus d’un mot ambigu soit impossible constitue, pour Véronis et Ide (1990), la faiblesse

156_{L’entrée d’un sens comprend la définition du sens et un exemple d’utilisation du sens.}

157_{La fréquence de cooccurrence de deux mots correspond au nombre d’entrées de sens dans} lesquelles les deux mots apparaissent.

158_{Il s’agit de la publication de la thèse de doctorat de Spack Jones, soutenue en 1964.}

159_{Le but est de remplacer les mots du texte par des notions plus générales. Les étiquettes de sujet} étant considérées comme très grossières et limitées, Sparck Jones préfère utiliser une classification sémantique adéquate pour tous les mots du vocabulaire d’une langue, qui traite tous les usages des mots et pas uniquement ceux pour lesquels des étiquettes du domaine peuvent être utilisées. Ceci justifie la décision de se référer à un thésaurus (‘Roget’s’), où les mots sont classifiés relativement aux idées qu’ils expriment.

principale de la méthode de Wilks et al. Celle-ci se heurte, en outre, aux problèmes déjàsignalés pour la méthode de Lesk. La réponse de Véronis et Ide (ibid.) consiste à construire de grands réseaux de neurones dédiés à la désambiguïsation. Les nœuds de ces réseaux représentent des mots et sont connectés par des liens d’activation et, éventuellement, des liens d’inhibition qui connectent des sens antagonistes d’un mot. Les nœuds correspondant aux mots de la phrase analysée sont d’abord activés et ces mots activent ensuite leurs voisins qui activent à leur tour leurs propres voisins. Le réseau se stabilise progressivement dans un état où un sens de chaque mot d’entrée est plus activé que les autres. Pour la construction automatique de réseaux de ce type, Véronis et Ide exploitent également les informations contenues dans des définitions dictionnairiques, en se fondant sur l’hypothèse de relations sémantiques pertinentes entre un mot et les mots utilisés pour le définir. Les connexions du réseau reflètent ces relations. Cette méthode améliore les résultats obtenus par les méthodes précédentes sur des cas précis, tout en n’ayant pas besoin d’encodage d’informations sémantiques.

D’autres améliorations de la méthode de Lesk ont été également proposées dans des travaux ultérieurs. Guthrie et al. (1991) exploitent les classifications de sujet fournies dans le ‘LDOCE’ pour établir des liens de cooccurrence, dépendants du sujet, entre les mots utilisés dans les définitions. Les voisinages lexicaux construits de cette manière sont ainsi dépendants du domaine et la désambiguïsation des nouvelles instances d’un mot ambigu s’opère en calculant le recouvrement entre les voisinages créés pour chacun de ses sens et les mots du contexte. La méthode de Cowie et al. (1992), quant à elle, enrichit les définitions dictionnairiques du ‘LDOCE’ avec des informations de domaine, en traitant le code de domaine attribué à un sens comme un mot faisant partie de sa définition. La sélection correcte des sens des mots repose sur l’idée que les sens lexicaux qui apparaissent dans la même phrase ont plus de mots et de codes de sujet en commun dans leurs définitions160_{que ceux appartenant à des phrases}

160_{Cette idée est analysée et défendue par Wilks et al. (1990), qui soutiennent que : a) la probabilité} d’une relation entre deux sens lexicaux qui apparaissent dans la même phrase est suffisamment élevée pour rendre possible l’extraction d’informations utiles à partir de statistiques de cooccurrence ; b) le degré auquel cette probabilité dépasse la probabilité de cooccurrence imputable

différentes161_{. En revanche, la désambiguïsation par la méthode de Krovetz et}

Croft (1992) s’effectue en déterminant le code de domaine (issu de ‘LDOCE’) qui reçoit le score le plus élevé dans une fenêtre contextuelle. Ce code est ensuite utilisé pour augmenter le poids des sens auxquels il est attribué162_.

Yarowsky (1992) désambiguïse les mots d’un texte en se servant des distinctions sémantiques représentées dans les catégories du thésaurus ‘Roget’s’, considérées comme des approximations de classes conceptuelles. La méthode se base sur l’observation de l’apparition de classes conceptuelles différentes au sein des contextes163_{, et de la tendance des sens d’un mot à appartenir à des classes}

différentes. Un discriminateur contextuel élaboré pour les classes conceptuelles est utilisé en tant que discriminateur des sens lexicaux appartenant à ces classes. Par conséquent, les indicateurs de contexte d’une catégorie du thésaurus sont considérés comme des indicateurs de contexte pour les membres de cette catégorie.

Malgré la large exploitation des informations sémantiques contenues dans les dictionnaires informatisés par les méthodes de désambiguïsation, leur qualité est souvent remise en question. Ces dictionnaires, développés pour un usage humain, ne sont généralement pas dotés de la systématicité et de la finesse de description requises dans un cadre automatique. Ils présentent, en outre, un fort degré de divergence au niveau de la représentation des sens lexicaux et des relations entretenues entre eux. Des critiques ont également été faites contre l’utilisation de thésaurus informatisés pour la désambiguïsation. Bien que ces ressources fournissent une catégorisation sémantique et des réseaux riches d’associations entre mots, les niveaux supérieurs des hiérarchies conceptuelles

mots d’une phrase, le nombre et la force des relations entre les sens lexicaux sont plus grands que lors d’une autre attribution, la première a davantage de chances d’être correcte.

161_{La méthode utilisée (« recuit simulé », simulated annealing en anglais) permet la détermination} simultanée de tous les sens des mots dans une phrase. Le nombre de sens de chaque mot correspond à celui trouvé dans le ‘LDOCE’.

162_{La méthode ne vise pas nécessairement l’identification d’un seul sens correct pour un mot, mais} plutôt l’élimination du plus grand nombre possible de sens incorrects et l’attribution d’un poids élevé aux sens probablement corrects.

163_{Des mots indicatifs de chaque catégorie du thésaurus sont repérés en collectionnant des} contextes représentatifs de la catégorie, constitués d’ensembles de cooccurrents des membres de la catégorie dans les textes. La matrice pondérée construite sert d’exemple de contexte typique de la catégorie. La présence des mots significatifs d’une catégorie dans le contexte d’un mot ambigu révèle l’évidence de son appartenance à la catégorie indiquée.

sont souvent discutables et caractérisés comme trop larges pour être utiles à l’établissement de catégories sémantiques significatives.

2.1.3. Ressources lexico-sémantiques électroniques

La mise en évidence des faiblesses des ressources informatisées pour le traitement automatique a généré l’émergence de bases de connaissances de grande envergure élaborées manuellement, comme les dictionnaires électroniques. L’exemple le plus connu, qui est aussi le dictionnaire électronique le plus largement utilisé dans un cadre automatique, est le réseau sémantique WordNet (Miller et al., 1990). Cette ressource pourrait être caractérisée comme un lexique d’énumération en raison de la représentation explicite des sens lexicaux. Comme nous l’avons déjà dit, les sens sont représentés, dans WordNet, à l’aide de synsets, ensembles de mots synonymes représentant un concept lexical. Les synsets sont organisés au sein d’une hiérarchie conceptuelle et sont liés par des relations sémantiques, comme l’hyponymie, l’hypéronymie, l’antonymie et la méronymie.

Certaines méthodes de désambiguïsation exploitant WordNet (Voorhees, 1993 ; Sussna, 1993 ; Richardson et Smeaton, 1995 ; Resnik, 1995) profitent des informations taxonomiques incluses et utilisent des métriques qui calculent la distance (ou la similarité) sémantique entre les mots d’entrée, pour les désambiguïser. Certaines de ces méthodes, comme celle de Sussna, calculent la distance entre les mots à l’aide des arêtes qui lient les synsets correspondants de WordNet. Cette méthode repose sur l’idée que les sens corrects d’un ensemble de mots apparaissant à proximité dans un texte sont ceux décrits par les synsets qui minimisent la distance entre les mots en question au sein du réseau. D’autres méthodes, comme celle de Resnik, calculent le contenu informationnel commun aux mots sur la base de l’hypothèse que les sens corrects à attribuer aux mots polysémiques apparaissant ensemble sont ceux qui partagent des éléments de sens.

Un autre type de méthodes basées sur WordNet combine les informations taxonomiques à celles trouvées au sein des définitions de sens lexicaux. Tel est le

cas de la méthode de Banerjee et Pedersen (2002), fondée sur l’approche de désambiguïsation de Lesk. Mais au lieu d’utiliser les définitions de dictionnaires traditionnels, leur méthode exploite les informations contenues dans les relations lexicales définies par WordNet. L’algorithme de Lesk repose sur la révélation de recouvrements entre les définitions dictionnairiques de mots voisins au mot à désambiguïser, tandis que celui de Banerjee et Pedersen étend les comparaisons aux définitions de mots liés à la fois au mot ambigu et aux mots de son contexte, au sein de WordNet. La richesse des informations ainsi exploitées améliore la précision de la désambiguïsation.

Vasilescu et al. (2004) analysent de façon détaillée les paramètres déterminant la performance des méthodes de désambiguïsation basées sur l’algorithme de Lesk et exploitant les informations de WordNet. Cette analyse s’effectue en comparant les variantes de l’algorithme, variantes relatives à la manière dont le contexte des mots ambigus est considéré164_{, la manière dont les}

sens sont décrits165_{, leur pondération}166_{ainsi que les mots du contexte pris en}

compte167_{. Patwardan et al. (2003) prolongent l’étude de Banerjee et Pedersen}

(ibid.) : en considérant le recouvrement des définitions comme une mesure de similarité sémantique, ils procèdent à la désambiguïsation en utilisant d’autres mesures de similarité sémantique sur la base des informations de WordNet. Naskar et Bandyopadhyay (2007), en revanche, utilisent l’algorithme de Lesk

164_{Il s’agit soit de prendre en compte les descriptions dans WordNet de tous les sens des mots qui} apparaissent dans le contexte soit, plus simplement, de ne considérer que les mots du contexte en ignorant leurs sens. La deuxième variante a donné de meilleurs résultats.

165_{Un sens peut être décrit par l’ensemble des lemmes de mots pleins associés à la définition du} sens fournie dans le champ correspondant de WordNet, ou associés aux exemples. Une alternative consiste à prendre en compte les synonymes (synset) du sens et tous les synsets qui entretiennent une relation d’hyperonymie avec lui, jusqu’au sommet de la hiérarchie WordNet. Ces deux approches peuvent se combiner.

166_{La pondération simple définit l’attribution d’un score au sens candidat qui correspond au} nombre de recouvrements entre les informations associées au sens (mots dans sa définition, etc.) et les informations associées au contexte. La pondération peut aussi être effectuée en prenant en compte la longueur de la description du sens, dans la mesure où des descriptions plus longues peuvent produire davantage de recouvrements que des descriptions plus courtes ; ces descriptions dominent ainsi le processus de prise de décision (Lesk, 1986). Mais le fait que ce paramètre influence beaucoup le résultat de la désambiguïsation n’a pas été démontré.

167_{Cela concerne tous les mots pleins du contexte ou seulement les mots appartenant à la « chaîne} lexicale » du mot ambigu (Hirst et St-Onge, 1998), qui est identifiée sur la base des relations de synonymie et d’hypéronymie des mots dans WordNet. Un mot appartient à la chaîne lexicale du mot ambigu si les ensembles de synonymes et d’hyperonymes des sens de ces mots présentent une similarité assez forte. La considération de la chaîne lexicale des mots ambigus a amélioré la performance de la désambiguïsation.

dans un système de désambiguïsation basé sur ‘Extended WordNet’ (Harabagiu et al., 1999), où les définitions des synsets sont étiquetées par des informations sémantiques et morphosyntaxiques.

Toutes les méthodes de désambiguïsation qui exploitent les ressources

Dans le document Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction (Page 117-138)