Validation de sens automatiquement induits

3.1. Absence d’étalon d’or

L’absence d’un étalon d’or (gold standard) en sémantique lexicale, qui constituerait une solution aux problèmes du nombre et de la granularité des sens lexicaux, complique considérablement l’étape de la validation des distinctions sémantiques proposées par les méthodes automatiques d’acquisition de sens. Nous avons déjà analysé un ensemble de facteurs qui rendent difficile, voire impossible, la création d’une ressource sémantique unique utilisable par des humains aussi bien que par la machine, ou même adéquate à des applications automatiques différentes (cf. §1.3.2, chapitre 1). En outre, le manque d’uniformité entre ressources sémantiques différentes leur interdit d’être considérées comme une référence.

La difficulté à valider les résultats de l’acquisition de sens est encore accentuée par l’absence de critères objectifs d’estimation de la validité des sens proposés, problème lié tant aux divergences entre conceptions du sens qu’aux nombreux paramètres extra-linguistiques qui conditionnent l’adéquation des distinctions sémantiques au sein de cadres et d’applications différents.

3.2. Exploitation de ressources sémantiques externes

3.2.1. Inventaires sémantiques préétablis

Même si l’utilisation de ressources existantes en tant qu’étalon d’or est sévèrement critiquée, la comparaison des distinctions sémantiques obtenues automatiquement avec celles existant dans des ressources préétablies constitue un processus assez courant d’évaluation. Pantel et Lin (2002) emploient une évaluation de ce type, basée sur des correspondances automatiquement établies

entre les sens induits à partir d’un corpus et les sens des mots décrits dans le réseau sémantique WordNet (Miller et al., 1990)113_{. L’évaluation de la qualité des}

clusters sémantiques revient à estimer la qualité de ces correspondances. Purandare et Pedersen (2004b) valident les clusters obtenus à l’aide du même ensemble de sens114_.

Dans le travail d’Ide (1999a, 1999b), l’évaluation se fait également par référence à des ressources externes. L’acquisition de sens ne se produit cependant pas ex nihilo.Les sens obtenus correspondent à des clusters des sens fournis dans WordNet pour les mots étudiés. Les informations traductionnelles sont utilisées afin d’analyser la lexicalisation des sens de WordNet dans d’autres langues, processus qui peut également servir à estimer la validité des sens en question. Plus précisément, les informations de traduction servent à estimer la similarité des sens de WordNet, similarité qui sert, à son tour, à leur clustering115_{. Les}

clusters de sens obtenus automatiquement par ce processus sont ensuite comparés aux entrées correspondantes dans des dictionnaires116_.

La difficulté à comparer les clusters de sens et les entrées dictionnairiques est néanmoins soulignée : hormis certaines similarités observées à un niveau grossier de distinctions, rendues évidentes par les clusters de sens générés automatiquement et les sens principaux décrits dans les entrées dictionnairiques, un taux élevé de divergence est constaté au niveau des distinctions de granularité fine. Plus précisément, les sens de granularité fine sont

113_{A l’intérieur de ce réseau, les sens sont représentés à l’aide de synsets, ensembles de mots} synonymes désignant un concept lexical. Les synsets sont liés dans le réseau par des relations sémantiques, comme l’hyponymie et l’hypéronymie, l’antonymie ou la méronymie.

114_{Les données de SENSEVAL-2, utilisées pour l’évaluation, sont sémantiquement étiquetées à} l’aide des sens de WordNet (Kilgarriff, 2001).

115_{Un indice de cohérence est calculé qui mesure la tendance de lexicalisation différente des sens} différents des mots source décrits dans WordNet, dans un certain nombre de langues. Les occurrences des mots polysémiques étudiés au sein du corpus parallèle sont regroupées à la main en fonction des distinctions sémantiques de WordNet ; leurs traductions utilisées dans le corpus sont repérées. L’indice de cohérence constitue une indication du degré de validité des distinctions sémantiques et démontre la similarité des sens correspondants : plus la valeur de l’indice entre deux sens est grande, et plus les occurrences des sens en question sont traduites fréquemment par la même unité lexicale dans les autres langues. Une tentative de validation des sens décrits dans un autre inventaire sémantique (l’inventaire HECTOR, utilisé dans la campagne d’évaluation SENSEVAL), par utilisation d’informations de lexicalisation inter-langue, est aussi entreprise par Resnik et Yarowsky (2000).

soit éparpillés à différents endroits dans les entrées dictionnairiques soit partagés entre sens différents. Les relations hiérarchiques évidentes dans les clusters générés par l’algorithme hiérarchique de clustering ne sont pas non plus reflétées dans les entrées dictionnairiques, où les sens sont présentés de manière linéaire.

La difficulté à comparer les résultats fournis par une méthode automatique d’acquisition de sens aux informations contenues dans des ressources sémantiques préétablies est également soulignée par Thunes (2003), lors d’une évaluation de la qualité des résultats de la méthode des Miroirs Sémantiques (Dyvik, 2003, 2005). Dans ce travail d’évaluation, les résultats d’analyse sémantique fournis pour un mot par la méthode des Miroirs sont comparés aux informations trouvées, pour ce même mot, dans les entrées de WordNet et du Merriam-Webster Online Thesaurus. Les résultats de l’évaluation quantitative initialement effectuée sont complétés et réajustés par une évaluation qualitative, menée sur la base de descriptions des sens et des sous-sens dans les deux ressources de référence.

L’évaluation quantitative s’effectue par le calcul de la précision et du rappel, en considérant des ensembles de lemmes répertoriés en tant que mots sémantiquement similaires du mot polysémique, dans chacune des trois entrées : l’entrée correspondante au mot dans la ressource générée par les Miroirs et les entrées correspondantes de WordNet et de Merriam Webster.

La précision est calculée comme étant la proportion de mots partagés entre l’entrée générée par les Miroirs et les entrées de l’étalon d’or. Des ajustements qualitatifs ont lieu par la suite, en se référant aux descriptions sémantiques fournies dans les entrées de l’étalon d’or et des nuances de sens couvertes par les différents ensembles de mots sémantiquement proches. Ainsi, il est estimé que des mots apparaissant uniquement dans l’entrée des Miroirs, pour le mot étudié, auraient pu être inclus dans les entrées de l’étalon d’or117_{. Le rappel indique,}

quant à lui, la proportion des mots contenus dans les ressources qui ne sont pas repérés par la méthode des Miroirs. L’ajustement qualitatif entrepris dans le cas du rappel consiste à vérifier la présence des mots qui sont absents de l’entrée des Miroirs, au sein du corpus d’apprentissage. L’absence de ces mots provoque un

117_{Pendant cette étape, il faut examiner si les mots qui apparaissent seulement dans l’entrée des} Miroirs pourraient être pris en compte par la description sémantique donnée dans l’entrée de l’étalon d’or. Si c’est le cas, les mots en question auraient pu être inclus dans l’étalon d’or.

réajustement du rappel118_{. Après ce réajustement, le rappel reflète la proportion}

des mots contenus dans les entrées des ressources de référence qui « pourraient » être trouvés et qui ont effectivement été trouvés par la méthode. Enfin, l’évaluation qualitative examine également si les mots absents de l’entrée des Miroirs introduiraient des nuances de sens qui ne sont pas décrites par l’ensemble des mots inclus dans l’entrée en question. La dernière étape de l’évaluation comporte une comparaison qualitative entre les distinctions sémantiques (sens et sous-sens) présentes dans l’entrée des Miroirs et celles décrites au sein des entrées de l’étalon d’or119_.

L’évaluation de la description sémantique fournie par la méthode des Miroirs pour un adjectif anglais (le mot pleasant) démontre le faible nombre de mots communs aux trois entrées correspondantes à ce mot. Les entrées des Miroirs et de Webster partagent à peu près le même nombre de mots avec l’entrée de WordNet. Ces entrées fournissent par ailleurs à peu près le même nombre total de mots pour le mot étudié, nombre qui est supérieur au double du nombre de mots trouvés dans l’entrée de WordNet. Autre élément très intéressant, de grandes divergences existent au niveau des entrées trouvées dans les deux ressources préexistantes, ce qui remet en question leur statut en tant qu’étalon d’or.

Le recours à des ressources prédéfinies pour l’évaluation s’explique en partie par la difficulté pratique et la subjectivité inhérentes à une évaluation manuelle des sens induits par le corpus (Véronis, 2004). D’après Agirre et al. (2006) et Agirre et Soroa (2007a), une évaluation de ce type pourrait impliquer l’estimation de la validité d’attribution des sens obtenus pour un mot à ses instances dans un corpus. Hormis la difficulté pratique que représente la vérification manuelle de chaque instance, décider de la conformité de la

118_{Ce réajustement a lieu dans le cas où un mot apparaît dans le corpus mais n’est jamais traduit} par un équivalent de traduction identifiable dans le texte parallèle ; ce qui explique que la méthode des Miroirs ne puisse pas le repérer. En outre, dans le cas où un mot est toujours traduit par le même équivalent, la méthode ne peut pas décider de sa proximité sémantique avec d’autres mots de la langue, ce qui explique qu’il soit absent de l’entrée générée. Pourtant, le rappel n’est pas ajusté dans ces cas, car l’absence de ces mots est due à la manière dont la méthode est conçue. 119_{Dans la mesure où il y a rarement une solution unique quant à la division du sens d’un mot en} sens et en sous-sens (Dyvik, 2003), la méthode des Miroirs offre la possibilité de modifier la granularité des distinctions sémantiques, en modifiant la valeur d’un paramètre, appelé ‘Seuil de Recouvrement’ (‘Overlap Threshold’). Pour l’évaluation menée par Thunes, la valeur de ce

correspondance d’une instance au sens décrit par le cluster120_{qui lui est attribué}

s’avère également difficile, surtout lorsque le cluster comprend un petit nombre de mots. Dans ce cas, le sujet, au lieu d’estimer la justesse du cluster fourni par l’algorithme, étiquetterait l’instance avec ses propres sens, sens ensuite comparés au cluster fourni par le système.

3.2.2. Corpus sémantiquement étiquetés

Le problème de la subjectivité qu’implique une évaluation manuelle peut être résolu en comparant le résultat du clustering aux informations provenant d’un corpus étiqueté avec des sens de référence (étalon d’or). Ce type d’évaluation est adopté dans SemEval (Agirre et Soroa, 2007a) pour la tâche qui consiste à évaluer les résultats de systèmes de repérage de sens. Les sens de référence proviennent d’une ressource préétablie, le réseau ‘OntoNotes’121_(Hovy

et al., 2006), dont les distinctions sémantiques sont de granularité plus grossière que WordNet. Lors d’une étape d’évaluation non supervisée, les sens induits à partir d’un corpus non étiqueté sont considérés comme des clusters d’exemples et les sens de l’étalon d’or comme des « classes ». Les clusters sont alors comparés avec les ensembles d’exemples étiquetés par les sens de l’étalon d’or (classes). Un clustering parfait correspondrait à l’état où chaque cluster inclut exactement les mêmes exemples qu’une classe, et réciproquement.

SemEval122_{comprend également une étape d’évaluation supervisée,}

concernant la mise en correspondance des sens induits avec les sens de l’étalon d’or, et l’utilisation de ces correspondances pour étiqueter le corpus de test avec les étiquettes de l’étalon d’or. Dans ce cas, le corpus est divisé en deux, une partie d’entraînement et une partie de test. La correspondance entre clusters et sens est calculée en utilisant les informations sémantiques d’annotation dans la partie

120_{Le sens peut être décrit autrement, par exemple par une sous-partie d’un graphe, comme chez} Véronis (2004).

121_{Cependant Agirre et Soroa (ibid.) soulignent que l’utilisation de WordNet, au lieu d’OntoNotes,} aurait donné de meilleurs résultats.

122_{Chaque mesure utilisée pour évaluer le clustering est orientée en fonction d’une certaine} stratégie de clustering. La mesure utilisée dans SemEval pénalise davantage les systèmes donnant un grand nombre de clusters tandis qu’elle favorise ceux induisant moins de sens. L’évaluation supervisée semble être plus « neutre » en ce qui concerne le nombre de clusters.

d’entraînement. Les résultats sont ensuite évalués à l’aide des mesures de précision et de rappel, employées pour l’évaluation des systèmes de désambiguïsation lexicale supervisée.

3.3. Exploitation de sens induits en vue de tâches précises

Il existe une manière alternative de valider le contenu d’une ressource sémantique, générée automatiquement ou non, et qui ne nécessite ni la référence à des ressources préétablies ni l’utilisation de corpus sémantiquement étiquetés. Cette méthode consiste à estimer la possibilité d’utiliser cette ressource sémantique pour une tâche précise. Tufiş et al. (2004b) évaluent la qualité des contenus de BalkaNet en les exploitant dans une tâche de désambiguïsation lexicale. Le système de désambiguïsation développé dans le cadre de ce travail est basé sur des corpus parallèles et exploite l’intuition selon laquelle les mots qui sont des traductions réciproques dans des textes parallèles devraient avoir les mêmes sens inter-langues (ou similaires) au sein de la ressource123_{. Ainsi, le}

système de désambiguïsation fait office d’outil de validation, en permettant aussi bien le repérage d’alignements erronés entre les wordnets de langues différentes, que le repérage de synsets incomplets ou manquants.

Le travail de Lyse (2006) vise à valider les résultats obtenus par la méthode des Miroirs Sémantiques124_{, en estimant leur utilité en tant que source de}

connaissances lexicales dans le cadre d’une tâche de désambiguïsation lexicale supervisée125_{. Le corpus d’apprentissage utilisé est sémantiquement étiqueté à}

l’aide des résultats des Miroirs, ce qui permet l’ « enrichissement » du contexte par des informations paradigmatiques. L’apprentissage porte ensuite sur des

123_{Le réseau BalkaNet comprend les wordnets construits pour six langues différentes, alignés au} Princeton WordNet considéré comme un index inter-langue. La méthode de désambiguïsation qui exploite ce réseau sera décrite plus en détail dans le paragraphe 2.5.2.3.

124_{Il s’agit des résultats obtenus par application de la méthode des Miroirs Sémantiques sur un} corpus parallèle anglais-norvégien (English-Norwegian Parallel Corpus, ENPC) de 2.6 millions de mots. Les résultats des Miroirs constituent un inventaire sémantique, qui décrit des relations paradigmatiques entre les mots (relations de quasi-synonymie, d’hyperonymie et d’hyponymie). 125_{La désambiguïsation lexicale par apprentissage automatique supervisé nécessite un corpus} d’apprentissage comprenant les exemples de contextes dans lesquels les sens apparaissent. Chaque occurrence des mots polysémiques dans ce corpus doit être étiquetée par son sens correct avant l’apprentissage ; ainsi le système « apprend » ce qui caractérise le contexte d’un sens donné et le classificateur qui en résulte peut ensuite être utilisé pour classifier de nouvelles occurrences des

classes de sens similaires présentes dans le contexte et non sur les mots du contexte. Ces classes sont constituées à l’aide des traits sémantiques attribués aux sens par la méthode des Miroirs Sémantiques126_{. La précision de l’étiqueteur}

sémantique est haute et la comparaison des résultats de cette expérience avec ceux d’une tâche de désambiguïsation où l’apprentissage est basé sur les mots du contexte a démontré que l’apprentissage sur les traits sémantiques des mots (même si les mots ne sont que les noms du contexte) donne de meilleurs résultats. Dans le travail de Schütze (1998), les clusters de sens obtenus par la méthode non supervisée sont utilisés pour la recherche d’information. Les inconvénients de ce type d’évaluation résident, selon Agirre et Soroa (2007a) et Agirre et al. (2006), dans le besoin de développer des systèmes appropriés, ce qui n’est pas toujours évident, et dans la difficulté à expliquer une bonne ou une mauvaise performance.

3.4. Validation des sens induits au sein de ce travail

En ce qui concerne notre démarche, nous avons opté pour une autre manière de valider les résultats de la méthode d’acquisition de sens. Cette validation se fait par comparaison des résultats obtenus par la méthode proposée, sur un échantillon de mots ambigus, à ceux fournis, sur le même échantillon, par une méthode qui exploite des informations de nature différente pour l’acquisition de sens, la méthode des Miroirs Sémantiques. La similarité des résultats de ces deux méthodes, basées sur des principes différents, ne peut être considérée comme un effet du hasard et, par conséquent, servira d’appui aux distinctions sémantiques proposées.

Les descriptions sémantiques obtenues seront également comparées à celles fournies par le réseau sémantique multilingue BalkaNet. Cette comparaison aura comme objectif principal de démontrer les différences au niveau des descriptions sémantiques entre la ressource automatiquement générée et cette ressource

126_{Les traits sémantiques constituent un moyen formel de représentation de la similarité entre les} sens lexicaux : les sens sont d’autant plus proches que le nombre de traits sémantiques qu’ils partagent est élevé. Ainsi des mots lunch et diner, qui sont des hyponymes de meal, relation exprimée par le partage d’un même trait sémantique par les trois sens (les hyponymes étant caractérisés par un trait supplémentaire, propre à chacun, qui les distingue). Pour plus de détails sur la méthode, voir Lyse (2006).

prédéfinie, et de mettre en évidence les qualités des descriptions engendrées par notre méthode. Cette comparaison se heurte aux difficultés soulignées lors des tentatives de comparaison des résultats des méthodes automatiques aux contenus de ressources préétablies. Elle permet, néanmoins, d’avoir une image tant des divergences qualitatives existantes au niveau des descriptions sémantiques, que de celles concernant la structure des inventaires en question.

C

ONCLUSION

Dans ce chapitre, nous avons présenté un ensemble de méthodes automatiques d’acquisition de sens, opératoires dans un cadre monolingue et bi- (multi-)lingue. Nous avons analysé les hypothèses théoriques sous-jacentes à ces méthodes, ainsi que les principes de leur fonctionnement et les facteurs conditionnant leur réussite. Nous avons également décrit la nature des résultats fournis, c’est-à-dire la nature des informations contenues dans les inventaires de sens construits. Nous avons enfin souligné les difficultés rencontrées lors des tentatives d’évaluation des résultats obtenus.

L’un des usages principaux des inventaires sémantiques construits à l’aide de méthodes automatiques d’acquisition de sens est de fournir l’ensemble des sens nécessaire à la sélection du sens de nouvelles instances de mots, lors des tâches de désambiguïsation lexicale. Les résultats de la méthode d’acquisition de sens proposée dans ce travail seront aussi exploités pour la désambiguïsation et pour la sélection lexicale dans le cadre de la traduction. Dans le chapitre suivant, nous allons analyser quelques propositions liées à la résolution de la polysémie dans un cadre automatique et décrire certains aspects intéressants concernant le fonctionnement des méthodes de désambiguïsation.

D

ESAMBIGUÏSATION

L

EXICALE

I

NTRODUCTION

Le processus de désambiguïsation lexicale (Word Sense Disambiguation – WSD) consiste à sélectionner les sens corrects d’instances contextualisées des mots ambigus, parmi l’ensemble de leurs sens possibles (ou sens candidats). Cette sélection présuppose donc l’existence d’un inventaire de sens lexicaux. Les sens choisis à l’issue de l’étape de désambiguïsation peuvent être directement exploités pour une tâche précise au sein d’une application (par ex. la traduction des mots dans une autre langue) ; ils peuvent aussi servir de métadonnées pour l’étiquetage sémantique de textes, ce qui permet la création de ressources enrichies par des informations sémantiques.

La désambiguïsation s’effectue en mettant en correspondance, à l’aide d’une méthode d’association, les informations relatives aux nouvelles instances des

C

H

A

P

IT

R

E

3

mots ambigus avec celles provenant d’une source externe (désambiguïsation basée sur les connaissances) ou avec des informations trouvées dans des corpus textuels (désambiguïsation dirigée par les données).L’avantage des méthodes du deuxième type réside en ce que les informations requises ne nécessitent pas une modélisation étendue, contrairement aux informations (lexico-sémantiques, encyclopédiques ou autres) requises par les méthodes basées sur les connaissances127_{. Les méthodes dirigées par les données se divisent, quant à elles,}

en méthodes supervisées et méthodes non-supervisées ; les premières s’appuient sur un ensemble d’apprentissage réunissant des exemples d’instances désambiguïsées des mots, tandis que les deuxièmes exploitent les résultats de méthodes automatiques d’acquisition de sens (cf. chapitre 2).

Nous allons, dans ce chapitre, analyser la nature des informations pouvant

Dans le document Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction (Page 94-104)