Evaluation des méthodes de désambiguïsation lexicale

5.1. Nécessité d’un standard commun pour l’évaluation

Comme nous l’avons déjà mentionné plus haut, la désambiguïsation lexicale constitue une tâche intermédiaire dans le TAL et non un but en soi. « Intermédiaire » signifie ici qu’il s’agit d’une tâche dont l’évaluation est déterminée par des critères linguistiques ou théoriques, contrairement à des tâches comme la traduction automatique ou la recherche d’information, dont la qualité peut être estimée par les utilisateurs finaux (Wilks et Stevenson, 1996).

Cette distinction, difficile à établir clairement, est pourtant essentielle. Elle correspond à l’intuition que l’on n’a pas besoin d’étiquetage morphosyntaxique, d’analyse syntaxique ou de désambiguïsation lexicale en tant que tels, mais seulement comme d’un moyen pour parvenir à un certain but. Le seul cas où les informations intermédiaires de ces types deviennent essentielles en soi est celui où le but consiste à vérifier ou à réfuter une théorie de traitement ou de structure linguistique191_.

L’évaluation des méthodes de désambiguïsation nécessite donc auparavant la définition de critères permettant l’estimation de leur performance et l’appréciation de la qualité des résultats qu’elles fournissent. Des tentatives de définition de critères et de standards, permettant la comparaison des résultats de différentes méthodes de désambiguïsation, ont vu le jour assez « tardivement » par rapport à d’autres tâches du TAL, comme l’analyse syntaxique et l’étiquetage morphosyntaxique192_{. Cette absence de standard commun pour l’évaluation,}

conjuguée aux divergences des approches de désambiguïsation proposées (tant au niveau des ensembles de mots polysémiques étudiés qu’à celui des corpus et

191_{D’après Wilks et Stevenson (ibid.), cette différence quant à l’objectif des deux types de tâche,} couplée à la préoccupation des chercheurs de confirmer ou de réfuter des théories – préoccupation plus importante que le souci de fournir des résultats utilisables –, a permis aux tâches intermédiaires de devenir très importantes dans le domaine du TAL, parfois même aux dépenses des tâches « finales ».

192_{Des ressources standardisées communes, disponibles pour l’apprentissage et l’évaluation sont,} par exemple, le Penn Treebank (Marcus et al., 1993) pour l’analyse syntaxique, et les versions annotées de Brown (Kucera et Francis, 1967) et de Lancaster-Oslo-Bergen corpus (Johansson, 1980 ;

des sources d’informations utilisées193_{), ont provoqué une multiplication des}

méthodes d’évaluation, dont le nombre équivaut à celui des méthodes de désambiguïsation. L’uniformisation de l’évaluation de ces méthodes nécessiterait, d’une part, un ensemble de métriques d’évaluation permettant la comparaison des résultats de méthodes différentes et, d’autre part, la disponibilité de données sémantiquement étiquetées de bonne qualité. Ces données pourraient servir à l’entraînement et à l’évaluation d’algorithmes d’apprentissage, utilisés par les méthodes supervisées de désambiguïsation. Elles pourraient, en outre, constituer des ensembles de test permettant l’estimation rigoureuse de la performance des algorithmes ainsi que la comparaison de leur performance. Il faut néanmoins préciser que de telles ressources sont difficiles à obtenir.

5.2. Campagnes d’évaluation des systèmes de désambiguïsation lexicale

Dans le domaine de la désambiguïsation lexicale, des exercices d’évaluation ont été entrepris, comme le SENSEVAL (Kilgarriff, 1998a ; Kilgarriff et Rosenzweig, 2000a,b ; Kilgarriff, 2002) et le ROMANSEVAL (Calzolari et Corazzari, 2000 ; Segond, 2000). Dans le cadre de ces exercices, les systèmes supervisés s’entraînent sur un même ensemble de données d’apprentissage (partie d’un corpus qui sert d’étalon d’or). Un ensemble commun de données (l’autre partie de l’étalon d’or) est également utilisé pour l’évaluation des systèmes participant à une tâche précise (supervisés ou non), ce qui rend possible la comparaison des résultats de la désambiguïsation.

Resnik et Yarowsky (1997 ; 2000) expriment un ensemble de suggestions très pertinentes à propos des métriques d’évaluation des algorithmes de désambiguïsation, de la construction d’un ensemble de test et de l’adoption d’un jeu d’étiquettes sémantiques. Leur proposition, quant aux métriques d’évaluation, concerne la prise en compte de la distance et des relations entre les sens, paramètres qui justifieraient une pénalisation des erreurs de

193_{Sources qui vont d’indices collocationnels locaux (Yarowsky, 1993) à l’appartenance des mots à} des classes de mots sémantiquement liés ou liés par le topic (Gale et al., 1992).

désambiguïsation adaptée à ces relations inter-sens194_{. Cette pénalisation}

variable est implicitement liée aux possibilités de mésinterprétation, dans la mesure où le risque augmente proportionnellement à la distance entre le sens véhiculé par une nouvelle instance du mot et le sens sélectionné par l’algorithme de désambiguïsation.

En ce qui concerne la création d’un ensemble de test commun, tout en prenant en considération les besoins différents des méthodes supervisées et non- supervisées en matière de quantité et de qualité des données, les auteurs proposent un cadre qui combine une large couverture à la possibilité d’évaluation par référence à un ensemble restreint de mots.

Quant au sujet de l’ensemble d’étiquettes sémantiques qui pourrait être utilisé dans un cadre commun d’évaluation, Resnik et Yarowsky suggèrent de restreindre l’inventaire des sens des mots d’une langue aux distinctions sémantiques lexicalisées dans d’autres langues195_{. Cette solution se situe à mi-}

chemin entre les distinctions au niveau des homographes et l’expression de toutes les distinctions de granularité très fine des dictionnaires monolingues. Les distinctions inter-langues pourraient, selon les auteurs, être également liées aux numéros de sens au sein de ressources lexicales (comme WordNet et ‘LDOCE’), afin de créer une source de référence pour l’apprentissage et l’évaluation.

194_{Le choix du sens erroné d’un homographe (par ex. le sens « rive » du mot bank pour une instance} véhiculant le sens « institution financière ») devrait être davantage pénalisé que la sélection d’un sens proche de celui effectivement véhiculé par la nouvelle occurrence du mot (par ex. le sens « bâtiment »). Les informations sur la distance entre les sens pourraient être repérées sur la base de la distance et de la hiérarchie des sens et des sous-sens dans un dictionnaire ou dans une hiérarchie sémantique (comme WordNet).

195_{L’idée est de définir un ensemble de LC et de conserver les distinctions sémantiques des mots} d’une langue lexicalisées dans un sous-ensemble minimal des LC. Cette méthode est adoptée dans la tâche « Multilingual lexical sample » de Senseval-3, qui vise à créer un cadre pour l’évaluation des systèmes de TA en mettant l’accent sur la traduction des mots ambigus. Cette tâche ressemble à la tâche « lexical sample » de Senseval, mais l’inventaire de sens, au lieu d’être extrait d’un dictionnaire, est constitué des traductions des mots ambigus dans une autre langue, d’après la suggestion de Resnik et Yarowsky. Les contextes utilisés sont anglais et les étiquettes pour les mots ambigus sont leurs traductions dans une autre langue. Des mots avec des degrés divers d’ambiguïté inter-langue sont sélectionnés afin d’illustrer de manière complète les problèmes qui peuvent apparaître. Deux paires de langues sont utilisées dans le Senseval-3 : anglais-français et anglais-hindi et 50 mots ambigus sont traités pour chaque paire de langues. Une tâche similaire apparaît dans la campagne d’évaluation SemEval-1/Senseval-4. La tâche « Multilingual Chinese- English Lexical Sample Task » a pour but l’évaluation de systèmes de TA anglais-chinois. Là aussi,

Les propositions de Resnik et Yarowsky (ibid.) ont été reprises pour la création d’un standard facilitant la communication, la collaboration et l’évaluation rigoureuse des méthodes de désambiguïsation, dans le cadre de l’exercice d’évaluation SENSEVAL. Les buts de cette campagne sont justement de mettre en compétition différents systèmes de désambiguïsation, de les comparer, d’évaluer leur performance et d’estimer leurs forces et leurs faiblesses relativement à des mots, des variétés linguistiques et des langues différentes.

5.3. Evaluation de la désambiguïsation par rapport au résultat de la tâche finale

Même si la désambiguïsation lexicale constitue une tâche intermédiaire et non un but en soi, une méthode alternative d’évaluation de la performance des algorithmes consisterait à se référer au résultat de la tâche finale, pour laquelle le module de désambiguïsation est utilisé. Ce résultat pourrait être, soit évalué par des humains, soit comparé aux résultats fournis par le même système sans le module de désambiguïsation – ce qui correspondrait à une espèce de méthode de base (baseline). Schütze et Pedersen (1995) et Schütze (1998) évaluent, par exemple, la performance d’un algorithme de désambiguïsation par référence aux résultats d’un système baseline de recherche d’informations. L’expérience compare les résultats de la recherche d’informations basée sur les sens à ceux obtenus par un système de recherche d’informations basée sur les mots. Les documents et les requêtes sont représentés en tant que vecteurs dans un espace multidimensionnel dont chaque dimension correspond à un mot (lors d’une recherche basée sur les mots), et à un sens (lors d’une recherche basée sur les sens)196_.

Dans le cas de la Traduction Automatique, les traductions fournies par un système statistique qui n’utilise pas de module de désambiguïsation lexicale (système « baseline ») peuvent être comparées aux traductions fournies par le système à partir des mêmes textes source, lorsque ce type de module y est

196_{Les mots sont désambiguïsés en utilisant la discrimination de groupes de contextes. Les} documents et les requêtes dans lesquels un mot attribué à un sens particulier apparaît, ont une valeur différente de zéro au niveau de la dimension correspondante.

intégré. Cette méthode est employée dans les travaux de Carpuat et Wu (2005a), de Cabezas et Resnik (2005) et de Chan et al. (2007). Il faut pourtant souligner que cette manière d’évaluer les algorithmes de désambiguïsation se heurte aux inconvénients des métriques d’évaluation utilisées pour les différentes tâches. Par exemple, la métrique BLEU (Papineni et al., 2002), utilisée pour l’évaluation des systèmes de traduction, est souvent critiquée comme ne prenant en compte que les correspondances exactes entre les traductions proposées et les traductions de référence (plus précisément, des correspondances de n-grammes) ; ce qui empêche la prise en compte d’une proposition sémantiquement correcte ne correspondant pas exactement à la traduction de référence (Callison-Burch et al., 2006a,b). Nous reviendrons sur les inconvénients de cette métrique d’évaluation dans le chapitre abordant l’intégration de modules de désambiguïsation dans les systèmes de TA (chapitre 8), ainsi que dans celui de d’évaluation de notre propre méthode de désambiguïsation (chapitre 10).

C

ONCLUSION

Dans ce chapitre, nous avons présenté un ensemble de méthodes de désambiguïsation lexicale basées sur des sources de connaissance externes et sur des résultats de méthodes d’acquisition des sens. Quelle que soit la manière de créer des inventaires sémantiques, la source des informations exploitées pour la désambiguïsation de nouvelles instances des mots est le plus souvent les nouveaux contextes. C’est pourquoi nous avons analysé les différentes conceptions de la notion de contexte dans un cadre monolingue et bilingue. A la fin du chapitre, nous avons étudié certains aspects liés à l’évaluation de la performance des méthodes de désambiguïsation et les problèmes qui surgissent lors d’une telle tâche.

Etant donné les inconvénients liés à l’utilisation de sources externes pour la désambiguïsation, à propos tant de leur conformité au traitement automatique que de leur disponibilité pour des domaines et des langues différents, nous allons désormais nous concentrer sur la possibilité d’analyse et de résolution de l’ambiguïté lexicale sur la base d’informations internes, c’est-à-dire

d’informations extraites de corpus. Le repérage de sens et la désambiguïsation, dans le cadre de notre travail, seront menés dans un contexte bilingue et auront pour but la création de correspondances d’ordre sémantique entre les mots de deux langues en relation de traduction.

Pour implémenter et évaluer les méthodes d’acquisition de sens, de désambiguïsation et de sélection lexicale proposées, nous avons utilisé deux corpus parallèles différents : un corpus d’apprentissage et un corpus de test. Ces corpus ont dû subir certaines étapes de prétraitement, afin que les informations contenues soient exploitables. Dans le chapitre suivant, nous présenterons en détail ces étapes de prétraitement des corpus d’apprentissage et d’évaluation.

PRETRAITEMENT DES DONNEES

I

NTRODUCTION

Les méthodes développées dans le cadre de cette thèse sont des méthodes empiriques, qui utilisent des informations extraites de corpus textuels. Elles sont par ailleurs endogènes, dans le sens où elles ne nécessitent pas l’utilisation de ressources lexicales ou sémantiques prédéfinies et où la totalité des informations nécessaires pour le traitement est repérée dans les corpus. Etant donné que l’acquisition de sens, la désambiguïsation et la prédiction de traduction sont orientées, dans ce travail, vers le traitement dans un cadre bilingue et, plus précisément, dans un but de traduction, les corpus utilisés sont des corpus bilingues parallèles. Ces corpus contiennent des textes originaux et leurs traductions dans une autre langue. Les méthodes proposées ne nécessitant pas d’informations relatives aux langues traitées, elles pourraient théoriquement s’appliquer à n’importe quelle paire de langues. Les expériences menées dans le

C

H

A

P

IT

R

E

4

Dans le document Acquisition automatique de sens pour la désambiguïsation et la sélection lexicale en traduction (Page 145-151)