Synthèse et conclusions - sances ou du raisonnement

sances ou du raisonnement

2.7 Synthèse et conclusions

2.7.1 De la modélisation des connaissances ou du raisonnement

à l’apprentissage automatique supervisé

La recherche en désambiguïsation lexicale possède maintenant une longue histoire qui débute avec celle de la traduction automatique. Très tôt, des approches basées sur la modélisation des connaissances ou du raisonnement voient le jour. Elles tirent parti des théories linguistiques et cherchent à modéliser le raisonnement humain. Ces approches peuvent être qualifiées de fortement typées intelligence artificielle. Elles utilisent des bases de connaissances spécifiques construites manuellement qui posent le problème difficilement surmontable de leur généralisation et de leur maintenance pour une cou-verture à grande échelle de la langue. Les approches utilisant des bases de connaissances prennent alors le relais. Ces approches montrent également leurs limites, principalement dues à l’inconsistance et à l’inadéquation pour le tal des bases de connaissances utili-sées. Pour ces raisons, les corpus deviennent ensuite la première source d’information. Mais les approches basées sur corpus sont confrontées au problème du manque de corpus lexicalement étiquetés et de la dispersion des données.

Une grande variété d’approches a donc été imaginée et investiguée, mais aucune d’entre elles n’est suﬃsamment performante pour être utilisée en situation réelle. Ce-pendant, cette multitude d’approches fait ressortir une palette de sources d’information utiles pour la désambiguïsation lexicale. Agirre et Martinez (2001a) dressent ainsi une liste de ces sources d’information et tentent de les évaluer indépendamment.

2.7.2 Informations utiles pour la désambiguïsation lexicale

Voici un inventaire non exhaustif des sources d’information utiles et utilisées pour la désambiguïsation lexicale.

1. L’étiquetage morphosyntaxique permet de lever l’ambiguïté sur la catégo-rie grammaticale des vocables. Wilks et Stevenson (1997b), en utilisant unique-ment l’étiquetage morphosyntaxique, atteignent une précision de désambiguïsa-tion au niveau des homographes de 94%. Cependant, actuellement, un consensus semble émerger : l’étiquetage morphosyntaxique, et plus particulièrement la levée de l’ambiguïté sur la catégorie grammaticale des vocables, n’est pas du ressort de la désambiguïsation lexicale (Kilgarriﬀ, 1997a ; Ng & Zelle, 1997). L’étique-tage morphosyntaxique est donc une phase indépendante et préalable à celle de la désambiguïsation lexicale. Cet étiquetage semble être un problème plutôt bien maîtrisé par la communauté du tal. De nombreux étiqueteurs relativement ﬁables sont aujourd’hui disponibles pour un grand nombre de langues, et notamment pour le français14. L’étiquetage morphosyntaxique des mots du contexte fournit

14. Comme étiqueteur morphosyntaxique du français, nous pouvons par exemple citer le logiciel Cor-dial Analyseur développé par la société Synapse Développement (http://www.synapse-fr.com/) ou encore treetagger de Schmid (1994).

aussi des informations utiles à la désambiguïsation (Bruce & Wiebe, 1994b ; Ng & Lee, 1996, 2002 ; Yarowsky, 2000 ; Yarowsky et al., 2001 ; Escudero et al., 2000c, 2000b). Cet étiquetage permet également d’eﬀectuer des généralisations (en réponse au problème de la dispersion des données) sur les mots du contexte du vocable à désambiguïser d’autant plus que la plupart des étiqueteurs eﬀec-tuent également une lemmatisation. Cette source d’information est ainsi utilisée conjointement à celle des collocations (ou des cooccurrences) car elle permet de remplacer la forme morphologique brute des mots désignés par ces collocations (ou cooccurrences) par leur étiquette morphosyntaxique ou par leur lemme. 2. Les collocations sont des mots entretenant une relation particulière avec le mot à

désambiguïser. Cette information est relativement diﬃcile à acquérir et peut être partiellement capturée par des n-grammes contenant le mot à désambiguïser ainsi que par des relations syntaxiques binaires du type nom–nom, adjectif–nom, verbe– objet, sujet–verbe. Ng et Zelle (1997) déﬁnissent plus simplement les collocations comme des cooccurrences qui tiennent compte de l’ordre des mots.

3. Les cooccurrences, souvent déﬁnies en anglais par « unordered set of surroun-ding words » (ensemble non ordonné des mots du contexte), sont probablement actuellement la source la plus ﬁable et la plus utilisée dans le domaine de la désam-biguïsation lexicale. Deux types d’informations véhiculées par les cooccurrences semblent se distinguer : les informations locales et les informations globales. Les informations locales correspondent à des dépendances locales comme l’adjacence au mot à désambiguïser, l’appartenance à un contexte réduit contenant ce mot. Les informations globales consistent en de larges fenêtres contenant 50 à 100 mots sous la forme de lemmes. Cette seconde information est plus rarement utilisée en raison du bruit qu’elle véhicule. Les cooccurrences peuvent utiliser l’information véhiculée par la source 1 et permettent de capturer partiellement l’information véhiculée par les sources 2, 5 et 6. La section 7.2.1 détaille comment cette informa-tion, ainsi que celle de la source 2, est utilisée dans quelques travaux de recherche en désambiguïsation lexicale.

4. Les organisations en taxinomies permettent de relier les diﬀérentes lexies d’un dictionnaire comme, par exemple, la taxinomie IS-A des noms du dictionnaire électronique WordNet.

5. Les associations thématiques permettent, par exemple, de relier des mots comme batte et baseball, mais aussi comme garçon (au sens garçon de café) et table. Les associations thématiques mettent en relation des mots qui ne sont pas forcément proches et pas forcément dans la même phrase. Cibler des mots éloignés par ce type de relation est bien plus pertinent que de considérer tous les mots contenus dans de larges fenêtres (de 50 à 100 mots par exemple).

6. Les indices syntaxiques peuvent également être utiles. Par exemple, le sens prendre un repas du verbe manger est intransitif tandis que ses autres sens (avaler pour se nourrir, ronger, absorber, consommer, etc.) sont transitifs.

7. Les contraintes de sélection permettent, par exemple, de préciser que le verbe manger, employé dans le sens prendre un repas, préfère un sujet de type humain. 8. L’information sur le thème du texte peut également s’avérer utile. Par

exemple, Gale et al. (1992c) soutiennent l’idée qu’un vocable ne possède qu’un seul sens par discours. À l’opposé, Dahlgren (1988) observe que l’information sur le thème ne permet pas de lever l’ambiguïté de certains mots. Krovetz (1998) observe que des vocables peuvent avoir des occurrences multiples avec des sens diﬀérents au sein d’un même discours dans 33% des cas.

9. La fréquence des sens peut aussi s’avérer utile, notamment dans le cas où aucune autre source d’information ne permet de trancher.

La plupart des travaux réalisés dans le domaine de la désambiguïsation lexicale ne combinent pas toutes ces sources d’information, voire n’en utilisent qu’une seule. Quelques études (Dahlgren, 1988 ; McRoy, 1992 ; Ng & Lee, 1996 ; Harley & Glennon, 1997 ; Wilks & Stevenson, 1997a ; Stevenson & Wilks, 2001 ; etc.) tentent tout de même, et souvent avec succès, de combiner plusieurs sources d’information.

2.7.3 Tendance actuelle en désambiguïsation lexicale

Les expériences menées par Agirre et Martinez (2001a) confirment les observations de McRoy (1992) : les collocations (source 2, qui peuvent également être capturées par la source 3) ainsi que les associations thématiques (source 5) semblent être les sources d’information les plus efficaces pour la désambiguïsation lexicale. Ils remarquent égale-ment les bons résultats obtenus par des indices syntaxiques (source 6). D’un autre côté, l’utilisation de la taxinomie (source 4) ne donne pas de bons résultats et les contraintes de sélection (source 7) sont rarement applicables. Agirre et Martinez observent enfin que les résultats sont bien meilleurs lorsque les connaissances sont générées à partir de corpus manuellement étiquetés (cela est vrai pour les sources 2 ou 3, 5, 6, 7 et 9). L’impact des sources 1 et 8 n’a pas été évalué au cours de ces expériences.

Selon Ng (1997) un corpus manuellement lexicalement désambiguïsé de taille suﬃ-sante pour fournir une grande couverture de la langue (anglaise) n’est pas actuellement disponible. Depuis, des corpus manuellement lexicalement désambiguïsés commencent à voir le jour pour une langue comme l’anglais, notamment dans le cadre des campagnes d’évaluation Senseval. Selon Ng, en l’état actuel des connaissances dans le domaine des techniques d’apprentissage supervisé et dans le domaine de la désambiguïsation lexicale, la disponibilité d’un corpus manuellement lexicalement désambiguïsé de taille importante permettrait d’aboutir à une désambiguïsation lexicale robuste, précise et de grande couverture. Toujours selon Ng, la limite maximale de l’eﬀort à fournir pour la constitution d’un tel corpus est de l’ordre de 16 année-hommes. Ainsi, ce corpus pourrait être constitué en moins d’une année par une équipe de 16 annotateurs.

Il semble aujourd’hui clair que les approches supervisées15 obtiennent de meilleurs résultats que les approches non supervisées sur des mots sélectionnés fortement poly-sémiques ainsi que sur des pseudo-mots artificiels (Ng, 1997 ; Escudero et al., 2000a ; Kilgarrif & Rosenzweig, 2000 ; Agirre & Martinez, 2001a). De nombreuses études ré-centes sont d’ailleurs menées en utilisant de telles techniques (Pedersen et al., 1997 ; Mooney, 1996 ; Ng, 1997 ; Escudero et al., 2000c ; Yarowsky, 2000 ; Agirre & Martinez, 2000 ; Pedersen, 2002 ; Ng & Lee, 2002 ; etc.). De plus, cet engouement est renforcé par les campagnes d’évaluation Senseval-1 et Senseval-2 réalisées en 1998 et 2001, et par la campagne Senseval-3 prévue pour 2004. Ces campagnes permettent l’émer-gence de standards dans le domaine de la désambiguïsation lexicale (Kilgarriff, 1997a, 1998a, 1998b ; Resnik & Yarowsky, 2000). Elles permettent également d’effectuer des comparaisons objectives entre les diverses équipes participantes ; or ces comparaisons étaient jusqu’alors très difficiles voire impossibles car chaque équipe travaille sur des corpus différents, des vocables différents, des distinctions de sens différentes, et utilise parfois des méthodes d’évaluation différentes. Un autre effet fortement positif de ces campagnes est l’émergence de corpus manuellement lexicalement désambiguïsés.

15. i.e. réalisant un apprentissage automatique sur des corpus manuellement lexicalement désambi-guïsés.

Chapitre 3

Développement des outils

Dans le document Outils d'exploration de corpus et désambiguïsation lexicale automatique (Page 37-40)