• Aucun résultat trouvé

Désambiguïsation lexicale dirigée par les données

3.1. Apprentissage automatique pour la désambiguïsation

3.1.1. Exploitation d’informations extraites de corpus textuels

Dans les méthodes de désambiguïsation dirigées par les données, les informations nécessaires à la désambiguïsation proviennent de textes réels, ce qui élimine le besoin de recourir à des ressources préétablies. Ces informations peuvent être repérées manuellement ou de manière automatique. Dans la méthode proposée par Kelly et Stone (1975), par exemple, les règles de désambiguïsation d’un grand nombre de mots sont élaborées manuellement à partir de concordances. Les indices pour la désambiguïsation sont extraits du contexte local des mots et concernent leurs collocations, leurs relations syntaxiques et leur appartenance à des catégories sémantiques communes. Néanmoins, l’élaboration manuelle de règles de désambiguïsation est une entreprise qui requiert beaucoup de temps et est difficilement paramétrable pour de nouvelles langues. Cette difficulté à construire manuellement un grand nombre de règles de désambiguïsation a suscité le développement de méthodes automatiques.

Les méthodes automatiques de désambiguïsation lexicale dirigées par les données se basent sur des techniques d’apprentissage automatique, supervisé ou non supervisé.

3.1.2. Méthodes supervisées de désambiguïsation lexicale

L’apprentissage supervisé présuppose l’existence d’une base de données d’apprentissage contenant des exemples de cas déjà traités. Dans ces cas, les résultats possibles sont connus à l’avance et les algorithmes doivent apprendre à combiner une entrée particulière à un résultat. Les données d’apprentissage consistent en des paires d’objets d’entrée et de sortie et l’apprentissage permet la création d’une fonction à partir de ces données. La tâche de l’apprenant

supervisé est de prédire la valeur de la fonction pour chaque objet d’entrée valable, après avoir analysé l’ensemble des exemples d’apprentissage et avoir établi des généralisations à partir des données pour des cas non rencontrés. La sortie de la fonction concerne la prédiction d’une étiquette de classe pour l’objet d’entrée, ce qui rapproche l’apprentissage supervisé d’une tâche de classification187.

Dans le cas de la désambiguïsation lexicale, l’entrée est constituée par une nouvelle instance d’un mot ambigu et ses traits, tandis que la sortie est le sens correct véhiculé par cette instance du mot.

Les techniques d’apprentissage supervisé s’appuient sur un ensemble d’apprentissage réunissant des exemples d’instances de mots ambigus qui ont déjà été désambiguïsées188. Ces données sont fournies sous la forme de corpus

sémantiquement étiquetés (Weiss, 1973 ; Black, 1988 ; Leacock et al., 1993). Lors de l’étape d’apprentissage, les techniques supervisées (arbres de décision, réseaux de neurones, méthodes basées sur les probabilités, etc.) apprennent à associer des ensembles de traits des mots à un sens particulier issu d’une liste de sens fournis. L’objectif est de prédire, après analyse des exemples, le sens correct pour de nouvelles instances des mots ambigus et, éventuellement, de leur attribuer une étiquette sémantique.

Les étiquettes sémantiques employées correspondent généralement aux sens fournis par une ressource préétablie, par exemple les sens décrits dans WordNet (Leacock et al. 1993 ; Ng et Lee, 1996) ou ceux décrits dans le LDOCE (Bruce et Wiebe, 1994a,b ; Pedersen et al., 1997 ; Pedersen et Bruce, 1997b). L’étiquetage manuel des corpus nécessite beaucoup de temps, ce qui explique la faible quantité de corpus sémantiquement étiquetés. Cette difficulté à étiqueter manuellement constitue donc un obstacle à l’acquisition de connaissances lexicales à partir de corpus.

Des tentatives d’étiquetage automatique utilisant des méthodes d’amorçage (bootstrapping) ont alors vu le jour (Hearst, 1991 ; Yarowsky, 1995 ; Basili et al.,

187 Dans une tâche de classification, des éléments individuels sont regroupés sur la base d’informations concernant une ou plusieurs caractéristiques inhérentes à ces éléments et d’un ensemble d’apprentissage constitué d’éléments étiquetés à l’avance.

1997). Ces méthodes impliquent une phase d’apprentissage (ou d’entraînement) sur un petit ensemble d’instances de mots désambiguïsées et étiquetées manuellement du point de vue sémantique. Les informations statistiques extraites du contexte des instances des mots pendant l’étape d’apprentissage sont ensuite utilisées pour en désambiguïser d’autres. Lorsqu’une nouvelle instance est désambiguïsée avec certitude, le système acquiert automatiquement des informations statistiques additionnelles et améliore, de cette manière, ses connaissances de façon incrémentale.

D’autres solutions ont été proposées au problème de l’étiquetage manuel des données d’entraînement et concernent, cette fois-ci, l’utilisation de corpus bilingues parallèles (Brown et al., 1991b ; Gale et al., 1992a, 1993 ; Resnik, 2004), où les mots d’une langue sont étiquetés par leurs équivalents de traduction mis en évidence par un processus d’alignement lexical ou par l’utilisation de corpus monolingues combinés à des dictionnaires bilingues (Dagan et al., 1991, 1994 ).

3.1.3. Méthodes non supervisées de désambiguïsation lexicale

Pour les méthodes non supervisées de désambiguïsation lexicale, dirigées par les données (Schütze, 1998 ; Pedersen et Bruce, 1997a, 1998 ; Véronis, 2003, 2004 ; Bruce et Wiebe, 1994a, 1994b), les données préétiquetées sont inutiles. Les connaissances nécessaires à la désambiguïsation sont automatiquement identifiées dans les textes traités. Les sens possibles des mots ambigus sont repérés dans les textes en regroupant les instances des mots sur la base de traits contextuels divers. Des processus d’acquisition automatique de sens ont déjà été présentés dans le paragraphe 1 du chapitre 2.

L’analyse du contexte, effectuée pour la détermination des sens des mots ambigus, permet le repérage des traits avec lesquels le contexte de nouvelles instances des mots sera comparé, par la suite, pour la désambiguïsation. Dans la méthode de Schütze (ibid.), par exemple, où les sens lexicaux correspondent à des clusters de vecteurs contextuels, la désambiguïsation d’une nouvelle instance d’un mot s’opère en comparant le vecteur construit pour le nouveau contexte avec la centroïde de chaque cluster (la moyenne de ses éléments) et en sélectionnant ensuite le cluster dont la centroïde est la plus proche du vecteur

contextuel. Le cluster retenu correspond au sens du mot dans le nouveau contexte.

En revanche, dans le travail de Pedersen et Bruce (ibid.), l’étape d’acquisition de sens coïncide avec celle de désambiguïsation. Le processus de désambiguïsation est appliqué sur un corpus sémantiquement étiqueté à des fins d’évaluation. Les étiquettes sémantiques ne sont pas utilisées lors de l’apprentissage (qui est non supervisé) mais servent à l’évaluation des groupes de sens générés, mis en correspondance avec les étiquettes.

3.2. Impact de la dispersion des données

Outre le manque de ressources sémantiquement annotées, il existe un autre obstacle à l’acquisition à partir de corpus des connaissances lexicales nécessaires au fonctionnement des méthodes de désambiguïsation lexicale dirigées par les données, supervisées ou non. Cet obstacle consiste en la dispersion des données. La quantité de textes nécessaire pour assurer la représentation de la totalité des sens des mots polysémiques est énorme, étant donné les différences importantes qui existent entre la fréquence des sens lexicaux. Les cooccurrences possibles d’un mot polysémique sont par ailleurs très nombreuses et difficiles à rencontrer, même dans un corpus très large, où il se peut qu’elles apparaissent trop peu fréquemment pour être significatives (Ide et Véronis, 1998).

Une solution au problème de la dispersion des données consiste à utiliser des modèles basés sur les classes, qui essaient d’obtenir de meilleures estimations en combinant les observations de classes de mots conçus comme appartenant à la même catégorie. Brown et al. (1990b), Pereira et Tishby (1992) et Pereira et al. (1993) proposent des méthodes qui dérivent des classes distributionnelles du corpus ; Lyse (2006) enrichit le corpus par des classes de sens constituées à partir des résultats des Miroirs Sémantiques ; d’autres auteurs utilisent, quant à eux, des sources d’informations externes pour la définition des classes de mots. Resnik (1992) exploite WordNet, Yarowsky (1992) utilise les catégories de Roget’s, tandis que Slator (1992) se sert des codes de domaine de ‘LDOCE’. Les méthodes basées sur les classes répondent en partie au problème de la dispersion des données et éliminent le besoin de recourir à des données

étiquetées à l’avance. Leur inconvénient principal est néanmoins de provoquer une perte d’informations en raison de l’hypothèse, très forte, selon laquelle tous les mots inclus dans la même classe se comportent de façon similaire.

D’autres méthodes se basent sur la similarité des motifs de cooccurrence, sans pour autant former des classes de mots (Dagan et al., 1993 ; Dagan et al., 1994 ; Grishman et Sterling, 1993). L’estimation de la probabilité d’une cooccurrence de mots jamais rencontrée repose sur des données à propos de cooccurrences observées dans le corpus contenant des mots similaires. La performance de ce type de méthodes est considérée comme meilleure que celle des méthodes basées sur les classes.

Il existe aussi des méthodes qui combinent les deux approches. Par exemple, la méthode de Black (1998) utilise trois types différents de catégories contextuelles : les catégories de domaine du ‘LDOCE’, un ensemble de cooccurrents apparaissant très fréquemment à des positions très proches et un ensemble de cooccurrents apparaissant à des positions plus éloignées du mot ambigu, au sein de la ligne de concordance.

4. Désambiguïsation lexicale orientée vers des applications