• Aucun résultat trouvé

Repérage automatique de sens dans un cadre monolingue

1.1. Méthodes dirigées par les données

1.1.1. Apprentissage basé sur des régularités distributionnelles

L’hypothèse sous-jacente aux méthodes monolingues de repérage de sens est l’hypothèse distributionnelle du sens (Harris, 1954), selon laquelle les différents sens des mots sont reflétés dans leurs usages au sein des textes. Les sens sont repérés à un niveau d’abstraction supérieur à celui des occurrences. Pour atteindre ce niveau, les usages présentant certaines régularités sont regroupés. Les groupes générés sont supposés décrire les différents sens des mots en question. La discrimination des sens lexicaux est ainsi souvent réduite au problème de repérage de classes (ou de clusters) de contextes similaires telles que chaque classe représente un sens. Etant donné un mot polysémique utilisé dans un ensemble de contextes différents, le processus d’acquisition des sens consiste à regrouper les instances du mot, en déterminant ses contextes qui présentent la plus grande similarité entre eux.

Le repérage automatique des sens lexicaux se fonde donc sur les données trouvées dans les textes ; les méthodes développées dans ce but sont alors des méthodes dirigées par les données (corpus driven). Ces méthodes ne présupposent pas l’utilisation de ressources prédéfinies (dictionnaires, thésaurus ou ontologies). Les distinctions sémantiques qui caractérisent un mot sont identifiées sur la base de données textuelles, au cours d’une étape de traitement qui ressemble à l’apprentissage automatique (machine learning). Lors de cette étape, les informations pertinentes pour l’étude de la sémantique des mots sont repérées dans les textes et analysées. Les résultats de cette analyse rendent

évidents les sens véhiculés par les mots, qui peuvent, par la suite, être modélisés. Les descriptions sémantiques engendrées sont généralement associées aux informations contextuelles qui servent au repérage et à la distinction des sens et peuvent ensuite être exploitées par des méthodes de désambiguïsation lexicale pour la sélection du sens de nouvelles occurrences des mots polysémiques.

1.1.2. Apprentissage non supervisé

Les techniques d’apprentissage automatique utilisées pour l’identification des sens lexicaux sont non supervisées. L’apprentissage non-supervisé ne présuppose pas une sortie définie a priori. Les algorithmes utilisés apprennent des motifs à partir des paramètres d’entrée, sans tenter d’établir des correspondances avec des catégories spécifiées à l’avance, comme c’est le cas dans l’apprentissage supervisé. De tels algorithmes sont les algorithmes de clustering, qui permettent la classification d’un ensemble d’objets dans des groupes différents ou, autrement dit, le partitionnement d’un ensemble de données en sous-ensembles (clusters). Le partitionnement se fait de telle manière que les données d’un sous-ensemble partagent quelque(s) trait(s) commun(s). Le clustering se base sur la proximité des objets par rapport à une mesure de distance prédéfinie65. Cette mesure constitue un paramètre très important pour le

clustering. Elle détermine la manière dont la similarité ente deux éléments est calculée et influence, par conséquent, le contenu des clusters obtenus.

L’apprentissage non supervisé appliqué à l’acquisition de sens consiste à regrouper les instances sémantiquement similaires de mots, sur la base de l’hypothèse du comportement distributionnel similaire des instances en question. D’après cette hypothèse, les traits provenant du contexte lexical d’une instance d’un mot la caractérisent (par ex. ses cooccurrents) et la similarité des instances est calculée en termes de similarité des ensembles de traits contextuels correspondants. Le regroupement des instances s’effectue à l’aide de techniques de clustering (Pedersen et Bruce, 1997a ; Widdows et Dorow, 2002). La représentation des traits d’un mot peut aussi prendre la forme d’un vecteur

(comme dans la recherche d’information) et le calcul de similarité peut correspondre au calcul de la distance dans un espace multidimensionnel (Schütze, 1992, 1998 ; Pantel et Lin, 2002, 2003 ; Purandare et Pedersen, 2004a,b). Etant donné une métrique de distance, les vecteurs peuvent être clusterisés, ce qui permet ensuite la formation de classes de mots66. Dans une tâche

d’acquisition de sens, le nombre de clusters possibles n’est pas spécifié à l’avance, ni les étiquettes de chaque cluster. Cette absence d’étiquettes prédéfinies caractérisant les clusters désigne cette tâche davantage comme une tâche de discrimination que comme une tâche d’identification de sens (Pedersen, 2007). L’identification des sens obtenus et l’attribution d’étiquettes spécifiques pourraient constituer une prochaine étape de traitement67.

1.1.3. Algorithmes de clustering

1.1.3.1. Types d’algorithmes

Les algorithmes utilisés pour le clustering des instances sont de deux types : les algorithmes hiérarchiques et les algorithmes de partitionnement. L’algorithme constitue la stratégie de recherche qui définit la manière dont les instances seront traitées. La sélection des clusters qui sont divisés ou fusionnés à chaque itération de l’algorithme s’opère en fonction d’un critère spécifié à l’avance68. La différence principale entre les deux types d’algorithmes précités est

66 D’après Resnik (1995), l’interprétation de la métrique de distance utilisée constitue une difficulté pour la plupart des méthodes distributionnelles, dans le sens où les classes de mots résultant du clustering distributionnel, caractérisées habituellement comme « sémantiques », décrivent bien souvent des facteurs syntaxiques, pragmatiques ou stylistiques.

67 Cette étape pourrait impliquer, par exemple, la mise en correspondance des clusters construits pour un mot avec les sens proposés pour le mot dans un dictionnaire ou une autre ressource lexicale. Cette correspondance pourrait être établie par un humain ou automatiquement, à l’aide de métriques de similarité, qui permettraient de caractériser les sens obtenus en fonction de ceux décrits au sein de la ressource.

68 Ce critère définit la manière dont l’algorithme calcule la similarité entre clusters. Dans les méthodes qui utilisent le « lien simple », la similarité entre deux clusters correspond à la similarité entre leurs membres les plus similaires, c’est-à-dire à la distance minimale entre leurs éléments. Les clusters les plus proches sont ainsi combinés. Par contre, les méthodes qui utilisent le « lien complet » exploitent la similarité entre les membres des clusters qui sont le moins similaires ; la similarité entre deux clusters correspond, donc, à la distance maximale entre leurs éléments. Dans ce cas, ce sont les clusters les plus éloignés qui sont combinés. Dans les méthodes qui utilisent le

que les algorithmes hiérarchiques forment des clusters successivement, en utilisant les clusters précédemment établis, tandis que les algorithmes de partitionnement déterminent tous les clusters en même temps.

1.1.3.2. Spécifications sur les algorithmes hiérarchiques

Une distinction plus fine peut pourtant être établie au sein de la catégorie des algorithmes hiérarchiques, qui se divisent en algorithmes d’agglomération (bottom-up, en anglais) et de division (top-down, en anglais). Ces deux types d’algorithmes procèdent de manière itérative, les premiers en fusionnant et les deuxièmes en divisant des clusters à chaque étape. Les algorithmes d’agglomération placent au préalable chaque instance dans un cluster séparé et fusionnent ensuite une paire de clusters à chaque itération, formant ainsi des clusters de plus en plus grands, jusqu’à ce qu’il n’en reste plus qu’un. Les algorithmes hiérarchiques de division commencent en plaçant toutes les instances dans le même cluster, puis en le divisant en deux à chaque itération, jusqu’à ce que chaque instance se retrouve dans un cluster distinct.

Les différentes étapes d’un algorithme hiérarchique peuvent être représentées à l’aide d’un arbre, appelé dendrogramme. Un des problèmes liés à ce type d’algorithmes est la définition d’une coupe d’arbre, qui détermine à quel point l’agglomération ou la division des sens doit s’arrêter. Le seuil de la coupe, c’est-à-dire la hauteur à laquelle celle-ci est située dans l’arbre, est important, car il conditionne la précision du clustering effectué et détermine le nombre de clusters fournis. Etant donné la difficulté à définir le seuil, il arrive, dans certains travaux utilisant ce type d’algorithmes, que l’ensemble de l’arbre (représentant l’historique des fusions ou des scissions) soit fourni, en laissant la décision finale à l’utilisateur humain69.

Un autre inconvénient inhérent à cette approche est l’impossibilité de chevauchement entre clusters. Une donnée peut être proche de données appartenant à deux clusters différents, mais la représentation de cette proximité

« lien moyen », la similarité correspond à la similarité moyenne entre toutes les paires d’éléments des clusters ; les plus proches sont combinés.

n’est pas possible avec l’utilisation d’un algorithme hiérarchique. Ainsi, dans le cas de l’acquisition de sens, si un trait contextuel est pertinent pour le repérage de plusieurs sens, il doit être lié à des clusters différents, mais ce chevauchement de clusters ne peut être représenté à l’aide d’algorithmes de ce type.

1.1.3.3. Spécifications sur les algorithmes de partitionnement

L’autre type d’algorithmes de clustering, les algorithmes de partitionnement, divisent un ensemble d’instances en un nombre prédéterminé de clusters sans passer par toute la série de comparaisons entre paires de clusters. L’avantage principal de ces méthodes est qu’elles sont plus simples et plus rapides que les algorithmes hiérarchiques, ce qui leur permet de bien fonctionner sur de grands ensembles de données. Leurs inconvénients majeurs sont qu’elles nécessitent la définition, à l’avance, du nombre de clusters final70 et

qu’elles ne donnent pas le même résultat à chaque utilisation. Ceci est dû au fait que l’attribution initiale des instances aux clusters s’opère de manière aléatoire, ce qui signifie qu’elle peut être différente à chaque utilisation.

L’utilisation d’algorithmes de partitionnement dans une tâche de repérage de sens n’est pas évidente. La nécessité de définir le nombre des clusters a priori est contradictoire avec la nature de la tâche en question, où le nombre de sens des mots étudiés n’est pas connu à l’avance mais doit être justement découvert à partir des données.

70 Par exemple, l’algorithme « k-means » (Jain et al., 1999) génère k clusters différents qui ne se chevauchent pas. La première étape du fonctionnement de cet algorithme consiste à déterminer le nombre des clusters (k). Les clusters sont générés de manière aléatoire et leurs centroïdes sont déterminées. Par la suite, chaque élément est attribué au cluster dont la centroïde lui est la plus proche et celle-ci est recalculée. Ces deux étapes sont répétées jusqu’à satisfaction d’un critère de convergence (qui est souvent le non changement de l’attribution). Un élément important est que les centroïdes initiales sont sélectionnées de manière aléatoire et, ainsi, la qualité des clusters résultants varie. Les choix initiaux peuvent ainsi conduire à une faible qualité de cluster. Une variante de cet algorithme est le « c-means flou » (fuzzy c-means en anglais) (Jain et al., 1999), où chaque point est caractérisé par un degré d’appartenance aux clusters (comme en logique floue), au lieu d’appartenir complètement à un seul cluster. Certains points peuvent ainsi appartenir à un cluster à un degré inférieur aux points situés au centre du cluster. Cet algorithme présente le même inconvénient que le k-means, dans la mesure où les résultats dépendent du choix initial de poids. L’algorithme d’ « espérance-maximisation » (Dempster et al., 1977 ; Jain et al., 1999 ; Witten et Frank, 2005 : 265) est caractérisé par de meilleures propriétés de convergence que les autres algorithmes, tout en permettant, lui aussi, l’appartenance partielle à des clusters.

Des méthodes hybrides existent également dans la littérature, qui combinent la haute qualité des algorithmes hiérarchiques avec l’efficacité des algorithmes de partitionnement. Tel est, par exemple, l’algorithme utilisé dans l’approche de Schütze (1998), où un algorithme d’agglomération est combiné avec un algorithme d’espérance-maximisation.

1.1.4. Représentation des informations utilisées pour l’apprentissage

1.1.4.1. Espace vectoriel vs espace de similarité

Les représentations des objets constituant l’entrée du processus de clustering varient au sein des différentes méthodes. La méthode de « discrimination de groupes de contextes », proposée dans le travail de Schütze (1998), regroupe les instances d’un mot polysémique dans des clusters en fonction de leur similarité contextuelle71. Le contexte de ces instances dans le

corpus d’apprentissage est représenté à l’aide de vecteurs. La méthode opère sur les représentations vectorielles des instances des mots polysémiques, c’est-à-dire dans l’espace vectoriel construit72. Les vecteurs contextuels constituent l’entrée

d’un algorithme de clustering et, ainsi, le regroupement des contextes s’effectue au sein de l’espace vectoriel73. Les clusters qui en résultent sont constitués

d’instances similaires, d’un point de vue contextuel, et chaque cluster est, par la suite, interprété comme un sens.

Pedersen et Bruce (1997a) représentent les instances dans un espace de similarité. Au sein de cet espace, chaque instance est représentée par un point et

71 La méthode de Schütze est une approche de nature « indirecte », dans le sens où elle considère les relations de tous les mots et ne se focalise pas sur un mot cible et ses voisins.

72 Schütze utilise des vecteurs contextuels de deuxième ordre qui représentent une instance par la moyenne des vecteurs de traits construits pour les mots de contenu qui apparaissent dans le contexte du mot polysémique à cette instance. Nous expliquerons la nature de ces vecteurs dans le paragraphe suivant.

73 Les clusters sont représentés par leurs centroïdes, c’est-à-dire par la moyenne de leurs éléments. La représentation engendrée est ensuite utilisée pour la désambiguïsation de nouvelles instances des mots polysémiques. Une nouvelle instance est désambiguïsée en calculant la représentation de second degré de son contexte, et en l’attribuant au cluster dont la centroïde est la plus proche de

la distance entre deux points est fonction de leur similarité74. La matrice qui

contient la similarité entre chaque paire d’instances constitue l’entrée d’un algorithme agglomératif de clustering. Un espace de similarité est également construit par la méthode de Pantel et Lin (2002, 2003) et le clustering des mots s’opère au sein de cet espace. La technique utilisée pour le clustering diffère pourtant quelque peu. L’algorithme utilisé forme d’abord un ensemble de clusters forts, appelés « comités », éparpillés au sein de l’espace de similarité. La centroïde de chaque cluster est ensuite construite en trouvant la moyenne des vecteurs de traits d’un sous-ensemble des membres du cluster. Cette centroïde constitue le vecteur de traits du cluster et les mots qui restent sont attribués au cluster dont la centroïde leur est la plus proche75. Les clusters finaux

correspondent aux différents sens des mots.

Le modèle de Ji et al. (2003) organise, lui aussi, les cooccurrents pertinents d’un mot (appelés « contexonymes ») dans un espace sémantique multi-dimensionnel. Ce modèle vise la représentation d’informations lexicales de granularité fine et est basé sur le sens minimal d’un mot (représenté par une « clique » 76), ce qui constitue sa différence principale par rapport aux modèles

statistiques précédents. L’organisation des contexonymes en cliques reflète l’usage contextuel des mots et leurs liens sémantiques. Elle permet aussi de capter leurs connotations sémantiques de granularité fine et de distinguer entre leurs différents sens. Etant composées de plusieurs ensembles de mots, les cliques sont considérées, dans ce modèle, comme des unités minimales d’un contexonyme, représentant des sens plus fins que le mot lui-même77.

74 La similarité entre deux instances est calculée à l’aide du cosinus des vecteurs contextuels qui leur correspondent.

75 Cette technique ressemble au fonctionnement de l’algorithme « k-means », où les éléments sont aussi attribués aux clusters dont les centroïdes leur sont les plus proches. Mais, contrairement à « k- means », le nombre des clusters n'est pas fixé à l’avance et les centroides ne sont pas modifiées. 76 Les cliques sont des sous-graphes complets maximaux.

77 Le nombre élevé de cliques pour chaque mot rend les différences entre celles-ci trop fines. Par exemple, pour le mot match, les auteurs rapportent avoir trouvé 50 contexonymes et 133 cliques. Un contexonyme qui appartient à une seule clique est censé avoir une seule valeur sémantique minimale, tandis que ceux qui appartiennent à un grand nombre de cliques, ont un nombre égal de valeurs sémantiques minimales différentes. C’est probablement pour cette raison que les auteurs soulignent la possibilité de clustering des cliques ou des contexonymes.

1.1.4.2. Graphes de cooccurrence

Les instances décrites au sein d’un espace de similarité, comme dans le travail de Pedersen et Bruce (1997a), peuvent aussi être décrites à l’aide d’un graphe pondéré. Dans ce graphe, chaque instance peut être vue comme un nœud d’un graphe pondéré, tandis que le poids de l’arête liant deux nœuds indique leur similarité. Il est assez souvent fait appel dans la littérature à des représentations du contexte lexical sous forme de graphes (Dorow et Widdows, 2003 ; Véronis, 2003, 2004 ; Ferret, 2004a,b; Agirre et al., 2006). Les graphes en question sont construits à l’aide des unités lexicales qui se trouvent à proximité des mots étudiés dans les textes et sont ainsi souvent caractérisés comme des graphes de cooccurrences. Les mots du corpus correspondent aux nœuds des graphes, tandis que les arêtes représentent les relations de cooccurrence des mots dans les textes78. La détection des sens au sein de ces graphes peut être faite par

des techniques non supervisées de clustering, comme celles utilisées dans le cas de l’espace vectoriel et de l’espace de similarité. Le clustering des graphes, appelée aussi « partitionnement des graphes », consiste à regrouper des sommets, c’est-à-dire à répartir l’ensemble des nœuds du graphe dans des ensembles disjoints (clusters ou partitions), tout en gardant minimal le nombre d’arêtes liant des nœuds d’ensembles distincts. Les cooccurrences des mots polysémiques trouvées dans le graphe sont clustérisées et les clusters fournis correspondent alors à leurs différents sens.

Dans la méthode de Dorow et Widdows (2003), par exemple, le clustering des mots représentés par les nœuds du graphe se base sur l’observation d’un nombre d’arêtes élevé trouvées à l’intérieur d’une région sémantique, et d’un petit nombre de liens entre régions sémantiques différentes. La détection des régions sémantiques à l’intérieur des graphes locaux, se fait par un algorithme de clustering reposant sur une approche markovienne. Le principe de l’algorithme est que des promenades aléatoires dans le graphe ont plutôt tendance à rester dans le même cluster, et non à aller d’un cluster à l’autre. Il est également supposé qu’un mot polysémique lie des régions sémantiques qui ne seraient pas

liées autrement. Lorsque ce mot est éliminé de son graphe de cooccurrences, un sous-graphe dont les composantes connexes correspondent aux sens du mot est obtenu. Ainsi, des clusters de sens sont calculés de manière itérative en clusterisant le graphe local de mots similaires autour d’un mot ambigu.

Néanmoins, Véronis (2003 ; 2004) soutient que l’existence de connexions entre les composantes d’un graphe interdit l’utilisation d’algorithmes de détection de composantes fortement connexes ou de cliques. C’est pourquoi, il propose d’isoler des composantes de forte densité à l’intérieur du graphe de cooccurrences, qui correspondent aux différents sens des mots polysémiques. En revanche, Ferret (2004a,b) utilise une adaptation de l’algorithme des plus proches voisins79 (Ertöz et al., 2001) afin de regrouper les cooccurrents d’un mot

polysémique qui définissent un sens (à l’intérieur d’une région de haute densité) dans le sous-graphe correspondant au mot. Au sein de ce sous-graphe, le nombre de relations entre cooccurrents définissant un sens est censé être plus élevé que celui des relations entre cooccurrents définissant des sens différents. Une matrice de similarité des cooccurrents est ensuite construite, en exploitant les relations représentées au sein du sous-graphe.

Les variations observées au niveau de la représentation choisie dans les différentes méthodes d’acquisition de sens ne constituent pas pour autant de différences fondamentales. Les informations incluses dans un graphe peuvent, par exemple, être représentées à l’aide d’un ensemble de vecteurs de traits, construits à partir de la matrice d’adjacence correspondante. Quelle que soit la représentation retenue, l’objectif du clustering reste identique : créer des clusters dont les éléments entretiennent des relations plus fortes entre eux qu’avec les éléments appartenant à d’autres clusters, et qui représentent les différents sens des mots ambigus. Ce but est atteint en utilisant des algorithmes de clustering variés, au sein des différentes méthodes.

79 Les avantages de cet algorithme pour le clustering sont que le nombre de clusters est déterminé