Proximité distributionnelle et proximité sémantique

2. Indices distributionnels de proximité sémantique

2.2. Proximité distributionnelle et proximité sémantique

L’approche distributionnelle établit une corrélation entre la similarité distributionnelle et la similarité sémantique (Sahlgren, 2008). Ainsi, des mots sémantiquement similaires partageraient des voisins distributionnels, c'est-à-dire des mots qui partagent des cooccurrents syntaxiques. Une autre

façon de formuler la chose est la suivante : « words with similar meanings will occur with similar neighbors if enough text material is available » (Schütze et Pedersen, 1995, cité par Sahlgren, 2006). Notamment théorisée par Harris et Bloomfield, cette approche voudrait que la différence de sens soit exprimée par la différence de distribution. Harris propose de quantifier en effet la différence de sens de la façon suivante : « The amount of meaning correspond[s] roughly to the amount of difference in their environments. » (1954:157). Harris (1954) définit la distribution d'un élément comme étant l'ensemble de ses « environnements », à savoir un ensemble de ses cooccurrents. Calculer la proximité sémantique de deux termes reviendrait à comparer la distribution de chaque terme. Moins deux termes partagent de voisins distributionnels, moins ils sont similaires. La notion de voisins distributionnels est le fruit de cette approche. Ainsi, l'approche distributionnelle permet de dire que maison et bâtiment sont des voisins distributionnels car ils partagent comme cooccurrents syntaxiques édifier, rénover, charpente de ou encore démolition de.

Les modèles distributionnels représentent les mots sous la forme de vecteurs, dont il suffit alors de calculer la distance entre eux pour calculer la similarité des mots comparés, à l'image de la recherche d'information. Ces vecteurs sont définis à partir de la distribution, et donc des contextes, des mots. Plusieurs types de contextes, au nombre de trois, peuvent être considérés, que Fabre et Lenci (2015) décrivent.

Des mots peuvent tout d'abord être rapprochés d'autres mots s'ils apparaissent au sein d'un même paragraphe ou document. On parle alors de modèles « document-based » (Fabre et Lenci, 2015). Ces modèles seraient davantage performants dans l'identification des voisins appartenant à un même thème sémantique que les autres modèles.

Les modèles « word-based » s'intéressent quant à eux plus précisément aux cooccurrents graphiques des mots cibles dans une certaine fenêtre autour des mots cibles, selon une approche dite « sac-de-mots ». Ces modèles tendraient à mieux identifier les relations d'association que les autres modèles (Fabre et Lenci, 2015). La similarité mise au jour par ces modèles est dite « attributional », selon les termes de Turney et Pantel (2010), signifiant que la similarité des deux mots comparés dépend du degré de correspondance entre les propriétés de ces mots. Turney et Pantel (2010) donnent ainsi l'exemple de chien et loup comme étant deux mots ayant un fort degré de similarité attributionnelle.

Les modèles « syntax-based » utilisent quant à eux les relations de dépendance des mots pour les comparer. Ces modèles identifieraient quant à eux davantage les voisins distributionnels liés sur un plan ontologique, comme des co-hyponymes. Turney et Pantel (2010) parlent pour les modèles « syntax-based » de similarité relationnelle, à savoir la similarité entre deux paires de mots. L'exemple de chien:aboyer et chat:miauler est notamment donné pour illustrer un fort degré de similarité relationnelle.

Sahlgren (2008) utilise les termes de modèle paradigmatique et de modèle syntagmatique pour désigner les deux derniers modèles décrits par Fabre et Lenci (2015). Le modèle syntagmatique repose sur la cooccurrence, et le modèle paradigmatique sur les voisins distributionnels. Dans le cadre d’un modèle basé sur la cooccurrence, la notion de fenêtre de recherche est importante, puisqu’elle

aura un impact crucial sur les résultats. En effet, plus la fenêtre sera étendue, plus le premier terme de la comparaison aura de chance de cooccurrer avec l’autre terme de la comparaison. Mais une fenêtre trop restreinte limiterait sans doute les cooccurrences pertinentes. Le modèle paradigmatique concerne les mots qui partagent souvent les mêmes mots de contexte. Non seulement la taille de la fenêtre sera importante, puisqu’elle augmentera ou diminuera le nombre de voisins potentiels, mais la position des voisins va aussi jouer un rôle.

Dans une matrice distributionnelle, chaque vecteur est une représentation de la distribution d'un lexème dans un contexte précis. Cela se traduit donc par un nombre très important de vecteurs, ce qui alourdit et ralentit tout calcul. Les matrices sont donc généralement réduites, afin de limiter le nombre de dimensions impliqués dans les calculs. Cette réduction est opérée à l'aide de différentes méthodes visant toutes à optimiser l'espace vectoriel, en se basant par exemple sur la redondance, la corrélation ou en amoindrissant l'impact de vecteurs considérés comme du bruit (Fabre et Lenci, 2015). Tous ces traitements sont donc appliqués sur des données que l'utilisateur ne voit pas, et les seules données auxquelles il peut accéder ne correspondent plus à la représentation explicite des contextes, mais à une schématisation sémantique. L'utilisateur ignore sur quelles bases le modèle a réduit de la sorte telle ou telle matrice, ce qui réduit la lisibilité des résultats que la matrice fournit.

Mais la réduction de la matrice ne constitue que la troisième des quatre grandes étapes de création d'une matrice par un système de sémantique distributionnelle. En effet, le système commence d'abord par parcourir le corpus, et pour chaque mot cible, il collecte les contextes de ce mot, contextes qui sont comptabilisés. Cela permet d'obtenir des fréquences qui vont permettre de caractériser l'importance de certains contextes et donc la plus grande significativité de ces contextes par rapport à d'autres. Sur cette première matrice a donc ensuite lieu l'opération de réduction. La nouvelle matrice obtenue fait alors l'objet d'un calcul de la similarité de ses différents éléments.

Comme nous l'avons dit précédemment, on estime la similarité des mots d'une matrice sur la base de la distance entre leurs vecteurs. Pour cela, on calcule le cosinus de l'angle entre les vecteurs, comme l'illustre le schéma 1 qui simplifie la représentation d'un espace multidimensionnel à un espace à deux dimensions. Le calcul du cosinus permet de réduire l'importance de la fréquence de chaque mot, qui a elle un impact sur la longueur des vecteurs.

Le schéma 1 illustre la comparaison des vecteurs x et y des deux mots a et b. Le cosinus de l'angle θ séparant les vecteurs des mots a et b correspond à la distance entre les deux mots. Si le cosinus est égal à 1, l'angle θ est de 0 degrés, signifiant que les deux vecteurs x et y sont géométriquement identiques : les mots a et b sont donc distributionnellement identiques. A contrario, si le cosinus de θ est égal à 0, l'angle θ est de 90° degrés, ce qui signifie que les vecteurs sont orthogonaux : les mots a et b sont donc distributionnellement différents. Le degré de similarité distributionnelle est donc défini par la valeur prise par le cosinus de θ. Cette mesure de cosinus peut alors être convertie de diverses façons en une mesure de similarité (Turney et Pantel, 2010).

Les modèles distributionnels se basent sur des corpus pour représenter le sémantisme en contexte des mots, le choix du corpus va donc avoir un effet non négligeable sur les résultats de l'analyse distributionnelle (Fabre et Lenci, 2015). Une analyse distributionnelle nécessite des données conséquentes sur le plan quantitatif, comme l'ont souligné Schütze et Pedersen (1995). En effet, plus le corpus sera important, plus la similarité de certains mots sera perceptible parmi le bruit que représentent de simples cooccurrences non significatives (Rychlý et Kilgarriff, 2007). Ainsi, plus on augmente la taille du corpus, plus les résultats seront précis et pertinents. Par ailleurs, utiliser des corpus aussi larges et variés que possible permet de couvrir un plus grand champs lexical, de façon plus complète, ce qui améliore les performances des systèmes distributionnels.

Dans le document Indices distributionnels pour la comparaison sémantique de dérivés morphologiques (Page 33-36)