Apprentissage conjoint de mots et de concepts

ressources externes

2.2.1 Apprentissage en ligne des représentations de textes

2.2.1.2 Apprentissage conjoint de mots et de concepts

Les travaux de cette catégorie s’alignent aussi sur l’exploitation des connaissances dans les ressources sémantiques afin d’améliorer la cohérence sémantique ou la couverture des représentations des mots existants. Ces travaux consistent en un apprentissage conjoint des mots du corpus et des éléments des ressources sémantiques (à savoir les concepts ou les entités). Cet apprentissage conjoint dans des espaces partagés, parfois régularisés par les connaissances relationnelles issues des ressources, permet de mieux discriminer le sens des mots et par conséquent, aide à résoudre le problème de la polysémie. Par exemple, le travail deIacobacci et al.(2015) utilise Babelfy (Moro et al.,2014), un algorithme de désambiguïsation pour obtenir les sens des mots dans le corpus Wikipedia. A partir de ce corpus annoté, où le sens désambiguïsé de chaque de mot se trouve à côté de ce mot, les auteurs appliquent le modèle CBOW pour apprendre les représentations des mots et des sens. Comme résultat, les représentations des sens peuvent capturer efficacement les distinctions claires entre les différents sens d’un même mot.

DansCheng et al.(2015), les auteurs proposent d’estimer dans le processus d’apprentissage, la probabilité d’association d’un concept à un mot dans la fenêtre de contexte. Ce modèle étend le modèle Skip-Gram en identifiant les paires mot- concept (vues comme des paires de mot-sens candidats) dans un contexte donné en effectuant l’entraînement conjoint de leurs représentations latentes. Par consé- quent, les représentations des mots et des concepts (sens de mot) sont apprises dans le même espace latent. Les auteurs ont proposé plusieurs variantes, deux variantes de type Generative Word-Concept Skip-Gram (GWCS) et trois variantes de type Parallel Word-Concept Skip-gram (PWCS). Les architectures de ces variantes sont présentées dans la Figure 3.13. On suppose que les mots qui apparaissent souvent dans des contextes similaires ont tendance à avoir des significations similaires et qu’il faut donc leur attribuer des représentations similaires. La première variante PWCS-1 met l’accent sur les relations de cooccurrence entre le concept cible et et les mots contextuels wc. La fonction objectif modifiée est de maximiser la probabilité d’obtenir le mot du contexte wc sachant un mot central wt et son concept et: J = 1 T T

∑

i=1 k

∑

c=−k c6=0 log P(wc|wt)P(wc|et) (3.47)

Dans la deuxième variante PWCS-2, le mot cible wt est utilisé pour prédire les mots contextuels wcet leurs concepts ec, avec la fonction objectif suivante :

J = 1 T T

∑

i=1 k

∑

c=−k c6=0 log P(wc|wt)P(ec|wt) (3.48)

Figure 3.13 – Architecture des modèles PWCS et GWCS (Cheng et al.,2015).

En combinant les deux variantes de modèle ci-dessus, la variante PWCS-3 adopte une fonction objectif plus complète englobant toutes les relations prédicatives pos- sibles : J = 1 T T

∑

i=1 k

∑

c=−k c6=0 log P(wc|wt)P(wc|et)P(ec|wt)P(ec|et) (3.49)

PWCS entraîne les représentations de concepts et de mots d’une manière paral- lèle, où un mot et son concept correspondant sont supposés être conditionnelle- ment indépendants. Pour mieux mettre l’accent sur les liens entre un mot et son concept à l’intérieur d’un seul processus de prédiction, les variantes GWCS sont proposées, en décomposant la tâche de choisir un mot pour l’adapter au contexte en deux étapes : localiser le bon concept contextuel ec et rechercher un mot wc adapté au concept choisi. La variante GWCS-1 adopte cette fonction objectif :

J = 1 T T

∑

i=1 k

∑

c=−k c6=0 log P(wc|wt) (3.50) où P(wc|wt) =P(ec|wt)P(wc|wt, ec)

GWCS-1 met l’accent sur la relation intrinsèque d’un mot contextuel wc et de son concept ec, mais le concept du mot cible et n’est pas inclus. GWCS-2 est proposé

pour lier le mot cible wt et son concept et dans un processus génératif, avec la fonction objectif suivante :

J = 1 T T

∑

i=1 k

∑

Les modèles proposés sont évalués sur des tâches de TALN comme la similarité de mots et de groupes nominaux, la détection de paraphrase, et la classification de question-réponse. Les résultats ont montré que les représentations contextuelles des mots apprises par GWCS et PWCS surpassent de façon significative les repré- sentations obtenues par des modèles de référence en termes de qualité et d’effica- cité d’apprentissage. En comparant entre GWCS et PWCS, le modèle GWCS est légèrement supérieur à PWCS dans les tâches d’évaluation comme l’identification de paraphrase ou la similarité des mots.

Dans le même esprit d’apprendre les représentations dans un espace vectoriel partagé pour les mot et les concepts,Yamada et al.(2016) proposent des extensions du modèle Skip-Gram spécialement conçues pour la désambiguïsation d’entité nommée (Entity Linking). Le modèle KB-graph apprend la similitude des entités en utilisant les relations issues de la ressource sémantique, tandis que le modèle anchor-context vise à aligner les vecteurs de sorte que des mots et entités similaires se produisent à proximité les uns des autres dans l’espace vectoriel en exploitant des ancres de la ressource externe et leurs mots contextuels. Plus spécifiquement, inspiré de la mesure basée sur les liens Wikipedia (Milne and Witten, 2008), le modèle KB-graph apprend à rapprocher, dans l’espace vectoriel, des entités ayant des liens entrants similaires. Sa fonction objectif est calculée comme suit :

Je=

∑

ei∈E

∑

eo∈C_ei eo6=ei log P(eo|ei) (3.52)

où P(eo|ei)est calculée par une fonction softmax comme l’Equation3.10; E est l’ensemble de toutes les entités dans la ressource ; Ceest l’ensemble d’entités connecté à l’entité e. Le modèle est entraîné pour prédire les liens entrants Ce pour une entité e. Ainsi, Ce joue un rôle similaire à celui des mots de contexte dans le mo- dèle Skip-Gram. La combinaison du modèle KB-graph avec Skip-Gram n’a pas une connexion entre l’espace de représentation de mots et l’espace de représentation d’entités, les représentations de mots et d’entités peuvent être placées dans diffé- rents sous-espaces vectoriels. Pour résoudre ce problème, le modèle anchor-context est introduit avec l’idée sous-jacente d’utiliser les ancres de la ressource et leurs mots de contexte pour entraîner le modèle. Comme dans le modèle Skip-Gram,

le modèle anchor-context est entraîné pour prédire les mots de contexte sachant l’entité assignée par l’ancre sur ces mots. La fonction objectif est la suivante :

Ja =

∑

(ei,Q)∈A

∑

w∈Ti

log P(w|ei) (3.53)

où A désigne l’ensemble des ancres dans la ressource, dont chacune contient une paire d’une entité désambiguïsée ei et une séquence de mots contextuels Ti. En combinant les deux objectifs précédents avec le modèle Skip-Gram, les auteurs forment la fonction objectif suivante :

J = Jskipgram+Je+Ja (3.54)

Une fois obtenu des représentations entraînées avec le modèle final, les auteurs ont proposé leur propre méthode de désambiguïsation d’entité nommée. Les évalua- tions ont montré que leur méthode de désambiguïsation, basée sur les représenta- tions apprises par leur modèle, surpasse plusieurs méthodes de désambiguïsation de l’état de l’art.

Figure 3.14 – Architecture du modèle SW2V (Mancini et al., 2017) avec la fenêtre de contexte de taille 2. Les lignes pointillées représentent le lien virtuel entre les mots et les sens associés.

Mancini et al.(2017) proposent aussi un modèle d’apprentissage conjoint des re- présentations de mots et de concepts (sens de mot) en exploitant les connaissances issues des ressources sémantiques, appelé SW2V. Basé sur l’architecture du mo- dèle CBOW, leur modèle ajoute aux couches d’entrée et de sortie des sens de mots en exploitant la relation intrinsèque entre les mots et les sens. L’intuition est que, comme un mot est un symbole d’un sens sous-jacent, la mise à jour de la représen- tation du mot devrait produire une mise à jour conséquente de la représentation

de ce sens spécifique, et vice-versa. En appliquant un algorithme d’identification des sens basée sur WordNet, un mot donné peut avoir zéro, un ou plusieurs sens assignés. Dans ce modèle, chaque mot cible wt prend comme contexte à la fois les mots qui l’entourent wt±k (dans la fenêtre k) et tous les sens associés à ces mots S_t±k. Contrairement à l’architecture originale du CBOW, où l’objectif d’apprentissage est de classifier correctement wt, cette approche vise à prédire le mot wt et son ensemble des sens associés St. Cela équivaut à minimiser la fonction de coût suivante :

J = −log P(wt|wt±k, St±k) −

∑

s∈St

log P(s|wt±k, St±k) (3.55)

où Si est l’ensemble de sens associés au mot wi. L’architecture de ce modèle est illustrée dans la Figure 3.14. Entraîné sur le corpus Wikipédia et UMBC (Han et al.,2013), leur modèle est capable de construire un espace vectoriel des mots et des sens sémantiquement cohérent. Les résultats quantitatifs (tâche similarité de mots, clustering de sens) et qualitatifs (les mots/sens plus similaires) ont montré des améliorations significatives du modèle proposé par rapport aux modèles de référence y compris CBOW.

Dans le document Modèles neuronaux pour la recherche d'information : approches dirigées par les ressources sémantiques (Page 82-86)