Apprentissage a posteriori des représentations

ressources externes

2.2.2 Apprentissage a posteriori des représentations

Les travaux dans cette catégorie tentent d’améliorer la représentation de mots pré-entraînée dans une étape de correction a posteriori, aussi appelé par retrofitting. Compte tenu de la représentation de mots pré-entraînée, l’idée principale de la correction a posteriori est de rapprocher des mots qui sont reliés par une relation définie dans une ressource sémantique donnée. Particulièrement, Vuli´c et al. (2017) élargissent cette lignée de travaux en injectant des contraintes morpholo- giques générées à l’aide des règles simples au lieu d’utiliser les relations issues des ressources sémantiques.

La première introduction de la correction a posteriori (retrofitting) est le travail deFaruqui et al.(2015), qui propose une méthode pour affiner les représentations dans l’espace vectoriel à l’aide des informations relationnelles issues des lexiques sémantiques en incitant les mots connectés à avoir des représentations vectorielles similaires. Cette méthode ne fait aucune hypothèse sur la façon dont les représen- tations d’entrée ont été construites. Elle encourage les nouvelles représentations à être (i) similaires aux représentations de mots reliés dans la ressource et (ii) similaires à leurs représentations purement distribuées. Selon la modélisation des auteurs, une ressource Ω est composée d’un ensemble de nœuds V (qui corres- pondent aussi aux mots du vocabulaire de la collection), d’un ensemble de types de relation R et d’un ensemble des liens L où chaque lien l ∈ L est un triplet

des représentations de mots ˆE = ˆei : i∈ V entraînées par n’importe quel modèle, le but de la correction a posteriori est d’apprendre un ensemble de nouvelles re- présentations E = ei : i∈ V qui contiennent les informations encodées à la fois les connaissances de la sémantique distributionnelle à partir des corpus de texte et de la structure de la ressource sémantique externe. En utilisant la distance eu- clidienne comme la distance sémantique entre deux représentations de mots, les auteurs ont défini l’objectif du réajustement des représentations par la minimisation du problème des moindres carrés pondérés.

Ψ(E) = |V |

∑

i=1  α_ike_i− ˆe_ik2+

∑

(i,j)∈L βijkei−ejk2   (3.56)

où α et β sont des valeurs qui contrôlent les puissances relatives de la combinaison. Les auteurs ont expérimenté leur méthode sur les différents types de représenta- tion (GloVe, Skip-Gram, etc.) avec des ressources lexicales comme PPDB, WordNet, FrameNet (Baker et al., 1998). Les résultats sur différentes tâches (Similarité de mot, Relations Syntactiques, etc.) ont montré que cette méthode améliore significa- tivement la qualité des représentations et aussi qu’elle dépasse la performance des méthodes alternatives comme celle deYu and Dredze (2014) etXu et al.(2014).

Dans le même esprit de la correction a posteriori,Mrkšić et al.(2016) proposent une méthode appelé counter-fitting qui injecte les contraintes d’antonymie et de synonymie dans la représentation vectorielle pour améliorer la capacité des vecteurs à évaluer la similarité sémantique. L’intuition est d’approcher les paires de mots synonymes et d’éloigner les paires antonymes, en conservant la sémantique distributionnelle apprise sur la collection. Etant donné l’ensemble des représentations entraînées Ê = êi : i ∈ V, le but de l’apprentissage est d’obtenir un ensemble de nouvelles représentations E=ei : i∈ V augmentées par les contraintes d’ antonymie et de synonymie. L’antonymie et la synonymie ont un ensemble de contraintes A et S, respectivement, qui contient des paires de mots reliés par la relation cor- respondante. La fonction objectif utilisée pour adapter les vecteurs de mots Ê pré- entraînés aux ensembles de contraintes linguistiques A et S contient trois termes différents. Le premier terme AR sert à éloigner les vecteurs de mots antonymes les uns des autres dans l’espace vectoriel E :

AR(E) =

∑

(i,j)∈A

τ(1−d(ei, ej)) (3.57)

où d(ei, ej) = 1−cos(ei, ej)est la distance dérivée du cosinus et τ(x) = max(0, x) impose une fonction de coût de type hinge-loss.

Le deuxième terme SA cherche à rapprocher les vecteurs de mots synonymes : SA(E) =

∑

(i,j)∈S

Le dernier terme VSP permet de rapprocher le plus possible l’espace vectoriel transformé de l’espace vectoriel original afin de préserver les informations séman- tiques contenues dans le vecteur original.

VSP(E, ˆE) =

|V |

∑

i=1j∈

∑

N(i)

τ(d(ei, ej) −d(ˆei, ˆej)) (3.59)

où N(i)désigne l’ensemble des mots dans un certain rayon ρ autour du ie vecteur du mot dans l’espace vectoriel d’origine. La fonction objectif finale de la procédure est donnée par la somme pondérée des trois termes.

C(E, ˆE) =k1AR(E) +k2SA(E) +k3VSP(E, ˆE) (3.60) où k1, k2, k3≥0 sont des hyper-paramètres qui contrôlent l’importance relative de chaque terme.

Les auteurs ont montré que la méthode apprend efficacement les vecteurs de mots pour améliorer leur performance dans les tâches de similarité sémantique (e.g., SimLex-999). L’accent mis sur la séparation des représentations des paires de mots antonymes conduit à des améliorations substantielles sur les tâches d’estimation de similarité de mots.

Vuli´c and Mrkši´c (2018) utilisent aussi l’idée d’"attirer-repousser" (attract-repel) pour rapprocher les vraies paires hyponymie-hyperonymie (l’implication lexicale) dans l’espace euclidien transformé en utilisant des ressources linguistiques (e.g., WordNet).

L’intuition, illustrée par la Figure 3.15, est de rapprocher les paires de mots souhaitables (attirer) décrites par les contraintes, tout en éloignant les paires de mots indésirables (repousser) les unes des autres. En même temps, cette mé- thode restreint les normes vectorielles de sorte que les valeurs des normes dans l’espace euclidien reflètent l’organisation hiérarchique des concepts en fonction des contraintes d’hyponymes données : les concepts plus génériques auront des normes plus grandes. Similaire au travail de Mrkši´c et al.(2016), les auteurs ont utilisé une fonction objectif combinée par des termes qui attirent et repoussent des paires de mots souhaitables en conservant la sémantique distributionnelle des représentations. Particulièrement, ils ont ajouté à la fonction objectif (ref. Equation 3.60) un terme LE (Lexical Entailment) pour mettre en relief la distance hiérarchique de l’implication lexicale. Contrairement à la similarité symétrique, l’implication lexicale impose une distance asymétrique qui encode un ordre hiérarchique entre

Figure 3.15 – Illustration de l’espace vectoriel transformé proposé dansVuli´c and Mrkši´c (2018). Le modèle contrôle la disposition des vecteurs dans l’espace vectoriel transformé en 1) mettant l’accent sur la similarité symétrique des paires d’hyponymie par la distance cosinus (en imposant de petits angles entre−−−→terrier et

−→

dog ou−→dog et−−−−→animal) ; et en 2) imposant un ordre d’hyponymie en utilisant des normes vectorielles, en les ajustant de sorte que les concepts de niveau supérieur aient des normes plus larges (e.g.,|−−−−→animal| > |−→dog| > |−−−→terrier|).

les concepts. Trois différentes distances sont utilisées, en utilisant les normes du vecteur de mot pour imposer un ordre entre les concepts parents et enfants.

D1(x, y) = |x| − |y| (3.61) D2(x, y) = |x| − |y| |x| + |y| (3.62) D3(x, y) = |x| − |y| max(|x|,|y|) (3.63)

Etant donné L, l’ensemble des paires d’implication lexicale directe comme (terrier,dog), (dog,animal), avec le concept plus spécifique à gauche, le concept plus générique à droit. Le terme LEj (pour la jedistance asymétrique) dans la fonction objectif est défini par :

LEj(L) =

∑

Expérimentés sur des tâches de génération des implications lexicales, les résultats ont montré des améliorations significatives par rapport aux modèles de référence, et aussi la capacité de généraliser l’hyperonymie.

2.3 Utilisation des représentations distribuées de texte en RI

Les modèles de RI traditionnels utilisent des représentations locales (discrètes) des termes pour l’appariement des requêtes et des documents. Cependant, il est important d’inspecter dans le document les termes non liés (différents) à la requête pour obtenir des preuves de pertinence. Dans les approches de RI basées sur le comptage des termes traditionnels, ces signaux sont souvent ignorés. L’avantage principal d’utiliser les représentations distribuées de mots dans la RI est de per- mettre un appariement inexact dans l’espace vectoriel. Les représentations de mots peuvent être incorporées dans les approches de RI existantes en deux grandes ca- tégories : celles qui comparent la requête avec le document directement dans

l’espace de représentation; et celles qui utilisent la représentation pour générer

des candidats d’extensionde la requête appropriés. Une autre approche qui uti-

lise les représentations de mot dans les réseaux de neurones pour RI sera présentée dans la section3. Nous présentons dans ce qui suit les approches pour incorporer les représentations distribuées dans les modèles de RI.

Travaux Appariement

document-requête

(Nalisnick et al.,2016; Mitra et al., 2016; Zuccon et al., 2015;Rubner et al.,2000)

Expansion de la requête (Roy et al., 2016; Zamani and Croft, 2016a;Diaz et al., 2016;Zamani and Croft,2016b)

Tableau 3.4 – Catégories des modèles qui utilisent des représentations distribuées de mots pour la RI.

Dans le document Modèles neuronaux pour la recherche d'information : approches dirigées par les ressources sémantiques (Page 86-90)