Apprentissage de représentations basées sur le texte des documents

3 Apprentissage hors ligne de représentations de documents basée sur deux espaces latents

3.1 Apprentissage de représentations basées sur le texte des documents

Pour obtenir les représentations distribuées basées sur le texte des documents, nous exploitons le modèle Paragraph Vector (Le and Mikolov,2014) (cf. Chapitre3, Section2.1.2). Plus précisément, nous utilisons la version Distributed Memory (PV- DM). Pour rappel, le modèle PV-DM est entraîné pour prédire un mot en tenant compte du contexte d’entrée qui se compose par les mots voisins et le document qui les contient (cf. Figure4.2).

Figure 4.2 – Architecture du modèle PV-DM (Le and Mikolov,2014).

Etant donné un document d, pour un mot wt ∈ d et ses mots voisins wt±k dans la fenêtre k, le modèle PV-DM apprend les représentations de mots et de documents en maximisant la probabilité d’obtenir le mot wt sachant le contexte compris des mots voisins wt±k et le document d. La fonction objectif pour un instance de document d est calculée comme suit :

JPV−DM =

∑

wt∈d log P(wt|wt±k, d) = exp( ~wt>·hwt) ∑w0_∈_Vw~0 > ·hw0) (4.1)

où V est le vocabulaire de la collection ;~x est le vecteur de représentation distri- buée de l’objet x (mot/document) ; hwt est le vecteur de la couche cachée qui est

combiné des vecteurs des objets dans le contexte du mots wt, à savoir les mots voisins wt±k et le document d.

Ai et al. (2016b) ont montré que les modèles Paragraph Vector a un problème de sur-apprentissage au cours de l’entraînement, et ce problème est plus grave pour les documents courts. Dans notre modèle, nous suivons leur approche pour résoudre les problèmes de sur-apprentissage en utilisant une régularisation dans l’objectif d’apprentissage de PV-DM. Ils ont sugéré que le problème de sur- apprentissage est principalement causé par les vecteurs de document sans restric- tion, nous ajoutons une L2-régularisation sur les vecteurs de document. Ainsi la fonction objectif du modèle PV-DM est modifiée comme suit :

JPV−DM=

∑

wt∈d log P(wt|wt±k, d) − γ |d|||~d|| 2 _(4.2)

où |d|est la longueur du document d (nombre de mots dans le document) ; ||~d||

dénote la norme du vecteur d et γ est l’hyperparamètre qui contrôle la force de~ régularisation.

Une fois appliqué le PV-DM modifié sur les documents pour obtenir les repré- sentations distribuées basées sur le texte ~dw_{, nous résolvons notre objectif (O1)} en proposant un modèle qui apprend les représentations conceptuelles des docu- ments, appelé conceptualDoc2vec. Nous détaillons ce modèle dans la section qui suit.

3.2 Apprentissage de représentations conceptuelles des docu-

ments

Guidé par le modèle Paragraph Vector (PV-DM) (Le and Mikolov, 2014) qui apprend la représentation de documents à partir de leur texte brut, nous proposons le modèle conceptualDoc2vec (cd2v) qui produit la représentation sémantique distri- butionnelle des concepts sous-jacents au texte. Le modèle PV-DM repose sur l’in- tuition qu’un mot peut être prédit en fonction de son contexte et du paragraphe auquel il est associé, permettant ainsi d’apprendre conjointement la représentation des mots et du paragraphe.

De façon similaire, notre modèle d’apprentissage de représentations concep- tuelles des documents conceptualDoc2vec repose sur un objectif de prédiction de concept à partir d’un contexte, permettant ainsi d’apprendre la représentation des concepts et du document ~dc. L’architecture de notre modèle incluant une illus- tration conceptualDoc2vec est illustrée dans la Figure 4.3. Dans ce modèle, nous obtenons d’abord les concepts dans le document en utilisant un outil d’annota- tion conceptuelle. Puis, un document conceptuel C_d est reproduit en utilisant les

Figure 4.3 – Architecture du modèle conceptualDoc2vec

concepts identifiés, en gardant l’ordre d’apparition dans le texte. Puis, nous appliquons le modèle PV-DM sur ces documents conceptuels. Nous soulignons que dans ce travail, nous considérons seulement les associations mot-concept pour des mots simples (uni-grammes) et laissons les associations entre concepts et mots composés pour de futurs travaux.

Etant donné un document d, pour un concept ct ∈ d et ses concepts voisins c_t±k dans la fenêtre k, le modèle conceptualDoc2vec a pour objectif de maximiser la probabilité d’obtenir le concept ctsachant le contexte compris des concepts voisins ct±k et le document d. Nous appliquons aussi la régularisation par la longueur du document conceptuelC_d. Ainsi, la fonction objectif pour une instance de document

C_d est calculée comme suit : Jcd2v =

∑

ct∈Cd log P(ct |ct±k, d) − γ |C_d|||~d|| 2 (4.3)

Similaire au modèle PV-DM, la probabilité P(ct | ct±k, d) est définie par une fonction soft-max comme suit :

P(ct |ct±k, d) = exp(~ct>·hct) ∑c0_∈_Cexp(~c0 > ·h_c0) (4.4) où~ct est la représentation du concept ct; hct correspond à la moyenne des repré-

sentations des concepts ct±k dans la fenêtre de contexte du concept ct, incluant le document d ; et C est l’ensemble de concepts dans la collection.

Étant donné la taille importante du vocabulaire V et l’ensemble des concepts C, les probabilités décrites dans les formules (4.1) et (4.3) sont difficiles à esti- mer. Guidé par des précédents travaux (Mikolov et al.,2013a), nous exploitons les stratégies d’échantillonnage négatif ("negative sampling") pour définir des fonctions objectif alternatives pour chaque élément et∈ {wt; ct}:

p(et|wt±k, ct±k, d) =log σ(~et0>·het) + n

∑

i=1 Eei∼Pn(e) log σ(−~ei 0>_· het) (4.5) où σ(x) correspond à la fonction sigmoid σ(x) = ₁₊1_e−x et Eei∼Pn(e) est la valeur

attendue de log σ(−~e_i0>·het)quand ei est tiré de la distribution uniforme pondérée

Pn(e), comme réalisé parAi et al.(2016b).

3.3 Rapprocher deux espaces de représentations latentes

Notre second objectif (O2) est d’optimiser la représentation du document d afin d’obtenir un vecteur latentd permettant de rapprocher les représentations basées~ sur les concepts ~dc et celles sur le texte brut ~dw. Reprenons la Figure 4.1, notre objectif est de construire un troisème espace latent qui rappoche les deux espaces des représentations distribuées préapprises, une basée sur les mots, une basée sur les concepts. Notre idée est de calculer un nouveau vecteur de représentation ~d qui est à la fois proche des deux espaces des vecteursd~w et~dc. Ce problème peut être formulé par une optimisation qui vise à miniser la fonction objectif suivante :

ψ(D) =

∑

d∈D ψ(d) =

∑

d∈D h (1−β) × k~d− ~dck2+β× k~d− ~dwk2 i (4.6) où D est la collection de documents, ||x−y|| la distance euclidienne entre les vecteurs de représentation x et y, et β correspond au coefficient de pondération, défini expérimentalement.

Nous utilisons la méthode de descente de gradient stochastique (SGD) pour résoudre le problème d’optimisation (Équation 4.6) qui infère la représentation optimale des documentsd pour rapprocher deux espaces latents, un sur les mots et~ un sur les concepts. Plus particulièrement, cette méthode met à jour, pour chaque document d, sa représentation en utilisant la première dérivée ∆ = ∂ψ(~d)

∂~d de la fonction ψ par rapport à~d avec un pas de α, comme illustré dans Algorithme1.

Algorithme 1Apprentissage de la représentation de documents par SGD

Dans le document Modèles neuronaux pour la recherche d'information : approches dirigées par les ressources sémantiques (Page 119-123)