4 Apprentissage en ligne tripartite pour la repré sentation de documents

Dans la section précédente, nous avons proposé une méthode d’apprentissage des représentations combinées de deux espaces sémantiques disjointes, un basé sur le texte brut et un basé sur les concepts du document. Un inconvénient de cette méthode est qu’elle ne permet pas d’obtenir les représentations de mots et de concepts dans le même espace latent final des documents. Pour répondre à la question de recherche RQ2, nous proposons ici un modèle d’apprentissage conjoint de représentations de document, mot et concept. Nous rappelons notre hypothèse (H1), selon laquelle l’apprentissage simultané de représentations dans un contexte à plusieurs niveaux (à savoir, un niveau global pour des contextes de documents et un niveau local pour des contextes de mots et de concepts) permet d’affiner les représentations pour mieux résoudre le problème de polysémie. Ins- piré par cette hypothèse et le modèle ParagraphVector (Le and Mikolov,2014), nous supposons que l’apprentissage simultané de représentations de plusieurs niveaux (à savoir, un niveau global pour des contextes de documents et un niveau local pour des contextes de mots et de concepts) permet d’affiner les représentations des composants. En plus, nous obtenons des représentations distribuées de documents, de mots et de concepts dans un même espace latent. Cela permet de tirer des bénéfices pour plusieurs tâche de TALN ou RI qui requirent des représenta- tions de mots/concepts (e. g., l’expansion de la requête). Nous détaillons ensuite l’architecture de notre modèle en ligne, appelé SD2Von.

4.1 Architecture du réseau de neurones

Notre modèle en ligne tripartite consiste en un réseau de neurones qui apprend des représentations de documents augmentées par une sémantique issue des concepts d’une ressource externe, permettant conjointement de dériver la re- présentation des mots et des concepts sous-jacents. Notre modèle augmente le processus d’apprentissage par la prise en compte des concepts dans la prédiction ainsi que dans le contexte. L’entrée du modèle est le texte annoté avec des concepts. Un exemple est illustré dans la Figure4.5, où les mots soulignés sont associés à un concept sous-jacent. Par exemple, le mot "Apple" est associé à l’entité "Apple_Inc" dans la ressource DBpedia.

Figure 4.4 – Architecture du modèle neuronal tripartite

Figure 4.5 – Exemple d’un document annoté avec les concepts (entités de DBpedia)

En ce qui concerne l’apprentissage de représentations distribuées, similaire au modèle ParagraphVector, notre réseau apprend à prédire un mot en utilisant le contexte, y compris le document. La Figure 4.4 illustre l’architecture du modèle neuronal sur une instance d’apprentissage. A la différence du ParagraphVector, nous ajoutons les concepts associés aux mots dans le contexte de prédiction d’un mot. Autrement dit, la fenêtre glissante du contexte est déplacée au niveau mot, si

un mot dans la fenêtre a un concept associé sous-jacent, ce concept est ajouté au contexte de prédiction. De plus, si le mot à prédire est associé à un concept, notre modèle prédit aussi ce concept en utisant le même contexte de ce mot.

Formellement, l’apprentissage repose sur un ensemble D de documents d ; chaque document d est modélisé individuellement comme une séquence de mots ordonnésW_d; un mot wi ∈ Wd dans le document peut être associé à un concept ci; V représente le vocabulaire (c’est-à-dire les mots) des documents de la collection D et C correspond à l’ensemble des concepts identifiés dans la collection ; ces concepts sont issus d’une ressource sémantique externeR. Cette dernière fournit des connaissances au travers de concepts et de relations entre concepts. Nous rappelons que dans ce travail, comme avec le modèle hors ligne, nous considérons seulement les associations mot-concept pour des mots simples (uni-grammes).

4.2 Mécanismes d’apprentissage du réseau

4.2.1 Apprentissage de représentations de documents, de mots et de concepts

Afin d’apprendre la représentation de documents de façon conjointe à l’apprentissage de représentations des mots et concepts identifiés dans le contexte du document, nous proposons d’étendre le modèle de représentations de documents Paragraph Vector (Le and Mikolov,2014). Plus particulièrement, les représentations de documents (également appelés vecteurs de documents)~d sont apprises en fonction de leurs mots et concepts en maximisant la prédiction des vecteurs de mots

w et de concepts~c en fonction de leur contexte. La fonction objectif répond à l’hy- pothèse (H1) énoncée précédemment : apprendre la représentation de plusieurs niveaux de granularité (documents, mots et concepts) en fonction de la prédiction des mots et concepts qui occurrent dans une fenêtre de contexte multi-niveaux. Ainsi, la fonction objectif de l’apprentissage conjoint document-mot-concept maxi- mise la log-vraisemblance suivante :

JSD2V =

∑

d∈Dwt∈W

∑

d [log p(wt|wt±k, ct±k, d) +log p(ct|wt±k, ct±k, d) − γ |d|||~d|| 2_] (4.7) où l’ensemble des mots du document d est noté W_d; k correspond à la taille de la fenêtre de contexte liée à un mot cible wt; ct est le concept associé au mot wt en fonction de son context ; γ

|d|||~d||2 est la régularisation qui permet de limiter le

sur-apprentissage lié à l’apprentissage des textes (Ai et al.,2016b) avec|d|corres- pondant à la longueur du document et γ est le coefficient de régularisation. La

probabilité p(wt|wt±k, ct±k, d) du mot wt étant donné son contexte est définie par une fonction soft-max :

p(wt|wt±k, ct±k, d) = exp( ~wt>·hwt) ∑w0_∈_Vexp( ~w0 > ·hwt) (4.8)

où V correspond au vocabulaire de la collection ; hwt représente la représenta-

tion du contexte moyennant les vecteurs v des mots dans le contexte wt±k et des concepts dans le contexte ct±k et incluant le vecteur document~d. Cette représenta- tion hwt est estimée ainsi :

hwt = 1 m     ~ d+

∑

−k≤j≤k j6=0 ~ wt+j+~ct+j     (4.9)

où m est le nombre de vecteurs dans le contexte de prédiction, y compris le document, les mots voisins dans la fenêtre k et les concepts associés à ces mots.

De façon similaire, la probabilité p(ct|wt±k, ct±k, dwt)du concept ct en fonction

de son contexte est estimée comme suit : p(ct|wt±k, ct±k, d) = exp(~ct>·hct) ∑c0_∈_Cexp(~c0 > ·hct) (4.10)

où C correspond au ensemble des concepts de la collection ; hct est la représenta-

tion du vecteur de contexte lié au concept ct, qui est aussi le contexte lié au mot wt, autrement dit, hct =hwt.

Similaire à la formule 4.1du modèle PV-DM, les probabilités décrites dans les formules (4.8) et (4.10) sont également difficiles à estimer en raison de la taille im- portante du vocabulaire V et l’ensemble des concepts C. Nous adoptons la même stratégie d’échantillonnage négatif comme avec le modèle hors ligne SD2V_{o f f} pour définir des fonctions objectif alternatives pour chaque élément et ∈ {wt; ct}:

p(et|wt±k, ct±k, d) =log σ(~et0>·het) + n

∑

i=1 Eei∼Pn(e) log σ(−~ei 0>_· het) (4.11) où σ(x) correspond à la fonction sigmoid σ(x) = ₁₊1_e−x et Eei∼Pn(e) est la valeur

attendue de log σ(−~ei0>·het)quand ei est tiré de la distribution uniforme pondérée

Dans le document Modèles neuronaux pour la recherche d'information : approches dirigées par les ressources sémantiques (Page 123-127)