• Aucun résultat trouvé

Représentation symbolique de texte guidée par les ressources séman tiques

2 Modèle neuronal d’appariement augmenté par une ressource sémantique

2.1 Représentation vectorielle de la sémantique relationnelle Cette section consiste en notre contribution pour répondre à la question de

2.1.4 Représentation symbolique de texte guidée par les ressources séman tiques

Etant donné l’espace de représentation des objets défini ci-dessus, l’objectif sui- vant est de modéliser une représentation vectorielle de texte (document/requête) qui capture la sémantique relationnelle issue de la ressource sémantique. Autre-

Figure 5.7 – Intuition de la propriété transitive dans la représentation des documents gui- dée par les ressources de la connaissance

ment dit, nous proposons de pondérer les vecteurs de documents sur cet espace de représentation en tenant compte de la relation sémantique entre ces documents.

Notre intuition est que deux documents sont susceptibles d’être similaires s’ils mentionnent des objets qui sont rassemblés autour des mêmes groupes théma- tiques. Pour ce faire, le degré de similitude entre ces documents est estimé à tra- vers les groupes thématiques. C’est ce que nous appelons une propriété transitive, illustrée dans la figure5.7.

Dans cet exemple, chaque document d1et d2est modélisé par un vecteur bidimen- sionnel dans lequel chaque élément représente un groupe thématique. Les niveaux de gris dans la représentation du document expriment le degré de similarité des objets du document par rapport aux groupes thématiques, une valeur plus forte a une couleur plus foncée. Bien que les documents d1et d2ne soient pas caractérisés par les mêmes objets, ils sont aussi proches du référentiel et ont des représenta- tions similaires.

Intuitivement, pour qu’un document soit "similaire" à un groupe thématique gj, il faut qu’il soit proche en termes de "similarité thématique" et de "proximité rela- tionnelle" dans la ressource. Notons xKRle vecteur symbolique de dimension k du texte T, qui représente la sémantique relationnelle à modéliser xKR= (x1KR, ..., xKRk ). Nous calculons chaque élément xKRj , qui correspond à la similarité du texte T par

rapport au groupe thématique gj, comme une combinaison de deux éléments sui- vants :

— L’importance wTj du groupe gj étant donné le texte T, qui exprime dans quelle mesure l’ensemble des objets O(T)appartenant au texte T sont simi- laires thématiquement aux objets appartenant au groupe thématique gj. — La proximité relationnelle Srelat(gj, O(T)) des objets O(T) du texte T par

rapport au groupe gj, qui permet de savoir dans quelle mesure les objets oi ∈ O(T)du texte T sont liés à ceux du groupe thématique gj, en terme de relations définies dans la ressource.

Ainsi, chaque élément xKRj du vecteur symbolique est calculé par la combinaison comme suit.

xKRj =wTj ×Srelat(gj, O(T)) (5.1)

Nous détaillons ensuite notre approche pour calculer, pour un texte T donné et un groupe d’objet gj du référentiel, l’importance thématique wTj et le score de relation Srelat(gj, O(T)).

Score d’importance du groupe thématique

Le score d’importance wTj du groupe thématique gj exprime dans quelle me- sure l’ensemble des objets O(T) appartenant au texte T sont similaires thémati- quement aux objets appartenant au groupe thématique gj. Intuitivement, plus les objets des textes T et T0 sont thématiquement similaires par rapport aux groupes thématiques, plus les textes T et T0sont similaires. En supposant que les objets ap- partenant à un texte représentent un groupe thématique, nous nous appuyons sur des travaux antérieurs traitant de la similarité de groupe (King, 1967) suggérant d’estimer la similarité entre deux ensembles d’objets en agrégeant les similarités entre les objets de ces deux ensembles. Le score d’importance du groupe théma- tique gj par rapport à l’ensemble d’objets O(T) est estimé par une agrégation Agg(om,on)∈O(T)×gj des scores simt entre chaque objet om ∈O(T)dans le texte T et

chaque objet on ∈gj dans le groupe thématique gj. Plus formellement, ce score wTj est estimé par la fonction suivante :

wTj = Agg(om,on)∈O(T)×gjsimt(om, on) (5.2)

où Agg_ exprime une fonction d’agrégation (nous considérons ici le maximum pour capturer la meilleure similarité topique entre les objets) ; simt estime la simi- larité thématique entre les représentations vectorielles des objets (ici, nous utilisons la similarité cosinus entre les représentations ParagraphVector xdesci des descriptions des objets).

Proximité relationnelle entre le texte et le groupe thématique

La proximité relationnelle Srelat(gj, O(T))permet de savoir dans quelle mesure les objets oi ∈O(T)appartenant au texte T sont liés à ceux du groupe thématique gj. Autrement dit, si les objets O(T)du texte T sont liés à un groupe thématique gj, la valeur de la je dimension dans le vecteur symbolique xKR devrait être éle- vée. Pour ce faire, ce score de relation Srelat(gj, O(T))est estimé en considérant la relation des objets O(T)par rapport à un objet représentatif χ(gj)du groupe thé- matique gj (e. g., l’objet le plus fréquent dans la collection parmi les objets appar- tenant au groupe thématique gj). L’impact de la méthode utilisée pour identifier le représentant χ(gj)est étudié expérimentalement (cf. Section3.2). Pour mesurer la relation entre les objets, nous nous basons sur les approches classiques de l’état-de- l’art qui reposent sur le calcul des chemins entre les objets (Pedersen et al.,2007). Plus formellement, étant donné un objet représentatif χ(gj)du groupe gj, la rela- tion Srelat(gj, O(T))estime la longueur du chemin entre l’objet χ(gj)et l’ensemble O(T)par la fonction suivante :

Srelat(gj, O(T)) =

om∈O(T)

log(1+simr(χ(gj), om)) ·

avg_no

|O(T)| (5.3)

avec simr(on, om) = −log

dist(on, om) 2D

où om est un objet dans l’ensemble d’objets O(T); simr(on, om)est une mesure de relation entre les objets onet om, ici nous utilisons la mesure de Leacock (Leacock

and Chodorow, 1998)) qui se calcule sur la distance plus courte dist entre deux objets (nombre de liens minimal entre deux nœuds), normalisée par deux fois la profondeur maximale D de la hiérarchie ; avg_no est le nombre moyen d’objets par document dans la collection. Etant donné que le facteur de normalisation avg_no|O(T)| évite les biais dus aux différences de longueur du texte en termes de nombre d’objets.

2.2

Architecture du réseau de neurones

Cette section s’intéresse à la question de recherche RQ2 : comment apprendre la fonction de pertinence d’une paire de document-requête en combinant la sé- mantique relationnelle et distributionnelle du texte. Pour cela, l’idée est d’injecter la représentation symbolique comme vecteur d’entrée d’un réseau de neurones. Inspiré par les approches neuronales basées sur la représentation (Section3.1 du Chapitre 3), nous appliquons un réseau de neurones siamois pour exploiter les vecteurs de représentations fournis en entrée. Ce réseau, dit "de bout en bout", apprend une fonction d’ordonnancement des documents en utilisant en entrée les

Figure 5.8 – Architecture du réseau DSRIM.

représentations distributionnelles et/ou les représentations symboliques de docu- ment/requête basées sur les ressources de la connaissance.

La Figure 5.8 illustre l’architecture de notre réseau de neurones. Ce dernier consiste en un réseau de plusieurs branches, chaque branche correspond à une représentation de texte (requête/document) en entrée. Pour une requête q et un document pertinent d+, le réseau apprend à discriminer la similarité entre cette paire pertinente(q, d+)avec les autres paires non-pertinentes(q, d). Ainsi, étant

donné une représentation d’un texte (requête/document) en entrée, le réseau ap- plique une série de transformations non-linéaires par des paramètres dans une branche, pour apprendre une représentation latente (à la dernière couche avant le scoring). Cette dernière sert à mesurer le score de similarité entre les textes pour apprendre une fonction de classification des documents.