Expansion de requête - 6 Cadre expérimental

6 Cadre expérimental

6.3.2 Expansion de requête

Cette tâche consiste à réécrire la requête initiale en exploitant la proximité des éléments (mots et/ou concepts) dans l’espace des représentations distribuées. Dans notre contexte, nous nous basons sur l’hypothèse que la pertinence pourrait

être saisie en calculant les similitudes entre les représentations de requêtes d’un côté et les représentations de mots/concepts de l’autre côté. Pour ce faire, nous nous appuyons sur le modèle de pointe proposé dans Zamani and Croft(2016b) qui suppose que les éléments candidats m sont identifiés à l’aide d’un critère de pertinence estimé par la similarité entre la requête d’un côté et le mot/concept de l’autre côté. Cette similarité est modélisée sous forme d’interpolation linéaire entre l’estimation du maximum de vraisemblance pmle(m|q) de la requête originale (à savoir, la probabilité basée sur le comptage de terme) et un score de similarité neuronale pemb(m|q):

p(m|q∗) =α pmle(m|q) + (1−α)pemb(m|q) (4.25) p_emb(m|q) = σ(~em,~q)

∑m0_∈_Vσ(~e_m0,~q)

où~q et~em sont respectivement les représentations de la requête q et de l’élément word/concept candidat m ; V est le vocabulaire. sigma(·,·)indique l’exponentielle du cosinus de deux vecteurs et Z est le facteur de normalisation calculé en addi- tionnant σ(~em0,~q)sur tous les termes m0dans le vocabulaire (à savoir tous les mots sur tous les documents ou tous les concepts extraits de tous les mots).

Pour obtenir le vecteur de représentation de la requête, qui n’est pas entraîné dans l’étape d’apprentissage, nous appliquons le technique d’inférence qui est une caractéristique originale du modèle ParagraphVector (Le and Mikolov,2014). L’inférence de représentation du nouveau texte est faite en appliquant le modèle ParagraphVector entraîné sur le texte pour effectuer une nouvelle phase d’apprentissage avec les représentations de mots entraînées et fixées. De même façon, nos modèles d’apprentissage hors ligne et en ligne peuvent effectuer cette inférence pour obtenir le vecteur de la requête.

Soulignons cependant, l’expansion de la requête effectué avec notre modèle hors ligne est peu robuste. Comme l’espace de représentation finale de documents est rapprochée de deux espaces latents de documents (un sur les mots, un sur les concepts), la représentation finale des documents (ainsi de la requête) n’est pas dans le même espace des mots ou des concepts.

6.4 Modèles de référence

Pour évaluer la qualité de nos représentations de documents, nous comparons nos scénarios aux modèles de référence suivants :

•Un modèle basé sur des statistiques d’occurrences simples. Pour les tâches TALN, nous utilisons la modélisation traditionnelle des documents TF−IDF dans la- quelle les documents sont représentés par un vecteur mot pondéré en utilisant le

schéma TF-IDF. Bien que le TF-IDF soit bien adapté au cadre RI, nous utilisons plutôt le modèle d’ordonnancement traditionnel BM25 qui est un modèle de réfé- rence solide en RI. Ce référentiel vise à évaluer l’impact de la représentation des documents d’apprentissage.

•Un modèle basé sur la représentation de mots, noté AWE, qui construit des repré- sentations de documents en faisant la moyenne des représentations de ses mots (Le and Mikolov, 2014; Vuli´c and Moens, 2015). Le but de la comparaison avec cette représentation est d’évaluer l’impact de la prise en compte d’un contexte à plusieurs niveaux (à savoir des concepts et des documents en plus des mots) dans l’apprentissage de la représentation de documents.

•Un modèle basé sur la représentation de mot renforcée par une ressource sémantique, noté AWER, qui prend la moyenne des représentations de mots construites à l’aide d’une ressource sémantique externe comme proposé dansFaruqui et al.(2015). Ce modèle de référence vise à évaluer l’impact de la prise en compte d’un contexte multi-niveaux (à savoir des documents en plus des mots et des concepts) dans l’apprentissage de la représentation de documents.

•Un modèle basé sur la représentation de document, noté D2V, qui fait référence au modèle Paragraph-VectorielLe and Mikolov(2014) à partir duquel nous construi- sons notre modèle neuronal étendu. Ce scénario permettrait d’évaluer l’impact de la prise en compte des concepts et des relations dans l’apprentissage de la re- présentation puisque ce scénario ne comprend que des contextes de mots et de documents.

Pour évaluer avec les tâches de RI des modèles de référence basés sur la repré- sentation distribuée, ainsi que les scénarios de nos modèles, nous utilisons leurs représentations de mots et/ou de documents pour les injecter dans les Equations 4.24et4.25(pour réordonnancement et expansion de requête, respectivement).

6.5 Scénarios d’évaluation

Pour analyser plusieurs aspects entre nos différentes configurations des modèles hors ligne et en ligne, nous adoptons les scénarios présentés dans le Tableau4.2 pour nos propositions.

6.6 Détails d’implémentation

Pour les configurations de modèles basées sur la représentation distribuée (AWE, AWER, D2V, SD2V, SD2VR), nous fixons la dimension des vecteurs de représentations à 300 et sélectionnons empiriquement la taille de fenêtre k = 8. Après avoir supprimé les mots non alphanumériques, nous ne gardons que les

Acronyme Référence Objectif

SD2Vo f f Méthode d’apprentissage hors ligne (section3) Evaluer l’impact de l’intégration des concepts dans les représentations de documents

SD2Von Méthode d’apprentissage en ligne (section4)

SD2VInso f f Méthode d’apprentissage hors ligne intégrée de la

contrainte relationnelle par instance d’entraînement (section5.3.1)

Evaluer l’impact de la contrainte relationnelle apprise par l’instance d’entraînement SD2VInson Méthode d’apprentissage en ligne intégrée de la

contrainte relationnelle par instance d’entraînement (section5.3.2)

SD2VRego f f Méthode d’apprentissage hors ligne intégrée de la

contrainte relationnelle par régularisation d’objectif (section5.2.1)

Evaluer l’impact de la contrainte relationnelle apprise par la régularisation de la fonction objectif

SD2VRegon Méthode d’apprentissage en ligne intégrée de la

contrainte relationnelle par régularisation d’objectif (section5.2.2)

Tableau 4.2 – Différents scénarios de nos modèles d’apprentissage de représentations

mots dont la fréquence dans le corpus est supérieure à 5. Le taux d’apprentissage initial est fixé à 0, 02 et diminue linéairement pendant l’optimisation par SGD. Nous utilisons la technique d’échantillonnage négatif où l’échantillon négatif est fixé à 5.

Le paramètre β de l’Equation4.6est réglé sur 0, 75 ; 0, 8 et 0, 85 pour les ensembles de données respectivement Robust, OHSUMED et TREC Med. Ces valeurs sou- lignent qu’il est utile de combiner à la fois des mots et des concepts pour représen- ter les documents, avec une prévalence plus élevée de mots dans le jeu de données TREC Med. Cela pourrait s’expliquer par le fait que les requêtes dans cette col- lection sont plus volumineuses. Concernant la régularisation de longueur γ dans l’Equation4.7, nous testons 0, 1 ; 1 et 10 comme suggéré dansAi et al.(2016b) ; la meilleure performance est obtenue avec γ = 0.1. Les coefficients αW et αC dans l’Equation4.15sont fixés à 1. Pour la tâche de réordonnancement, la combinaison (Equation4.24) est effectuée avec α=0, 85. Pour la tâche d’extension de la requête, nous avons fait varier le nombre d’éléments m étendant la requête d’origine de 1 à 10. Ces éléments incluent des mots et des concepts en fonction de la probabilité p(m|q∗)et leur nombre a été défini à 2. Toutes ces valeurs ont été optimisées par validation croisée via la métrique MAP. Pour les deux tâches de RI, les scores sont calculés à l’aide du moteur de recherche Indri5

Dans le document Modèles neuronaux pour la recherche d'information : approches dirigées par les ressources sémantiques (Page 139-143)