Modèles de reformulation de requêtes - Les modèles d’accès personnalisé à l’information

2.4 Accès contextuel à l’information guidé par le profil utilisateur

2.4.6 Les modèles d’accès personnalisé à l’information

2.4.6.1 Modèles de reformulation de requêtes

Le but fondamental de la reformulation de requêtes par utilisation de profil consiste à cibler la recherche des documents pertinents par augmentation de la requête par des termes issus du profil utilisateur dans le but de mieux répondre au besoin en information de l’utilisateur.

La figure 2.8 montre un exemple simple de la comparaison entre Yahoo classique et Yahoo contextuel Y !Q pour la requête Jaguar et où le contexte

Fig. 2.8 – Représentation textuelle du contexte de recherche sur Yahoo Y !Q sélectionné par l’utilisateur (The largest cat of americas) sert à augmenter le contexte de la requête dans le but de désambiguïser la recherche et renvoyer seulement les documents pertinents à l’utilisateur.

Dans le cadre du projet UCAIR [160], le profil utilisateur est représenté par l’historique d’interactions de l’utilisateur comme étant l’ensemble de re- quêtes précédentes et résultats jugés pertinents. La personnalisation du processus d’accès à l’information consiste à repondérer les termes de la requête selon des modèles de langage statistiques représentant l’historique de recherche de l’utilisateur. Plus particulièrement, l’historique de requêtes est defini selon un modèle de langage unigramme p(w/HQ), l’historique de clics est défini selon

un autre modèle de langage p(w/Hc), et le modèle de la requête est défini par

p(w/Qk). Ainsi, le modèle contextuel de la requête p(w/θk) est défini par la

combinaison interpolée des trois modèles de langages comme suit :

p(w/θk) = α ∗ p(w/Qk) + (1 − α) ∗ p(w/HQ) + β ∗ p(w/Hc) (2.8)

où α ∈ [0 1] et β ∈ [0 1].

D’autres approches en RI personnalisée tels que le système de recherche ARCH [163] identifie le profil adéquat à la requête comme étant une paire de concepts issus d’une ontologie et l’exploite dans la reformulation de la requête dans le but d’obtenir une requête plus riche ciblant plus de documents pertinents d’une part et permettant de lever l’ambigüité au niveau du sens des mots

de requête d’autre part. La reformulation de requête est faite en appliquant l’algorithme de Rocchio comme suit :

Q2 = α.Q1 + β.X

Tsel− γTdesel (2.9)

Dans cette formule, Trel est un vecteur de termes représentant le concept per-

tinent et adéquat à la requête et TN rel est un vecteur de termes représentant

le concept non pertinent sélectionnés par l’utilisateur. Les facteurs α, β, γ sont des poids associés respectivement à la requête originale, au concept pertinent et au concept non pertinent.

L’exploitation d’un profil connexionniste dans la reformulation de requêtes est adopté dans [108]. La reformulation de la requête consiste à appliquer toutes les écritures possibles via les arcs du profil (conjonction, subsitution et autres). Il est à noter que les arcs sont pondérés de façon à traduire un degré de cor- rélation entre les termes. Étant donnée une requête, le profil utilisateur, et un seuil de corrélation des arcs reliant les termes, un processus de reformulation de requête génère une nouvelle requête en appliquant toutes les écritures possibles définies par les arcs du profil et satisfaisants le critère du seuil de corrélation considéré.

Une autre approche de reformulation de la requête [51] exploite le profil utilisateur représenté par un réseau de termes dans le but d’identifier des termes fortement corrélés aux termes des requêtes par l’intermédiaire des sessions de recherche. En effet, l’ensemble des termes de la requête est relié à l’ensemble des termes extraits des documents associés par l’intermédiaire des sessions de recherche où une session est définie par une requête et l’ensemble des documents que l’utilisateur a sélectionnés pour cette requête. Chaque session est identifiée comme suit :

session := (requête, [document sélectionné]*)

La reformulation d’une requête consiste à sélectionner des termes candidats à partir de tous les termes des documents appartenant aux sessions de la requête. La sélection de n termes candidats à l’expansion de la requête est basée sur des relations de co-occurrence entre chaque terme du document et tous les termes de la requête comme suit :

CoW eightQ(w (d) j ) = ln( Y w(q)_t ∈Q (P (w(d)j |w (q) t ) + 1)) (2.10) Où P (w(d)j |w (q)

t ) est la probabilité conditionnelle mesurant le degré de cor-

rélation entre chaque terme du document w(d)j et chaque terme requête w (q) t .

Contextual elements C C C Query terms q q q

Query sessions _Document terms d d d Q C Q C D D D Contextual elements C C C Query terms q q q

Query sessions _Document terms d d d Q C Q C Q C Q C D D D Document terms c c c Query terms c c c Contextual elements c c … c 1.2 0.3 12.8 2.1 1.7 0.5 5.4 2.4 4.9 1.5 0.81.6 5 .7 Document terms c c c Query terms c c c Contextual elements c c … c 1.2 0.3 12.8 2.1 1.7 0.5 5.4 2.4 4.9 1.5 0.81.6 5 .7

Fig. 2.9 – Corrélations entre les termes des requêtes, les éléments contextuels et les termes des documents via les sessions de requêtes

Ceci permet d’identifier les termes des documents qui répondent fréquemment pour une même requête et sont considérés comme candidats au processus de reformulation de la requête.

En plus des relations de corrélations entre les termes des requêtes et ceux des documents, l’approche dans [147] propose d’ajouter des relations de corrélations entre les termes du profil ou éléments contextuels avec les termes des requêtes dans une même session où la session est définie par le triplet requête, contexte et documents associés. La figure 2.9 montre un exemple illustratif du modèle du profil utilisé.

Sur la base de ces corrélations, la reformulation de requête consiste à étendre la requêtes avec des termes issus des termes des documents selon quatre mo- dèles proposés : un modèle orienté-contexte, un modèle indépendant requête- contexte, un modèle orienté requête-contexte et un modèle filtrage orienté- contexte. Le modèle orienté requête-contexte est introduit pour prendre en compte les relations de dépendance entre la requête et le contexte dans la sé- lection de termes d’expansion. Ce modèle est défini par :

M3(d ⊳ Q, C >) = = I(d, < Q, C >) =X i I(d, ci) + X j I(d, qj) + X ij I(d, < qj, ci >) où P

ijI(d, < qj, ci >) est l’information mutuelle entre un terme du do-

cument et une paire requête-contexte. C’est ce facteur qui introduit une dé- pendance requête-contexte. Lorsqu’une nouvelle requête est soumise avec un contexte donné, une liste des termes issus des documents corrélés est sélection- née, puis ordonnée selon les probabilités conditionnelles calculées à travers le modèle. Enfin, les termes les mieux pondérés sont alors utilisés pour reformuler

la requête de l’utilisateur.

2.4.6.2 Modèles d’appariement personnalisé requête-document

Dans le document Accès personnalisé à l'information : approche basée sur l'utilisation d'un profil utilisateur sémantique dérivé d'une ontologie de domaines à travers l'historique des sessions de recherche (Page 86-90)