Similarité de Requêtes - Critères de Soutien

2. Présentation de Notre Travail

5.2. Critères de Soutien

5.2.3. Similarité de Requêtes

La similarité des requêtes peut être envisagée selon deux points de vues :

1. du point de vue du système : les requêtes sont similaires si elles ont des termes communs (paragraphe 5.2.3.1).

2. du point de vue sémantique : si elles conduisent à obtenir des documents similaires même si elles n’ont peu ou pas de termes en commun (paragraphe 5.2.3.2).

Nous expliquons dans la suite ces deux points de vue, et dans le paragraphe 5.2.3.3. l’intérêt de ce critère de similarité

5.2.3.1. Point de Vue du Système

Afin de mesurer la similarité SimReq(qu, qj) entre la requête qu de l’utilisateur u et une

autre requête qj il faut prendre en compte les différents modèles des requêtes. Pour cela, nous présentons le calcul de la similarité entre deux requêtes vectorielles (paragraphe 5.2.3.1.1) et entre deux requêtes booléennes (paragraphe 5.2.3.1.2) et entre une vectorielle et autre booléenne (paragraphe 5.2.3.1.3), et enfin nous expliquons les ensembles de requêtes et de documents choisis selon ce critère (paragraphe 5.2.3.1.4).

5.2.3.1.1. Similarité des Requêtes Vectorielles

La similarité SimReq(qu, qj) entre les deux requêtes vectorielles qu et qj est mesurée comme la cosinus de l’angle entre ces deux vecteurs ainsi :

SimReq (qu, qj) = cos (

q

_u,

q

_j) =

q

j u j u . . [5.1]

où || . || est la norme Euclidienne d’un vecteur. 5.2.3.1.2. Similarité des Requêtes Booléennes

Le calcul de la similarité entre deux requêtes booléennes est plus compliqué. Chaque requête qu contient deux sous-ensembles :

1. (Tqu)^ET/OU : un sous-ensemble de termes désirés (liés par ET/OU) dans le résultat de la requête qu, et

2. (Tqu)^NON: un sous-ensemble de termes non désirés (liés par NON) dans le résultat de la requête qu.

Supposons que les termes communs entre les deux requêtes qu et qj appartiennent à l’ensemble Tqu ∩ Tqj, cet ensemble d’intersection contient deux sous-ensembles de termes :

- le premier (Tqu ∩ Tqj)^ACCORD : est un sous-ensemble de termes désirés (liés par ET/OU) ou non désirés (liés par NON) dans le résultat des deux requêtes, c’est-à-dire les deux requêtes sont d’accord à propos de ce sous-ensemble.

- le deuxième (Tqu ∩ Tqj)^DESACCORD : est un sous-ensemble de termes désirés seulement dans le résultat d’une des requêtes (termes liés par ET/OU dans une requête et par NON dans l’autre), c’est-à-dire les deux requêtes sont en conflit ou en désaccord à propos de ce sous-ensemble :

(Tqu ∩ Tqj)^DESACCORD = [(Tqu)^ET/OU ∩ (Tqj)^NON] ∪ [(Tqu)^NON ∩ (Tqu)^ET/OU]

Tqu ∩ Tqj = (Tqu ∩ Tqj)^ACCORD ∪ (Tqu ∩ Tqj)^DESACCORD

La similarité entre des requêtes booléennes est calculée en considérant le sous ensemble (Tqu ∩ Tqj)^ACCORD ainsi : SimReq (qu, qj) = j u q q ACCORD T T qj qu

T

∪

∩ )

(

_[5.2]

L’exemple suivant clarifie cela, prenons les trois besoins d’information différents suivants avec les requêtes correspondantes :

1. besoin 1 : « on s’intéresse aux processus dans les systèmes d’exploitation et en particulier, dans le système Unix », alors la requête pour ce besoin est :

q1 : processus ET [(système ET exploitation) OU Unix]

2. besoin 2 : « on s’intéresse aux processus dans les systèmes d’exploitation autres que le système Unix » et la requête correspondant est :

q2 : processus ET [(système ET exploitation) NON Unix]

3. besoin 3 : « on s’intéresse aux processus dans les systèmes d’exploitation Unix » et la requête q3 est :

q3 : processus ET [(système ET exploitation) ET Unix]

On remarque que l’ensemble de termes communs entre n’importe quelles deux requêtes qu,

qj est le même :

(Tqu ∩ Tqj) = {processus, Unix, système, exploitation}

tandis que la différence entre ces requêtes se nuance à propos des sous-ensembles (Tqu ∩ Tqj)^ACCORDet (Tqu ∩ Tqj)^DESACCORD ainsi :

- (Tq1 ∩ Tq2)^ACCORD = {processus, système, exploitation} et (Tq1 ∩ Tq2)^DESACCORD= {Unix} où q1 désire le terme « Unix » lié par OU tandis que q2 l’exclue, il est précédé par NON.

SimReq (q1, q2) = ¾

- (Tq1 ∩ Tq3)^ACCORD= {processus, système, exploitation, Unix} et (Tq1 ∩ Tq2)^DESACCORD=∅ où q1 désire le terme « Unix » en le liant par OU et q2 aussi en le liant par ET.

SimReq (q1, q3) = 1

5.2.3.1.3. Similarité des Requêtes Vectorielles et Booléennes

Quand on a deux requêtes une vectorielle et l’autre booléenne, deux solutions sont possibles pour calculer leur similarité :

1. transformer la requête booléenne en requête vectorielle : où les termes de la requête booléenne sont repris et les mots clés appartenant à une négation NON sont omis [Savoy 1994b].

2. transformer la requête vectorielle en requête booléenne : en considérant que les termes de la requête vectorielle sont liés par ET.

Après cette transformation les deux requêtes ont la même représentation et on peut mesurer leur similarité selon la formule [5.1] ou [5.2].

5.2.3.1.4. Choix des Requêtes et des Documents

Nous mentionnons que la valeur de la similarité des requêtes du point de vue du système

SimReq est une valeur dans l’intervalle [0, 1] quels que soient les modèles des deux requêtes.

Ce critère de similarité de requêtes c-requête peut prendre deux valeurs : deux requêtes

peuvent être semblables (proches) ou dissemblables (lointaines).

Deux ensembles QSimReq(qu) et QDISimReq(qu) sont déterminés selon les similarités et les dissimilarités d’une requête avec la requête qu :

QSimReq (qu) = {qj : SimReq (qu, qj) ≥ αsimreq }

QDISimReq (qu) = {qj : SimReq (qu, qj) < αsimreq }

où αsimreq est un seuil qui détermine la notion de requête proche ou lointaine, nous

assumons αsimreq = 0.5. La similarité de requête ne détermine pas seulement ces deux

ensembles de requêtes mais aussi deux ensembles de résultats RSimReq(qu) et

RDISimReq(qu) obtenus respectivement par des requêtes semblables ou dissemblables à la

requête qu :

RSimReq (qu) = { Rqj : qj ∈ QSimReq (qu) }

RDISimReq (qu) = { Rqj : qj ∈ QDISimReq (qu) }

5.2.3.2. Point de Vue Sémantique

La similarité SimRes (qu, qj) entre les deux requêtes qu et une autre requête qj est considérée du point de vue des documents communs. Dans cette formule, le symbole Rqu représente l’ensemble des documents obtenus par l’utilisateur u en réponse à sa requête qu :

SimRes (qu, qj) = _u _j j u q q q q R R R R ∪ ∩

SimRes est une valeur dans l’intervalle [0, 1].

Nous pouvons également définir des ensembles similaires à ceux qui sont définis par le point du vue précédent, en se focalisant sur la similarité des résultats des requêtes.

Deux ensembles de requêtes QSimRes(qu) et QDISimRes(qu) sont déterminés selon les similarités et les dissimilarités de résultat d’une requête avec le résultat de la requête qu

QSimRes (qu) = { qj : SimRes (Rqu, Rqj) ≥ αsimres } QDISimRes (qu) = { qj : SimRes (Rqu, Rqj) < αsimres }

où αsimres est un seuil qui détermine la notion de requête proche ou éloignée du point de vue

sémantique, nous prenons la valeur 0.5 pour ce seuil. Deux ensembles de documents

RSimRes(qu) et RDISimRes(qu) sont déterminés ainsi :

RSimReq (qu) = { Rqj : qj ∈ QSimRes (qu) }

RDISimReq (qu) = { Rqj : qj ∈ QDISimRes (qu) }

5.2.3.3. Intérêt du Critère de Similarité de Requêtes

Nous résumons l’intérêt de ce critère de similarité dans les points suivants :

- diminuer la redondance des requêtes : le fait de savoir qu’une requête a déjà été posée est

une information intéressante, qui peut augmenter l’efficacité du groupe (en terme de temps) en évitant la redondance. Cela peut être atteint via la présentation des requêtes qui sont proches de la requête de u, (critère : requêtes similaires du point de vue système).

- comparer et s’évaluer : dans un cas de blocage, donc lorsque l’utilisateur n’arrive pas à un

résultat satisfaisant, il peut avoir besoin de s’évaluer par rapport aux autres. Par exemple, une présentation des résultats obtenus par des requêtes très différentes de la sienne du point de vue système lui permet d’évaluer si c’est sa propre requête qui n’est pas correcte ou si les collections ne contiennent pas de résultats intéressants, (critère : requêtes dissimilaires du point de vue système).

- exploiter tous les aspects du sujet de recherche : une aide pour l’utilisateur serait peut-être

de lui fournir une présentation des requêtes dont les résultats sont lointains et bien évalués ou une présentation des résultats lointains du sien sans considérer la requête à l’origine de l’obtention des résultats. Il peut ainsi cerner d’autres aspects du sujet de recherche (critère : requêtes dissimilaires du point de vue sémantique).

- obtenir un bon résultat : dans [Belkin 1993], (voir le paragraphe 3.1) les auteurs ont

montré que la combinaison des résultats des requêtes booléennes formulées par des experts de recherche pour le même besoin d’information a souvent amélioré la performance. Selon cette recherche, et si nous supposons que les requêtes similaires expriment le même besoin, nous pensons qu’une présentation des résultats dont les requêtes sont similaires peut donner une bonne performance (critère : requêtes similaires du point de vue système).

On pouvait aussi combiner les deux points de vue pour :

- centrer la recherche : où l’utilisateur peut sélectionner des requêtes différentes des

l’utilisateur ait soumis une bonne requête (l’utilisateur a obtenu un résultat satisfaisant) et qu’il veuille se concentrer sur le même sous-ensemble de documents renvoyés par le système de recherche comme résultat. Ainsi il peut obtenir cela par la fusion des requêtes dont les résultats sont similaires (critère : requêtes dissimilaires du point de vue système, et similaires du point de vue sémantique).

- étendre une requête : en ajoutant des termes synonymes ou d’autre variété morphologique,

qui peuvent apparaître dans des requêtes similaires ou dissimilaires selon un ou les deux points de vue système ou sémantique. Nous revenons à cette technique dans le paragraphe 5.4.2.

Dans le document Recherche d'Information Collaborative (Page 127-131)