Reformulation de requêtes dans le modèle Bayésien

Chapitre 3 : Modèle Bayésien versus Modèle Possibiste de Recherche d’Information

3. Reformulation de requêtes dans le modèle Bayésien

Nous nous intéressons dans cette section aux techniques de Relevance Feedback (RF) dans le modèle BNR.

Soit b le nombre de documents jugés par l'utilisateur. L’ensemble {

h h k k k k d D d D₁ = ₁,..., = } contient les documents pertinents et l'ensemble {

b b h h k k k k d D d D ₊₁ = ₊₁,..., = } contient les documents non pertinents, alors la nouvelle requête sera:

Q1 = Q ∧ { h h k k k k d D d D = ,..., = 1 1 , b b h h k k k k d D d D ₊₁ = ₊₁,..., = } (3.10) Chaque noeud X non-instancié reçoit de tous ses noeuds parents un message sous forme de vecteur ΠX(Z) , il reçoit encore de tous ses noeuds fils Y un message sous forme vecteur λY(X ) .

Chaque noeud instancié X reçoit un message λ₀(X) d'un noeud fils imaginaire avec : λ0(X) = (1, 0) si X = x

Si l'évidence de X est partielle par rapport à une observation (Obs) alors :

Pour que tous les noeuds reçoivent λ0, on utilise le vecteur λ0(X ) = (1, 1) pour les nœuds non instancié.

Le tableau 3.1 représente la table de contingence des termes. Nous définissions quelques notions de base qui seront utilisées dans la suite de cette section.

i i t T = T_i = t_i Total Non pertinent i t r n i t r n n _r pertinent i t r n i rt n n _r i t n i t n |RQ|

Tableau 3.1 : Table de contingence des termes

Avec :

RQ : l’ensemble des documents restitués et évalués pour une requête Q ;

|RQ| : cardinale de RBQB ;

n : Nombre de documents pertinents ;

n : Nombre de documents non pertinents ;

n : Nombre de documents restitués qui contiennent le terme ti;

n : Nombre de documents restitués qui ne contiennent pas le terme ti;

n : Nombre de documents pertinent qui contiennent le terme ti;

t r

n : Nombre de documents non pertinent qui contiennent le terme ti;

t r

n : Nombre de documents pertinent qui ne contiennent pas le terme ti;

t r

n : Nombre de documents non pertinent ne contiennent pas le terme ti.

Par ailleurs, les termes indexant les documents restitués sont classés en trois catégories :

- Terme qui se trouve dans des documents pertinents seulement (termes positifs +

ℑ ).

- Terme qui se trouve dans des documents non pertinents seulement (termes négatifsℑ ).−

- Terme qui se trouve dans des documents pertinents et non pertinents (termes neutres ±

ℑ ). Il faut distinguer entre les termes indexant les documents trouvés et la requête et entre les autres qui indexent les documents trouvés et absents de la requête.

ℑ : L’ensemble de termes indexant les documents trouvés et la requête et qui sera utile pour répondérer les termes de la requête initiale ;

ℑ : L’ensemble des termes indexant les documents trouvés et absents de la requête et ce dernier ensemble est utilisé pour représenter les termes à ajouter (Expansion de la requête).

3.1 Repondération de termes de la requête initiale Q

Les termes de l'ensemble q

ℑ qui étaient instanciés comme pertinents, reçoivent un message λ₀(T) = (0,1). Les termes de la requête initiale qui occurrent seulement dans des documents non pertinents ne sont pas considérés. Par conséquence, ils devraient être pénalisés en diminuant leur pertinence. Les autres termes (λ0(T) = (1,1)) sont considérés comme des termes n'appartenant pas à la requête (nonquery term) et il est plus valable d'utiliser le vecteur λ0(Ti) = ( i t γ ,1) à la place de λ0(Ti) = (1,1) avec 0πγ π1 i t .

La méthode proposée par [De Campos et al., 2003] considère que

γ est très sensible au nombre de documents non pertinents contenants Ti (

t r

n définie ci-dessus) et a montré que la meilleur valeur de

γ est celle qui tend vers le vecteur λ0(T) = (1,1) et a proposé une fonction qui satisfait cette condition avec 0.5πγ π1

i t . ) 1 , 1 1 1 ( ) ( 0 + − = i t r i n T λ (3.13)

D'autre part, les termes appartenants à ℑ ∩q ℑ et ceux qui appartiennent à+ ℑ ∩q ℑ sont les ±

plus important mais en principe on ne peut pas augmenter la pertinence de termes positifs ou neutres qui occurrent dans la requête initiale car ils sont déjà complètement pertinents. Ainsi, la première approche simple qui s'appelle tr-ins et qui traite ce genre de termes propose que chacun de ces termes reçoive le message λ0 (T) = (0,1).

Une autre approche est proposée pour augmenter la pertinence de ce genre des termes qui s'appelle tr-rep. Cette approche est basée sur la duplication de ces noeuds termes dans le réseau. Le nombre de duplication de chacun de ces noeuds est égal au nombre de document pertinents contenant ce terme (

n ) et après il faut instancier les noeuds dupliqués comme

pertinents.

Pour changer la structure du réseau, il suffit de connecter les noeuds termes dupliqués comme fils de Ti et connecter les noeuds documents fils de Ticomme fils des noeuds dupliqués. La figure 3.8 montre une duplication de trois fois le terme Ti :

Figure 3.8 : Duplication trois fois du terme Ti

Th Ti Tk

Du Dj

Th Ti Tk

Ti^’ Ti^’’

Par ailleurs, il est inutile de changer la structure du réseau. En effet, le changement se fait virtuellement et il suffit de multiplier par

n le facteur qui calcule le poids du terme dans la formule de probabilité générale et ceci pour chaque terme appartenant à q

ℑ ∩ (ℑ ∩+ ℑ ). En ±

conséquence, la pertinence de ces termes va augmenter

n fois automatiquement.

3.2 Expansion de la requête

L’expansion de la requête consiste à ajouter des nouveaux termes à la requête initiale Q. Comme nous l’avons indiqué dans la section 3.1, il existe trois classes de termes ( −

ℑ ,ℑ ,⁺ ℑ ). Puisque ^± e

ℑ est l’ensemble de termes duquel nous pouvons choisir les termes à ajouter à la requête initiale, les nouveaux ensembles des termes seront donc :

- Les termes négatifs qui appertiennent à e

ℑ ∩ℑ ; −

- Les termes positifs qui appertiennent à e

ℑ ∩ ℑ ; +

- Les termes neutres qui appertiennent àℑ ∩e ℑ . ±

Tous les termes négatifs sont instanciés comme non pertinents et ont reçu le vecteur λ0(Ti ) = (1,0) . Les termes neutres ont reçu le vecteur λ0(Ti ) = (1,1) .

En générale la probabilité qu'un terme soit pertinent ou non est désignée par )

(rt_i

P (respectivementP(rt_i)). Ces deux probabilités sont utilisées pour calculer le vecteur λ0(Ti ) et dans ce cas : λ0(Ti ) = (P(rt_i),P(rt_i)) (3.14) Où ,1) ) ( ) ( ( ) ( 0 i i i t r P t r P T = λ (3.15) Plusieurs méthodes ont été utilisées pour calculer ces probabilités, parmi lesquelles nous citons la méthode « qe-gmle » [De Campos et al., 2003] :

i i t rt i n n t r P( )= et i i t t r i n n t r P( )= (3.16) En conclusion, la reformulation de requête via l'application de la technique de RF permet d'augmenter substantiellement le niveau de précision par rapport à la requête initiale. Il s’agit donc d’un moyen efficace d'amélioration des performances du système de repérage d'information. Si plusieurs paramètres doivent être considérés pour une utilisation optimale des méthodes, il n'en demeure pas moins que les différentes variantes de la technique ont donné des résultats largement positifs. Le RF incrémental de par son interface utilisateur conviviale et sa formule unifiée et simplifiée devrait permettre de la vulgariser. Aujourd'hui, l'avantage procuré par cette technique est tel que plusieurs moteurs de recherche Web l'intègrent à leur mécanisme de recherche. L'impact direct est l'augmentation des requêtes soumises aux moteurs. Cette charge accrue sera d'autant plus limitée qu'il y aura convergence des résultats obtenus vers une satisfaction plus complète des usagers.

Cependant, le modèle proposé par Brini et al. [Brini et al., 2004abc], tente de fournir un autre sens possibiliste à ces représentations ainsi qu’à l’évaluation (comparaison de ces deux représentations). Une réponse à la problématique peut être apportée par l’utilisation des Réseaux Possibilistes (RP).

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 79-83)