Modèle possibiliste quantitatif de RI - : Modèle Bayésien versus Modèle Possibiste de Recherche

Chapitre 3 : Modèle Bayésien versus Modèle Possibiste de Recherche d’Information

5. Modèle possibiliste quantitatif de RI

Le modèle proposé par Brini et al. [Brini et al., 2004abc] utilise d’une nouvelle manière les connaissances disponibles. Ces connaissances concernent les documents de la collection ainsi que la liste des termes d’indexation et de leur fréquence. Les documents de la collection ainsi que leurs termes d’indexation sont représentés par des réseaux naïfs possibilistes. Considérant un terme relatif à un document, une relation de dépendance quantifiable existe entre un terme et un document. La requête déclenche un processus de propagation entraînant le changement de croyance sur les nœuds documents.

Possibilité Nécessité

Plausibilité Croyance

Ce processus de recherche peut être analogue à une étape de diagnostic dans le domaine médical. La collection de documents est comme un ensemble de maladies possibles, les symptômes sont les termes. La requête est vue comme une observation. Le but étant de trouver la maladie (document) plausiblement développée par le patient (requête), étant donnés les symptômes qu’il présente. Dans le modèle proposé la pertinence est représentée dans le cadre quantitatif.

5.1 Architecture du modèle

Le modèle est représenté par un réseau possibiliste d’architecture définie sur la figure 3.11. Pour cette approche les relations de dépendance existant entre termes (terme-terme) et entre les documents (document-document) ne sont pas traitées [Brini et al., 2004abc].

Figure 3.11 : Architecture générale du modèle possibiliste quantitatif

Avec :

Nœud Dj = nœud d’un document de la collection. Les variables Dj sont binaires. Le domaine de Dj est {dj, ^dj}. L’instanciation Dj = dj signifie que le document Dj est pertinent pour la requête. Dj = ^dj, signifie que le document Dj est non pertinent.

Nœud Ti = nœud terme. C’est un terme d’indexation du document. Les variables T_i sont binaires. Le domaine d’un terme est dom(Ti) = {ti, ^ti}. Ti = ti signifiera que le terme i est représentatif du document recherché, Ti = ^ti signifie que le terme i est non représentatif de ce document. Ce domaine est lié au contexte du parent.

Arc : un arc orienté d’un noeud document Dj vers les noeuds termes d’indexation exprime une relation de dépendance entre le document et les termes qu’il contient. Un arc entre un nœud D_i et un noeud T_j traduit la possibilité et la nécessité que T_i soit représentatif (ou non) du document Dj et ceci en fonction de sa fréquence dans le document et de celle dans la collection.

5.2 Evaluation des poids du réseau

Pour évaluer la possibilité et la nécessité de pertinence, Brini et al. ont besoin de définir explicitement la pertinence représentée par des arcs dans le réseau. Une nouvelle interprétation de la pondération des termes est suggérée. L’approche proposée tente de distinguer entre les termes possiblement représentatifs des documents (ceux qui sont absents sont écartés) et ceux nécessairement représentatifs, c’est-à-dire les termes qui suffisent à caractériser les documents.

Hypothèse 1 : Un terme est d’autant moins représentatif d’un document qu’il apparaît peu

fréquemment dans ce document ;

D₁ T₁ D_i D_N T₂ T₃ T₄ T_T

… …

…

Hypothèse 2 : Un terme est d’autant plus nécessairement représentatif du document qu’il

apparaît fréquemment dans ce document et peu fréquemment dans les autres documents de la collection.

Hypothèse 3 : A priori, un document possède une égale possibilité d’être pertinent ou non

pour un utilisateur potentiel, soit

(dj) = (^dj) = 1,  j (3.33) D’après l’hypothèse 1, (t_i| d_j) peut être estimée avec la fréquence tf_ij de t_i dans d_j:

(t_i| d_j) = nft_ij = tf_ij /max (tf_kj) (3.34) Où nftij est la fréquence normalisée. Notons qu’avec l’hypothèse 3, on peut en déduire que :

(ti ^ dj) = (ti | dj) (3.35) Un terme de poids 0 signifie que le terme n’est pas compatible avec le document. S’il est égal à 1, alors le terme est possiblement représentatif ou pertinent pour décrire (donc représenter) le document. Ici, le terme “représentatif” ne doit pas être considéré au sens large, mais comme ”pertinent pour restituer le document”. Si un terme est représentatif du document, dans le sens général, il n’aiderait pas forcément à restituer le document. Typiquement, pour un document traitant de la “logique floue”, le terme “floue” est très représentatif, mais uniquement potentiellement, puisqu’il ne le caractérise pas sur une collection de documents traitant du même domaine. Notons que le degré de possibilité est normalisé (son maximum vaut 1). Ce degré évalue à quel point un terme est “typique” du document et donc à quel point il est possible qu’il contribue à sa restitution. S’il apparaît avec une fréquence maximale, alors il est considéré comme le meilleur candidat potentiel pour sa représentation.

En logique possibiliste, la mesure de possibilité possède une mesure duale : la nécessité. Celle-ci, dans ce contexte, exprime l’idée que s’il est certain qu’un terme ne représente pas un document, alors il est certain que la présence de ce terme rejette le document. Cette certitude est exprimée par :

N (ti ^dj)  1 - nftij, (3.36) où l’implication matérielle.

Un terme discriminant dans une collection, est un terme qui apparaît fréquemment dans peu de documents de la collection. Un terme discriminant est un terme nécessairement représentatif du document, il contribue à sa sélection et donc à sa restitution en réponse à une requête. Brini et al. Définissent un degré de nécessaire pertinence ij, du terme ti pour représenter le document d_j, par :

N (ti  dj) ij (3.37)

Et ij = µ1(nC/ndi)*µ2(nftij) (3.38)

Où

- nC = nombre de documents de la collection,

- ndi = nombre de documents de la collection contenant le terme ti ,

- µ₁et µ₂ = fonctions de normalisation. Typiquement µ₁: fonction croissante de type logarithmique, µ2 : la fonction identité.

Ce degré de nécessaire pertinence va donc permettre de limiter la possibilité que le terme soit compatible avec le rejet du document par :

(ti ^

dj)  1- ij (3.39)

Le tableau 3.5 donne la distribution de possibilité la moins spécifique obéissant aux contraintes (3.36) et (3.37) définie sur {d_j, ^d_j}{t_i, ^t_i}.

dj 

d_j

ti nftij 1- ij



ti 1 1

Tableau 3.5 : Distribution de possibilité

5.3 Un simple schéma de propagation

Dans le cadre numérique, les valeurs de possibilité et de nécessité, a priori et conditionnelles, ont un sens. L’idée est de répondre à des propositions du type :

 “di est pertinent pour Q” est possible ou non, quantifiée par (di|Q),

 “di est pertinent pour Q” est certain ou non, quantifiée par N(di|Q).

Pour le modèle de base de Brini et al. présenté ici, la requête est composée d’une simple liste de mots-clés. Lorsque la requête est connue, un processus de propagation est déclenché à travers le réseau, modifiant les valeurs des possibilités a priori des documents (ici possibilité 1 partout) en vertu de leurs liens avec les termes d’indexation. Dans ce modèle, la formule de propagation est identique à celle des réseaux Bayésiens naïfs [Ben Farhat et al., 2002]. Cependant, deux évaluations indépendantes sont réalisées : (d_j|Q) et (¬d_j|Q) (car leur somme ne vaut pas 1). Soit une requête Q = (ti, …, tT) (interprétée conjonctivement), alors

(d_j|Q) = (( Q|d_j)* (d_j)) / (Q) (3.40) La possibilité de pertinence évalue à quel point Dj = dj est possiblement pertinent étant donnée une requête Q. Lorsque cette valeur vaut 0 le document est écarté. Le modèle suppose de plus l’indépendance conditionnelle des termes.

Hypothèse 4 : les termes de chaque document de la collection sont conditionnellement

indépendants de ce document.

Si le document D_j est composé des termes T, l’hypothèse ci-dessus, jointe à l’hypothèse 3 d’absence de connaissance a priori sur la pertinence des documents, simplifie la formule (3.40) lorsque le document est instancié positivement (Dj = dj) :

(dj|Q) est alors proportionnel à :

’(dj|Q) = (t1| dj)*…* (tT| dj) (3.41) = nft_1j*…* nftTj

Pour comparer les possibilités de pertinence des documents de la collection, uniquement ce numérateur est utile. Le numérateur (3.36) de la formule (3.35) mesure la pertinence potentielle relative d’un document pour une requête.

La certitude de restituer un document pertinent d_j pour une requête, notée N(d_j |Q), est donnée par :

N(d_j| Q) = 1-  (¬dj|Q) (3.42)

Avec

Lorsque le document est instancié et d’après les hypothèses 3 et 4, (¬dj| Q) est alors proportionnel à :

’(¬dj| Q) = (t₁| ¬d_j)* …*(t_T| ¬d_j) (3.44) Ce numérateur peut être exprimé par :

’(¬dj| Q) = (1- 1j)*…* (1- Tj) (3.45)

Les documents préférés sont ceux qui ont une valeur N(dj|Q) élevée parmi ceux qui ont une valeur (dj| Q) élevée aussi. Si N(dj| Q) vaut zéro, les documents restitués sont (sans garantie d’adéquation totale), ceux qui ont une valeur (dj| Q) élevée. Notons que si la requête contient des mots-clés non souhaités tk, on remplace ( tk| dj) par (¬tk| dj) (=1), et de même pour ( tk| ¬dj), dans les formules (3.41) et (3.44).

En conclusion, l’approche possibiliste quantitative présentée ci-dessus fournit un nouveau cadre pour l’évaluation de la pertinence aussi bien pour la représentation des documents et de la requête que pour la sélection des documents en réponse à un besoin utilisateur, et ceci en modélisant l’imprécision dans la définition de la pertinence. Les mesures de possibilité et de nécessité sont utilisées pour quantifier les relations de dépendance (ou indépendance) entre les termes et les documents qu’ils indexent et permettent de restituer les documents nécessairement ou possiblement pertinents étant donné une requête.

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 87-91)