Pondération des termes de la requête dans le système SARIPOD

3. Le Réseau Possibiliste du système SARIPOD

3.2 Pondération des termes de la requête dans le système SARIPOD

Lors de la reformulation de sa requête, l’utilisateur choisi, pour chaque terme de sa requête initiale, un nombre de termes sémantiquement proches à ajouter pour la contruction de sa requête reformulée. Ces termes sont extraits des classes de « sens » construites dans le RPMH de dictionnaire. En fait, ces préférences entre les termes de la requête représentent la seconde partie des préférences proposées par l’utilisateur au système.

Considérons une requête Q(t₁, t₂, t₃) composée de trois termes. Elle deviendra, après reformulation, la requête Q’(t1, t11, t12, t13, t2, t3, t31, t32), où t11, t12, t13sont les trois termes les plus proches de t₁et t31, t32 sont les deux termes les plus proches de t₃. En fait, ces termes proches sont insérés dans Q’ chaque fois que l’utilisateur saisit un nombre de termes proches pour un terme donné de la requête Q.

Nous définissons le degré de préférence (pondération) de l’utilisateur d’un terme ti par rapport aux autres termes de la requête par :

Préf(ti) = [Nbre termes proches choisis pour ti dans Q’ / Nbre termes de Q] + 1 (4.11) Ici nous ajoutons le facteur 1 pour éviter que les préférences des termes pour lesquels nous n’avons pas choisi de termes proches soient nulles. Pour l’exemple du paragraphe précédent nous avons :

Préf(t1) = 3/3 +1 = 2 ; Préf(t11) = 0 +1 = 1 ; Préf(t12) = 0 +1 = 1

Préf(t13) = 0 +1 = 1 ; Préf(t2) = 0 +1 = 1 ; Préf(t3) = 2/3 +1 = 5/3

Préf(t31) = 0 +1 =1 ; Préf(t32) = 0 +1 =1

Il est clair ici que le terme t1 est plus préférable que t3 et t2 ;parce que l’utilisateur a choisi un nombre plus important de mots sémantiquement proches de t1, ce qui prouve bien qu’il s’agit d’un terme d’appui à sa requête. Le terme t3 est aussi préférable au terme t2 car l’utilisateur n’a pas demandé de mots proches de t₂pour en préciser le sens.

Ainsi, les préférences calculées ici sont bien conformes avec le profil de l’utilisateur, parce que pour ce dernier le terme le plus important est celui dont il cherche le maximum de termes

proches. De cette manière, nous introduisons ces préférences entre les termes de la requête dans notre modèle possibiliste de la manière suivante [Elayeb et al., 2008] :

La pertinence quantitative de chaque entité logique d'un document (ELd_j) de la collection, sachant que la requête est Q’ = (t1, t2, …, tT), est calculée de la manière suivante:

La formule (4.3) de la section précédente devient [Elayeb et al., 2009]: Π’(ELdj|Q’) = Π(t₁| ELd_j)*Préf(t1)*…* Π(t_T| ELd_j)* Préf(tT)

= nft1j * Préf(t1)*…* nftTj* Préf(tT) (4.12) Avec nftij = tfij/max (tfkj): fréquence normalisée des termes de la requête dans l’entité logique. La certitude de restituer une entité logique d'un document pertinent dj (ELdj) pour une requête, notée N(ELdj|Q’), est donnée de façon analogue à celle présentée dans la section précédente, sauf que la formule (4.7) devient :

Π’(¬ELdj|Q’) = [(1- φEL1j)/Préf(t1)]*…* [(1- φELTj)/Préf(tT)] (4.13)

En fait, nous avons bien introduit le facteur Préf(ti) dans le calcul de la possibilité ainsi que de la nécessité, parce que ce facteur est bien lié aux fréquences normalisées des termes (nftij) dans le document recherché.

Exemple.

Considérons une mini-collection de 3 documents d1, d2 et d3 : d1 = {t1, t1, t1, t11, t11,t12, t12, t12, t13, t2, t2, t3, t31}, d2 = {t1, t1, t1, t11, t11,t12, t12, t12, t13, t2, t2, t3, t32}, d3 = {t1, t11, t11, t12, t12, t2, t2, t3, t31, t32, t32}

Ces termes sont répartis sur les entités logiques de ces trois documents comme l’indique le tableau 4.9. L’évaluation des documents d1, d2 et d3 pour la requête Q’(t1, t11, t12, t13, t2, t3, t31,

t32) donne (nous ne donnons que le calcul non trivial pour les préférences 1) : ∀ ELj ∈{NM, (NM-1), (NM-2), (NM-3), (NM-4), LF, LT, LSM, P}, ∀ i=1, 2, 3 Π(ELjd_i|Q’) = ΠPréf(EL_jd_i|Q’) = 0, N(NMd₁|Q’) = 0.48, NPréf(NMd₁|Q’) = 0.73, N(Pd1|Q’) = 0.94, NPréf(Pd1|Q’) = 0.96, N(Pd2|Q’) = 0.82, NPréf(Pd2|Q’) = 0.94,

N(LSMd3|Q’) = 0.73, NPréf(LSMd3|Q’) = 0.84, N(Pd3|Q’) = 0.18, NPréf(Pd3|Q’) = 0.5,

Entité logique du document d1 d2 d3

Niveau Maximal (NM) t1, t2 t1, t3 t1, t32 NM-1 t2 NM-2 t12 NM-3 t12 NM-4 t₃₁ Légende Figure (LF) t11 Légende Tableau (LT) t11

Légende Séquence Multimédia

(LSM) ^t¹^,^t¹² ^t¹³^,^t¹² ^t³^{, t}³² paragraphe (P) t1, t2,t13,t31, t12, t3,t11 t1, t1, t2, t2, t32, t11, t12 t11, t11, t12, t12, t2

Préférences de l’utilisateur Entité logique du document

Coefficients αj Préférences 1 (P1) Coefficients αj Préférences 2 (P2) Coefficients αj Préférences 3 (P3) Niveau maximal (NM) 10 2 2 NM-1 9 6 10 NM-2 8 5 4 NM-3 7 10 7 NM-4 6 4 9 Légende Figure (LF) 5 3 3 Légende Tableau (LT) 4 9 6

Légende Séquence Multimédia (LSM) 3 7 5

paragraphe (P) 2 8 8

Tableau 4.10 : Les trois préférences de l’utilisateur du système SARIPOD

Préférences 1 (P1) Préférences 2 (P2) Préférences 3 (P3)

d1 d2 d3 d1 d2 d3 d1 d2 d3

Sans préférences entre termes de la requête

14,66 13,46 14,55 16,38 20,7 12,31 14,74 16,66 15,17

Ordre de pertinence de documents

1 3 2 2 1 3 3 1 2

Avec préférences entre termes de la requête

17,8 17,3 18,02 18,44 26,38 16,14 16,4 22,34 18,78

Ordre de pertinence de documents

2 3 1 2 1 3 3 1 2

Tableau 4.11 : Résultats de l’effet de l’ajout de préférences entre termes de la requête

Le système SARIPOD enregistre les préférences (pondérations) entre les termes de la requête lors de l’interaction de l’utilisateur avec le système. En fait, ces préférences entrent bien dans le cadre de la définition de son profil au système.

Les résultats collectés dans le tableau 4.11 montrent bien l’importance de la définition des préférences entre les termes de la requête utilisateur pour le cas de préférences 1 (P1). En effet, ce facteur a été introduit comme un facteur multiplicatif dans le calcul de la possibilité et comme un quotient dans le calcul de la nécessité ; ce qui permet en conséquence d’augmenter les deux scores de la possibilité et de la nécessité à la fois.

En cas du non prise en compte de pondérations des termes et pour les trois préférences du tableau 4.10, l’ordre de pertinence de documents change en passant de préférences à des autres. Alors qu’en cas de la prise en compte de ces pondérations, uniquement les préférences 1 s’avèrent significatives et contribuent au changement de l’ordre de pertinence de documents. Ceci grâce au terme t1 (de préférence 2 et existant dans une entité logique de poids 10) et au terme t2 (existant dans une entité logique de poids 9) qui ont contribué à l’augmentation du score de d3 par rapport aux autres. Pour les deux autres préférences P2 et P3, le terme le plus préférable (t1) existe dans une entité logique de poids 2 ; c’est pour cette raison le facteur Préf(t1) n’a pas fait les différences dans les scores des documents. Il s’agit,

en fait, d’un facteur qui dépend de coefficients de pertinence possibiliste pour définir le profil de l’utilisateur du système.

Globalement, l’insertion des facteurs Préf(ti) dans les calculs des possibilités et des nécessités, consiste à augmenter les scores de pertinences possibilistes des documents contenant ces termes dans le but de pénaliser les scores de pertinences des documents ne les contenant pas. La pénalisation et l’augmentation des scores sont proportionnelles au pouvoir des termes à discriminer entre les documents de la collection.

D’autre part, ces pondérations permettent de restituer des documents classés par préférence de pertinence. Il est possible dans ce cas d’évaluer à quel point un document d1 est préféré au document d2 ou de mesurer la préférence du document d1 par rapport à un ensemble de documents {d3, d4}.

En fait, ces facteurs Préf sont plus efficaces que le facteur idf, puisque la distribution des termes dans la collection de documents ne dépend pas seulement de la présence ou de l’absence des termes dans les documents de la collection (comme idf), mais de la distribution de leur densité dans les documents de la collection. Ainsi, comparé à idf, ces mesures sont plus performantes pour la discrimination négative.

Dans le document SARIPOD : Système multi-Agent de Recherche Intelligente POssibiliste de Documents Web (Page 125-128)