• Aucun résultat trouvé

Chapitre 1 Recherche d'information

1.3 La RI flexible

1.3.2 Formulation de requêtes flexibles

Dans les requêtes, la flexibilité a été introduite à deux niveaux :

Au niveau des critères de recherche : Pour permettre l’expression des préférences utilisateur sur les critères de recherche, les termes de la requête ont été pondérés

[Buell et al., 1981; Bordogna et al., 1991; Pasi, 1999]. Des poids numériques ont d’abord été utilisés. Puis, des poids qualitatifs, plus simples et plus intuitifs, ont été formulés à partir de termes linguistiques tels que : important, très important…

[Bordogna et al., 1993].

Au niveau des opérateurs liant les critères de recherche: des opérateurs flous, intermédiaires entre le AND et le OR ont été proposés, et des quantificateurs linguistiques tels que : tous (all), au moins k (at least k),… ont été introduits dans le

langage de requête [Bordogna et al., 95] comme opérateurs d’agrégation flous

qualitatifs.

CHAPITRE 1. RECHERCHE D’INFORMATION

44

1.3.2.1 Prise en compte des préférences utilisateur dans le langage

de requête

En associant des poids aux termes de la requête, l’utilisateur peut ainsi fournir une

description plus précise de son besoin informationnel [Herrera-Viedma, 99]. Une

requête est alors définie comme une expression booléenne dont les composants élémentaires sont des couples <t, w> où t est un critère de recherche et w est le poids

qui lui est associé[Herrera-Viedma, 00]. Les poids de requête permettent à l’utilisateur

de spécifier des restrictions qui doivent être satisfaites par la représentation floue des documents retrouvés par le SRI. Les poids de requête ont d’abord été formalisés comme des valeurs numériques [Bookstein, 80], [Bordogna et al., 91a], [Buell et al., 81b], [Kantor, 81], [Salton et al., 83a], [Waller et al., 79], puis des poids linguistiques plus intuitifs ont été définis [Bordogna et al., 91b].

Les poids numériques de requête indiquent une contrainte qui doit être satisfaite par la représentation des documents de la collection indexée. La nature de la contrainte imposée par le critère de sélection pondéré dépend de la sémantique associée au poids

[Bordogna et al., 91a ; Kraft et al., 95]. Dans la littérature, différentes sémantiques des poids de requête ont été proposées. Le poids peut être interprété comme poids d'importance, comme seuil, ou comme description du document idéal.

La sémantique d’importance [Bookstein, 80; Waller et al., 79; Bookstein, 80; Radecki

, 79; Crestani et al., 99; Yager, 87] définit les poids de requête comme des mesures de l’importance relative de chaque terme de la requête par rapport aux autres termes (de la requête). En associant des poids d’importance relative aux termes dans une requête, l’utilisateur spécifie qu’il recherche plus les documents contenant le critère le plus important (poids le plus élevé) que ceux contenant des critères moins importants (poids moins élevés).

La sémantique du seuil [Buell et al., 81a; Buell et al., 81b; Kraft et al., 83] définit les

poids des requêtes comme des conditions à satisfaire pour chaque terme de la requête considéré dans l’appariement document-requête. Autrement dit, le seuil indique le niveau d’acceptation du degré de signification d’un terme dans un document pour qu’il soit sélectionné.

La sémantique de la perfection [Bordogna et al., 91a; Cater et al., 89; Bordogna et al.,

91a; Kraft et al., 95] consiste à considérer la requête pondérée comme une description du document idéal souhaité par l’utilisateur. En associant des poids aux termes de la requête, l’utilisateur souhaite rechercher tous les documents dont le contenu satisfait ou est plus ou moins proche du besoin informationnel idéal représenté par la requête pondérée.

La limitation principale des poids numériques de requête est de forcer l'utilisateur à quantifier le concept qualitatif et flou d’importance alors qu’il est plus naturel d’utiliser des quantificateurs linguistique (tels que important, très important, assez important …). Bordogna et Pasi [Bordogna et al., 91b] ont défini un modèle flou de recherche dans lequel les descripteurs linguistiques sont formalisés dans le cadre de la théorie des ensembles flous [Zadeh, 75] par des variables linguistiques. Un critère élémentaire de recherche est un couple <t, w> où t est un terme et w est une valeur qualitative appartenant à l’ensemble des termes de la variable linguistique Important. Par exemple, l'ensemble des termes de la variable linguistique pourrait être l’ensemble défini par : T(Important)= {important, très important, assez important, peu important,…}. Dans ce cas, le terme linguistique est dit primaire, alors que les termes modulés par les modificateurs linguistiques très, peu, assez (soit très important, assez important,…) sont dits termes non primaires. Les significations des termes non primaires dans T(Important) sont obtenus en définissant d’abord la fonction de compatibilité associée au terme primaire important, µimportant, et puis en modifiant

µimportant, selon la sémantique du modificateur linguistique utilisé [Crestani et al., 99].

1.3.2.2 Agrégation linguistique des critères de recherche

Des opérateurs d’agrégation linguistiques flexibles (tels que au moins n, la plupart de, tous,…), plus simples et plus intuitifs que les opérateurs booléens classiques, ont été

définis [Bordogna et al., 91b]. Les conditions d’une requête booléenne complexe sont

plus facilement et intuitivement formulées. Les opérateurs de moyenne pondérée

ordonnée (OWA) [Yager, 88] ont été utilisés pour définir les quantificateurs

linguistiques.

Exemple

Si l’on souhaite qu'au moins 3 des quatre termes climat, satellite, météorologie et image soient satisfaits, la requête booléenne devra être formulée comme suit :

(climat AND satellite AND météorologie) OR (climat AND satellite AND image) OR (climat AND météorologie AND image) OR (météorologie AND image AND satellite). En utilisant des quantificateurs linguistiques, la même requête est plus simplement exprimée par :

au moins 3 (climat, satellite, météorologie, image)

Outre le quantificateur au moins k qui est défini comme un seuil strict, d'autres quantificateurs avec une signification vague peuvent être définis. Le quantificateur

presque k est interprété comme seuil flou sur le nombre de critères à satisfaire.

CHAPITRE 1. RECHERCHE D’INFORMATION

46 satisfaits. Le quantificateur plus de k spécifie que plus le nombre de critères satisfaits est supérieur à k, plus la valeur globale de satisfaction est élevée. La valeur de pertinence d’un document d pour une requête q = quantificateur (q1, … , qn) est

calculée comme suit :

(

d q

)

OWAquantifier

(

e

(

d q

)

e

(

d qn

))

RSV , = , 1 ,K, ,

dans laquelle OWAquantifier est l'opérateur OWA lié au quantificateur quantifier. Les qi sont

les critères élémentaires de recherche.

L'opérateur AND Possible (possibly and) [Bordogna et al., 91b], permet de spécifier des

critères de sélection optionnels par rapport à des critères essentiels.

Exemple

Pour exprimer l’intérêt pour les documents traitant des «systèmes experts » (critères essentiels), tandis qu’on déclare un moins grand intérêt pour les documents traitant également de « fuzzy" ou « ANN » (critères facultatifs), la requête suivante peut être formulée :

tous (expert, systems) AND possible au moins 1 (fuzzy, ANN)

L'opérateur AND Possible fournit un autre niveau de flexibilité du mécanisme de recherche, permettant de ne pas ignorer les documents qui satisfont seulement les critères essentiels.

Documents relatifs