Calcul de pertinence basée sur la proximité pour la recherche d’information

(1)

pour la recherche d’information

Annabelle Mercier

—

Michel Beigbeder

Ecole Nationale Supérieure des Mines - Centre G2I 158 cours Fauriel

F-42023 Saint Etienne cedex 2 Annabelle.Mercier@emse.fr

RÉSUMÉ. Le domaine de la recherche d’information, bien connu à travers les moteurs de re- cherche sur le web, utilise différents modèles comme le modèle booléen, le modèle vectoriel et la recherche de passage. D’autres approches prenant en compte la proximité des termes de la requête retrouvés dans les documents ont aussi prouvé leur efficacité. Dans ce contexte, nous posons l’hypothèse suivante : plus les termes de la requête se retrouvent proches (et ceci le plus grand nombre de fois) dans un document alors plus ce document doit être positionné en tête de la liste des réponses retournée par le système de recherche d’information. Tout d’abord, nous rappelons les diverses approches liées à notre recherche, ensuite nous proposons une mé- thode de calcul de pertinence basée sur la proximité floue – en chaque endroit du texte d’un document nous attribuons un degré de proximité floue à la requête – puis, nous montrons que notre méthode peut simuler le comportement des méthodes classiques. Avant de conclure, nous présentons les résultats des expériences ménées sur la collection CLEF 2004.

ABSTRACT.Based on the idea that the closer the query terms are in a document, the more rele- vant this document is, we propose an information retrieval method based on a fuzzy proximity degree of term occurrences to compute document relevance to a query. Our model is able to deal with Boolean queries, but contrary to the traditional extensions of the basic Boolean in- formation retrieval model, it does not explicitly use a proximity operator. A single parameter allows to control the proximity degree required. We demonstrate that our model can reproduce the behaviour of the classical coordination level, vector and boolean models. Then, before con- clusion, we report some experiments on the CLEF 2004 test collection for french and we present the results.

MOTS-CLÉS :logique floue, proximité des termes, recherche d’information.

KEYWORDS:fuzzy information retrieval, term proximity.

(2)

1. Introduction

La croissance de plus en plus rapide de la quantité d’informations et l’utilisation d’internet par tout un chacun conduit à l’exploration de nouvelles techniques pour rechercher et traiter les différents visages de l’information. Plusieurs fois par jour, tant pour nos besoins personnels que professionnels, nous utilisons des systèmes de recherche pour accéder à l’information adéquate. De ce fait, en tant qu’utilisateurs, nous devenons de plus en plus exigeants vis-à-vis de tels systèmes pour qu’ils soient rapides, efficaces et faciles à manipuler. Du point de vue informatique, l’accroisse- ment du volume de données devient un réel problème tant au niveau du stockage, du temps de réponse que de la qualité du système. Retrouver au sein d’un corpus de documents volumineux et hétérogène, les seuls documents qui répondent précisément aux besoins des utilisateurs est devenu difficile car cette croissance accentue le retour de documents non pertinents pour l’utilisateur final. Notre étude se situe dans le cadre de la recherche d’information textuelle en favorisant une haute précision et pour cela, exploite la proximité des termes de la requête dans les documents pour sélectionner et ordonner la liste des « documents-réponses » à présenter à l’utilisateur.

2. Etat de l’art

Le moteur de recherche Google, connu principalement pour la notion de « popu- larité »¹, utilise aussi comme indicateur de pertinence la notion de proximité entre les termes de la requête qui sont retrouvés dans les documents. En effet, la documenta- tion²destinée aux utilisateurs indique :

« Par ailleurs, Google privilégie les pages dans lesquelles vos termes de recherche apparaissent aussi près que possible les uns des autres. »

Si l’on se tourne vers l’histoire des méthodes de recherche documentaire, l’utilisation d’opérateurs de proximité est assez ancienne. En effet, pour sélectionner des documents dans des bases de données bibliographiques, un opérateur de proximité a été introduit dans de nombreux systèmes dans les années 60. Le principe de cet opé- rateur est d’ajouter une contrainte à l’opérateur ET. Dans le modèle booléen standard, un document est représenté comme un ensemble de termes. Un documentdrépond à la requête A ET B si et seulement si l’ensembleEd qui le représente contient à la fois les termes A et B, autrement dit ssi :{A, B} ⊂Ed. Avec un critère de proximité dans la requête qui peut se formuler par exemple sous la forme : A NEAR B, il faudra qu’il existe au moins une occurrence de A et une occurrence de B dans le texte du document qui soient « proches ». Le mot « proche » selon les systèmes peut avoir différentes significations : même phrase (au sens grammatical), même paragraphe (au sens typographique), distance (exprimée en nombre de termes apparaissant entre les deux occurrences) inférieure à un seuil, etc. Toutefois d’un point de vue de la modéli- sation mathématique, cet opérateur n’est pas homogène avec les opérateurs strictement

1. Implémenté par l’algorithme PageRank (Brin et al., 1998).

2. http://www.google.fr/intl/fr/help/basics.html.

(3)

booléen ET, OU et NON ; il s’applique aux termes mais on ne peut le généraliser de façon consistante à des sous-requêtes (Mitchell, 1973).

Le système INQUERY(Callan et al., 1992) est basé sur un réseau d’inférence dans lequel différents indices participent au calcul du score de pertinence. Les requêtes sont exprimées dans un langage et ce dernier fournit des opérateurs faisant intervenir les positions des occurrences de termes, et donc prend en compte leur proximité. Par exemple :^#3 ^(A, ^B)indique que au plus 3 termes peuvent séparer une occurrence de A suivi d’une occurrence de B.

Deux types d’approches se basent sur des extraits du texte des documents pour calculer un score. Dans la première catégorie, ces extraits dépendent de la requête et cherchent des intervalles dans le texte contenant les termes de la requête, nous parlerons de méthodes à intervalles. Les méthodes de la seconde catégorie travaillent sur des extraits construits a priori, c’est-à-dire indépendamment de la requête, dans ce cas les extraits sont des passages, et nous parlerons de méthodes à passage. Les passages peuvent être déduits d’aspects syntaxiques dans le cas des phrases et des paragraphes, ou être des fenêtres de taille fixe. Dans ce dernier cas, la taille des fenêtres est un paramètre de configuration.

Trois méthodes à intervalles ont été décrites dans la littérature pour utiliser directe- ment la notion de proximité. Dans ces méthodes, le score de pertinence d’un document dépend des intervalles contenant les termes de la requête présents dans le document.

Pour toutes les méthodes, le principe général est identique. Etant donné un document et une requête, tout d’abord, un ensemble d’intervalles contenant les termes de la requête est construit, ensuite chaque intervalle fournit une contribution au score, et finalement, le score du document dépend de la contribution de chaque intervalle. Les critères de sélection des intervalles sont différents selon la méthode, celle de Clarke et al. (2000) sélectionne les plus petits intervalles qui contiennent tous les termes de la requête³, les intervalles ne peuvent pas être emboîtés mais peuvent se recouvrir. Pour la méthode de Hawking et al. (1995), à partir de chaque occurrence d’un terme de la requête, l’intervalle le plus petit contenant tous les termes est sélectionné, donc, dans ce cas les intervalles peuvent être emboîtés. Rasolofo et al. (2003) choisissent de sé- lectionner les intervalles contenant deux termes de la requête à condition qu’ils soient séparés au plus par quatre autres termes.

Du point de vue du modèle de requête, dans ces trois méthodes à intervalle, la requête est un ensemble de termes. Toutefois, le traitement de cet ensemble est ana- logue à un ET dans le cas des méthodes de Clarke et de Hawking, puisque ce sont les intervalles contenant tous les termes de cet ensemble qui sont sélectionnés. Dans la méthode de Rasolofo, cet ensemble est plutôt traité comme un OU, puisque le score dépendant de la proximité vient s’ajouter à un score Okapi, et que ce dernier produit un score non nul même pour un document qui ne contient qu’un seul des termes de la requête. De plus, le score de proximité est non nul dès qu’un document contient au

3. Cette contrainte est relaxée si le nombre de documents retrouvés n’est pas suffisant.

(4)

moins deux des termes de la requête. Il n’y a donc aucune obligation que les documents les contiennent tous.

Un modèle incontournable en recherche d’information est le modèle vectoriel car c’est l’un des premiers qui a permis d’établir un classement entre les documents re- tournés. Un document (resp. une requête) est représenté(e) par un vecteur dont chaque composante est le poids dans le document (resp. la requête) du terme associé. La taille de ces vecteurs est donc la taille du vocubulaire de la collection. Typiquement, le poids w(d, t)du termetdans le documentddépend de façon croissante de la fréquence du terme dans ce document et de façon décroissante de la fréquence documentaire⁴de ce terme. La mesure de similarité s(d, q)est généralement calculée par la méthode du cosinus. La fréquence documentaire joue un rôle discriminant afin de relativiser l’importance des termes qui apparaissent dans de nombreux documents de la collection. Cependant, plus la taille de la collection augmente plus le nombre de termes augmente, par conséquent, les vecteurs de représentation des documents possèdent de plus en plus de composantes nulles. Le modèle vectoriel a montré son efficacité sur les collections bibliographiques à partir desquels les recherches était faites sur le contenu des résumés, les auteurs et le titre des articles. Cependant, à partir du moment où le texte intégral a été accessible les performances n’ont pas été égalées. Les méthodes de recherches de passage ont alors émergées.

Les méthodes basées sur les passages posent la question de l’amélioration de la recherche si la similarité avec la requête est calculée par rapport à un morceau de document (i.e. un passage) plutôt que par rapport au document entier. Croft (2000) présente un tour d’horizon des approches de recherche de passage. Les méthodes uti- lisées pour le découpage des documents peuvent être classées dans trois catégories différentes. Tout d’abord, certains travaux utilisent les marqueurs textuels classiques comme les chapitres, sections ou paragraphes (Salton et al., 1993, Zobel et al., 1995), ensuite, d’autres utilisent des fenêtres sur le texte de longueur fixe, recouvrantes ou non, (Callan, 1994, Kaszkiel et al., 1997) et enfin, la méthode du TextTiling (Hearst, 1997) permet de détecter les passages sur un critère thématique, lui-même déterminé en fonction du vocabulaire utilisé. Les passages sont des parties de documents consti- tués de termes dont la fréquence est localement élevée et globalement faible dans le document.

Les méthodes de recherche de passage ont été aussi utilisées pour la recherche d’information en texte intégral. Dans toutes ces propositions basées sur les passages, les requêtes sont encore des ensembles de termes interprétés comme avec un opé- rateur OU. Wilkinson (1994) propose des mesures pour déduire le score d’un document à partir de ceux des différents passages. La recherche de passage peut être vue comme une sorte d’utilisation de la proximité puisqu’elle sélectionne les passages qui concentrent de nombreuses occurrences du maximum des termes de la requête de l’utilisateur. Ces occurrences apparaissant dans le même passage sont donc proches

4. C’est-à-dire du nombre de documents où le termetapparaît. Il existe de nombreuses formules tf ·idf – pour term frequency et inverse document frequency – pour calculer ces poids.

(5)

les unes des autres. Par conséquent, la recherche de passage peut s’interpréter comme trouver les endroits dans le texte où la densité des termes de la requête est la plus élevée.

Deux méthodes de recherches de passage sont explicitement basées sur la densité des termes de la requête. La méthode Density Distribution (Kise et al., 2004) construit une fonction de densité associant à chaque position dans un document une valeur nu- mérique reflétant sa proximité aux occurrences des termes de la requête. Le poids (au sens du modèle vectoriel) d’un terme de la requête est associé à chacune de ses occurrences, puis une fonction fenêtre de Hanning (qui a la forme d’une période d’une fonction cosinus) permet de lisser cette valeur au voisinage de chaque occurrence.

Le score d’un document est le maximum de cette fonction de distribution. Bien que les auteurs n’utilisent pas ce vocabulaire, ils font en fait une convolution entre des fonctions de Dirac associées aux occurrences des termes de la requête avec une fonc- tion de Hanning. De Kretser et al. (1999) utilisent la même idée de convolution mais avec d’autres fonctions (triangle, cosinus, cercle, arc). La deuxième différence plus fondamentale est qu’ils présentent leur méthode comme une méthode de recherche de passage. Pour pouvoir tester cette méthode avec les outils standard d’évaluation qui travaillent au niveau des documents, ils ont proposé un algorithme qui accumule des pertinences partielles qui sont les valeurs maximum successives des scores des passages pour calculer des scores de documents jusqu’à ce qu’un nombre suffisant de documents ait été atteint. La méthode de Kise et al. (2004) utilise le maximum de la fonction de densité pour attribuer le score au document. De ce fait, toutes les occurrences ne contribuent pas au score final. De Kretser et Moffat ont fait des tests en prenant eux aussi le maximum comme score de document, mais les résultats obtenus dans ce cas sont moins bons que ceux de la méthode présentée qui accumule des scores partiels pour certaines des occurrences. La section suivante détaille notre méthode qui prend en compte la localisation des termes dans le document pour lui attribuer un score.

3. Pertinence basée sur la proximité

3.1. Zone d’influence d’une occurrence de terme

Dans les modèles classiques, le critère de sélection d’un document est fondé sur l’appartenance (resp. la fréquence) d’un terme de la requête pour le modèle booléen (resp. vectoriel). Ces modèles procèdent avec une approche globale de l’influence des occurrences d’un terme sur la pertinence d’un document à une requête en utilisant le termet. Ce qui revient à dire que la distribution des termes de la requête n’intervient pas dans le calcul du score de pertinence d’un document. Cependant, le sens du texte dans un document ne dépend pas seulement du vocabulaire employé mais aussi de l’agencement des termes de ce vocabulaire et donc de la distribution de ces termes.

C’est pourquoi nous adoptons une approche locale dans le sens où elle modélise une influence des occurrences. Nous définissons cette influence comme une proximité au terme qui permet de savoir si en un endroit du texte, on est proche d’une occurrence

(6)

de ce terme. Cette proximité est graduée, et nous emploierons le terme de proximité floue.

Pour représenter l’influence d’un mot nous utilisons une fonction d’influence. Nous appelons ainsi une fonction définie sur^R, à support borné, prenant ses valeurs dans [0,1], symétrique, croissante sur ^R⁻, et décroissante sur ^R⁺. Différentes fonctions d’influence comme les fonctions de Hamming, fonctions de Hanning, fonctions gaus- siennes, fonctions rectangulaires, triangulaires, etc... peuvent être utilisées. Nous ap- pelonskle paramètre qui permet de contrôler la largeur de la zone d’influence. Pour une occurrence d’un terme à la positioni, la translationg(x) =f(x−i)d’une fonction d’influencef sert à modéliser la proximité floue. Par exemple, pour une fonction triangulaire, la valeur au pointxest égale à1puis décroit de ¹_k aux positions voisines jusqu’à atteindre la valeur 0. Dans ce cas, la fonction d’influence s’exprime ainsi :

f(x) = max(k− |x|

k ,0).

3.2. Proximité floue aux occurrences d’un terme

0 1

0 2 4 6 8 10 12

(a)

0 1

0 2 4 6 8 10 12

(b)

Figure 1. (a) les proximités floues aux trois occurrences, (b) la proximité floue au terme

Nous déterminons que la valeur de la proximité floue à un termeten une position xd’un document est la valeur de la proximité de la plus proche occurrence du terme t. Par exemple, pour la positionx= 3de la figure 1, il est naturel d’attribuer comme valeur de proximité floue celle provenant de la fonction d’influence de l’occurrence de terme la plus proche soit celle à la position x−1 (soit2) et non pas celle de la positionx+ 2(soit5). Comme les fonctions d’influence définies en section 3.1 sont décroissantes par rapport à la distance des occurrences, en une positionxdu texte cela revient à prendre la valeur de proximité floue maximale et on peut poser :

p^d_t(x) = max

i∈Occ(t,d)f(x−i)

oùOcc(t, d)est l’ensemble des positions des occurrences du termetdans le document detf la fonction d’influence choisie.

Notre modèle de requête est celui du modèle booléen, par conséquent, notre re- quête est représentée par un arbre dont les feuilles sont associées aux termes et les nœuds aux opérateurs ET et OU. Chaque feuille de l’arbre de requête représente un

(7)

d1 A B

0 1 2 3 4 5 6 7 8 9 10

0 1

0 3 6 9

0 1

0 3 6 9

0 1

0 3 6 9

0 1

0 3 6 9

Figure 2. Document 1 – Représentation dep^d1_A,p^d1_B,p^d1_{A ou B}etp^d1_{A et B}

d2 A A

0 1 2 3 4 5 6 7 8 9 10

0 1

0 3 6 9

0 1

0 3 6 9

0 1

0 3 6 9

0 1

0 3 6 9

Figure 3. Document 2 – Représentationp^d2_A,p^d2_B,p^d2_{A ou B}etp^d2_{A et B}

terme et porte donc la fonction de proximité correspondant à ce terme. Par exemple, pour la requête (A OU B), nous avons les fonctionsp^d_Aetp^d_Bqui représentent la proxi- mité floue des termes A et B à toutes les positions d’un documentdcomme illustré par les deux premières courbes des figure 2 et figure 3.

3.3. Proximité floue à une requête

Nous généralisons maintenant ces fonctions sur les nœuds. Pour un nœud OU, considérons d’abord le cas de la requête (A OU B) avec deux documents, l’un contenant les deux termes A et B une fois aux positions 3 et 6 (cf. figure 2) et l’autre contenant deux occurrences de A aux mêmes positions (cf. figure 3).

Une telle requête suggère que l’utilisation de A ou de B dans le texte a la même signification. Par conséquent, nous souhaitons obtenir la même fonction de proximité pour ces deux documents avec une requête disjonctive (comme le montre la troisième courbe des figures 2 et 3). En posant :

(∀x)(p^d_{A OU B}(x) = max(p^d_A(x), p^d_B(x)))

cette contrainte est vérifiée et nous généralisons ceci à la requête en posant : p^d_q_OU_q′ = max(p^d_q, p^d_q′)

(8)

pour un nœud OU, où les fils ne sont pas simplement des termes. Ceci correspond à l’opération faite dans le modèle flou classique. Par analogie, pour un opérateurET, nous posons :

p^d_q_ET_q′ = min(p^d_q, p^d_q′).

De plus, notre modèle peut s’adapter facilement en employant les autres fonctions appliquées en logique floue pour les opérateurs ET et OU. L’évaluation d’une requête est effectuée en partant des feuilles. Tout d’abord, nous calculons pour chaque terme de la requête — c’est-à-dire pour les feuilles de l’arbre — la valeur de pertinence locale à chaque position xdu document c’est-à-dire la fonction p^d_t. Ensuite, nous évaluons ces valeurs au niveau de chaque nœud de l’arbre en appliquant (toujours pour chaque positionxdans le document) les fonctions correspondant aux deux opérations (ET ou OU). Finalement, en remontant jusqu’à la racine, nous obtenons la fonction p^d_q qui permet de déterminer le score du document pour une requête donnée dont le calcul est expliqué dans la section suivante.

3.4. Attribution du score

Dans le cas du modèle vectoriel, les formules de calcul de pertinence sont des pro- duits scalaires ou des cosinus qui comportent une sommation qui peut s’interpréter comme une accumulation d’éléments de pertinence. Nous allons utiliser cette notion d’accumulation pour le calcul du score d’un document et prendre en compte les valeurs de proximité floue à chaque position d’un document. Les méthodes du calcul intégral permettent de mettre en œuvre cette idée en calculant la surface en dessous d’une courbe. Á chaque position du document, la fonctionp^d_q donne une proximité locale à la requête que nous interprétons comme un élément de pertinence. Nous dé- finissons donc le score d’un document comme la sommation de tous ces éléments de pertinence selon la formule :

s(q, d) =X

x∈^Z

p^d_q(x).

Le score obtenu appartient ainsi à ^R⁺ et permet de classer les documents par ordre décroissant en fonction de la proximité des termes de la requête.

4. Intégration des modèles classiques

Les valeurs extrêmes de variation du paramètrekqui contrôle l’étendue de la zone d’influence d’un terme permettent de ramener notre modèle d’interprétation des re- quêtes, soit aux modèles vectoriel ou à niveau de coordination, soit au modèle boo- léen.

(9)

4.1. Niveau de coordination et modèle vectoriel

L’un des premiers modèles de recherche d’information est celui du niveau de coordination. La requête y est représentée par un ensemble de mots-clés. Le score de pertinence d’un document est obtenu en calculant la somme de la fréquence de tous les termes de la requête apparaissant dans le document. Nous pouvons reproduire cette méthode avec notre modèle :

1) en prenant une fonction d’influence rectangulaire de largeur 1 et de hauteur 1 comme dans la figure 4 si bien que la zone d’influence de toute occurrence de terme est limitée à l’occurrence elle-même et que les zones d’influence ne se recouvrent pas, et,

2) en utilisant une requête disjonctive.

0 1

-1 −¹₂ 0 +¹₂ 1

Figure 4. Fonction d’influence avec un zone d’influence très limitéek= ¹₂

Le premier point permet de prendre en compte la fréquence des termes pour calculer la valeur de similarité entre un document et une requête tandis que le second permet de considérer les documents dès qu’ils contiennent au moins un terme de la requête. De ce fait, notre méthode est équivalente à celle du niveau de coordination.

De plus, le comportement du modèle vectoriel peut être aussi reproduit en affec- tant une hauteur de la fonction d’influence dépendant de la fréquence documentaire⁵ aux positions d’apparition des termes. De cette manière, les scores des documents dépendent de la fréquence documentaire et de la fréquence des termes ce qui nous renvoie bien aux principes du modèle vectoriel.

4.2. Modèle booléen

Si nous étendons la zone d’influence au document tout entier dans notre modèle de proximité floue, ce qui correspond au cas où le paramètrektend vers l’infini, alors notre calcul d’appariement entre documents et requêtes se ramène à celui du modèle booléen. Nous en faisons ci-dessous la démonstration.

Tout d’abord, prenons une fonction d’influence rectangulaire de largeur2ket de hauteur _2k¹ comme illustrée dans la figure 5 :

1

2k·¹[−k,k]

5. Nous pouvons appliquer différentes fonctionsidfayant une valeur normalisée.

(10)

0 1 2k

−k ⁰ +k

Figure 5. Fonction d’influence rectangulaire

Étant donnés un termet et un documentdde longueurl+ 1, nous majorons la fonctionp^d_t pour n’importe quelle positionx:

p^d_t(x) = max

i∈Occ(d,t)f(x−i)≤ max

i∈[0,l]f(x−i)≤ 1

2k·¹[−k,l+k](x).

Étant donnée une requêteq, cette majoration est vraie pour chaque feuille, donc elle est aussi trivialement vraie pour tous les nœuds de l’arbre. En utilisant cette majoration à la racine, nous avons :

s_k(q, d) =X

x∈^Z

p^d_q(x)≤X

x∈^Z

1

2k·¹[−k,l+k]= l+ 2k 2k et

k→+∞lim sk(q, d)≤ lim

k→+∞

l+ 2k 2k = 1.

Dans notre modèle, une requête q est un arbre qui porte les termes au niveau des feuilles et les opérateurs booléens ET et OU au niveau des nœuds. En développant une telle requête par distribution de l’opérateur ET sur l’opérateur OU, une forme normale disjonctive est obtenue q = q1OR q2OR ... OR qn où tous les termes⁶ conjonctifs(qi)1≤i≤n sont des conjonctions d’éléments deT. Un tel document satisfaisant la requête est évalué à 1 avec le modèle booléen et nous allons prouver que limk→+∞s_k(q, d)est égale à 1.

Considérons un document satisfaisant cette requête booléenne. Un tel document satisfait au moins un des(qi)1≤i≤n, soitq_i0. Nous avons en particulier :

p^d_q = max

1≤i≤np^d_q_i≥p^d_q_i0.

Sachant que qi0 est une requête conjonctive, nous pouvons l’écrire t1 AN D t2 AN D ... AN D tk pour (tj)1≤j≤k ⊂ T. Comme d satisfait (qi0), chaque termetj, pour1 ≤j ≤k, apparaît dans le documentd. La fonctionp^d_q_i0 est l’« intersection » de chaque fonction d’influence et donc est aussi l’« intersection »

6. Ici, « terme » est utilisé dans le sens algébrique.

(11)

des deux plus éloignées. Notonsu(resp.v) la première (resp. la dernière) position où une occurrence d’un terme pris dans(tj)1≤j≤k apparaît, soit :

u= min [

1≤j≤k

Occ(tj, d) et v= max [

1≤j≤k

Occ(tj, d).

Comme nous avons :

p^d_q_i0 =p^d_t₁AN D ... AN D tk= min

1≤j≤kp^d_t_j

cette fonction est encore égale àmin(p^d_t(u), p^d_t(v))pour le termet(u)qui apparaît à la positionudansdet pour le termet(v)qui apparaît à la positionvdansd(cf. figure 6).

Commep^d_t(u)=_2k¹ ·¹[u−k,u+k]etp^d_t(v)=_2k¹ ·¹[v−k,v+k]alors : min(p^d_t(u), p^d_t(v)) =¹[v−k,u+k]

comme illustré dans la figure 6.

0 1 2k

u-k u v-k u+k v v+k

Figure 6. La surface de l’intersection entre les rectangles représente le score du do- cument. Les deux occurrences des termes sont à la positionuet à la positionv

Par conséquent, nous obtenons :

p^d_q(x)≥p^d_q_i0(x) = 1

2k·¹[v−k,u+k](x) et donc :

sk(q, d) =X

x∈^Z

p^d_q(x)≥X

x∈^Z

1

2k·¹[v−k,u+k](x) avec

X

x∈^Z

1

2k·¹[v−k,u+k](x) = 1

2k·((u+k)−(v−k)) = 2k+ (u−v) 2k donc

k→+∞lim sk(q, d)≥ lim

k→+∞

2k−u+v 2k = 1.

Comme nous avons précédement prouvé que cette limite est plus petite que 1, elle est donc égale à 1.

(12)

Réciproquement, considérons un documentdqui ne satisfait pas la requête boo- léenne. Dans ce cas,dne satisfait aucun(qi)1≤i≤n. Étant donnéi,1 ≤i ≤n,qiest une requête conjonctive :

t1AN D t2AN D ... AN Dtk

et au moins un des(tj),1 ≤ j ≤k, disonst_j0, n’apparaît pas dans le documentd, alors :

(∀x)p^d_t_j0(x) = 0 et donc :

p^d_q_i(x) = 0 d’où :

p^d_q = max

1≤i≤np^d_q_i = 0.

Par conséquent, la sommation vaut zéro pour n’importe quelle valeur deket sa limite est aussi égale à zéro.

Pour résumer, d’une part, si un documentdsatisfait une requête booléenneq, nous avons montré que :limk→+∞sk(q, d) = 1, et d’autre part, si le documentdsatisfait la requête q nous avonssk(q, d) = 0 pour n’importe quelle valeur de k, donc la fonctionlimk→+∞sk(q, d) = 0.Nous avons donc prouvé que nous pouvons retrouver le comportement du modèle booléen classique en considérant la limite du score calculé par notre méthode lorsque le paramètrektend vers l’infini.

5. Expérimentations

5.1. Outils et collection de test utilisés

Nous présentons ici les résultats obtenus avec le corpus de test de l’édition 2004 de la campagne d’évaluation CLEF⁷ bien connue dans le domaine de la recherche d’information. La collection de test est indexée avec l’outil de recherche d’informations LUCYqui possède une implantation de la mesure Okapi BM-25 (Robertson et al., 1994). Cet outil sauvegarde à l’indexation la position des termes dans les documents ce qui nous permet facilement de l’étendre pour calculer les valeurs de similarité à la fois pour les méthodes à base d’intervalles et pour notre méthode de proximité floue.

La collection de test de CLEF 2004 est constituée de documents XML contenant les dépêches de la collection de documents SDA French⁸(42615 documents, 88 MB) et les articles du journal Le Monde (47646 documents,156 MB) de l’année 1995. Pour chaque document (balise<DOC>), nous avons retenu les champs<DOCNO>avec la balise et le numéro de document nécessaire à LUCY, et le contenu textuel des balises

<TX>,^<LD>,^<TI>,^<ST>pour SDA French et<TEXT>,<LEAD1>,<TITLE>pour Le Monde 1995.

7. http://clef.isti.cnr.it/.

8. Swiss New Agency Data.

(13)

Nous utilisons la liste de sujets ainsi que les jugements de pertinence as- sociés pour évaluer les méthodes avec l’outil trec_eval disponible à l’adresse ftp://ftp.cs.cornell.edu/pub/smart/trec_eval.7.0beta.tar.gz.

5.2. Construction des requêtes

Chaque sujet est composé d’un numéro et de trois balises pour le décrire :

<FR-title>,<FR-des>,<FR-narr>. Pour effectuer nos tests, trois jeux de requêtes sont construits. Les requêtes sont construites automatiquement ou manuellement à partir du texte contenu dans les balises « titre » et « description ».

Pour les requêtes construites automatiquement (2 jeux), un jeu est composé des termes contenus dans le texte du champ « titre », l’autre des termes du champ

« description », les mots vides (à, aux, au, chez, et, dans, des, de, du, en, la, les, le, par, sur, uns, unes, une, un, d’, l’) sont retirés. Les résultats ci-dessous se rapportent au jeu de requêtes utilisant le champ « titre ».

Les requêtes construites manuellement (1 jeu) sont constituées des termes du champ « titre » et de quelques termes du champ « description ». De plus, nous ajou- tons les différentes formes (pluriel, noms associés) des mots-clés retenus pour pallier le manque de lemmatisation de l’outilLUCY. La requête ainsi construite est une conjonction de disjonctions des différentes formes orthographiques des termes retenus. Par l’évaluation avec l’outilLUCY, nous retirons les opérateurs booléens, nous utilisons ainsi des requêtes plates.

L’exemple du sujet 249 ci-dessous montre les étapes de construction d’une re- quête « titre » :

<FR-title> Championne du 10.000 mètres féminin </FR-title>

Nous obtenons :²⁴⁹ ^hampionne ¹⁰⁰⁰⁰ ^metres ^feminin.

A partir de cette requête, nous avons ses variantes « automatiques » :

lucy : ²⁴⁹ ^hampionne ¹⁰⁰⁰⁰ ^metres ^feminin

proximité floue : ²⁴⁹ ^hampionne ^& ¹⁰⁰⁰⁰ ^& ^metres ^& ^feminin méthodes intervalles : ²⁴⁹ ^hampionne ^| ¹⁰⁰⁰⁰ ^| ^metres ^| ^feminin ou « manuelles » :

lucy : ²⁴⁹ ^hampionne ^hampionnes ¹⁰⁰⁰⁰ ^metre ^metres ^feminin

feminins

proximité floue : ²⁴⁹ ^(hampionne ^| hampionnes) & 10000 & (metre |

metres) & (feminin |feminins)

méthodes intervalles : ²⁴⁹ (hampionne,hampionnes) 10000 (metre,metres)

(feminin,feminins)

(14)

5.3. Construction des listes de réponses

Nous allons comparer les méthodes à base d’intervalles de l’état de l’art, la mé- thode Okapi et notre méthode floue avec différentes valeurs de k. Les méthodes de Clarke et al., et de Hawking et al. sont implantées en respectant les critères de construction des intervalles ainsi que les formules d’attribution des scores propres à chacune des méthodes. Comme d’une part nous savons que la méthode Okapi est l’une des plus performantes, et, d’autre part, une étude antérieure (Mercier, 2004) montre que les méthodes à base de proximité apportent un plus à la recherche, nous avons décidé de combiner la liste de réponses donnée par les méthodes à base de proxi- mité avec celle obtenue avec LUCY. Par conséquent, si l’une des méthodes utilisant la proximité (intervalles ou méthode floue) ne renvoie pas assez de documents alors la liste des réponses est complétée par des documents de la liste Okapi n’ayant pas déjà été retournés par les méthodes à base de proximité, le nombre maximum de documents rappelés est 1000.

5.4. Résultats

Les résultats présentés ont été obtenus en interrogeant la collection avec des re- quêtes constuites avec les mots du champ « titre » pour les requêtes automatiques et construites avec les mots des champs « titre » et « description » pour les requêtes manuelles. Tout d’abord, notre première expérience illustre le point de la section 4.1. Pour simuler le comportement de la méthode du niveau de coordination, nous avons utilisé le jeu de requêtes construites automatiquement avec le contenu du champ « titre ».

Pour Okapi Lucy, les requêtes sont plates, pour la méthode floue les requêtes sont exclusivement des disjonctions de termes. Notre méthode donne de meilleurs quand la valeur dekest plus petite (cf. figure 7). En employant des requêtes exclusivement disjonctives, les performances de notre méthode sont bien en dessous des méthodes à base d’intervalles et de Okapi Lucy, la meilleure valeur de précision est obtenue au premier niveau de rappel atteint seulement 30 %.

Par conséquent, pour la seconde expérience, nous avons utilisé des requêtes exclusivement conjonctives construites automatiquement.

Préalablement, nous avons testé la méthode floue avec une fonction d’influence triangulaire et différentes valeurs dekdéfinissant l’étendue de la zone d’influence. Les valeursk={20,50}conduisent aux meilleurs résultats⁹, de plus nous avons remar- qué que le taux de précision est nettement supérieur à celui obtenu avec des requêtes exclusivement disjonctives. Nous comparons donc la méthode Okapi, les méthodes à base d’intervalles avec notre méthode pourk={20,50}(cf. figure 8). Tout d’abord, 9. Nous ne montrons pas toutes les courbes rappel précision par manque de place.

(15)

0 10%

20%

30%

40%

50%

60%

70%

0 20% 40% 60% 80% 100%

prox.floue.1

♦

♦ ♦ ♦

♦ ♦ ♦ ♦

♦ prox.floue.50

+ +

+ + + + + + +

+ Inter.Clarke

Inter.Hawking

×

× ×

×

× ×

×

× okapi.Lucy

△

△ △

△

Figure 7. Courbe Rappel/Précision avec des requêtes disjonctives automatiques

la méthode Okapi Lucy ne donne de meilleurs résultats que pour les premiers 10%

de rappel. Ensuite, la méthode de Hawking et al. est légèrement meilleure que celle de Clarke et al., nous supposons que le fait de sélectionner plus d’intervalles dans les documents est à l’origine de cette différence. La méthode de proximité floue avec k= 50dépasse toutes les autres à partir de 10% de rappel jusqu’à 100% et se confond avec celle ayantk= 20à partir de 40% de rappel. Cette expérience montre que d’une manière générale, l’exploitation de la notion de proximité apporte une amélioration pour la recherche d’un besoin d’informations.

Enfin, la dernière expérience nous permet de pallier le manque de lemmatisation de LUCY en écrivant des requêtes manuelles. Par exemple, pour la re- quête^(femme ^& ^hampionne)nous construisons la requête((femme|femmes) &

(hampionne|hampionnes)). Avec notre méthode, cette requête est interprétée comme une requête booléenne, par contre, pour les méthodes qui se basent sur les intervalles, nous fusionnons d’une part, les listes de positions des termes « femme » et « femmes » et d’autre part, celles de « championne » et « championnes ». Comme dans l’expérience précédente, les méthodes utilisant la proximité sont plus performantes, cependant, la méthode de proximité floue se détache plus nettement à tous les niveaux de rappel. L’utilisation des requêtes booléennes porte ici son effet car le besoin d’information est défini plus finement. Par rapport aux méthodes à base d’intervalles qui n’utilisent que des requêtes plates, notre méthode, utilisant des requêtes booléennes permet de sélectionner les portions de texte des documents avec plus de précision, ce qui explique, à notre avis, les meilleurs résultats de notre méthode.

(16)

10%

20%

30%

40%

50%

60%

70%

0 20% 40% 60% 80% 100%

prox.floue.20

♦

♦ ♦

♦

♦ ♦

♦ prox.floue.50 +

+ +

+

+ +

+

+ +

+ Inter.Clarke

Inter.Hawking

×

× ×

×

× ×

×

× okapi.Lucy

△

△ △

△

△ △

△

Figure 8. Courbe Rappel/Précision avec des requêtes conjonctives automatiques construites avec les termes du champs titre

10%

20%

30%

40%

50%

60%

70%

0 20% 40% 60% 80% 100%

prox.floue.20

♦

♦ prox.floue.50 ♦

+ +

+ + Inter.Clarke

Inter.Hawking

×

× ×

×

× okapi.Lucy

△

△ △

△

Figure 9. Courbe Rappel/Précision avec des requêtes construites manuellement à partir des champs titre et description

(17)

6. Conclusion

Dans un premier temps, nous avons présenté les modèles classiques ainsi que les méthodes utilisant la notion de proximité pour le calcul de pertinence. Ensuite, à partir de notre hypothèse : les documents ayant des occurrences de termes de la requête proches doivent être classés en premier, nous avons proposé notre modèle en fonction de la densité des occurrences des termes de la requête retrouvées dans le document. Par ailleurs, nous avons montré que notre modèle pouvait prendre en compte les modèles classiques de recherche d’information comme le niveau de coordination, le modèle vectoriel et le modèle booléen grâce au contrôle obtenu par le paramètrek. Ce dernier, permet de régler la portée de l’influence des occurrences de termes. Une valeur de l’ordre de 5 permet de spécifier une proximité de l’ordre de l’expression, une valeur de 15 à 30 la situe au niveau de la phrase. Notre méthode pourrait aussi simuler une méthode de recherche de passage avec une valeur de l’ordre dek = 200et le renvoi de passages spécifiques plutôt que des documents. Finalement, nous avons constaté qu’en exploitant au maximum les requêtes booléennes notre méthode dépasse celles à base d’intervalles et la méthode Okapi classique.

Pour compléter notre modèle de requêtes, nous envisageons fortement l’ajout de l’opérateur de négation. Enfin, nous souhaitons paramétrer l’implantation pour choi- sir d’une part, plusieurs types de fonctions d’influence et d’autre part, les différentes opérations de logique floue à effectuer au niveau des nœuds.

7. Bibliographie

Brin S., Page L., « The Anatomy of a Large-Scale Hypertextual Web Search Engine », The Seventh International World Wide Web Conference, April 1998.

Callan J. P., « Passage-level evidence in document retrieval », SIGIR ’94, Proceedings of the seventeenth annual international ACM-SIGIR conference on Research and development in information retrieval, July 1994, p. 302-310.

Callan J. P., Croft W. B., Harding S. M., « The INQUERY Retrieval System », The third Interna- tional Conference on Database and expert System Applications, September 1992, p. 78-83.

Clarke C. L. A., Cormack G. V., Tudhope E. A., « Relevance ranking for one to three term queries », Information Processing and Management, vol. 36, n^◦2, 2000, p. 291-311.

Croft W. B., Advances in Information Retrieval, Kluwer Academic Publishers, chapter Combi- ning Approaches to Information Retrieval, 2000.

Hawking D., Thistlewaite P., « Proximity Operators - So Near And Yet So Far », in D. K.

Harman (ed.), The Fourth Text REtrieval Conference (TREC-4), n^◦500-236, Department of Commerce, National Institute of Standards and Technology, 1995.

Hearst M. A., « TextTiling : segmenting text into multi-paragraph subtopic passages », Compu- tational Linguistics, vol. 23, n^◦1, 1997, p. 33-64.

Kaszkiel M., Zobel J., « Passage retrieval revisited », SIGIR ’97, Proceedings of the 20th an- nual international ACM SIGIR conference on Research and development in information retrieval, July 1997, p. 178-185.

(18)

Kise K., Junker M., Dengel A., Matsumoto K., « Passage Retrieval Based on Density Distribu- tions of Terms and Its Applications to Document Retrieval and Question Answering », vol.

2956 of LNCS, Springer-Verlag, 2004, p. 306-327.

Kretser O. D., Moffat A., « Effective Document Presentation with a Locality-Based Similarity Heuristic », SIGIR ’99 : Proceedings of the 22nd Annual International ACM SIGIR Confe- rence on Research and Development in Information Retrieval, ACM, September 1999, p. 113-120.

Mercier A., « Etude comparative de trois approches utilisant la proximité entre les termes de la requête pour le calcul des scores des documents », INFORSID 2004, Mai 2004, p. 95-106.

Mitchell P. C., « A note about the proximity operators in information retrieval », Proceedings of the 1973 meeting on Programming languages and information retrieval, ACM Press, 1973, p. 177-180.

Rasolofo Y., Savoy J., « Term Proximity Scoring for Keyword-based Retrieval Systems », 25th European Conference on IR Research, ECIR 2003, n^◦2633 in LNCS, Springer, 2003, p. 207- 218.

Robertson S. E., Walker S., Jones S., Hancock-Beaulieu M., Gatford M., « Okapi at TREC-3 », in D. K. Harman (ed.), Overview of the Third Text REtrieval Conference, n^◦PB95-216883, Department of Commerce, National Institute of Standards and Technology, 1994.

Salton G., Allan J., Buckley C., « Approaches to passage retrieval in full text information systems », SIGIR ’93, Proceedings of the sixteenth annual international ACM SIGIR confe- rence on Research and Development in Information Retrieval, June 1993, p. 49-58.

Wilkinson R., « Effective retrieval of structured documents », SIGIR 94 proceedings, Springer- Verlag New York, 1994, p. 311-317.

Zobel J., Moffat A., Wilkinson R., Sacks-Davis R., « Efficient retrieval of partial documents », Information Processing and Management, vol. 31, n^◦1, 1995, p. 361-377.