Mesure de la pertinence des documents - CaSE : un moteur de recherche expérimental

d’Information exploitant les adverbiaux calendaires présents dans les textes

7.1 CaSE : un moteur de recherche expérimental

7.1.5 Mesure de la pertinence des documents

La mesure de la pertinence des documents fait intervenir plusieurs modèles de pertinence associés entre eux afin d’obtenir un score final.

(1) Mesure de la pertinence pour des requêtes combinant des mots-clés et un critère calendaire

Pour les requêtes contenant un critère calendaire et un critère thématique, la pertinence d’une phrase candidate dépend du score associé aux mots-clés et du score associé à l’adverbial calendaire extrait dans la phrase (noté ).

Le modèle de pertinence pour les adverbiaux calendaires présenté dans le chapitre 5 (cf. section 5.3) permet d’ordonner un ensemble d’adverbiaux-cibles par rapport à un adverbial-requête : plus précisément, il permet d’attribuer un score de pertinence à chaque intervalle associé à un adverbial. Le moteur Lucene attribue pour sa part un score de pertinence, qui est lui fonction des mots-clés présents dans la phrase.

Considérons un ensemble de phrases filtrées par le moteur de recherche : { }

L’objectif est d’ordonner les éléments de du plus pertinent au moins pertinent compte-tenu de la requête soumise au moteur de recherche. Les scores de pertinence attribués pour les mots-clés sont divisés en deux classes, (1) l’une correspondant aux résultats qui contiennent tous les mots-clés, (2) l’autre aux résultats qui n’en contiennent qu’une partie seulement.

On obtient ainsi deux sous-ensembles de , qui sont alors ordonnés en fonction du score associé aux adverbiaux calendaires. Pour les phrases du premier ensemble, la pertinence d’une phrase équivaut à .

= .

Pour les résultats appartenant au second ensemble, ce score est minoré par un facteur , compris entre 0 et 1. La pertinence d’une phrase appartenant à cette catégorie est ainsi :

= .

Nos expérimentations nous ont conduits à fixer à 0,02, soit un facteur de pondération faible destiné à minimiser le score des phrases peu pertinentes sous l’angle des mots-clés. Cette façon très empirique de faire dépendre la mesure de la pertinence d’une phrase du score associé aux mots-clés est rudimentaire en l’état et demanderait à être affinée. Ce modèle de pertinence est celui utilisé pour l’exploration d’un texte : le système présente une ainsi liste ordonnée de phrases pour une requête restreinte à un seul texte (cf. le scenario d’utilisation décrit dans la section 7.2.1).

182

(2) Mesure de la pertinence pour des requêtes ne contenant que des mots-clés

Pour mesurer la pertinence des phrases par rapport à des requêtes qui ne contiennent que des mots-clés, le système filtre un ensemble de phrases , qui correspond à l’ensemble des K phrases les plus pertinentes sous l’angle des mots-clés. Cet ensemble est ordonné selon la fréquence d’apparition des adverbiaux calendaires qu’il contient. On obtient ainsi une liste des adverbiaux calendaires qui sont le plus fréquemment associés aux mots-clés de la requête.

Par exemple, pour le corpus d’articles de Wikipédia relatifs à l’histoire de France que l’on présente plus bas dans la section dédiée aux expérimentations autour du système Case (cf. section 7.2.1.1), aux mots-clés « élection présidentielle » et « Saint-Bartélemy », le système associe les listes d’adverbiaux calendaires suivantes :

élection présidentielle ---> en 2002 (fréquence : 40) élection présidentielle ---> en 1965 (fréquence : 29) élection présidentielle ---> 1981 (fréquence : 27) élection présidentielle ---> en 2007 (fréquence : 26)

élection présidentielle ---> Le 21 avril 2002 (fréquence : 24) saint-barthélemy ---> le 24 août 1572 (fréquence : 19)

saint-barthélemy ---> En 1572 (fréquence : 15) saint-barthélemy ---> (1553-1615) (fréquence : 5)

saint-barthélemy ---> durant l'été 1610 (fréquence : 5) saint-barthélemy ---> fin août 1572 (fréquence : 4)

Le premier élément de la liste ainsi obtenue (en 2002, dans le premier exemple, le 24 août 1572, dans le second) est alors considéré comme le critère calendaire de la requête. Ceci revient à considérer que la valeur calendaire la plus fréquemment associée à une requête permet de la désambiguïser. Le système peut alors produire une requête combinant à la fois des mots-clés et un critère calendaire et appliquer la mesure de pertinence décrite précédemment. Dans les exemples ci-dessus, les requêtes générées sont ainsi « élection présidentielle en 2002 » et « Saint-Barthélemy le 24 août 1572 ».

Remarquons que cette liste de fréquence pourrait être présentée à l’utilisateur afin qu’il ait lui-même la possibilité de désambiguïser sa recherche : elle pourrait en effet lui permettre d’affiner sa requête initiale, sous la forme d’une liste de suggestions⁴⁸.

48 C’est du reste à ce type d’informations que s’est intéressée jusqu’à présent la plupart des équipes travaillant sur la problématique temporelle dans le cadre de la recherche d’information. Le service de Google view:timeline, par exemple, permettait de visualiser la fréquence d’apparition d’un ensemble de mots-clés à côté d’une date. On renvoie à ce sujet aux travaux mentionnés dans la section 3.3.1, notamment aux travaux sur l’analyse temporelle des requêtes qui permettent d’en distinguer différents profils (Diaz et Jones, 2005 ; Asur et Buehrer, 2009 ; Chen

et al., 2011) : bien qu’ils analysent les archives des requêtes soumises aux moteurs de recherche (logs) plutôt que

des textes, la démarche consiste bien à analyser les fréquences de cooccurrences entre des mots-clés et des expressions temporelles.

183

(3) Des phrases aux textes : mesure globale de la pertinence d’un document

Jusqu’ici, le système associe des scores de pertinence à un ensemble de phrases. Dans le cadre d’une recherche documentaire, ces scores de pertinence doivent être associés, afin d’obtenir un score de pertinence global pour chaque document. On cherche donc à ordonner un ensemble de documents :

{ }

A ce stade, les documents sont représentés comme des ensembles de phrases ordonnées par pertinence : { }, où correspond à la phrase ayant obtenue le meilleur score de pertinence et le plus faible.

En première approche, le score de pertinence global d’un document correspond au score de pertinence de ( ) , soit la phrase qui a obtenu le meilleur score de pertinence. Afin de valoriser les documents contenant plusieurs phrases pertinentes, on associe à ce score la somme pondérée de l’ensemble des autres phrases du document de la façon suivante :

( ) ∑ ( ( ))

correspond au symbole introduit dans la section 5.2.1.3 – il représente une valeur supérieure à 0, mais inférieure à l’ensemble des autres nombres positifs. Le score ainsi obtenu permet de valoriser un document par rapport à un document , lorsque , mais que la somme pondérée des autres phrases de produit une valeur supérieure à celle de .

Par exemple, pour la requête « abolition de l’esclavage », le système retourne un ensemble de documents dont les deux suivants :

« Décret d'abolition de l'esclavage du 27 avril 1848 » :

: Le deuxième décret d'abolition de l'esclavage en France a été signé le 27 avril 1848 par Lamartine.

: Le 4 mars 1848, le décret, rédigé par Schoelcher, abolissant l'esclavage et créant la Commission d'abolition de l'esclavage chargée de préparer l'émancipation, est signé par le gouvernement provisoire de la toute jeune République.

« Alsace » :

: Victor Schoelcher, homme de gauche d'origine alsacienne, est nommé président de la commission d'abolition de l'esclavage, il est l'initiateur du décret du 27 avril 1848 abolissant définitivement l'esclavage dans l'empire colonial français.

Dans cet exemple, est plus pertinent que , bien que les phrases et soient de pertinence égale.

184

Le facteur de pondération permet d’éviter de valoriser un document par rapport un document , lorsque est inférieur à de façon significative.

On obtient ainsi un score de pertinence global pour chaque document : il est alors possible de les ordonner du plus pertinent au moins pertinent. C’est sur ce modèle que s’appuie le système CaSE dans le cas d’une recherche documentaire.

Dans le document Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d'information et à l'acquisition de connaissances (Page 192-195)