Expérimentations autour du système CaSE - d’Information exploitant les adverbiaux calendaires p

d’Information exploitant les adverbiaux calendaires présents dans les textes

7.2 Expérimentations autour du système CaSE

Nous décrivons ici trois expérimentations menées autour du système CaSE, chacune visant à illustrer différents aspects des possibilités ouvertes par cette approche de la recherche d’information temporelle :

(1) La première de ces expérimentations a été menée sur des corpus de textes (essentiellement des corpus d’articles de Wikipedia) (cf. section 7.2.1). L’objectif était de montrer comment les moteurs de recherche pourraient tirer parti d’une représentation de la sémantique des adverbiaux calendaires qui découle d’une analyse linguistique pour mettre en œuvre des services dédiés à la recherche documentaire ou intra-documentaire en mesure de traiter des requêtes temporelles.

(2) La seconde expérimentation a été menée sur des données structurées décrivant des événements liés à l’univers de la musique (cf. section 7.2.2). L’objectif était de montrer que le système peut interagir avec des données structurées exprimées dans les formats propres au Web Sémantique.

(3) Enfin, la troisième expérimentation a été menée sur des données structurées provenant de Freebase relatives à des œuvres d’art (cf. section 7.2.3). L’objectif était de montrer qu’il peut être intéressant de mettre en œuvre des systèmes qui permettent aux utilisateurs d’enrichir des bases de connaissances à mesure qu’ils les consultent, tirant parti à la fois de ressources structurées au sens du Web Sémantique et de ressources textuelles.

7.2.1 La recherche documentaire et l’exploration intra-documentaire avec CaSE

Cette expérimentation a pour but de dérouler un scénario d’utilisation du système CaSE qui articule la recherche documentaire et la recherche intra-documentaire. Elle vise à montrer l’intérêt et la faisabilité de la démarche adoptée pour mettre en œuvre un système de recherche d’information temporelle. On rappelle que le système ne peut traiter que des requêtes temporelles qui couvrent une plage unique sur le calendrier (en 2009, dans les années 1820, depuis le 12^e siècle, etc.).

Le démonstrateur mis en œuvre pour ce scenario est accessible en ligne aux adresses suivantes : - Pour la version française : http://client1.mondeca.com/TemporalQueryModule/?locale=fr - Pour la version anglaise : http://client1.mondeca.com/TemporalQueryModule/?locale=en

7.2.1.1 La constitution des corpus pour les démonstrateurs

Les deux corpus indexés pour cette expérimentation (l’un en français sur l’histoire de France, l’autre en anglais, sur l’histoire des Etats-Unis) sont constitués d’articles de Wikipédia⁵⁰. Les textes ont été collectés grâce à un ensemble de requêtes sur le endpoint SPARQL⁵¹ de DBpedia⁵², en agrégeant les

50http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Accueil_principal 51http://dbpedia.org/sparql

187

liens sortant d’un petit nombre de pages de catégorisation de Wikipédia (« France », « Histoire de France », etc.), sur trois niveaux de profondeur. L’objectif était de constituer automatiquement des corpus suffisamment volumineux et cohérents pour permettre des requêtes libres sur une thématique donnée. Constitués de façon automatique sans intervention humaine de contrôle, ces corpus ne sont bien évidemment pas exhaustifs. Ils ne contiennent pas non plus que des documents en rapport avec leur thème. Cependant, ils délimitent un périmètre thématique assez ouvert pour permettre de tester le système sur des requêtes très variées.

(1) La version française du démonstrateur permet d’explorer un corpus réunissant près de 16 000 articles de Wikipédia sur l'histoire de France. Il contient près de 280 000 adverbiaux calendaires.

Voici quelques exemples de requêtes : - laïcité avant 1905

- peine de mort depuis les années 70 - travaux paris vers le milieu du XIXe siècle - Villers-Cotterêts

- Saint-Barthélemy

(2) La version anglaise du démonstrateur permet d’explorer un corpus réunissant plus de 55 000 articles de Wikipedia sur l'histoire des Etats-Unis. Il contient près de 840 000 adverbiaux calendaires.

Voici quelques exemples de requêtes :

- prohibition at the beginning of the 30s - desegregation since the mid-50s - earthquake between 1980 and 1990 - Cuban Missile Crisis

- United States Constitution by the end of the 18th century - Herbert Hoover

- Normandy landings

7.2.1.2 Un scenario d’utilisation

Nous présentons ici un scenario d’usage, afin d’illustrer les fonctionnalités du moteur de recherche : 1) Un utilisateur soumet la requête suivante au système CaSE « université au début du XIIe

188

Fig. 67 : copie d’écran de la liste des résultats proposés pour la requête « université au début du XIIe siècle »

2) Parmi ces résultats, l’utilisateur peut par exemple sélectionner le second document (qui a pour titre Université) afin de le parcourir sous la perspective calendaire. Le système restreint alors la recherche initiale à ce seul document. Les phrases extraites du document pour cette recherche sont ordonnées par pertinence :

Fig. 68 : copie d’écran de la liste des résultats proposés pour la requête « université au début du XIIe siècle » dans le cadre d’une recherche intra-documentaire

3) L’utilisateur peut alors changer l’échelle de la frise chronologique, déplacer la fenêtre visualisée et la positionner, par exemple, aux alentours de 1550. Le système modifie alors la liste des résultats et accole à la requête initiale un nouvel adverbial calendaire correspondant à la fenêtre de temps visualisée (« des années 1530 aux années 1570 ») :

189

Fig. 69 : la requête modifiée suite à un déplacement de la frise chronologique : l’adverbial « des années 1530 aux années 1570 » a été générée automatiquement

Fig. 70 : copie d’écran de la liste des résultats proposés suite au déplacement de la frise chronologique

L’adverbial généré est fonction de l’échelle de la frise chronologique. En l’occurrence, dans le scenario décrit, elle correspond à une échelle décennale. En mettant à jour le critère calendaire exprimé dans la requête, le système permet de préserver la cohérence entre la requête affichée (« université des années 1530 aux années 1570 ») et les résultats proposés, aussi bien sur la frise chronologique que dans la liste des phrases affichées.

Le système permet ainsi de basculer d’une recherche documentaire vers une recherche intra-documentaire, pour parcourir un document. Il est ainsi possible d’explorer un corpus ou un document sous l’angle calendaire, avant éventuellement d’accéder à la page Web d’un document donné.

7.2.2 Interroger des données structurées : un cas d’utilisation

Le but de cette seconde expérimentation décrite dans (Vandenbussche et Teissèdre, 2011) est de montrer que le système d’indexation peut également interagir avec des données structurées contenant des propriétés calendaires et donc intégrer aussi les infrastructures logicielles qui s’appuient sur le Web Sémantique. Ici, les informations indexées par le moteur sont des données RDF fournies dans le cadre d’un atelier, DeRiVE 2011⁵³ (Detection, Representation, and Exploitation of Events in the Semantic Web), dont l’objectif était d’explorer différentes pistes pour exploiter des

Dans le document Analyse sémantique automatique des adverbiaux de localisation temporelle : application à la recherche d'information et à l'acquisition de connaissances (Page 197-200)