• Aucun résultat trouvé

2.3 Recherche d’Information Structur´ee : pro-bl`emes et enjeux

2.3.3 Les pr´ecurseurs

Bien avant l’apparition d’XML, des travaux concernant la granularit´e de l’information `a renvoyer `a l’utilisateur ont ´et´e pr´esent´es. Ces travaux ont cherch´e `a d´ecouper un document textuel en entit´es plus petites : il s’agit des travaux

bas´es sur la recherche de passage. Plus tard, des travaux cherchant `a exploiter la structure fixe des documents HTML ou bien les liens qu’ils contiennent ont ´et´e propos´es dans le cadre de la RI sur le Web. Mˆeme si ces travaux ne sont pas directement applicables `a la RI dans des documents XML (puisque l’infor- mation structurelle qu’ils contiennent sert `a d´ecouper les unit´es d’information mais que cette information structurelle n’est pas fixe), ils sont les pr´ecurseurs de toutes les approches propos´ees.

2.3.3.1 La recherche de passages

Ces travaux cherchent `a proposer une d´emarche permettant de caract´eriser des granules d’informations plus fins que les granules de la collection explor´ee. L’int´erˆet de consid´erer une granularit´e plus fine est de traiter des documents que l’on va supposer homog`enes [9, 95].

Il existe un grand nombre de d´efinitions de la notion de passage [175]. Dans [9, 221, 235, 106, 34], les auteurs proposent de renvoyer une partie de docu- ment en se basant sur un d´ecoupage physique du document, ou bien encore en utilisant l’information structurelle. Dans [9], les auteurs utilisent par exemple une segmentation en pages physiques (limit´ees en nombre de caract`eres). Les passages peuvent aussi ˆetre vus comme des s´equences de mots ou de phrases, limit´es par des changements de sujet [34, 138, 141, 95, 175, 178]. Les m´ethodes utilis´ees pour la d´etection de ces segments th´ematiques rel`event alors des m´ethodes statistiques ou probabilistes. Une des approches les plus connues de segmentation est celle propos´ee par Hearst [95]. L’´el´ement d’information de base est la phrase, et pour chaque phrase donn´ee, sa similarit´e est calcul´ee avec les k phrases pr´ec´edentes et les k phrases suivantes. Si l’on trace une courbe des num´eros de phrase en fonction des similarit´es, les brusques changements dans l’allure de la courbe d´elimitent les changements th´ematiques.

Enfin, dans [112], les passages sont vus comme des fenˆetres d’un nombre fix´e de termes, les fenˆetres pouvant se recouvrir si n´ecessaire.

Les diff´erentes approches de recherche par passage sont relativement simples `a mettre en place et efficaces, mais leur application reste limit´ee aux seuls do- cuments texte et les m´ethodes ne s’appliquent qu’`a des documents ayant des tailles homog`enes.

2.3.3.2 RI sur le Web

Utilisation des liens La sp´ecification des liens du Web peut contenir de nombreuses informations implicites qui peuvent aider pour ordonner ou filtrer des pages Web. En particulier, un lien d’une page A `a une page B peut ˆetre consid´er´e, dans la plupart des cas, comme une recommandation de la page B par l’auteur de la page A. Ainsi, les liens, dont le but premier est de faciliter

la navigation `a l’int´erieur d’un site, peuvent aussi ˆetre vus comme des liens de proximit´e s´emantique entre pages Web [39].

L’algorithme utilis´e dans [36] fait partie des tous premiers `a exploiter la topo- logie des liens pour aider aux classement des pages. Les liens sont utilis´es pour essayer de contrer les probl`emes li´es au ”vocabulary problem” [81], c’est `a dire `a la difficult´e pour les utilisateurs `a formuler leur besoin en information. Brin et Page [29] utilisent la notion de propagation de popularit´e pour construire leur algorithme Page Rank, utilis´e dans le c´el`ebre moteur de recherche Google. La propagation de popularit´e (ou ”macroscopic distillation” [38]) provient ini- tialement de l’analyse de citations ou de co-citations dans la litt´erature scienti- fique [220]. Au lieu de modifier directement l’index des documents, la m´ethode consiste `a mettre en avant les documents qui jouent un rˆole particulier dans le r´eseau de liens. Cette approche s’av`ere tr`es efficace en marketing, mais a montr´e ses limites, notamment lors des campagnes d’´evaluation TREC 2001- 2003 [203].

L’algorithme HITS (Hyperlinked Induced Topic Search) [113] am´eliore la propa- gation de popularit´e en prenant en compte la pertinence des pages : ”Une page r´ef´erenc´ee par un grand nombre de pages pertinentes est une bonne page”, ou ”une page qui r´ef´erence un grand nombre de pages pertinentes est une bonne page”. Contrairement `a la technique du PageRank, qui assigne un score glo- bal `a chaque page, l’algorithme HITS est une technique d’ordonnancement d´ependante de la requˆete. De plus, au lieu de donner un simple score, l’algo- rithme en donne deux : les scores d’autorit´e et de rayonnement.

Enfin, dans [153], les auteurs montrent que l’utilisation des liens dans un mod`ele d’argumentation probabiliste (PAS : Probabilistic Argumentation System) per- met d’am´eliorer significativement le classement des documents.

Utilisation des m´eta-balises Gloria Bordogna et Gabriella Pasi [21] pro- posent un mod`ele flexible d’interrogation de documents Web. Ce mod`ele per- met aux utilisateurs de personnaliser la repr´esentation des documents struc- tur´es. L’id´ee principale est d’exploiter la structure logique du document dans le calcul des poids des termes de l’index. Dans une premi`ere phase, les termes sont index´es en fonction des diff´erentes sections du document. Chaque sec- tion poss`ede une fonction d’appartenance floue, et les poids des termes sont calcul´es dans les sections principales grˆace `a des fonctions d’agr´egation. Des quantifieurs linguistiques d´efinis `a l’aide d’OWA (Ordered Weighted Averaging Operators[228]) sont ensuite associ´es aux fonctions d’agr´egation.