• Aucun résultat trouvé

Les principales limites des travaux pr´esent´es dans le chapitre pr´ec´edent se r´esument comme suit :

1. Tout d’abord, en ce qui concerne l’indexation des documents XML, cer- taines solutions propos´ees sont non-extensibles, c’est `a dire que les index propos´es sont d´ependants de la structure des documents, qui est refl´et´ee dans leur sch´ema [63, 20, 59]. Si ces approches sont capables de traiter la structure avec efficacit´e, elles n´ecessitent cependant une connaissance a-priori de la structure des documents, et des documents poss´edant une structure diff´erente de celle de la collection originale ne peuvent pas ˆetre

ajout´es aux index.

Les solutions extensibles n’ont au contraire pas besoin de la DTD des documents pour les indexer, mais souvent des fonctionnalit´es manquent aux index pour r´epondre `a des conditions de structure pr´ecises ou en- core `a des conditions de contenus relatives `a des ´el´ements de structure [124, 68, 93, 126].

Pour pallier les inconv´enients pr´esent´es ci-dessus, nous proposons un mod`ele de repr´esentation des donn´ees g´en´erique et orient´e RI. Ce mod`ele nous permettra d’impl´ementer plusieurs mod`eles de recherche et d’in- dexer et de traiter des collections de documents h´et´erog`enes, c’est `a dire poss´edant des DTDs diff´erentes. Notre mod´elisation, bas´ee sur l’approche XPath Accelerator [93], nous permet en outre de conserver toute l’in- formation structurelle des documents et de naviguer ais´ement dans leur repr´esentation en arbre.

2. Les langages propos´ees dans la litt´erature pour l’interrogation des corpus de documents structur´es offrent pour la plupart de puissantes fonction- nalit´es [125, 40, 91, 66]. Ils requi`erent cependant de la part de l’utilisa- teur une connaissance pouss´ee de la structure des documents qu’il inter- roge, ainsi que la sp´ecification de l’´el´ement qu’il d´esire voir retourner par le syst`eme. La majorit´e des langages est aussi bas´ee sur une approche orient´ee base de donn´ees, et le contenu des documents est alors trait´e de fa¸con bool´eenne. Il a pourtant ´et´e d´emontr´e en RI que la prise en compte du poids des mots-cl´es dans un document est primordiale, voire n´ecessaire. Nous proposons dans nos travaux un langage permettant `a l’utilisateur d’exprimer son besoin selon divers degr´es de pr´ecision. Ce langage poss`ede une syntaxe simple, ne reposant pas sur SQL. L’utilisateur peut formuler son besoin `a base de simples mots-cl´es, sans pr´ecision aucune sur la struc- ture, et laisser le mod`ele d´ecider de la granularit´e appropri´ee de l’infor- mation `a renvoyer. Il peut aussi s’il le souhaite formuler des contraintes sur la structure des documents, en introduisant ´eventuellement la notion de hi´erarchie entre les diff´erentes conditions de structure.

3. Les mod`eles de recherche propos´es dans la litt´erature cherchent `a adap- ter les mod`eles utilis´es en RI traditionnelle ([79, 12, 53, 134, 137, 201,

35, 219, 103] pour le mod`ele vectoriel, [122] pour le mod`ele bool´een, [120,78,127,4,192,147,104,156] pour le mod`ele probabiliste), et ce afin de retrouver les unit´es d’information les plus pertinentes `a une requˆete utilisateur. Cependant, contrairement `a la RI traditionnelle, la pertinence dans le cadre de la RI structur´ee est exprim´ee selon deux dimensions : l’exhaustivit´e et la sp´ecificit´e. Les mod`eles de recherche devraient donc

prendre en compte ces deux dimensions de mani`ere explicite, ce qui n’est pas forc´ement le cas des approches propos´ees dans la litt´erature. Les exp´erimentations que nous avons men´ees dans [185] montrent cependant que la recherche des ´el´ements pertinents peut difficilement s’effectuer en deux phases s´epar´ees (une phase pour rechercher l’information exhaustive et une autre pour rechercher l’information sp´ecifique `a l’int´erieur de cette information exhaustive), et que l’information structurelle pr´esente dans les documents doit ˆetre utilis´ee au mieux, mˆeme pour les requˆetes com- pos´ees de simples mots-cl´es. Enfin, la plupart des approches pr´esent´ees dans la litt´erature traitent les conditions de structure en effectuant un filtre des r´esultats sur ces derni`eres. Les conditions structurelles pr´esentes dans les requˆetes doivent pourtant pouvoir ˆetre trait´ees de mani`ere vague, afin de proposer `a l’utilisateur qui ne connaˆıt pas n´ecessairement parfaite- ment la structure des documents qu’il interroge des solutions alternatives `a son besoin.

Pour r´epondre `a ces diff´erents besoins, nous proposons un mod`ele de pro- pagation de la pertinence permettant de retrouver les unit´es d’information les plus exhaustives et sp´ecifiques `a une requˆete. Lorsque la recherche porte sur des requˆetes `a base de simples mots-cl´es, notre mod`ele d´ecide de la granularit´e appropri´ee de l’information `a renvoyer `a l’utilisateur, en in- troduisant la notion d’informativit´e dans le calcul de la pertinence des ´el´ements. Dans le cas de requˆetes poss´edant des conditions de structures, nous int´egrons la structure dans notre mod`ele de pertinence. Diverses fonctions de propagation sont utilis´ees afin d’effectuer une correspondance vague entre l’arbre de la requˆete et l’arbre du document, c’est `a dire afin de traiter des structures qui ne sont pas forc´ements identiques.