Motivations - Modèle flexible pour la Recherche d'Information dans des corpus de documents semi

Les principales limites des travaux présentés dans le chapitre précédent se résument comme suit :

1. Tout d’abord, en ce qui concerne l’indexation des documents XML, cer- taines solutions proposées sont non-extensibles, c’est à dire que les index proposés sont dépendants de la structure des documents, qui est reflétée dans leur schéma [63, 20, 59]. Si ces approches sont capables de traiter la structure avec efficacité, elles nécessitent cependant une connaissance a-priori de la structure des documents, et des documents possédant une structure différente de celle de la collection originale ne peuvent pas être

ajout´es aux index.

Les solutions extensibles n’ont au contraire pas besoin de la DTD des documents pour les indexer, mais souvent des fonctionnalités manquent aux index pour répondre à des conditions de structure précises ou en- core à des conditions de contenus relatives à des éléments de structure [124, 68, 93, 126].

Pour pallier les inconvénients présentés ci-dessus, nous proposons un modèle de représentation des données générique et orienté RI. Ce modèle nous permettra d’implémenter plusieurs modèles de recherche et d’indexer et de traiter des collections de documents hétérogènes, c’est à dire possédant des DTDs différentes. Notre modélisation, basée sur l’approche XPath Accelerator [93], nous permet en outre de conserver toute l’information structurelle des documents et de naviguer aisément dans leur représentation en arbre.

2. Les langages proposées dans la littérature pour l’interrogation des corpus de documents structurés offrent pour la plupart de puissantes fonction- nalités [125, 40, 91, 66]. Ils requièrent cependant de la part de l’utilisateur une connaissance poussée de la structure des documents qu’il interroge, ainsi que la spécification de l’élément qu’il désire voir retourner par le système. La majorité des langages est aussi basée sur une approche orientée base de données, et le contenu des documents est alors traité de fa¸con booléenne. Il a pourtant été démontré en RI que la prise en compte du poids des mots-clés dans un document est primordiale, voire nécessaire. Nous proposons dans nos travaux un langage permettant à l’utilisateur d’exprimer son besoin selon divers degrés de précision. Ce langage possède une syntaxe simple, ne reposant pas sur SQL. L’utilisateur peut formuler son besoin à base de simples mots-clés, sans précision aucune sur la structure, et laisser le modèle décider de la granularité appropriée de l’information à renvoyer. Il peut aussi s’il le souhaite formuler des contraintes sur la structure des documents, en introduisant éventuellement la notion de hiérarchie entre les différentes conditions de structure.

3. Les modèles de recherche proposés dans la littérature cherchent à adap- ter les modèles utilisés en RI traditionnelle ([79, 12, 53, 134, 137, 201,

35, 219, 103] pour le modèle vectoriel, [122] pour le modèle booléen, [120,78,127,4,192,147,104,156] pour le modèle probabiliste), et ce afin de retrouver les unités d’information les plus pertinentes à une requête utilisateur. Cependant, contrairement à la RI traditionnelle, la pertinence dans le cadre de la RI structurée est exprimée selon deux dimensions : l’exhaustivité et la spécificité. Les modèles de recherche devraient donc

prendre en compte ces deux dimensions de manière explicite, ce qui n’est pas forcément le cas des approches proposées dans la littérature. Les expérimentations que nous avons menées dans [185] montrent cependant que la recherche des éléments pertinents peut difficilement s’effectuer en deux phases séparées (une phase pour rechercher l’information exhaustive et une autre pour rechercher l’information spécifique à l’intérieur de cette information exhaustive), et que l’information structurelle présente dans les documents doit être utilisée au mieux, même pour les requêtes com- posées de simples mots-clés. Enfin, la plupart des approches présentées dans la littérature traitent les conditions de structure en effectuant un filtre des résultats sur ces dernières. Les conditions structurelles présentes dans les requêtes doivent pourtant pouvoir être traitées de manière vague, afin de proposer à l’utilisateur qui ne connaˆıt pas nécessairement parfaite- ment la structure des documents qu’il interroge des solutions alternatives à son besoin.

Pour répondre à ces différents besoins, nous proposons un modèle de propagation de la pertinence permettant de retrouver les unités d’information les plus exhaustives et spécifiques à une requête. Lorsque la recherche porte sur des requêtes à base de simples mots-clés, notre modèle décide de la granularité appropriée de l’information à renvoyer à l’utilisateur, en introduisant la notion d’informativité dans le calcul de la pertinence des éléments. Dans le cas de requêtes possédant des conditions de structures, nous intégrons la structure dans notre modèle de pertinence. Diverses fonctions de propagation sont utilisées afin d’effectuer une correspondance vague entre l’arbre de la requête et l’arbre du document, c’est à dire afin de traiter des structures qui ne sont pas forcéments identiques.

Dans le document Modèle flexible pour la Recherche d'Information dans des corpus de documents semi-structurés (Page 132-134)