• Aucun résultat trouvé

Les etats du document structure

Impact de la structure du document

6.2 Les etats du document structure

Un point fondamental qui, au premier abord, di erencie une base de donnees d'un sys-teme de recherche d'informations, est la phase preliminaire de traitement des donnees. Une base de donnee, une fois modelisee, est utilisee telle quelle alors qu'un systeme de recherche d'informations necessite un traitement des documents communement appele indexation. Ce traitement restitue sous une forme donnee, conforme a un modele de documents, les informa-tions contenues dans chaque document.

Dans notre approche, les informations a propos du document ou de ces parties et les informations decrivant le document ou ces parties sont contenues dans des attributs attaches aux elements de structure. Il nous reste a de nir quelle forme nous allons donner au processus d'indexation a n de rendre l'information, et donc les documents, plus accessible.

Nous reprenons tout d'abord la de nition initiale de l'attribut en explicitant les lacunes de ceux-ci dans les systemes existant et en donnant leurs caracteristiques liees a la structure des documents. Nous montrons ainsi la necessite d'une extension de cette notion d'attribut dans le document structure. Par la suite, nous revenons sur le processus d'indexation et les di erents etats dans lesquels nous pouvons considerer les documents. En introduisant les notions de couverture et de dependance, nous signi ons le besoin d'un nouvel etat qui o rirait une meilleure adequation entre le document structure et les requ^etes en integrant une extension a la notion d'attribut.

6.2.1 L'attribut: necessite d'une extension

La notion generale d'attribut se de nit comme une caracteristique ou une propriete qui est propre a quelqu'un ou a quelque chose. Dans le domaine des bases de donnees (modele relationnel ou a objets), un attribut permet de representer une caracteristique partagee par un ensemble d'individus (ou d'elements).

On remarque que dans les bases de donnees, un attribut est explicitement declare sur une relation ou sur une classe d'objets et sa valuation represente une information explicite qui caracterise un element d'une relation ou bien un objet. De m^eme, dans les normes de representation des documents structures tels que SGML [Bur94] ou ODA [Ass91], la notion d'attribut permet de caracteriser les elements de structure. Les attributs permettent de carac-teriser chaque noeud d'une arborescence structurelle selon une de nition fournie par le type de structure (DTD pour SGML). Cependant dans ces normes de representation des documents structures ou dans les systemes gerant des documents structures [Pep95], si les attributs sont explicitement declares sur des elements de structure, il reste une part d'information implicite puisqu'il faut determiner pour chaque attribut quels sont les elements de structure qui sont reellement concernes par l'information contenue dans cet attribut.

Les exemples de recherche que nous avons donnes precedemment (section 6.1.3) montrent bien l'ambigute des attributs dans le document structure. Cet ambigute reside dans le manque d'information sur la quali cation m^eme de chaque attribut.

D'une part nous souhaitons conserver la notion d'attributs sur les elements de structure du document. Ces attributs permettent de decrire les caracteristiques particulieres de chaque partie de document et restent donc utiles pour la recherche. Cependant nous voulons etendre cette notion a n de ne plus ^etre confrontes lors de l'interrogation a des ambigutes sur les elements concernes par une information, c'est-a-dire accro^tre la puissance du processus de recherche. Nous souhaitons de nir lors de l'indexation structurelle quels elements sont de-crits par quelles informations et comment les informations contenues dans les attributs se combinent a l'interieur du document structure.

Nous voulons remedier a ces problemes en ne considerant plus seulement un attribut mais aussi les proprietes structurelles de l'attribut a n de mieux couvrir le document et de resoudre au niveau du modele de representation des problemes lies a la representation de l'information. Nous proposons donc de quali er les attributs lors du processus d'indexation structurelle, c'est-a-dire en amont du processus de recherche. Nous adoptons donc une indexation statique que nous pouvons opposer a une indexation dynamique telle que celle de Paradis dans [Par96]. Dans une indexation dynamique, c'est la requ^ete qui determine quelles informations vont ^etre considerees et comment elles vont se comporter. Nous preferons de nir en amont ces comportements.

6.2.2 De l'indexation a l'interrogation

Nous revenons ici sur l'indexation et son importance vis-a-vis de l'interrogation qui est la nalite de tout systeme de recherche d'informations. Le processus d'interrogation, et donc le modele de correspondance sous-jacent, repose completement sur le resultat de l'indexation et la forme de celle-ci. Dans la gure 6.2, nous montrons que di erentes formes d'indexation

im-pliquent di erentes formes de correspondance si nous voulons aboutir a un resultat equivalent en sortie.

Dans cette gure, l'etat initial du document est un document sur lequel aucune analyse particuliere n'a ete appliquee. Il s'agit donc d'un document comportant uniquement des des-criptions externes assimilables a des attributs classiques de type base de donnees. Dans l'etat nal, nous presentons deux types de documents qui comportent chacun des informations sup-plementaires par rapport a l'etat initial. Ces informations, issues d'une phase d'indexation, ne sont pas similaires et peuvent ^etre plus ou moins riches selon les caracteristiques de chacune des indexations.

? ?

? ?

Document Etat Initial

Etat final

Correspondance

Requête

Correspondance

Requête

Figure 6.2.

Dependance entre indexation et correspondance

Il ne s'agit pas pour nous de de nir l'indexation la plus riche possible, mais de nous situer vis-a-vis des indexations que nous connaissons actuellement sur des documents \plats" et d'adapter celle-ci a des documents structures. Sachant que la structure des documents introduit une nouvelle complexite, il est preferable de calculer prealablement, c'est-a-dire lors de l'indexation, les nouveaux elements introduits par la structure. Parmi ces elements, nous retrouvons les dependances entre les descriptions des elements de structure au sein du document, c'est-a-dire la provenance des informations et leur circulation dans la structure du document.

Nous pouvons citer en exemple des travaux s'etant interesses a de nir des strategies d'in-dexation qui par la suite guidaient la recherche au sein du document structure. Ainsi Lee & al. [LYYB96] proposent une indexation basee sur des ensembles de mots cles. Les feuilles du document sont decrites par un ensemble de mots cles et ceux-ci remontent vers le noeud ra-cine du document en s'agregeant pour fournir pour chaque noeud de l'arborescence un index. A partir de cette strategie d'indexation, di erentes sortes de chiers inverses sont etablies. Des proprietes des chiers inverses, c'est-a-dire quelles informations sont conservees et pre-calculees dans ceux-ci, vont dependre les reponses mais aussi les espaces requis pour les index et les temps d'acces. Une autre approche basee sur le modele logique de recherche d'infor-mation et proposee par Kheirbek et Chiaramella dans [KC95, Khe95] demontre la possibilite de decrire une strategie de recherche dans les documents structures dependant completement des proprietes fournies par l'indexation. Cette strategie de recherche nommee "Fetch and Browse", repose entierement sur le fait que l'indexation fournit une implication logique entre la description d'un compose et celle de son composant. Cette strategie permet de retrouver

l'element de structure le plus petit qui repond a une requ^ete.

Il nous semble donc primordial lors de notre processus d'indexation de fournir en resultat de ce processus non seulement une bonne description du contenu mais surtout d'etablir les relations entre les descriptions des elements de structure a n de pouvoir guider le processus de recherche.

Au niveau de la recherche sur des documents structures et des caracteristiques propres a cette recherche, a savoir retrouver l'element de structure et non plus le document complet qui repond a une requ^ete, nous introduisons deux notions qui permettent de decrire l'objectif du processus d'indexation de tels documents: la couverture et la dependance.

La couverture

des elements structurels du document par les attributs a pour but d'assurer une meilleure adequation entre l'ensemble des informations qui decrivent le document et l'ensemble des elements de structure qui representent le document structure.

Une couverture optimale se caracterise par un etat du document structure dans lequel chaque element structurel accueille tout attribut qui contient de l'information le concer-nant.

Considerons un document conforme a la DTD presentee dans la gure 6.1. Dire que ce document admet une couverture optimale signi e que seuls les elements de type

Chapitre sont concernes par l'attribut auteur. Ce postulat n'est pas defendable puisque cet attribut concerne notamment le document complet: le livre. Il en va de m^eme pour la plupart des autres attributs au sein d'un document structure. Il faut donc que chaque information concernant un ou plusieurs elements de structure soit representee explicitement par un attribut sur ces elements de structure.

La dependance

des valeurs des attributs dans un document structure s'exprime par des dependances explicites entre informations de m^eme nature signi ant clairement qu'il s'agit d'une m^eme source d'information qui est representee au niveau des di erents elements de structure.

La dependance des valeurs des attributs dans un document structure est realisee si les dependances entre les valeurs des attributs sont explicitees.

Nous avons de ni les notions de couverture et de dependance comme des objectifs de l'in-dexation des documents structures. Une couverture optimale o re la possibilite de retrouver un maximum d'elements structurels d'apres leurs descriptions puisque celles-ci accueilleront chaque information relative a l'element. Cette couverture minimise les derivations et trai-tements de la phase de correspondance. La dependance des valeurs des attributs dans le document structure indique d'une part, que dans ce document certains elements sont des sources d'information et d'autre part, qu'elle re ete l'organisation des informations au sein du document.

Considerons maintenant un document pour lequel la couverture n'est pas optimale et dont la dependance entre les valeurs des attributs n'est pas exprimee dans l'etat nal de representation. Lors du traitement d'une requ^ete, soit le systeme va faillir par manque de connaissance sur la portee d'un attribut au sein du document, soit il va devoir, au cours du processus de correspondance, deriver cette connaissance. L'indexation n'ayant pas pris

en charge les notions elementaires que nous avons de nies, c'est le processus de mise en correspondance du systeme qui va ^etre confronte a ces lacunes.

Nous proposons donc de reporter cette phase de derivation des connaissances dans un processus complementaire du processus d'indexation classique. Nous l'appellerons le proces-sus d'indexation structurelle. Il aura en charge de rapprocher l'etat du document nal d'une couverture optimale pour celui-ci en explicitant les dependances entre les valeurs des attri-buts. L'explicitation de ces dependances sera alors un outil pour guider la recherche dans le document structure. La gure 6.3 re ete l'objectif de ce processus par rapport a un etat nal du document structure. Etat Indexation Document Etendu Structuré final Modèle de Document Indexation Structurelle Modèle de Document

Figure 6.3.

L'objectif d'une indexation des documents structures

Cet etat nal realise une couverture optimale et donne une vision explicite des dependances entre les valeurs des attributs de chaque element de structure.

Nous avons introduit gure 6.3 la notion de modele de document etendu, c'est-a-dire un modele de document auquel doit se conformer le resultat de l'indexation structurelle. L'indexa-tion structurelle modi e la couverture du document en associant a des elements de structure des descripteurs qui n'existaient pas auparavant sur ces elements. Ce processus provoque donc des incoherences entre le modele de document initial et le resultat qu'il fournit. Nous devons donc construire un nouveau modele de document en fonction des parametres de l'indexation structurelle.

Dans ce modele de document etendu, les elements nouveaux qui proviennent speci que-ment de l'indexation structurelle seront speci es. Nous voyons par la suite comspeci que-ment ce modele de document etendu est obtenu.