Impact de la structure du document
6.3 Portee de l'attribut
Deux notions essentielles nous guident dorenavant pour denir la phase d'indexation struc-turelle des documents structures: la couverture du document par les attributs et la dependance
des valeurs des attributs.
Dans ce but, nous introduisons une nouvelle caracteristique propre aux attributs des documents structures: la portee de l'attribut. Cette portee re ete l'extension qui permet de combler les lacunes que nous avons presentees en 6.2.1. De plus, cette nouvelle caracteristique des attributs a pour but d'obtenir une meilleure couverture du document par les attributs ainsi qu'une explicitation des dependances entre valeurs d'attributs au sein du document structure. Ces deux points sont les elements que nous mettons en evidence lors d'un processus d'indexation structurelle.
Nous denissons tout d'abord la portee de l'attribut, puis nous introduisons une denition formelle de cette portee dans les documents structures avant de l'appliquer aux relations de structure de notre modele de representation du document structure.
6.3.1 Une propriete structurelle de l'attribut: sa portee
Nous avons vu a travers le court exemple donne precedemment que l'interrogation des documents structures serait plus puissante en exploitant la portee des attributs dans les do-cuments structures. Ces attributs sont denis pour un noeud de l'arborescence structurelle sans tenir compte de l'environnement de ce noeud. La non-prise en compte de leur environ-nement structurel introduit des ambigutes et donc des lacunes au niveau de l'interrogation. Nous proposons une denition de l'attribut dans le document structure qui leve ces ambigu-tes en denissant plus exactement quelle information est liee a l'attribut et quels elements du document sont concernes par cette information.
Notre objectif est d'expliciter les informations decrivant les elements de structure car nous considerons qu'il s'agit d'une phase primordiale pour faciliter la recherche dans les documents structures. Le principal probleme auquel nous sommes confrontes lors de la recherche sur des documents structures concerne le manque de exibilite des systemes d'interrogation d^u pour une grande part a un trop grand nombre d'informations implicites.
An d'utiliser les proprietes des relations de structure lors de la recherche, nous introdui-sons la notion de portee d'un attribut. Cette notion de portee doit ^etre vue comme un moyen de rendre explicite un maximum d'informations contenues dans le document et de les rendre accessibles a tous les niveaux du document pour lesquels elles sont veriees. Cette approche tend donc vers la couverture et la dependance des attributs des documents structures.
Nous rappelons que nous considerons un etat initial du document structure represente par un ensemble d'elements structurels organise en arborescence. Certains de ces elements de structure sont decrits par des attributs qui proviennent soit de la denition du type de structure (attributs structurels), soit de la representation du contenu de l'element (attribut de contenu). Lorsqu'un attribut
decrit un element de structure dans l'etat initial du document, nous dirons que l'attribut est attache a un element de structure.L'utilisation de la portee d'un attribut modie l'etat du document structure indexe, i.e. l'ensemble d'elements structurels et les attributs attaches a ces elements. On obtient un do-cument structure represente non seulement par l'ensemble des elements structurels et les attributs qui y sont attaches, mais aussi par des attributs assignes a des elements structu-rels selon les indications de la portee des attributs. Les attributs assignes sont des attributs provenant des attributs initiaux et rendent explicites les informations implicites de document
structure. L'introduction de la portee des attributs dans le processus d'indexation du docu-ment structure nous permet d'augdocu-menter la couverture des eledocu-ments structurels du docudocu-ment par les attributs et nous allons voir avec la denition plus precise de la portee que nous cherchons aussi a exprimer les dependances entre les valeurs d'attributs a travers la portee.
6.3.2 Denition d'une portee
Nous donnons une denition de la portee d'un attribut
pour un element de structureo
d'un document
D
.Denition 3 (Portee d'un attribut)
La portee d'un attributdecrivant un element struc-turelo
d'un documentD
est decrite par le septuplet Po;rel. Ce septuplet determine l'ensemble des elements structurels, noteEP
o;rel, qui sont decrits par ce m^eme attributet qui partagent la m^eme source d'information (l'element structurelo
).En decrivant une portee pour un attribut
d'un element de structureo
, nous indiquons que cet attribut ne concerne pas uniquement l'element de structureo
mais qu'il decrit aussi des elements lies a l'elemento
par une relation de structure. La denition de la portee correspond a une meilleure couverture du document par les attributs puisque chaque element structurel de l'ensembleEP
o;rel va desormais accueillir un attribut .Par ailleurs, nous indiquons la dependance entre les valeurs des attributs
: les elements structurels de l'ensembleEP
o;rel vont admettre un attribut dont la valeur provient d'une m^eme source d'information, l'element structurelo
. Nous retrouvons ici la notion de depen-dance dans les valeurs des attributs et la denition d'elements structurels en tant que sources d'informations.Nous donnons ci-dessous (6.1), les composants qui forment le septupletPo;rel:
Po;rel = (
;o;rel;cat;v
;f
;cond
) (6.1)L'attribut
est un nom d'attribut pris dans l'ensemble des noms d'attributNAME
, deni pour un type de structure de documents pris dansST
via la relationRST ou bien deni pour un type de media pris dansM
via la relationRM.L'element structurel o
appartient a l'ensembleOS
des elements structurels qui decrivent un documentD
se conformant a un type de structure deST
.La relation rel
est une relation de structure. Nous l'appliquons aux relations de structure denies dans notre modele de document structure: la relation de composition, comp, la relation de sequence seq et la relation de reference ref.L'ensemble qui decrit la portee de l'attribut
pour l'element de structureo
est etabli en suivant cette relation, c'est-a-dire que les elements de l'ensembleEP
o;rel sont lies directement ou indirectement par cette relation.La valeur v
est la valeur initiale de l'attribut , c'est-a-dire la valeur source qui va ^etre partagee par les attributs des elements structurels de la portee,EP
o;rel.la fonction f
est une fonction de propagation des valeurs de l'attribut permettant d'as-signer une valeur aux attributs des elements de la portee. Les domaines de denition des attributs sont assimiles a des langages et cette fonction est donc dierente selon chaque type de langage.f
:domain
() !domain
()La categorie cat
est une categorie de propagation prise dans l'ensemblefsucc;pred;static
g. Elle indique dans quel sens la relationrel
doit ^etre suivie an de construire l'ensemble decrivant la portee1.1.
succ
: l'elemento
est considere comme la source de la relation et les elements successeurs selonrel
de l'elemento
sont des candidats potentiels de la portee denie suro
.cat
=succ
)8o
i2EP
o;rel,o
i 2Next
rel(o
)2.
pred
: l'elemento
est considere comme la cible de la relation et les elements prede-cesseurs selonrel
de l'elemento
sont des candidats potentiels de la portee denie suro
.cat
=pred
)8o
i 2EP
o;rel,o
i 2Prev
rel(o
)3.
static
: la portee denie a partir de l'elemento
ne concerne pas les elements lies ao
selon la relation
rel
. Cette categorie nous ramene a des attributs classiques de type base de donnees qui ne prennent pas en compte les caracteristiques structurelles du document.Les conditions cond
expriment l'ensemble de conditions que doivent remplir les elements structurels pour appartenir a la portee. Nous appelons les conditions speciees danscond
des conditions d'appartenance a la portee.Hormis la fonction
f
et la valeur initialev
qui sont utilisees pour la propagation des valeurs au sein de la portee, les autres informations du septuplet sont indispensables pour la construction de l'ensembleEP
o;rel, c'est-a-dire pour la construction de la couverture.Nous voyons maintenant quelles conditions d'appartenance les elements de cet ensemble peuvent verier.