• Aucun résultat trouvé

Impact de la structure du document

6.3 Portee de l'attribut

Deux notions essentielles nous guident dorenavant pour de nir la phase d'indexation struc-turelle des documents structures: la couverture du document par les attributs et la dependance

des valeurs des attributs.

Dans ce but, nous introduisons une nouvelle caracteristique propre aux attributs des documents structures: la portee de l'attribut. Cette portee re ete l'extension qui permet de combler les lacunes que nous avons presentees en 6.2.1. De plus, cette nouvelle caracteristique des attributs a pour but d'obtenir une meilleure couverture du document par les attributs ainsi qu'une explicitation des dependances entre valeurs d'attributs au sein du document structure. Ces deux points sont les elements que nous mettons en evidence lors d'un processus d'indexation structurelle.

Nous de nissons tout d'abord la portee de l'attribut, puis nous introduisons une de nition formelle de cette portee dans les documents structures avant de l'appliquer aux relations de structure de notre modele de representation du document structure.

6.3.1 Une propriete structurelle de l'attribut: sa portee

Nous avons vu a travers le court exemple donne precedemment que l'interrogation des documents structures serait plus puissante en exploitant la portee des attributs dans les do-cuments structures. Ces attributs sont de nis pour un noeud de l'arborescence structurelle sans tenir compte de l'environnement de ce noeud. La non-prise en compte de leur environ-nement structurel introduit des ambigutes et donc des lacunes au niveau de l'interrogation. Nous proposons une de nition de l'attribut dans le document structure qui leve ces ambigu-tes en de nissant plus exactement quelle information est liee a l'attribut et quels elements du document sont concernes par cette information.

Notre objectif est d'expliciter les informations decrivant les elements de structure car nous considerons qu'il s'agit d'une phase primordiale pour faciliter la recherche dans les documents structures. Le principal probleme auquel nous sommes confrontes lors de la recherche sur des documents structures concerne le manque de exibilite des systemes d'interrogation d^u pour une grande part a un trop grand nombre d'informations implicites.

A n d'utiliser les proprietes des relations de structure lors de la recherche, nous introdui-sons la notion de portee d'un attribut. Cette notion de portee doit ^etre vue comme un moyen de rendre explicite un maximum d'informations contenues dans le document et de les rendre accessibles a tous les niveaux du document pour lesquels elles sont veri ees. Cette approche tend donc vers la couverture et la dependance des attributs des documents structures.

Nous rappelons que nous considerons un etat initial du document structure represente par un ensemble d'elements structurels organise en arborescence. Certains de ces elements de structure sont decrits par des attributs qui proviennent soit de la de nition du type de structure (attributs structurels), soit de la representation du contenu de l'element (attribut de contenu). Lorsqu'un attribut

decrit un element de structure dans l'etat initial du document, nous dirons que l'attribut

est attache a un element de structure.

L'utilisation de la portee d'un attribut modi e l'etat du document structure indexe, i.e. l'ensemble d'elements structurels et les attributs attaches a ces elements. On obtient un do-cument structure represente non seulement par l'ensemble des elements structurels et les attributs qui y sont attaches, mais aussi par des attributs assignes a des elements structu-rels selon les indications de la portee des attributs. Les attributs assignes sont des attributs provenant des attributs initiaux et rendent explicites les informations implicites de document

structure. L'introduction de la portee des attributs dans le processus d'indexation du docu-ment structure nous permet d'augdocu-menter la couverture des eledocu-ments structurels du docudocu-ment par les attributs et nous allons voir avec la de nition plus precise de la portee que nous cherchons aussi a exprimer les dependances entre les valeurs d'attributs a travers la portee.

6.3.2 De nition d'une portee

Nous donnons une de nition de la portee d'un attribut

pour un element de structure

o

d'un document

D

.

De nition 3 (Portee d'un attribut)

La portee d'un attribut

decrivant un element struc-turel

o

d'un document

D

est decrite par le septuplet Po ;rel. Ce septuplet determine l'ensemble des elements structurels, note

EP

o ;rel, qui sont decrits par ce m^eme attribut

et qui partagent la m^eme source d'information (l'element structurel

o

).

En decrivant une portee pour un attribut

d'un element de structure

o

, nous indiquons que cet attribut ne concerne pas uniquement l'element de structure

o

mais qu'il decrit aussi des elements lies a l'element

o

par une relation de structure. La de nition de la portee correspond a une meilleure couverture du document par les attributs puisque chaque element structurel de l'ensemble

EP

o ;rel va desormais accueillir un attribut

.

Par ailleurs, nous indiquons la dependance entre les valeurs des attributs

: les elements structurels de l'ensemble

EP

o ;rel vont admettre un attribut

dont la valeur provient d'une m^eme source d'information, l'element structurel

o

. Nous retrouvons ici la notion de depen-dance dans les valeurs des attributs et la de nition d'elements structurels en tant que sources d'informations.

Nous donnons ci-dessous (6.1), les composants qui forment le septupletPo ;rel:

Po ;rel = (

;o;rel;cat;v

;f

;cond

) (6.1)

L'attribut

est un nom d'attribut pris dans l'ensemble des noms d'attribut

NAME

, de ni pour un type de structure de documents pris dans

ST

via la relationRST ou bien de ni pour un type de media pris dans

M

via la relationRM.

L'element structurel o

appartient a l'ensemble

OS

des elements structurels qui decrivent un document

D

se conformant a un type de structure de

ST

.

La relation rel

est une relation de structure. Nous l'appliquons aux relations de structure de nies dans notre modele de document structure: la relation de composition, comp, la relation de sequence seq et la relation de reference ref.

L'ensemble qui decrit la portee de l'attribut

pour l'element de structure

o

est etabli en suivant cette relation, c'est-a-dire que les elements de l'ensemble

EP

o ;rel sont lies directement ou indirectement par cette relation.

La valeur v

est la valeur initiale de l'attribut

, c'est-a-dire la valeur source qui va ^etre partagee par les attributs

des elements structurels de la portee,

EP

o ;rel.

la fonction f

est une fonction de propagation des valeurs de l'attribut

permettant d'as-signer une valeur aux attributs

des elements de la portee. Les domaines de de nition des attributs sont assimiles a des langages et cette fonction est donc di erente selon chaque type de langage.

f

:

domain

(

) !

domain

(

)

La categorie cat

est une categorie de propagation prise dans l'ensemblef

succ;pred;static

g. Elle indique dans quel sens la relation

rel

doit ^etre suivie a n de construire l'ensemble decrivant la portee1.

1.

succ

: l'element

o

est considere comme la source de la relation et les elements successeurs selon

rel

de l'element

o

sont des candidats potentiels de la portee de nie sur

o

.

cat

=

succ

)8

o

i2

EP

o ;rel,

o

i 2

Next

rel(

o

)

2.

pred

: l'element

o

est considere comme la cible de la relation et les elements prede-cesseurs selon

rel

de l'element

o

sont des candidats potentiels de la portee de nie sur

o

.

cat

=

pred

)8

o

i 2

EP

o ;rel,

o

i 2

Prev

rel(

o

)

3.

static

: la portee de nie a partir de l'element

o

ne concerne pas les elements lies a

o

selon la relation

rel

. Cette categorie nous ramene a des attributs classiques de type base de donnees qui ne prennent pas en compte les caracteristiques structurelles du document.

Les conditions cond

expriment l'ensemble de conditions que doivent remplir les elements structurels pour appartenir a la portee. Nous appelons les conditions speci ees dans

cond

des conditions d'appartenance a la portee.

Hormis la fonction

f

et la valeur initiale

v

qui sont utilisees pour la propagation des valeurs au sein de la portee, les autres informations du septuplet sont indispensables pour la construction de l'ensemble

EP

o ;rel, c'est-a-dire pour la construction de la couverture.

Nous voyons maintenant quelles conditions d'appartenance les elements de cet ensemble peuvent veri er.