• Aucun résultat trouvé

e) Caracteristiques de la structure linguistique

Nous donnons quelques elements caracteristiques de la structure linguistique fournis par les relations de cette structure.

element racine linguistique

: un element racine linguistique est un element linguistique qui n'a pas d'element linguistique pere. Cet element racine est unique, il est note

o

racine ling et il est decrit de la maniere suivante:

9!

o

racine ling 2

OS

ling

veri ant

69

o

2

OS

ling tel que

o

comp ling

o

racine ling

L'element racine, que nous avons note

o

racine ling, contient chacun des autres elements linguistiques du document.

elements feuilles linguistiques

: un element feuille linguistique est un element linguistique qui n'admet pas d'element ls. Cet element feuille est decrit de la maniere suivante:

8

o

2

OS

ling

;o

est un element feuille

ssi

69

o

i 2

OS

ling tel que

o

comp ling

o

i

Nous de nissons l'ensemble des elements linguistiques feuilles d'un document textuel et nous notons cet ensemble

OS

f ling:

OS

f ling 

OS

ling.

8

o

2

OS

f ling

;o

est un element feuille

Ordonnancement des elements

: les elements de la structure linguistique sont tous com-parables entre eux dans l'espace lineaire de lecture du document. Ils appartiennent tous au m^eme espace de representation a une dimension et peuvent ^etre compares selon les 7 relations de Allen [All83].

Type racine linguistique

: un type racine linguistique est un type linguistique de l'en-semble

TY PE

ling qui n'a pas de super-type dans cet ensemble. Nous considerons un type racine unique. Ce type identi e une classe de documents. Nous le notons

t

racine ling

et il est decrit de la maniere suivante:

9!

t

racine ling 2

TY PE

ling

3.2.2 De nition de la structure logique

La structure logique est l'organisation selon une relation de composition et une relation de sequence d'entites d'informations correspondant a des parties de document. Cette organisation prend la forme d'une arborescence dont les noeuds sont les entites et dont la racine represente le document complet. A la di erence de la structure linguistique, la de nition des entites depend du contexte, c'est-a-dire du type des documents consideres. Une norme telle que SGML exprime ce contexte par la de nition d'une DTD a laquelle les documents doivent se conformer.

Dans notre travail, nous ne cherchons pas a veri er qu'un document se conforme a des regles, mais nous souhaitons representer les elements de structure du document pour caracte-riser le document et ensuite pouvoir les utiliser lors d'une session de recherche d'information. Nous speci ons la structure logique d'un document textuel par la de nition de deux relations: la relation de composition logique et la relation de sequence logique.

La relation de composition decrit l'agregation des entites (elements de structure) dans l'arborescence. Dans l'exemple 6, une entite (le chapitre) se compose d'autres entites (titre de chapitre et section). La DTD de SGML decrit explicitement quels types d'elements ls sont autorises pour un type donne, ainsi que leur ordonnancement et une indication sur le nombre d'apparition de chacun. Pour notre part, nous speci ons uniquement des contraintes sur la composition des elements et leur ordonnancement sans contraindre le nombre d'apparitions. Nous lions les contraintes sur la composition a la de nition des types d'entites.

Exemple 6 (Relation de Composition Logique)

Un chapitre est compose d'un titre de chapitre et d'une ou plusieurs sections. Une section est elle-m^eme composee d'un titre de section et d'un ou plusieurs paragraphes.

La relation de sequence decrit l'encha^nement (l'ordonnancement) des entites, c'est-a-dire leur sens de lecture dans le document.

Exemple 7 (Relation de Sequence Logique)

Un titre de chapitre est suivi d'une section, qui peut elle-m^eme ^etre suivie d'une autre section.

Par la suite, nous donnons une formalisation de ces deux relations et leurs proprietes, ainsi qu'une de nition des types d'entites. L'ensemble de ces informations est de ni dans la structure logique du document textuel, notee

ST

log.

Nous pouvons deja noter de fortes similarites avec la de nition de la structure linguistique que nous avons precedemment decrite. Nous resumons ces similarites dans le tableau suivant:

a) De nition formelle

La structure logique est une arborescence d'entites logiques. L'arborescence d'entites lo-gique est formee a partir de la relation de composition lolo-gique et l'ordonnancement des entites est donnne par la relation de sequence. Les entites logiques sont typees et une relation de sous-typage est decrite sur l'ensemble des types d'entites.

Nous decrivons la structure logique du document textuel avec les deux classes d'infor-mation suivantes: le type de structure logique, note

ST

log, et l'instance du document, notee

Structure Linguistique Structure Logique

Elements agregation de symboles entites logiques

Composition relation de composition

linguistique relation de compositionlogique

Sequence relation de sequence

linguistique relation de sequencelogique

Types des elements types linguistiques types logiques

Relations sur les types relation contraignant la composition des types

linguistiques

relation contraignant la composition et la sequence

des types logiques

Figure 3.2.

Structure linguistique et logique: une comparaison informelle

D

log.

ST

log = (

TY PE

log

;

t log

;

tseq log)

TYPE

log est l'ensemble des types d'entites logiques.

t log est une relation binaire interne sur les types d'entites logiques pris dans

TY PE

log

qui de nit les sous-types et super-types dans l'ensemble des types d'entites logiques,

TY PE

log, c'est-a-dire les compositions possibles entre types d'entites :t log

TY PE

log

TY PE

log.

tseq log est une relation binaire interne sur les types d'entites logiques pris dans

TY PE

log

qui de nit les encha^nements possibles entre types d'entites: tseq log

TY PE

log 

TY PE

log.

D

log = (

OS

log

;

comp log

;

seq log

;type

log)

OS

log est l'ensemble des entites logiques. Une entite logique represente une partie du docu-ment.

comp log est la relation de composition logique decrivant la composition des entites logiques dans la structure logique.

Cette relation de composition logique est une relation binaire interne de nie sur l'en-semble des entites logiques: comp log

OS

log

OS

log. Si deux entites admettent cette relation, on dira que l'un est le pere (et reciproquement le ls) structurel direct de l'autre.

seq log est la relation de sequence logique qui decrit l'encha^nement sequentiel des entites logiques de la structure logique, c'est-a-dire le parcours lineaire des entites logiques. Cette relation de sequence logique est une relation binaire de nie sur l'ensemble des entites logiques: seq log

OS

log

OS

log.

Elle est uniquement de nie entre entites freres, c'est-a-dire entre entites ayant m^eme pere structurel.

type

log est une fonction surjective d'assignation d'un type d'entite logique pris dans

TY PE

log

a un entite logique de

OS

log. Chaque entite de l'ensemble

OS

log est donc typee.