Nous donnons quelques elements caracteristiques de la structure linguistique fournis par les relations de cette structure.
element racine linguistique
: un element racine linguistique est un element linguistique qui n'a pas d'element linguistique pere. Cet element racine est unique, il est noteo
racine ling et il est decrit de la maniere suivante:9!
o
racine ling 2OS
lingveriant
69o
2OS
ling tel queo
comp lingo
racine lingL'element racine, que nous avons note
o
racine ling, contient chacun des autres elements linguistiques du document.elements feuilles linguistiques
: un element feuille linguistique est un element linguistique qui n'admet pas d'element ls. Cet element feuille est decrit de la maniere suivante:8
o
2OS
ling;o
est un element feuillessi
69o
i 2OS
ling tel queo
comp lingo
iNous denissons l'ensemble des elements linguistiques feuilles d'un document textuel et nous notons cet ensemble
OS
f ling:OS
f lingOS
ling.8
o
2OS
f ling;o
est un element feuilleOrdonnancement des elements
: les elements de la structure linguistique sont tous com-parables entre eux dans l'espace lineaire de lecture du document. Ils appartiennent tous au m^eme espace de representation a une dimension et peuvent ^etre compares selon les 7 relations de Allen [All83].Type racine linguistique
: un type racine linguistique est un type linguistique de l'en-sembleTY PE
ling qui n'a pas de super-type dans cet ensemble. Nous considerons un type racine unique. Ce type identie une classe de documents. Nous le notonst
racine linget il est decrit de la maniere suivante:
9!
t
racine ling 2TY PE
ling3.2.2 Denition de la structure logique
La structure logique est l'organisation selon une relation de composition et une relation de sequence d'entites d'informations correspondant a des parties de document. Cette organisation prend la forme d'une arborescence dont les noeuds sont les entites et dont la racine represente le document complet. A la dierence de la structure linguistique, la denition des entites depend du contexte, c'est-a-dire du type des documents consideres. Une norme telle que SGML exprime ce contexte par la denition d'une DTD a laquelle les documents doivent se conformer.
Dans notre travail, nous ne cherchons pas a verier qu'un document se conforme a des regles, mais nous souhaitons representer les elements de structure du document pour caracte-riser le document et ensuite pouvoir les utiliser lors d'une session de recherche d'information. Nous specions la structure logique d'un document textuel par la denition de deux relations: la relation de composition logique et la relation de sequence logique.
La relation de composition decrit l'agregation des entites (elements de structure) dans l'arborescence. Dans l'exemple 6, une entite (le chapitre) se compose d'autres entites (titre de chapitre et section). La DTD de SGML decrit explicitement quels types d'elements ls sont autorises pour un type donne, ainsi que leur ordonnancement et une indication sur le nombre d'apparition de chacun. Pour notre part, nous specions uniquement des contraintes sur la composition des elements et leur ordonnancement sans contraindre le nombre d'apparitions. Nous lions les contraintes sur la composition a la denition des types d'entites.
Exemple 6 (Relation de Composition Logique)
Un chapitre est compose d'un titre de chapitre et d'une ou plusieurs sections. Une section est elle-m^eme composee d'un titre de section et d'un ou plusieurs paragraphes.
La relation de sequence decrit l'encha^nement (l'ordonnancement) des entites, c'est-a-dire leur sens de lecture dans le document.
Exemple 7 (Relation de Sequence Logique)
Un titre de chapitre est suivi d'une section, qui peut elle-m^eme ^etre suivie d'une autre section.
Par la suite, nous donnons une formalisation de ces deux relations et leurs proprietes, ainsi qu'une denition des types d'entites. L'ensemble de ces informations est deni dans la structure logique du document textuel, notee
ST
log.Nous pouvons deja noter de fortes similarites avec la denition de la structure linguistique que nous avons precedemment decrite. Nous resumons ces similarites dans le tableau suivant:
a) Denition formelle
La structure logique est une arborescence d'entites logiques. L'arborescence d'entites lo-gique est formee a partir de la relation de composition lolo-gique et l'ordonnancement des entites est donnne par la relation de sequence. Les entites logiques sont typees et une relation de sous-typage est decrite sur l'ensemble des types d'entites.
Nous decrivons la structure logique du document textuel avec les deux classes d'infor-mation suivantes: le type de structure logique, note
ST
log, et l'instance du document, noteeStructure Linguistique Structure Logique
Elements agregation de symboles entites logiques
Composition relation de composition
linguistique relation de compositionlogique
Sequence relation de sequence
linguistique relation de sequencelogique
Types des elements types linguistiques types logiques
Relations sur les types relation contraignant la composition des types
linguistiques
relation contraignant la composition et la sequence
des types logiques
Figure 3.2.
Structure linguistique et logique: une comparaison informelleD
log.ST
log = (TY PE
log;
t log;
tseq log)TYPE
log est l'ensemble des types d'entites logiques.t log est une relation binaire interne sur les types d'entites logiques pris dans
TY PE
logqui denit les sous-types et super-types dans l'ensemble des types d'entites logiques,
TY PE
log, c'est-a-dire les compositions possibles entre types d'entites :t logTY PE
logTY PE
log.tseq log est une relation binaire interne sur les types d'entites logiques pris dans
TY PE
logqui denit les encha^nements possibles entre types d'entites: tseq log
TY PE
logTY PE
log.D
log = (OS
log;
comp log;
seq log;type
log)OS
log est l'ensemble des entites logiques. Une entite logique represente une partie du docu-ment.comp log est la relation de composition logique decrivant la composition des entites logiques dans la structure logique.
Cette relation de composition logique est une relation binaire interne denie sur l'en-semble des entites logiques: comp log
OS
logOS
log. Si deux entites admettent cette relation, on dira que l'un est le pere (et reciproquement le ls) structurel direct de l'autre.seq log est la relation de sequence logique qui decrit l'encha^nement sequentiel des entites logiques de la structure logique, c'est-a-dire le parcours lineaire des entites logiques. Cette relation de sequence logique est une relation binaire denie sur l'ensemble des entites logiques: seq log
OS
logOS
log.Elle est uniquement denie entre entites freres, c'est-a-dire entre entites ayant m^eme pere structurel.
type
log est une fonction surjective d'assignation d'un type d'entite logique pris dansTY PE
loga un entite logique de