c) La relation d'intention
3.4 Modele integre de texte
Nous donnons une denition du modele integre de representation des relations de structure des documents textuels ainsi que quelques caracteristiques de ce modele.
3.4.1 Integration et Denition
Comme le propose par exemple la norme SGML, la structure d'un document textuel est decrite a partir des classes d'informations suivante: le type de structure, note
ST
text, et l'instance du document se conformant a ce type de structure, noteD
text.Le type de structure
ST
text= (TY PE
ST;
tcomp text;
tseq text)TYPE
ST est l'ensemble des types d'elements structurels s'appliquant aux elements de la structure syntaxique. L'ensemble des types d'elements structurels, noteTY PE
ST, est en fait l'union de l'ensemble des types d'origine linguistique demuni de son type minimal, noteTY PE
ling, avec l'ensemble des types d'origine logique, note
TY PE
log.TY PE
ST =TY PE
ling[
TY PE
logtcomp text est la relation denie sur l'ensemble des types d'elements structurels qui decrit les relations de composition possibles entre les types d'elements structurels. Il s'agit d'une relation binaire interne sur l'ensemble des types d'elements structurels: tcomp text
TY PE
STTY PE
ST.Cette relation provient en fait des relations denies sur l'ensemble des types linguis-tiques, sur l'ensemble des types logiques et sur la liaison entre ces deux ensembles.
t
i tcomp textt
j , 8 > > > > > > < > > > > > > :t
i t lingt
jsit
i;t
j 2TY PE
lingt
i t transt
jsit
i 2TY PE
log ett
j 2TY PE
lingt
i t logt
jsit
i;t
j 2TY PE
logLes proprietes de cette relation sont dirigees par les types comme nous l'avons deja indique dans la denition de la structure linguistique et de la structure logique.
tseq text est la relation denie sur l'ensemble des types d'elements structurels qui decrit les encha^nements possibles d'elements logiques. Il s'agit d'une relation binaire interne sur l'ensemble des types d'elements structurels: tseq text
TY PE
STTY PE
ST. Nous decrivons cette relation uniquement sur les types d'elements logiques car elle n'ap-porte rien au niveau des elements linguistiques. L'ensembleTY PE
ST est donc reduit a l'ensembleTY PE
log et il s'agit alors d'une relation binaire interne surTY PE
log:tseq text
TY PE
logTY PE
log.L'instance du document structure
D
text= (OS
text;
comp text;
seq text;
ref;type
st)OS
text est l'ensemble des elements representant les dierentes parties d'un document tex-tuel. Cet ensemble est deni a partir des ensembles d'elements linguistiques (OS
ling), d'elements logiques (OS
log) et d'elements du discours (OS
disc).OS
text =OS
Les ensembles
OS
ling et
OS
log sont disjoints. De plus, les hypotheses emises a la section 3.3.2 (page 87) nous permettent d'avoir la relation liantOS
disc avecOS
ling et
OS
log:OS
disc =OS
ling[
OS
logcomp text est la relation de composition permettant d'agreger les dierentes parties d'un document textuel. Cette relation de composition est une relation binaire interne sur l'ensemble des elements textuels: comp text
OS
textOS
text.Cette relation de composition est denie a partir de relations provenant des structures syntaxiques et semantiques. Si les deux elements mis en relation sont des elements linguistiques, il s'agit de la relation de composition linguistique. Si l'un des deux elements mis en relation est un element logique et l'autre un element linguistique, il s'agit de la relation de composition entre elements feuilles de la structure logique et elements linguistiques. Si les deux elements mis en relation sont des elements logiques alors il s'agit de la relation de composition logique.
o
i comp texto
j , 8 > > > > > > < > > > > > > :o
icomp lingo
jsi o
i;o
j 2OS
lingo
icomp transo
jsi o
i 2OS
f log eto
j 2OS
racine lingo
icomp logo
jsi o
i;o
j 2OS
logDans la description ci-dessus, nous donnons la denition de la relation de composition
comp text en fonction des elements de structure syntaxique. Au niveau semantique,
cette relation est assimilee a la relation de dominance de la structure de discours, c'est-a-dire que pour chaque element mis en relation le contenu de l'un participe au contenu de l'autre.
La notation
o
icomp texto
j signie:{ niveau syntaxique: l'element
o
i est le pere structurel de l'elemento
j, c'est-a-dire que l'elemento
i est compose de l'elemento
j.{ niveau semantique: le contenu semantique de l'element
o
j participe au contenu semantique de l'elemento
i, c'est-a-dire que le contenu semantique prend en compte le contenu semantique deo
j.Les proprietes de cette relation de composition sont celles qui sont communes aux re-lations de composition syntaxiques et a la relation de dominance: non re exive, non transitive, et asymetrique.
seq text est la relation de sequence qui decrit l'encha^nement des elements au niveau de la structure syntaxique. C'est une relation binaire interne sur l'ensemble des elements textuels: seq text
OS
textOS
text.Elle decrit l'encha^nement des elements linguistiques et logiques et elle reprend les spe-cications des relations de sequence respectives. Ces relations sont uniquement denies
entre des elements freres et decrivent uniquement le successeur (predecesseur) direct d'un element.
Si les deux elements mis en relation sont des elements linguistiques, il s'agit soit de la relation de sequence linguistique, soit de la relation de sequence de transition. Si les deux elements mis en relation sont des elements logiques alors il s'agit de la relation de sequence logique. On peut noter qu'il est impossible de mettre en relation de sequence un element linguistique et un element logique. En eet, la relation de composition denie precedemment ne permet pas d'avoir deux elements freres provenant de deux structures dierentes.
o
i seq texto
j , 8 > > > > > > < > > > > > > :o
i seq logo
jsi o
i;o
j 2OS
logo
i seq transo
jsi o
i;o
j 2OS
racine ling
o
i seq lingo
jsi o
i;o
j 2OS
ling,
OS
racine ling
La notation
o
i seq texto
j signie que les elementso
i eto
j proviennent d'une m^eme structure (linguistique ou logique), qu'ils sont freres dans cette structure et que l'elemento
j est le successeur direct de l'elemento
i.ref est la relation de reference denie dans la structure syntaxique. Elle exprime la reference d'un element (source) a un autre element (cible). Il s'agit en fait de relations transver-sales a la hierarchie structurelle decrite par les relations de composition et de sequence. Il s'agit d'une relation binaire interne sur l'ensemble
OS
textnotee :refOS
textOS
text. La notationo
i refo
j, aveco
i 2OS
ling [
OS
log eto
j 2OS
ling[
OS
log, signie que l'elemento
irefere l'elemento
j. Cette relation est re exive, non transitive et asymetrique. Parmi les relations de reference, nous retrouvons les relations d'intention denies dans la structure de discours du document textuel. Elles expriment qu'un element de la structure de discours a pour intention les idees provenant d'un element de la structure de discours ou plus generalement elle precise la description de l'element cible a l'aide du contenu de l'element source.Les relations d'intention correspondent aux relations de reference caracterisees par le type d'information qu'elles precisent.
intentionref
type
st est la fonction surjective d'assignation d'un type d'element structurel pris dansTY PE
STa un element structurel de
OS
text;type
st :OS
text!TY PE
ST.type
st(o
) = 8 > < > :t
ling avect
ling 2TY PE
lingsi o
2OS
ling3.4.2 Caracteristiques du modele integre
Les caracteristiques de ce modele sont similaires a celles que nous avons enoncees pour les structures linguistiques et logiques (pages 76 et 80). Nous caracterisons ainsi un element racine qui correspond a l'entite logique qui est la racine de la structure logique et qui est note
o
racine log. L'ensemble des elements feuilles d'un document est l'ensemble des elements linguistiques feuilles noteOS
f ling.L'ensemble des types racines correspond a l'ensemble des types racines logiques. Chacun de ces types minimaux correspond en fait a une classe particuliere de document: Livre, Ar-ticle, Documentation Technique, etc. De maniere similaire, l'ensemble des types feuilles est l'ensemble des types feuilles linguistiques. Enn, les elements de
OS
text sont ordonnes dans l'espace lineaire de lecture du document, c'est-a-dire qu'il est possible de comparer la position de deux elements sur cet axe.3.5 Synthese
Nous identions clairement trois relations de structure syntaxique: la relation de com-position, la relation de sequence et la relation de reference. Ces relations organisent et lient l'ensemble des elements structurels qui representent chaque fragment du document. Cette organisation prend la forme d'une arborescence comportant des relations transversales: se-quence et reference.
Par ailleurs, nous montrons que des relations semantiques correspondent a ces relations de structure syntaxiques. Dans la plupart des systemes que nous avons rencontres, ces re-lations syntaxique ont elles aussi ete identiees et representees plus ou moins completement mais elles ne sont que faiblement prises en compte pour l'instanciation des descripteurs des elements structurels. Ceci signie que la liaison entre la structure syntaxique et le sens ou l'utilite de celle-ci n'est que trop rarement etudiee. L'idee que nous avons est donc d'utiliser la structure syntaxique lors d'un protocole d'indexation en utilisant les relations semantiques correspondant a ces relations syntaxiques.