• Aucun résultat trouvé

Modele integre de texte

c) La relation d'intention

3.4 Modele integre de texte

Nous donnons une de nition du modele integre de representation des relations de structure des documents textuels ainsi que quelques caracteristiques de ce modele.

3.4.1 Integration et De nition

Comme le propose par exemple la norme SGML, la structure d'un document textuel est decrite a partir des classes d'informations suivante: le type de structure, note

ST

text, et l'instance du document se conformant a ce type de structure, note

D

text.

Le type de structure

ST

text= (

TY PE

ST

;

tcomp text

;

tseq text)

TYPE

ST est l'ensemble des types d'elements structurels s'appliquant aux elements de la structure syntaxique. L'ensemble des types d'elements structurels, note

TY PE

ST, est en fait l'union de l'ensemble des types d'origine linguistique demuni de son type minimal, note

TY PE



ling, avec l'ensemble des types d'origine logique, note

TY PE

log.

TY PE

ST =

TY PE



ling[

TY PE

log

tcomp text est la relation de nie sur l'ensemble des types d'elements structurels qui decrit les relations de composition possibles entre les types d'elements structurels. Il s'agit d'une relation binaire interne sur l'ensemble des types d'elements structurels: tcomp text

TY PE

ST 

TY PE

ST.

Cette relation provient en fait des relations de nies sur l'ensemble des types linguis-tiques, sur l'ensemble des types logiques et sur la liaison entre ces deux ensembles.

t

i tcomp text

t

j , 8 > > > > > > < > > > > > > :

t

i t ling

t

j

sit

i

;t

j 2

TY PE

 ling

t

i t trans

t

j

sit

i 2

TY PE

log et

t

j 2

TY PE

 ling

t

i t log

t

j

sit

i

;t

j 2

TY PE

log

Les proprietes de cette relation sont dirigees par les types comme nous l'avons deja indique dans la de nition de la structure linguistique et de la structure logique.

tseq text est la relation de nie sur l'ensemble des types d'elements structurels qui decrit les encha^nements possibles d'elements logiques. Il s'agit d'une relation binaire interne sur l'ensemble des types d'elements structurels: tseq text

TY PE

ST 

TY PE

ST. Nous decrivons cette relation uniquement sur les types d'elements logiques car elle n'ap-porte rien au niveau des elements linguistiques. L'ensemble

TY PE

ST est donc reduit a l'ensemble

TY PE

log et il s'agit alors d'une relation binaire interne sur

TY PE

log:

tseq text

TY PE

log

TY PE

log.

L'instance du document structure

D

text= (

OS

text

;

comp text

;

seq text

;

ref

;type

st)

OS

text est l'ensemble des elements representant les di erentes parties d'un document tex-tuel. Cet ensemble est de ni a partir des ensembles d'elements linguistiques (

OS

ling), d'elements logiques (

OS

log) et d'elements du discours (

OS

disc).

OS

text =

OS



Les ensembles

OS



ling et

OS

log sont disjoints. De plus, les hypotheses emises a la section 3.3.2 (page 87) nous permettent d'avoir la relation liant

OS

disc avec

OS



ling et

OS

log:

OS

disc =

OS



ling[

OS

log

comp text est la relation de composition permettant d'agreger les di erentes parties d'un document textuel. Cette relation de composition est une relation binaire interne sur l'ensemble des elements textuels: comp text

OS

text

OS

text.

Cette relation de composition est de nie a partir de relations provenant des structures syntaxiques et semantiques. Si les deux elements mis en relation sont des elements linguistiques, il s'agit de la relation de composition linguistique. Si l'un des deux elements mis en relation est un element logique et l'autre un element linguistique, il s'agit de la relation de composition entre elements feuilles de la structure logique et elements linguistiques. Si les deux elements mis en relation sont des elements logiques alors il s'agit de la relation de composition logique.

o

i comp text

o

j , 8 > > > > > > < > > > > > > :

o

icomp ling

o

j

si o

i

;o

j 2

OS

 ling

o

icomp trans

o

j

si o

i 2

OS

f log et

o

j 2

OS

racine ling

o

icomp log

o

j

si o

i

;o

j 2

OS

log

Dans la description ci-dessus, nous donnons la de nition de la relation de composition

comp text en fonction des elements de structure syntaxique. Au niveau semantique,

cette relation est assimilee a la relation de dominance de la structure de discours, c'est-a-dire que pour chaque element mis en relation le contenu de l'un participe au contenu de l'autre.

La notation

o

icomp text

o

j signi e:

{ niveau syntaxique: l'element

o

i est le pere structurel de l'element

o

j, c'est-a-dire que l'element

o

i est compose de l'element

o

j.

{ niveau semantique: le contenu semantique de l'element

o

j participe au contenu semantique de l'element

o

i, c'est-a-dire que le contenu semantique prend en compte le contenu semantique de

o

j.

Les proprietes de cette relation de composition sont celles qui sont communes aux re-lations de composition syntaxiques et a la relation de dominance: non re exive, non transitive, et asymetrique.

seq text est la relation de sequence qui decrit l'encha^nement des elements au niveau de la structure syntaxique. C'est une relation binaire interne sur l'ensemble des elements textuels: seq text

OS

text

OS

text.

Elle decrit l'encha^nement des elements linguistiques et logiques et elle reprend les spe-ci cations des relations de sequence respectives. Ces relations sont uniquement de nies

entre des elements freres et decrivent uniquement le successeur (predecesseur) direct d'un element.

Si les deux elements mis en relation sont des elements linguistiques, il s'agit soit de la relation de sequence linguistique, soit de la relation de sequence de transition. Si les deux elements mis en relation sont des elements logiques alors il s'agit de la relation de sequence logique. On peut noter qu'il est impossible de mettre en relation de sequence un element linguistique et un element logique. En e et, la relation de composition de nie precedemment ne permet pas d'avoir deux elements freres provenant de deux structures di erentes.

o

i seq text

o

j , 8 > > > > > > < > > > > > > :

o

i seq log

o

j

si o

i

;o

j 2

OS

log

o

i seq trans

o

j

si o

i

;o

j 2

OS



racine ling

o

i seq ling

o

j

si o

i

;o

j 2

OS



ling,

OS



racine ling

La notation

o

i seq text

o

j signi e que les elements

o

i et

o

j proviennent d'une m^eme structure (linguistique ou logique), qu'ils sont freres dans cette structure et que l'element

o

j est le successeur direct de l'element

o

i.

ref est la relation de reference de nie dans la structure syntaxique. Elle exprime la reference d'un element (source) a un autre element (cible). Il s'agit en fait de relations transver-sales a la hierarchie structurelle decrite par les relations de composition et de sequence. Il s'agit d'une relation binaire interne sur l'ensemble

OS

textnotee :ref

OS

text

OS

text. La notation

o

i ref

o

j, avec

o

i 2

OS



ling [

OS

log et

o

j 2

OS



ling[

OS

log, signi e que l'element

o

irefere l'element

o

j. Cette relation est re exive, non transitive et asymetrique. Parmi les relations de reference, nous retrouvons les relations d'intention de nies dans la structure de discours du document textuel. Elles expriment qu'un element de la structure de discours a pour intention les idees provenant d'un element de la structure de discours ou plus generalement elle precise la description de l'element cible a l'aide du contenu de l'element source.

Les relations d'intention correspondent aux relations de reference caracterisees par le type d'information qu'elles precisent.

intentionref

type

st est la fonction surjective d'assignation d'un type d'element structurel pris dans

TY PE

ST

a un element structurel de

OS

text;

type

st :

OS

text!

TY PE

ST.

type

st(

o

) = 8 > < > :

t

ling avec

t

ling 2

TY PE

ling

si o

2

OS

ling

3.4.2 Caracteristiques du modele integre

Les caracteristiques de ce modele sont similaires a celles que nous avons enoncees pour les structures linguistiques et logiques (pages 76 et 80). Nous caracterisons ainsi un element racine qui correspond a l'entite logique qui est la racine de la structure logique et qui est note

o

racine log. L'ensemble des elements feuilles d'un document est l'ensemble des elements linguistiques feuilles note

OS

f ling.

L'ensemble des types racines correspond a l'ensemble des types racines logiques. Chacun de ces types minimaux correspond en fait a une classe particuliere de document: Livre, Ar-ticle, Documentation Technique, etc. De maniere similaire, l'ensemble des types feuilles est l'ensemble des types feuilles linguistiques. En n, les elements de

OS

text sont ordonnes dans l'espace lineaire de lecture du document, c'est-a-dire qu'il est possible de comparer la position de deux elements sur cet axe.

3.5 Synthese

Nous identi ons clairement trois relations de structure syntaxique: la relation de com-position, la relation de sequence et la relation de reference. Ces relations organisent et lient l'ensemble des elements structurels qui representent chaque fragment du document. Cette organisation prend la forme d'une arborescence comportant des relations transversales: se-quence et reference.

Par ailleurs, nous montrons que des relations semantiques correspondent a ces relations de structure syntaxiques. Dans la plupart des systemes que nous avons rencontres, ces re-lations syntaxique ont elles aussi ete identi ees et representees plus ou moins completement mais elles ne sont que faiblement prises en compte pour l'instanciation des descripteurs des elements structurels. Ceci signi e que la liaison entre la structure syntaxique et le sens ou l'utilite de celle-ci n'est que trop rarement etudiee. L'idee que nous avons est donc d'utiliser la structure syntaxique lors d'un protocole d'indexation en utilisant les relations semantiques correspondant a ces relations syntaxiques.

Chapitre 4

Modele de representation des