Des Profons vers les Relons

Les infons peuvent ^etre long, complexes, et detailles ou peuvent ^etre courts et simples. La representation des mots-cles donne lieu ainsi a des infons tres simples. Huibers dans [HB94, Hui96] prefere alors parler de profons. Un profon est un infon dans lequel la relation

R

se limite a une relation unaire non speciee. Cette relation notee

I

re ete le fait qu'aucune connaissance sur les relations auxquelles prend part le mot-cle en question n'est donnee. Cela rejoint notre constatation du chapitre 2, a savoir que dans une telle demarche d'indexation, le processus de description des documents nous a depourvu de toutes les relations presentes dans le document. Si un document

d

est indexe avec le mot-cle \Tom", alors nous pouvons considerer que l'information vehiculee par \Tom" est partie de, ou existe dans

d

. La notationhhI,Tom; 1iiest utilisee dans [HB94, Hui96] pour denoter le profon correspondant.

Pour les besoins d'une recherche orientee vers la precision des reponses, nous ne considerons pour l'indexation que des infons avec des relations speciees, porteuses d'une certaine semantique et jouant un r^ole deni. En d'autres termes, les profons ne correspondent pas a une notion de structure semantique, et ne se pr^etent pas ainsi a une indexation relationnelle. Seuls des infons contenant des relations

n

-aires (

n >

1) seront retenus. Nous preferons alors introduire un type particulier d'infons que nous appelons relons. Comme son nom l'indique, ce type d'infon met l'accent sur les relations et constitue le support d'information elementaire pour l'indexation des documents:

Denition 3.1.5 (Les Relons)

Un relon est un infon particulier de type hhR,a1,

:::

,an;

i

ii, ou

n >

Dans les approches traditionnelle a base de mots-cles, un terme d'indexation

t

present dans un index donne peut ^etre represente par un relon particulier de la forme suivante:

hh_Lien_ _,

t

, _p; 1ii

ou _Lien peut ^etre instancie par n'importe quelle relation du domaine d'application et _p peut denoter n'importe quel element du domaine. Ainsi, le contexte d'apparition du terme

t

etant perdu apres la phase d'indexation du document, le relon ci-dessus introduit stipule que dans le document ce terme appara^t, et qu'il est possible qu'il soit en relation quelconque avec n'importe quel element du domaine de l'application. L'approche classique par mots-cles est donc un cas particulier de l'indexation relationnelle. Elle engendre des index constitues de relons parametres, conrmant ainsi le fait qu'il s'agit de descriptions partielles et vagues.

D'une facon plus formelle, nous considerons tout au long de ce chapitre, un ensemble d'objetsO

denotant les entites elementaires du domaine de discours, un ensemble de parametres Param et un ensemble de relations R. L'ensembleO contient notamment des individus et des types d'individus (classes). L'ensemble des relations R contient les relations semantiques du domaine et la relation speciale _Lien ci-dessus introduite. Le langage des relons peut alors ^etre introduit de la maniere suivante:

Denition 3.1.6 (Le langage des Relons)

Soit O un ensemble d'objets du domaine, Param un ensemble de parametres, et Run ensemble de relations semantiques muni de l'element _Lien. Le langage <(O

;

Param

;

R) des relons est deni par:

<(O

;

Param

;

R) =^def fhh

R;a

;a

;::: ;a

i

iij

R

2R;

a

i2O[Param;

i

2f0

;

1gg

n >

1. Quand O, Param et R sont connus dans le contexte de l'application, nous noterons le langage des relons par <.

Par exemple, les termes hhPoursuit,Tom,Jerry;1ii, ouhhPoursuit,Tom, _p;0ii, ou encore hh_Lien_ _,

Tom, _p;1iiconstituent des elements du langage<. Les relons constituent les elements elementaires autour desquels les termes d'indexation de notre modele seront construits.

3.2 Un Modele Relationnel pour la RI

Notre modele relationnel suit l'approche logique de van Rijsbergen [vR86]. Dans cette approche la correspondance entre une requ^ete et une description d'un document est fondee sur la notion de l'inference logique. La conception du modele revient ainsi a la construction d'un systeme logique. Selon Gabbay [Gab94], la premiere etape pour la conception d'un systeme logique consiste a specier un langage de representation. Ce dernier sera ensuite utilise pour la denition de la notion de formule bien formee11. Il sera apres possible de construire les axiomes et les regles d'inference de ce systeme logique. En d'autres termes, il n'est pas susant de conna^tre le comportement de ce systeme logique, puisque nous devons egalement conna^tre comment il se presente. Cette derniere armation due a Gabbay montre l'importance du langage de representation utilise. Par exemple, nous montrons dans le chapitre suivant que le modele des graphes conceptuels [Che92] et le modele Booleen [vR79, SM83] ont des comportements presque identiques en termes de decisions de pertinence [HOC96, Hui96]. Cependant, la richesse d'expressivite du formalisme des graphes conceptuels par rapport a la logique propositionnelle (utilisee comme langage sous-jacent au modele Booleen), explique pourquoi ce formalisme est mieux adequat pour la conception des systemes orientes vers la precision des reponses. Ainsi, les performances d'un systeme logique dependent aussi bien de l'expressivite du langage utilise que de la puissance d'inference.

Dans ce chapitre, nous sommes interesses par un systeme logique pour la recherche d'informa-tions. Nous savons d'apres notre etude du chapitre 2 que ce systeme devra avoir un comportement inferentiel permettant le raisonnement sur les relations. Cependant, encore faut-il que son langage de representation soit specie. Ainsi si nous considerons la deduction comme etant l'operation de recherche, la relation de pertinence entre les documents et les requêtes peut être etablie en termes des axiomes et des regles d'inference inherents au systeme logique. Par consequent, le langage que nous utilisons pour la description des documents et des requêtes sera celui qui speciera la syntaxe d'une formule bien formee dans un systeme logique pour la recherche d'informations.

Toujours selon Gabbay [Gab93], pour qu'un systeme ait un comportement vraiment logique, il devra verier certains axiomes et regles d'inference bien speciques: il s'agit de l'axiome de re exiviteet des regles du Cut et de (non)-monotonicite12. Nous presenterons en detail ces axiomes

11:En anglais, on parle dewell formed formula, noteew [Eps90, Eps94] 12:Selon qu'il s'agisse d'un systeme monotone ou non-monotone.

et regles dans la section 3.4.1. Outre ces axiomes et ces regles predenies qui feront en sorte que notre systeme soit reellement un systeme logique, nous etablirons un certain nombre de regles d'inference permettant la prise en compte des proprietes des relations et les objets qu'elles lient. A chaque propriete de relation ou d'objet, qu'elle soit purement syntaxique (reecriture) ou semantique (utilisant des connaissances sur le domaine d'application), correspondra ainsi une regle de derivation dans notre modele logique.

Enn, un systeme logique devra avoir une semantique claire permettant d'expliquer le processus de derivation (dans notre cas le processus de recherche), d'asserter que toutes les decisions de derivations elaborees par le systeme sont correctes (propriete de correction), et que les regles de raisonnements formalisees par le systeme susent pour demontrer toutes les relations de pertinence exprimables dans son langage (completude).

Dans la section suivante, nous specions un langage Lpermettant la description des documents et des requ^etes. Ce langage devra ^etre assez expressif pour pouvoir representer des structures semantiques complexes, incluant un ensemble d'objets et de relations et de ce fait conforme a notre hypothese 2 du chapitre 2 (page 22). Une fois ce langage specie, nous montrons en quoi consiste la prise en compte des proprietes des relations et des objets dans un processus de recherche. Cela nous amenera enn a proposer un systeme logique de derivation de pertinence, permettant la prise en compte des relations, des objets ainsi que leurs proprietes. Ce systeme constituera ainsi notre modele d'indexation relationnel.

3.2.1 Le langage d'Indexation

Pour les raisons que nous avons mentionne dans la section 3.1.2 a)[page 72] , nous adoptons un langage d'indexation base sur la theorie des situations. Ce langage devra nous permettre de representer les elements juges a priori les plus porteurs des informations vehiculees par les docu-ments. Dans notre cas, conformement a l'idee de Farradane [Far80a, Far80b] (Voir chapitre 2), nous considerons que les relations entre objets13 traduisent le mieux le contenu semantique des documents, en permettent une recherche orientee vers la precision des reponses. Ces relations entre objets peuvent ^etre decrites par la notion du relon introduite dans la section precedente. Notre langage d'indexation se base donc sur ce type particulier d'infons:

Denition 3.2.1 ( Langage d'Indexation Relationnelle)

Soit<(O

;

Param

;

R) le langage des relons de la denition 3.1.6. Le langage d'indexation L(<) est deni comme etant un sur-ensemble de <(O

;

Param

;

R) tel que:

{ si

r

i 2 <(O

;

Param

;

R) alors

r

i 2 L(<)

{ si

a

i 2L(<)[OetRel2Rune relation

n

-aire donnee, alorshhRel, a1 ,

:::

, an;

i

ii2L(<) avec

i

2f0

;

1g et

n >

Quand il n'existe pas d'ambigute possible sur l'ensemble des relons <, nous designerons le langage d'indexation simplement par L.

13:La notion d'objet est a prendre ici au sens large, c'est-a-dire qu'elle couvre les individus, les classes d'individus ou des expressions quelconques du langage utilise.

La premiere partie de cette denition xe le degre d'expressivite minimal que doit presenter un langage pour une indexation ecace du contenu des documents. Ainsi, le langage d'indexation relationnelle ne peut ^etre moins expressif que le langage des relons. La deuxieme partie de la denition autorise l'imbrication des relons (voir gure 3.1). Cela permet par exemple de representer des termes d'indexation complexes comme ceux du systemeRime (Cf. Chapitre 2):

Poumon

[porte-sur] Artère

[porte-sur]

Densité

() hhporte-sur;hhporte-sur;Densite;Poumon;1ii;Artere;1ii

Figure 3.1.

Exemple d'imbrication de Relons

Selon la terminologie de la theorie des situations, nos termes d'indexation correspondent a des infons. Il s'agit d'un ensemble de relons complexes formes a partir de <. A un niveau de granularite superieur, nous retrouvons les situations, ou en termes de recherche d'informations, les representations des documents et des requ^etes.

3.2.2 La Fonction de Description

Par rapport au langage d'indexationLde la denition 3.2.1, le processus d'indexation normalise et selectionne les termes d'indexation retenus pour chaque document.

Denition 3.2.2 (La Fonction )

SoitDl'ensemble des documents du corpus. La fonction d'in-dexation

associe a chaque document

d

2D, un ensemble de termes dans le langage d'indexation

:D!2L

ou 2L designe l'ensemble des parties deL.

Ainsi la formalisation utilisee debute avec les individus et les classes d'individus pour la mode-lisation des informations primitives du domaine, et nit avec les situations pour une modemode-lisation complete du contenu des documents et des requ^etes. Formellement le langage des situations est deni comme suit:

Denition 3.2.3 (Le Langage des Situations)

Soit L le langage d'indexation relationnelle de la denition 3.2.1. Le langage des situations S

L est deni comme l'ensemble des parties de L:

S L= 2L

Quand il n'y a pas d'ambigute possible sur le langage L, nous ecrironsS plut^ot que S L

L'index

(

d

) est donc une situation. Dans notre systeme logique, un document

d

sera dit logi-quement pertinent pour une requ^ete

q

s'il existe une cha^ne de derivation dont le premier element est la situation

(

d

) et le dernier element est la requ^ete de l'utilisateur, egalement exprimee en une situation

(

q

). Les elements intermediaires sont directement derivables en vertu des decisions de pertinence du systeme. Nous adoptons le mot \a-propos"(aboutness) (Cf. [Mar77, Hui96]) pour exprimer la notion de pertinence logique. On dira alors qu'un document

d

est \a-propos" de la requ^ete

q

, s'il est logiquement pertinent pour cette derniere. Nous noterons par 2; cette notion de pertinence logique.

Par rapport a la relation d'endiguement !, la relation de pertinence 2; s'applique a des situations plut^ot qu'a des infons ou des relons. Seuls les cas ou les situations comportent un seul relon font que ! et 2; concident. La relation de pertinence 2; constitue ainsi une extension de la relation d'endiguement des infons aux situations. Les relons du langage L contenus dans une situation

(

d

) donnee forment une structure algebrique de monode. Cette derniere, munie de l'operation d'union informationnelle, satisfait les proprietes suivantes:

{ La propriete d'implication:

e

;e

j 2

(

d

)

e

j 2;

e

j 2;

e

{ est commutative. Cette propriete exprime que la semantique de l'index du document est independante de l'ordre dans lequel nous considerons ses termes d'indexation.

e

;e

j 2

(

d

)

;e

e

j2;

e

{ est idempotent. Comme le signale Gabbay [Gab93], la re exivite est universellement satis-faite par tout raisonnement base sur une notion de consequence ou de derivation logique (i.e.,

e e

derive

e

)14. Cette propriete est supportee par la relation de pertinence dans plusieurs modeles de recherche d'informations [Hui96]: i.e.,8

e

;e

e

. En utilisant cette propriete, nous pouvons inferer le fait queest idempotent.

e

;e

e

{ Le terme d'indexation vide

"

est un element neutre pour l'operateur :

e

;e

"

e

Nous denotons par M le modele logique base sur D, L,

et 2;, designant respectivement l'ensemble des documents du corpus, le langage d'indexation relationnelle, la fonction de description et la notion de pertinence. Si aucune propriete sur les relations ou sur les objets n'est utilisee, ce modele pourra ^etre formalise de facon tres simple en associant la notion de pertinence logique 2;

a une notion d'inclusion ensembliste:

Dans le document Un modèle d'indexation relationnel pour les graphes conceptuels fondé sur une interprétation logique (Page 96-100)

R

I

d

d

n

n >

De nition 3.1.5 (Les Relons)

:::

i

n >

t

t

t

De nition 3.1.6 (Le langage des Relons)

;

;

;

;

R;a

;a

;::: ;a

i

R

a

i

;

n >

3.2 Un Modele Relationnel pour la RI

3.2.1 Le langage d'Indexation

De nition 3.2.1 ( Langage d'Indexation Relationnelle)

;

;

;

;

r

;

;

r

a

n

:::

i

i

;

n >

Figure 3.1.

3.2.2 La Fonction de Description

De nition 3.2.2 (La Fonction )



d



De nition 3.2.3 (Le Langage des Situations)



d

d

q



d



q

d

q



d

e

;e



d

e

e

e

e

e

e

e

;e



d

;e

Denition 3.1.5 (Les Relons)

Denition 3.1.6 (Le langage des Relons)

3.2 Un Modele Relationnel pour la RI

Denition 3.2.1 ( Langage d'Indexation Relationnelle)

Denition 3.2.2 (La Fonction )

Denition 3.2.3 (Le Langage des Situations)