• Aucun résultat trouvé

L'idee d'etablir des relations entre des objets et de les representer dans la base de connaissances d'un systeme informatique n'est pas recente1, comme le signale Sabah [Sab88] en se referant a la notion de reseau semantique en Intelligence Arti cielle. Cependant, la plupart des formalismes utilises pour leur representation sou rent de certains defauts lies a l'absence d'une methodologie precisant les principes generaux de manipulation de ces relations et le comportement qui leur est associe. L'e ort en Intelligence Arti cielle s'est surtout porte sur les concepts et leurs proprietes.

En recherche d'informations, les traitements de ces relations ne sont guere plus elabores. Les techniques preconisees par les systemes ne tirent pas vraiment pro t des connaissances et des pro-prietes implicitement vehiculees par ces relations. L'impact de leur prise en compte lors de la phase de correspondance n'a jamais ete formellement de ni. A l'image de l'Intelligence Arti cielle, les ap-proches classiques en recherche d'informations se contentent d'explorer les proprietes semantiques des termes d'indexation (mots-cles) decrites a l'aide d'un thesaurus et se soucient peu de celles relatives aux relations.

Pour plusieurs raisons, il arrive que nous ayons aussi besoin d'expliciter des proprietes sur les relations etablies entre certains objets. Le but de ce chapitre est de cerner les cas de recherche d'in-formations ou il est souhaitable de speci er les caracteristiques des relations et leur comportement semantique, de maniere a ce que la fonction de correspondance puisse les exploiter. Notre demarche consiste donc a presenter ces cas et degager ce que doit permettre un systeme comme inferences sur les relations.

Nous introduisons d'abord les raisons pour lesquelles l'utilisation des approches classiques d'in-dexation ne peut conduire a la conception de systemes orientes vers la precision des reponses. Nous presentons ensuite les travaux s'etant interesses a l'introduction de nouvelles approches, visant essentiellement la representation des relations dans l'index. Nous montrons ensuite l'importance d'avoir des mecanismes d'inference sur ces relations. Ces dernieres sont en n examinees du point de vue de la recherche d'informations d'aujourd'hui. Cet examen montre l'importance de raisonner sur les relations en vue d'une recherche ecace et performante. Nous concluons en n sur la necessite d'une approche theorique generale pour la representation et le raisonnement sur les relations.

2.1 Les Descripteurs en Recherche d'Informations

En recherche d'informations, un terme d'indexation peut prendre plusieurs formes, la forme la plus elementaire etant le mot-cle ou le descripteur. La disponibilite de nombreux algorithmes ecaces [Sal89], permettant l'extraction automatique des mots-cles dans les textes, explique la large utilisation de cette forme d'indexation particuliere dans la communaute de recherche d'informations. Ces algorithmes adoptent tous la m^eme approche, a savoir l'extraction des \bons" descripteurs du document. Par bons descripteurs, nous designons les termes fortement representatifs d'un tres petit nombre de documents [Sal71, SM83]. L'hypothese suivante est ainsi generalement consideree pour l'identi cation de tels descripteurs:

Hypothese 1 (Le Bon Descripteur )

La representativite d'un descripteur par rapport au do-cument est d'autant plus meilleure que cet objet appara^t relativement de facon frequente dans le document et de facon tres restreinte dans les autres documents.

Comme dans [Sal71], denotons par FreLoc(t,

d

) la frequence d'occurrence du terme

t

dans le document

d

. Designons par FreCor(t,D), la frequence du terme

t

dans le corpus des documentsD. Selon les valeurs que ces deux frequences peuvent prendre, un terme d'indexation

t

sera juge bon ou pas. Nous distinguons quatre possibilites presentees dans le tableau suivant:

FreLoc(t,

d

) grande petite FreCor(t, D) grande mot vide Non applicable

petite

bon

Non utilisable

Table 2.1.

Detection des \bons" index

La premiere possibilite (haut gauche) indique que le terme

t

appara^t frequemment a la fois dans le document et dans le corpus. Si

t

est utilise comme terme d'indexation, alors pratiquement tous les documents seront retournes a l'utilisateur. La discriminance du terme

t

par rapport au corpus est ainsi tres faible. Le plus souvent, il s'agit des termes vides2, ou des termes trop speci ques au corpus, comme par exemple \information" dans un corpus sur les systemes d'informations.

La deuxieme possibilite (bas droite) est opposee au cas precedent. Le terme

t

est un bon dis-criminant du document par rapport au corpus, mais il n'est pas possible de l'utiliser puisqu'il n'est pas un bon representant du contenu du document. L'utilisabilite du terme d'indexation est en ef-fet proportionnelle a l'importance du terme dans le document, c'est-a-dire qu'elle depend de sa frequence interne dans le document.

Le troisieme cas (bas gauche) indique que le terme

t

est a la fois un bon discriminant du docu-ment par rapport au corpus (la frequence globale FreCor(t, D) est petite) et un bon representant du contenu du document (la frequence interne FreLoc(t, d) est grande). Ainsi, a la lumiere de l'hypothese 1,

t

est un bon terme d'indexation pour

d

.

2:On parle aussi de mots communs comme \le", \de", \au", etc. D'un point de vue semantique, ces mots sont depourvus de sens.

Dans la realite, il n'est generalement pas possible de rencontrer le quatrieme cas (haut droite), surtout dans des corpus homogenes. Les chances de rencontrer un terme dont la frequence d'ap-parition globale est tres forte alors que sa frequence interne dans le document est faible sont pratiquement negligeables. Dans tous les cas, ce terme ne sera pas un bon index a cause des m^emes raisons evoquees pour les mots vides.

Il est facile d'a ecter un poids

w

a un terme

t

. A la base de ce poids, la decision de considerer

t

comme un bon descripteur ou pas sera prise. La formule adoptee est la mesure classique de tf.idf (tf pour((term frequency)), et idf pour((inverse document frequency))):

w

(

t;d

) = FreLoc(t, d)log2 jDj

FreCor(t, D)

La formule ci-dessus vehicule bien le sens de l'hypothese 1. Le poids d'un terme d'indexation est en e et proportionnel a sa frequence d'occurrence interne dans le document (term frequency), autrement dit a sa representativite dans le document, et inversement proportionnel a sa frequence globale dans le corpus (inverse document frequency), permettant la prise en compte de son aptitude a discriminer le document dans le corpus.

L'avantage de l'approche d'indexation a base de descripteurs reside dans le fait qu'elle est simple et ecace. Elle presente toutefois un inconvenient majeur: l'indexation reduit le contenu du document a un ensemble de descripteurs sans exprimer de relations entre ces descripteurs. En e et, a l'interieur du document, ces termes apparaissent dans un contexte particulier qui n'est plus repris dans l'index. Le descripteur est ainsi arrache de son contexte. Pourtant, ce dernier peut ^etre crucial lors de l'elaboration de la decision de pertinence. Malgre cet inconvenient, l'approche d'indexation par mots-cles reste, et de loin, la plus repandue et la plus utilisee dans la communaute de recherche d'informations.

2.1.1 Les Problemes de l'Indexation par Mots-Cles

Dans le chapitre precedent, nous avons deja recense des exemples ou l'indexation par mots-cles pose un certain nombre de problemes. Les carences de cette forme d'indexation peuvent ^etre expliquees par des arguments linguistiques lies a la notion d'ambigute [Lar94]:

{ Une ambigute due a la polysemie: un mot-cle peut presenter une ambigute morphologique ou lexicale. Le mot \ferme" dans un index peut ^etre un verbe, un adjectif, ou un nom. De plus, un mot peut renvoyer a plusieurs contextes. Par exemple, le mot-cle \cellule" peut se referer a plusieurs domaines: \cellule nerveuse", \cellule de prison", \cellule de crise", etc. { Une polysemie due a l'absence de syntaxe: une indexation par l'expression \production de

petrole" est plus riche que celle e ectuee par la combinaison des deux mots-cles \production" et \petrole". Elle distingue mieux le contenu semantique du document. En e et, la semantique de cette expression ne peut ^etre correctement exprimee par la conjonction de ces deux mots-cles. Dans le modele Booleen [vR79, SM83], on assimile les prepositions a des connecteurs logiques lors de la phase d'indexation. La precision des reponses se voit donc alteree, puisque les informations de type syntaxique (les prepositions dans ce cas) peuvent guider la recherche. Une consequence directe de ces deux types d'ambigutes est que les performances du systeme en termes de precision et de rappel sont telles qu'il n'est pas possible d'envisager les mots-cles comme

langage d'indexation expressif, precis et robuste. La syntaxe concourt ainsi a la determination du sens, et ne peut ^etre negligee comme outil d'indexation des textes. Ceci explique le recours a des approches linguistiques visant a aboutir a des descripteurs plus precis.

2.1.2 Les Approches Linguistiques

Ces approches ont en commun le fait qu'elles s'interessent toutes au statut linguistique du descripteur. La comprehension des textes en langue naturelle est composee de deux modes de signi ance: le mode semiotique et le mode semantique [Gue82]. Le mode semiotique concerne le signe linguistique. Il est en rapport avec les mots de la langue, appeles lexemes, et il doit ^etre reconnu. Le mode semantique concerne un contenu et il doit ^etre compris. Ce dernier est vehicule par des parties du discours ou syntagmes. Ces syntagmes expriment un contenu et sont donc apparies a des concepts.

Les syntagmes sont representes par les relations qui existent entre les mots de la langue. De ce fait, ils ne peuvent ^etre determines qu'apres une analyse syntaxique du texte. La syntaxe etablit ainsi un lien referentiel entre lexemes et concepts. La question qui se pose alors est la suivante: \quel est le statut linguistique du syntagme". Elle se traduit par la problematique suivante:

Quelles sont les syntagmes qui participent le plus a la thematique du document et qui peuvent ^etre ainsi utilises, aussi bien pour la description du contenu des documents que pour l'expression de la requ^ete?

Dans la litterature [Ker84, Pal90, Lar94], le choix s'est souvent porte sur les syntagmes nomi-naux. Les approches linguistiques en recherche d'informations s'appuient sur les etudes montrant la relative concordance entre syntagmes nominaux et themes d'une part, et syntagmes verbaux et rhemes d'autres part [Par96]. Le theme indique de quoi on parle, et le rheme ce qu'on en dit. Il a ete ainsi admis dans [Pal90], que puisque dans une approche de recherche il est plut^ot question des themes, les syntagmes nominaux sont mieux a m^eme a decrire le contenu des documents.

Nous verrons dans la suite de ce chapitre que ce choix est assez restrictif. Une bonne description du document passe necessairement par la prise en charge de certaines relations (des verbes entre autres) particulieres qui depassent la representation par syntagmes nominaux. Les rhemes doivent aussi ^etre representes si l'on veut favoriser une recherche d'informations precise ou seuls les docu-ments pertinents doivent ^etre retournes a l'utilisateur. Supposons ainsi qu'un utilisateur pose la requ^ete suivante: \Je cherche des situations dont lesquelles les Sioux ont ete battus par la cavalerie federale". Considerons egalement le document contenant le texte suivant:\En 1876, les Sioux ont battu la cavalerie federale a Little Big Horn". Si l'on considere une approche d'indexation a base de syntagmes nominaux (themes), le document sera represente par les termes d'indexation suivants:

{ ((les Sioux))

{ ((la cavalerie federale))

{ ((Little Big Horn))

Si l'on applique le m^eme processus a la requ^ete, cette derniere sera representee par les syntagmes

s'il n'est pas precisement a-propos de ce que cherche l'utilisateur. Ce document sera egalement pertinent a n'importe quelle autre requ^ete contenant les syntagmes ((les Sioux)) et (( la cavalerie federale)) relies par n'importe quel verbe. La prise en compte des syntagmes verbaux permet ainsi d'ameliorer les performances qualitatives du systeme.

2.1.3 Utilisation d'un Thesaurus

Les problemes lies au vocabulaire d'indexation font que les performances du systeme de recherche ne sont pas a la mesure des attentes. Plusieurs termes d'indexation peuvent designer un m^eme objet ou un m^eme concept. Il devient alors dicile de retrouver les documents correspondant a une requ^ete s'ils n'emploient pas les m^emes termes que cette derniere. Plusieurs solutions sont possibles, la plus connue etant l'utilisation d'un thesaurus.

Un thesaurus recense les di erents termes d'indexation utilisables dans une application et les relations semantiques qui les lient. D'une application a une autre, les termes presents dans un thesaurus varient enormement en fonction du domaine traite et du niveau de granularite choisi pour la representation des termes d'indexation (mots-cles, groupes de mots, etc.). On peut comparer les thesaurus aux reseaux semantiques. Cependant a l'inverse de ces derniers, les thesaurus se limitent a des liens de nissant des relations lexicales entre les noeuds [Sab88, SDV95, Bri95]. On distingue les categories de relations lexicales suivantes:

{ les relations d'analogie. Elles servent a etablir des liens entre synonymes, antonymes ou entre verbes converses. Par exemple,((voiture)) et((automobile)) sont synonymes,((chaud))et((froid))

sont antinomiques et les deux verbes((vendre)) et((acheter)) sont converses [Fil88].

{ les relations de derivation. Elles lient deux termes de categories di erentes dont les sens sont identiques ou derivables l'un de l'autre. Par exemple,((aimer)) et ((amour)), ou bien((ecole)) et

((scolaire)).

{ les relations de co-occurrence. Elles precisent, dans un contexte particulier, des liens idioma-tiques entre deux termes. Par exemple, il existe generalement une relation de co-occurrence entre((question)) et((poser)).

{ les relations d'apport semantique. Ces relations indiquent, lorsque deux termes sont en re-lation, quelles informations semantiques sont apportees a l'un par rapport a l'autre. Par exemple,((cheval))est un speci que de((animal)), alors que((fruit))est un generique de((pomme)). Les thesaurus peuvent intervenir au moment de l'indexation des documents et lors de l'evalua-tion des requ^etes. Les thesaurus hierarchiques (c'est-a-dire les thesaurus restreints a des arbores-cences de nies par des relations semantiques de generalisation) s'averent utiles lors de l'indexation a n de classer les documents dans une hierarchie de concepts [CY92]. Dans tous les cas, les the-saurus permettent l'elargissement de la portee des requ^etes, ameliorant ainsi les performances du systeme.

Les thesaurus sont generalement construits de facon manuelle par les specialistes du domaine de l'application. Cependant, etant donne les co^uts eleves d'une telle approche, on se tourne de plus en plus vers des methodes de construction automatiques [PW91, CL92, Gre92]. Ces dernieres se basent sur des mesures statistiques de co-occurrence de termes. Les premieres experiences sont encourageantes malgre la diculte de les appliquer a des grands corpus.

Actuellement, plusieurs thesaurus sont disponibles dans le commerce, le plus connu etant Word-net [Mil96]. Si nul ne doute que le thesaurus est d'un apport considerable pour une recherche ecace, il n'en reste pas moins que la demarche est non exhaustive puisqu'elle se limite aux seules relations lexicales.

2.1.4 L'Indexation Relationnelle

Les strategies classiques d'indexation s'interessent a l'extraction des mots-cles ou des themes a partir des documents, puis a leur evaluation selon leur importance dans le document. Le principal inconvenient de cette approche est qu'elle neglige certaines relations importantes entre les mots-cles ou les themes. Pourtant, ces relations peuvent ^etre d'une grande utilite lors du processus de corres-pondance, etant donne les informations qu'elles vehiculent. Ainsi, les relations entre objets jouent un r^ole semantique important. Dans les domaines des bases de donnees relationnelles [BCHL93] ou de l'ingenierie des systemes d'informations (cf. Merise [NECH92]), l'importance des relations est largement reconnue.

Forme de la relation Nbre. d'Occ frequence

Entity

A

onEntity

B 2680 0.0128

Entity

A

inEntity

B 2598 0.0124

Entity

A

ofEntity

B 2097 0.0100

Entity

A

forEntity

B 1771 0.0084

the

Entity

A

on

the

Entity

B 190 0.00091 the

Entity

A

in

the

Entity

B 403 0.0019

Entity

A

WithoutEntity

B 82 0.00039