• Aucun résultat trouvé

Les relations d'ingredience expriment les liens de composition. Nous dirons que

x

est un in-gredient de

y

, pour signi er que le concept

x

est une partie du concept global

y

. Ce type de lien est l'un des plus importants que ce soit en intelligence arti cielle ou en recherche d'informations. En intelligence arti cielle, il permet de decrire comment sont composes des elements complexes en fonctions d'autres elements plus simples, comme par exemple la plume appartient au stylo, ou que le doigt est une partie de la main, laquelle est une partie du bras. En recherche d'informations, les relations d'ingredience correspondent aux relations d'agregation permettant de speci er pour les besoins de la recherche de documents structures qu'un document comporte des chapitres, lesquels sont constitues de sections, les sections contenant elles-m^emes des paragraphes, etc.

A la di erence de l'inclusion, les liens d'ingredience ne sont pas antisymetriques. Ils veri ent par contre les proprietes de transitivite, de re exivite et de non-symetrie.

d) La Localisation

Les relations de ce type permettent de preciser les positions des divers elements. Il ne s'agit pas uniquement de liens spatiaux (bas-haut, droite-gauche, a-c^ote, etc,) comme dans des enonces de type le livre est sur la table, ou un jardin entoure ma maison, mais de toute relation pouvant indiquer une localisation donnee. Paradis dans [Par96] mentionne ainsi l'importance de comprendre et d'indexer des phrases comme nous discutons aux sections 1.1.1 et 2.4.2 de la structure des documents, ou les relations de localisation decrivent des informations de meta-discours donnant plus de details sur le contenu semantique et la structure des documents.

Dans la litterature, les relations de localisation occupent une place de choix. Elle sont souvent basees sur les travaux de Allen [All83]. Ce dernier decrit un ensemble complet de relations spatiales dans un espace a une dimension. Ces relations sont utilisees pour former des predicats primitifs de localisation. Ainsi, les relations spatiales adoptees par Mechkour [Mec95c] pour les besoins de la recherche d'images sont au nombre de 12, et ont pour support les relations de Allen.

e) La Succession

Un certain nombre de connaissances sont de nies comme des listes ordonnees (jours de la se-maine, lecture des chapitres d'un document, etc.). Elles peuvent ^etre exprimees par des liens de succession. Par exemple, pour les besoins de la recherche de documents textuels structures, Para-dis [Par96] introduit une relation d'ordonnancement permettant de xer l'ordre des paragraphes, des divisions, etc. d'un texte. Il introduit egalement des relations de sequence decrivant l'encha^nement

des mots. Ainsi, dans le groupe de mots \recherche d'informations", la relation de sequence etablit que le mot ((recherche)) precede le mot ((d')), qui precede lui-m^eme le mot ((informations)). Dans les approches hypertextes [Khe95], le sens de parcours des noeuds d'un document est egalement exprime par des relations de succession.

Il existe bien entendu plusieurs autres types de relations semantiques. Par exemple, ceux desi-gnant des equivalences semantiques, des contrastes, des actions, etc. Chaque type de lien peut ^etre modelise par plusieurs relations primitives. Souvent dans les applications, il faudra choisir entre confondre ces diverses relations en une seule relation primitive ou en particulariser certaines. Au-tant le nombre de primitives associees a un type de relation est grand, auAu-tant la representation engendree est precise. Cependant, le choix nal dependra de l'application concrete a traiter. Il n'est pas ainsi possible de donner de regle generale sur les primitives. Pour les besoins d'une recherche precise et dele, nous preferons toutefois avoir le maximum de relations primitives.

2.2.3 Dicultes d'une Indexation Automatique

Il est souvent delicat de traduire des enonces de la langue naturelle dans un langage formel (ou dans un langage logique) car les indications syntaxiques ne sont pas toujours susantes pour deduire l'interpretation semantique de ces enonces. Ainsi, les enonces \page in a book" et \page of a book" sont similaires et doivent ^etre exprimes par le m^eme index((part-of(page,book))), ou \part-of" est une relation primitive d'ingredience. De plus, une relation dans un index peut avoir plusieurs sens possibles. Reprenons par exemple, les deux enonces suivants:

(1)

Jean est assis

(2)

Jean est intelligent

L'enonce (1) denote la position dans laquelle se trouveJean, alors que l'enonce (2) exprime une qualitede l'individuJean. La preposition est7 peut ^etre ainsi associee a une relation semantique de type Position pour le premier cas, alors qu'elle correspond plut^ot a une relation semantique comme Qualitedans le second enonce.

Ainsi la diculte reside essentiellement dans la detection automatique des associations seman-tiques. Outre une analyse syntaxique, la detection des relations semantiques dans les phrases exige une analyse semantique approfondie. Les categories syntaxiques sont plus \grossieres" que les cate-gories semantiques. Les deux types semantiques((Localite))et((Qualite))ne sont pas biunivoquement traduits par des types syntaxiques distincts.

Selon les relations semantiques detectees dans le texte, les inferences envisagees ne sont evidem-ment pas les m^emes. Reprenons ainsi l'exemple donne dans [Des90]:

(3)

les hommes sont mortels

(4)

les hommes sont nombreux

Les deux mots \mortels" et \nombreux" ont un m^eme type syntaxique, a savoir qu'ils corres-pondent tous les deux a un adjectif. Pourtant si le raisonnement:

les hommes sont mortels les Atheniens sont des hommesles Atheniens sont mortels

Transitivite

est valide, un raisonnement similaire consistant a asserter la deduction suivante:

les hommes sont nombreux les Atheniens sont des hommesles Atheniens sont nombreux

Transitivite

n'est pas necessairement vrai, m^eme si les deux deductions se presentent formellement de facon identique: l'adjectif ((mortels)) a ete simplement remplace par l'adjectif((nombreux)).

Le premier raisonnement est une instanciation du schema d'inference (A), le second du schema (B):

(A)(XZ) (YX)

(YZ) (B)(X2Z) (YX) (Y2Z)

Le premier schema est valide puisque l'inclusion est transitive. Le second est non valide. Les predicats ((sont mortels)) et ((sont nombreux)) ont ete interpretes respectivement par une pro-priete (((appartenance a une classe))) portant sur des objets individuels et, par une propriete (((appartenance a une classe de classe))) portant sur des classes.

De la m^eme maniere, si l'inference suivante:

Socrate est Athenien les Atheniens sont courageuxSocrate est courageux

Transitivite

est valide, le raisonnement qui consiste a dire que:

Socrate est Athenien les Atheniens sont nombreuxSocrate est nombreux

Transitivite

est manifestement incorrect. Les deux raisonnements precedents correspondent aux schemas respectifs (C) et (D) suivants:

(C)(X2Y ) (YZ)

(X2Z) (D)(X2Y ) (Y2Z) (X2Z)

Y EST Z X YEST Z EST X =)

Figure 2.2.

Transitivite de la preposition \EST"

Le premier schema (C) correspond a une relation de composition valide, le second ne l'est pas car, d'une facon generale, l'appartenance n'est pas transitive.

Dans les exemples ci-dessus, il n'y a aucun indice morpho-syntaxique qui permettrait d'accepter (A) et (C) et de rejeter (B) et (D). Il semble que tous les schema suivent le raisonnement de la gure 2.2 suivante.

Ainsi, adopter une indexation relationnelle automatique des textes revient a resoudre des pro-blemes semantiques complexes. La diculte de realiser une indexation automatique s'accentue des lors qu'on considere les corpus actuels, constitues de donnees multimedias. Ainsi, la distance entre le signal de ces donnees et leur semantique est elevee. Par exemple, dans le cas des images, le signal est une matrice de points8, alors que la semantique consiste a identi er symboliquement di erents elements de l'image. Ainsi, la ou la matrice des points indique du vert et du marron, la semantique vehiculee correspond a un arbre. Une donnee multimedia vehicule des informations diverses: ainsi une image contient des couleurs, du contraste, des objets (arbre, tronc, etc.), etc. Toutes ces infor-mations participent a la description de l'image, d'ou les dicultes rencontrees lors de l'indexation et de l'interrogation des donnees multimedias.

Pour les documents textuels, les solutions vont des approches globales integrant des traitements generaux de la langue naturelle a des approches pragmatiques valables pour des domaines restreints. Comme exemple de la premiere demarche, les systemes applicatifs [Des90] permettent d'e ectuer des raisonnements sur la langue naturelle. Gr^ace a l'adoption de la grammaire categorielle [Des90, Jou93, Des87], l'extraction de la semantique des textes est aisement menee. L'approche adoptee dans le cadre du systeme RIME [Ber88, Nie90] est plus pragmatique. Elle exploite le vocabulaire medical precis des documents du corpus pour automatiser leur analyse semantique.

Au niveau des corpus multimedias, les tentatives d'indexation automatique ont surtout porte sur les images [WAL+94, HM96]. L'indexation des images pour leur recherche reste un probleme ouvert. La necessite de combiner des criteres symboliques, des criteres physiques et de lier ces criteres par des relations est evidente. Cependant il n'existe pas a l'heure actuelle une technique permettant d'extraire d'une image l'ensemble de ces composants avec susamment de precision. Les travaux actuels s'orientent vers la combinaison et la fusion de modeles provenant de l'analyse d'image et de la vision par ordinateur pour garantir que le procede d'indexation puisse s'adapter a tout type d'images. Les travaux menes au MIT par Minka et Piccard [MP96] vont dans ce sens. Certaines tentatives d'indexation automatique existent egalement pour le cas du son [SG92] ou encore pour la video [HM94, HLMS95].

Nous n'avons pas, pour notre part, l'objectif de decrire un processus d'indexation automatique. Nous preferons speci er quels sont les elements indispensables a la recherche des documents com-plexes en posant comme hypothese qu'un processus permet d'obtenir ces elements. Ce processus

reste actuellement assiste par un intervenant humain.

2.2.4 Les Systemes de Recherche d'Informations Conceptuels

Sous le vocable de systemes de recherche d'informations conceptuels sont regroupes tous les systemes qui tentent de depasser les methodes classiques de recherche d'informations basees sur les mots-cles en integrant des techniques en provenance de l'intelligence arti cielle. Ces systemes adoptent des representations b^aties sur des concepts et des relations. Les index generes permettent une description en comprehension du contenu des documents, et sont conformes a l'hypothese 2. Ces systemes se distinguent par la facon dont ils abordent l'indexation des documents: