• Aucun résultat trouvé

L'indexation en comprehension des documents, et ainsi l'adoption d'une approche orientee vers la precision des reponses, exige le developpement des systemes de recherche d'informations concep-tuels. Ces systemes devront manipuler des concepts dont le sens est non ambigu et dont les relations qui les lient sont speci ees. Cependant, la phase d'indexation s'est revelee redhibitoire dans les pre-miers prototypes commeCorelou encore dansElen, du fait de son caractere manuel. Ces derniers ne peuvent donc ^etre utilises que pour des corpus contenant un ensemble restreint de documents.

Pour remedier a ce probleme, certains systemes conceptuels comme I3R [Cro86], RUBRIC-TOPIC [TAAC87, TAA89], ou Taga [MAD92] procedent par, ce qu'on appelle, extraction auto-matique. Le procede ne se refere pas a une analyse linguistique, mais a un processus de selection des idees importantes dans un document, par la reconnaissance de certaines expressions ou d'indices linguistiques. Souvent privilegiee parce qu'elle requiert peu de ressources pour ^etre mise en oeuvre, cette approche necessite toutapercevoirefois une condition pour son utilisation. En e et, le langage employe dans les documents doit contenir susamment d'idiomes et d'expressions typiques. Dans le cas contraire, une grande partie des concepts et des relations vehicules par le texte restent non identi es simplement parce qu'ils ne sont pas susamment indiques par les indices de nies dans le systeme. Ainsi, l'indexation resultante reste insusante et n'avantage pas des bonnes performances qualitatives.

Pour les documents textuels, l'analyse semantique est celle qui est le mieux a m^eme de permettre une indexation automatique. Le principal inconvenient de cette approche est sa complexite et la diculte de son implantation. De plus, il n'est pas envisageable de l'appliquer a n'importe quel domaine. Des projets comme CYC [Len95], qui visent une modelisation des connaissances independante du domaine, n'ont eu jusqu'a present que des resultats mitiges.

Paradoxalement, les systemes conceptuels n'ont pas encore atteint un stade qui leur permet de soutenir la comparaison avec les systemes traditionnels a base de mots-cles ou de groupes nominaux. Pour s'en convaincre, il sut de consulter les derniers actes de la conference SIGIR. Croft [Cro92, p252] resume bien ce constat:

\It has not been established that a representation based on the meaning of the docu-ment text (using case frames for example) is superior (from an IR perspective) to a representation that simply identi es such features as important word stems and noun groups."

Cette suprematie des approches traditionnelles est manifeste si l'on considere le plebiscite in-volontaire que constitue l'adoption des techniques statistiques par les systemes conceptuels qui se posent precisement en challenger: I3R, RUBRIC-TOPIC, etc. Au fait, les systemes conceptuels sont donc amenes a relever non seulement un de scienti que en demontrant la validite de leur approche (chose qui peut s'averer facile a notre avis), mais aussi et surtout un de economique dans le sens ou l'apport de l'approche doit ^etre assez signi catif pour justi er le remplacement des techniques a base de mots-cles. Les performances relativement discutables des systemes conceptuels s'expliquent a notre avis par les raisons suivantes:

(1)

tout d'abord, les methodes calculatoires et statistiques sont a un stade de maturite tres avance. Elles sont ainsi pleinement ecaces et operationnelles. Ceci a la di erence des approches

conceptuelles encore au stade de la recherche. Le principe d'une approche conceptuelle pour la recherche d'information ne fut adopte que tres recemment et reste donc a l'etat embryonnaire que ce soit par la de nition des fonctions de correspondance ou pour le classement des reponses fournies;

(2)

il est tres dicile de juger de la validite des representations associees aux documents. S'il s'agit d'une indexation manuelle, il arrive que l'indexeur omette des details du contenu se-mantique du document ou qu'il exprime mal certains concepts lors de la representation. De plus, a present, il n'est pas possible d'envisager avec susamment de precision une indexation automatique des documents;

(3)

les fonctions de correspondance utilisees par les approches conceptuelles ne fournissent pas les regles d'inference necessaires pour la prise en compte des decisions de pertinence qui s'imposent. Nous verrons par exemple que les proprietes des relations ne sont pas exploitees par ces fonctions. Un tel constat fait en sorte que plusieurs documents pertinents ne soient pas renvoyes a l'utilisateur;

(4)

la comparaison des deux approches s'est faite generalement sur des corpus heterogenes et avec des requ^etes se limitant a des mots-cles. Cela avantage bien entendu les indexations a base de mots-cles, puisque les approches semantiques sont dedies a des domaines d'expertise. La diculte d'indexer les donnees multimedias, mentionnee dans la section 2.2.3 et l'etat d'art actuel des systemes conceptuels font en sorte qu'on n'est pas pres de trouver une solution imminente au point (2) ci-dessus cite. Une telle problematique depasse le cadre de cette these et releve plut^ot du domaine du traitement de la langue naturelle, des images et autres medias.

Par contre, nous montrons au niveau de cette these qu'il est possible avec une approche concep-tuelle d'aboutir a des algorithmes polynomiaux tout en resolvant le point (3). A travers l'im-plantation a base de graphes conceptuels du prototype Relief[OP97b], nous montrons que nous obtenons des resultats encourageants pour un corpus d'images specialise et des requ^etes complexes. De plus, par le biais du modele logique relationnel que nous proposons au chapitre 3, nous esperons apporter une contribution au point (1). En n, la comparaison de notre prototype avec le celebre sys-teme SMART [Sal71] montre qu'une approche conceptuelle donne des resultats nettement meilleurs qu'une approche classique des lors qu'il s'agit d'indexer puis de chercher des donnees complexes comme les images.

2.3 Raisonner sur les Relations

Toutes les approches decrites au debut de ce chapitre s'accordent sur l'importance des relations. Independamment du degre d'exhaustivite de ces approches, la construction d'un thesaurus, l'adop-tion d'une approche linguistique ou encore la concepl'adop-tion d'un systeme de recherche conceptuel, exige la representation de certaines relations. Cependant, peu d'approches permettent de raisonner sur ces relations et d'exploiter ainsi les proprietes qu'elles presentent.

Plusieurs systemes ont toutefois ete confrontes au besoin de gerer certaines proprietes de re-lations. Dans la suite, nous decrivons trois approches dans lesquelles ce besoin a ete identi e. La premiere approche est liee a la construction d'un thesaurus pour la recherche d'informations. La

seconde decrit comment les inferences sur les relations sont gerees au niveau des reseaux seman-tiques. En n, nous presentons l'approche du systemeRime. Ce dernier peut ^etre considere comme un des pionniers des systemes de recherche conceptuels s'interessant a la gestion des relations.

2.3.1 L'Approche de Maron

Lorsque les occurrences de deux termes dans les documents du corpus sont statistiquement liees, le fait de considerer que le premier terme est une variante able de l'autre terme lors de l'eva-luation d'une requ^ete est une hypothese frequemment adoptee pour la construction automatique des thesaurus [PW91]. La transitivite de la relation de co-occurrence est souvent assumee dans ce type de construction. Ainsi, nous avons non seulement les relations qui apparaissent explicitement a partir des donnees de co-occurrence, mais aussi nous pouvons inferer l'existence d'autres relations implicites en supposant la validite de la transitivite. Par exemple, si un terme

t

1 co-occurre avec un terme

t

2 et que

t

2 co-occurre avec

t

3, alors nous pouvons inferer, en utilisant la transitivite, qu'il existe une relation semantique entre le terme

t

1 et le terme

t

3, m^eme s'il ne co-occurrent pas explicitement dans le corpus. Cette distinction entre les relations explicitement representees dans le corpus, et les relations qui peuvent ^etre deduites de ces informations explicites rappelle la distinction logique entre l'intension et l'extension d'un terme, d'un symbole ou d'une proposition. L'extension d'un terme est l'ensemble des entites auxquelles il s'applique, alors que l'intension d'un terme est l'ensemble des proprietes qui le de nissent10.

Maron [Mar67] fut le premier a voir le parallele entre l'intension et l'extension des expressions logiques avec les intensions et les extensions des relations. Il etablie que le sens intentionnel d'une relation

R

est l'interpretation de

R

en termes d'autres relations. Par exemple, la relation beau-pere existant entre un homme et un autre individu stipule que l'enfant de cet homme est marie a l'autre individu en question. Le sens extensionnel d'une relation

R

est l'interpretation de

R

en termes de tuples pour lesquels la relation est valide. Dans le cas de la relation beau-pere, l'extension pourrait ^etre l'ensemble des paires d'individus pour lesquelles la relation est valide. Maron [Mar67, pp.218] donnait ainsi les de nitions suivantes:

\We say that the extension of a relation is the set of ordered pairs for which the relation holds, and the intension of a relation is its de nitional equivalent in terms of other relations."

Selon Maron, les extensions des relations sont celles representees explicitement dans le corpus (il s'agit des paires de termes qui co-occurrent), alors que l'intension d'une relation est une relation qui peut ^etre derivee ou inferee d'autres relations (de facon extensionnelle ou intentionnelle).

Dans les systemes automatiques ou le thesaurus est represente comme une matrice, les relations qui ne sont pas explicites dans le corpus peuvent ^etre facilement determinees. Il s'agit d'appliquer la fermeture transitive de la matrice originelle de termes [Bla90]. Ainsi, etant donne un thesaurus de termes represente par une matrice B, l'algorithme de Warshall [ST81] suivant est applique:

10:Allwood et al. [AAD93] donnent la relation suivante entre intension et extension:\An intension is something that relates a linguistic expression [term] to its extension. It determines the extension of a linguistic expression :::

an intension is a function: something that for every possible situation or world picks out exactly those objects which make up the extension of a given expression".

Algorithme 1 (Algorithme de Warshall)

De nir une nouvelle matriceA=B

Pouri= 1 jusqu'ai=n

Pour tous lesj

SiA(j;i) = 1alors Pourk= 1 jusqu'ak=n A(j;k) :=A(j;k) +A(i;k) FinPour FinSi FinPour FinPour retourner matriceA

L'approche de Maron est interessante dans un sens qu'elle fournit un support theorique pour inferer des relations non explicitement representees dans le corpus, c'est-a-dire qu'elle permet de raisonner sur les relations et leurs proprietes. Nous pouvons ainsi constater que la de nition d'in-tensionnalite de Maron est celle adoptee pour les r^oles en logiques terminologiques [Neb90a]. Cette approche a ete appliquee uniquement aux relations semantiques de co-occurrences, et a l'inconve-nient ainsi de ne s'interesser qu'a la propriete de transitivite. Elle constitue, a notre connaissance, la seule approche en recherche d'informations a s'interesser aux liens entres relations a travers la notion d'intensionnalite.

2.3.2 Les Reseaux Semantiques

En intelligence arti cielle, les reseaux semantiques etaient les premiers a s'interesser a la repre-sentation des liens semantiques entre les entites du domaine. La de nition de reseau semantique est assez dicile a poser, puisque ce terme designe tout un ensemble de formalismes graphiques. La de nition d'un reseau semantique est tellement generale qu'elle peut ainsi englober des formalismes aussi divers que les dependances conceptuelles, les frames, les graphes conceptuels ou les logiques terminologiques; ce qui la rend presque vide de sens [Sch91]. Il se degage cependant des caracteris-tiques communes [Sow91]. Un reseau semantique se presente ainsi comme un graphe oriente, sans circuits, en general connexe, et doublement etiquete: les sommets sont etiquetes par des concepts, les arcs par des relations binaires entre concepts. Le reseau peut correspondre a un modele de la memoire semantique a long terme d'un locuteur. Pour comprendre certains enonces ou pour proce-der a certaines inferences, le locuteur fait appel a ses connaissances enregistrees dans sa memoire. L'information qui est portee par un sommet du reseau est de nie (i) par le concept lui-m^eme; (ii) par les autres concepts auxquels il est lie et en n (iii) par la nature semantique des relations. Les relations EST-UN (en anglais IS-A, rendu parfois par SORTE-DE et POSS ((possede))) sont des relations typiques des reseaux semantiques. La grande popularite de ces derniers s'explique par les caracteristiques suivantes:

{ la representation des connaissances((de sens commun))est plus simple et plus naturelle qu'avec le calcul des predicats;

{ la transitivite de certaines relations est supportee, ce qui autorise l'heritage des proprietes d'une entite par ceux qu'elle subsume. Par consequent, il s'en suit une economie de memoire de stockage pour la representation de plusieurs relations;

{ la facilite dans la recherche d'informations necessaire a certains raisonnements et inferences; La premiere caracteristique s'explique par le lien entre les reseaux semantiques et les modeles psychologiques [Des87, Sab88]. Les deux dernieres proprietes sont, quant a elles, fondees principa-lement sur des criteres d'economie de traitements informatiques. Toutefois, c'est essentielprincipa-lement la facilite avec laquelle les deductions sont faites dans les reseaux semantiques qui explique leur large utilisation. Il est en e et facile de realiser des raisonnements par composition des relations.