• Aucun résultat trouvé

Bruza [Bru93] presente ses travaux comme une variante de l'approche de Farradane. Il introduit ce qu'il appelle les expressions d'index6. Une expression d'index consiste en une structure contenant un nombre de termes separes par des connecteurs modelisant les relations entre ces termes. Les termes sont pris a partir d'une liste prede nie et correspondent a des syntagmes nominaux. Les connecteurs sont speci es dans un ensemble restreint aux prepositions de la langue anglaise et a un connecteur special, note, appele connecteur nul. Ce dernier permet d'exprimer des associations de termes dans des phrases comme par exemple Homme  Blanc pour un homme blanc. La table 2.4 suivante montre un certain nombre de connecteurs utilises par Bruza.

Connecteur Type de relation Exemples

of

Possession Castle of queen Action Pollination of crops

in, on, etc.

Position Trees in Guardens

with,

 Association Assistance with problems

fruit trees

Table 2.4.

Table de connecteurs tiree de [Bru93]

L'avantage de l'approche de Bruza est que le processus d'indexation peut se faire de facon au-tomatique. La technique utilisee s'appuie sur celle proposee par Craven [Cra86]. Il s'agit d'indexer les documents a travers leurs titres, ceux de leurs sections, de leurs sous-sections, de leurs gures, etc. Une fois les mots vides supprimes, comme par exemple \the" et \a", les parties qui restent sont successivement analysees a n de leur attribuer une interpretation donnant lieu a une struc-ture d'expression d'index. La strucstruc-ture resultante devra correspondre aux interpretations qu'aurait donne la majeure partie des utilisateurs, semantiquement parlant cela s'entend. L'hypothese de base pour la detection des structures est de considerer les connecteurs comme des operateurs ayant une certaine priorite. Cette derniere est utilisee pour decider si la structure courante est a approfondir

5:En AnglaisConcurrence.

ou a elargir. Bruza utilise ainsi deux niveaux de priorite sur les connecteurs. Ils sont bases sur le fait que certains connecteurs lient les termes plus fortement que d'autres. Ceux qui lient le plus les termes dirigent la structure vers la profondeur. Ainsi le connecteur \from" a plus de priorite que le connecteur \of" selon la conception de Bruza. Un exemple de construction d'une structure d'expression d'index est donne dans la gure 2.1 suivante.

of from Elimination Special Functions Equations of Elimination Special Differential of from Elimination Special Functions Functions Differential    ,! ,! 

Figure 2.1.

Une detection d'une structure d'une expression d'index pour le titre \The Elimination of Special Functions from Di erential Equations (exemple tire de [Bru93])"

Si au niveau de l'indexation, l'application de cette approche semble donner des resultats satis-faisants, son inconvenient est qu'au niveau de la correspondance, il n'est pas possible de detecter la similarite entre une expression d'index comme \page in a book" et une autre comme \page of a book". Dans cet exemple le connecteur \in" dans la premiere expression a la m^eme semantique que le connecteur \of" dans la seconde. En e et, ils expriment tous les deux une relation de composi-tion part-of entre \page" et \book". De m^eme il n'est pas possible de detecter la similarite entre la phrase Adventures of Tom et Tom's Adventures. Aucune analyse semantique visant a reconna^tre le sens vehicule par les expressions d'index n'est ainsi etablie.

2.1.5 Vers des Systemes de Recherche Conceptuels

Le grand avantage des mots-cles reside dans leur simplicite. Cela permet d'avoir des algorithmes de recherche tres performants. De plus, l'approche par mots-cles peut facilement ^etre appliquee a tout type de document et a n'importe quel domaine. Cependant, une telle representation est trop pauvre, et doit donc ^etre exclue pour les systemes ou la precision est importante. D'une part, l'hypothese consistant a dire qu'il existe une bivalence entre les mots-cles et la semantique est souvent fausse a cause des divers sens possibles que peut avoir un mot-cle. D'autre part, les relations entre termes ne sont pas modelisees.

Les representations par groupe nominaux ou par expressions d'index possedent une meilleure precision que les mots-cles, et sont independantes du domaine de l'application. La condition qu'il faut respecter ici est de produire des groupements re etant la comprehension mentale des utilisa-teurs. Cependant, dans certains cas l'analyse syntaxique est insusante sans la prise en compte de la semantique. Une telle demarche ne permet pas ainsi d'identi er les similarites entre les syntagmes extraits des documents et ceux de la requ^ete.

pre-cision des reponses, il est necessaire d'adopter une analyse semantique plus ne des documents. Cela s'apparente a des problemes de representation mettant en scene di erents concepts et rela-tions entre ces concepts plut^ot que des simples extracrela-tions de groupes nominaux. M^eme l'extension de ces derniers par des verbes ou par des relations de type de celles enumerees par Farradane ne permet une description dele du contenu semantique des documents. Nous privilegions ainsi une indexation du contenu semantique du document. Ce dernier met en scene des concepts et des re-lations conceptuelles permettant de decrire le plus delement possible le schema mental qu'on se ferait apres la lecture du document. Nous enoncons alors l'hypothese suivante:

Hypothese 2 (Un bon terme d'indexation)

Un bon terme d'indexation est fonde sur des concepts complexes ou les connecteurs sont vus comme des relations semantiques permettant de cerner le contenu semantique du document

Actuellement, les systemes dits conceptuels [Cro86] permettent une telle approche d'indexation. La representation interne qu'ils adoptent est independante de la langue et repose uniquement sur la semantique. Dans ces systemes, un concept designe une representation semantique qui peut se limiter aux concepts simples, mais qui comprend aussi generalement des liens ou des relations entre concepts. La representation de ces concepts dans la litterature prend diverses formes: frames, graphes conceptuels, formules logiques, arborescences, etc.

Le probleme majeur d'une telle demarche est sa lourdeur au niveau de la realisation. D'une part une indexation automatique est dicile a mettre en oeuvre. D'autres part, il est necessaire de determiner une limite au processus de comprehension des textes. Ceci est xe par le niveau de precision requis par l'application, c'est-a-dire par la granularite et le nombre des primitives concep-tuelles utilisees. Dans la section suivante nous montrons les etapes necessaires a la concretisation d'une approche relationnelle semantique.

2.2 Concretisation d'une Approche Relationnelle

La mise en place d'un processus d'indexation relationnelle permettant l'extraction, a partir des documents du corpus, de termes d'indexation conformes a l'hypothese 2 impose l'utilisation de taxinomies de concepts et de relations conceptuelles. En e et, le contenu semantique des docu-ments doit ^etre formule par rapport a ces taxinomies. Par consequent, la de nition des primitives semantiques du domaine d'application s'avere necessaire. La section suivante resume comment sont choisies les primitives. Nous donnons ensuite les types de relations primitives les plus couramment utilisees dans la litterature. Les primitives du domaine de l'application speci ees, nous montrons la diculte d'adopter une approche d'indexation automatique.

2.2.1 Objectivisme et Primitives

Les theories basees sur ce que l'on appelle l'objectivisme constituent actuellement la majorite des recherches liees a la comprehension de la langue naturelle. Ces theories sont basees sur l'hypothese que le sens d'une phrase est lie aux conditions de sa veracite. Nous comprenons une phrase quand on conna^t les cas pour lesquels elle sera evaluee a vraie. De plus, les conditions de veracite des phrases sont systematiquement liees a celles de ses parties [Mal91]. La semantique a valeur de

verite, la semantique formelle, et la semantique de Montague designent toutes des termes utilises pour substituer la notion d'objectivisme.

Selon la vue objectiviste, la realite consiste en des objets, des proprietes sur ces objets et des re-lations qui les lient. Ces entites sont considerees comme les \briques" de la construction de la realite. Pour obtenir le sens d'une expression, cette derniere devra ^etre decomposee en sous-expressions, et ainsi de suite jusqu'a ce que chaque sous-expression peut ^etre liee a un objet, une propriete ou une relation. Une telle theorie du sens est appelee theorie compositionnelle. Le principe de la compositionnalite stipule que le sens d'une phrase est fonction des sens de ses composants [Hir91]. L'approche de Montague est compositionnelle [Mon74], la condition de veracite d'une phrase est fonction des conditions de veracite de ses parties. La theorie des situations adhere egalement au principe de compositionnalite [Dev91][pp231]:

\One obvious property of language is that meaning of a larger unit, such as a sentence, is a function of the meanings of the individual parts, the words and phrases that go together to give the sentence."

La mise en oeuvre de cette conception implique que soient choisis un ensemble de traits qui seront utilises par la suite pour la construction de toutes les representations manipulees. On parle alors de primitives semantiques. La recherche de ces primitives reste un eternel e ort qu'il faut se donner la peine de realiser. Plusieurs travaux ont tente de degager des primitives gr^ace auxquelles, toutes les autres entites complexes peuvent ^etre de nies. Aristotle, par exemple, a de ni le concept Homme

en termes des conceptsCreatureetAnimal, ouCreatureetAnimalpeuvent eux-m^emes ^etre de nis par le biais de termes plus primitifs. De cette facon Aristotle pretend que chaque concept peut ^etre reduit en un nombre xe de primitives. Ces primitives appellees categories correspondent par exemple a une Substance, une Qualite, un Temps, etc. Des lors, plusieurs tentatives pour retrouver les primitives \ultimes" ont ete menees. Elles furent basees sur des motivations philosophiques, linguistiques ou pragmatiques. Le resultat etait soit des systemes avec tres peu de primitives, comme par exemple le systeme de dependance conceptuelle de Schank [Sch75], soit des systemes avec une centaine de primitives comme par exemple les 90 primitives du programme de traduction automatique de Wilks [Wil73, Wil75].

Ces primitives a partir desquelles on represente le sens des concepts n'ont toutefois pas de de nition rigoureuse. On se contente generalement de leur associer des regles et des proprietes evidentes [Wil87]:

Finitude:

le nombre de primitives utilisees doit ^etre bien entendu ni, mais surtout inferieur (et m^eme tres inferieur) au nombre de sens de mots a representer.

Etendu:

les primitives doivent permettre des representations di erentes pour des sens di erents.

Independance:

aucune primitive ne doit pouvoir s'exprimer en fonction des autres.

Non reductibilite:

aucun ensemble de primitives ne peut ^etre remplace par un sous-ensemble plus petit.

M^eme si ces recommandations semblent ^etre claires, l'arbitraire le plus total preside aux choix des primitives. Wilks [Wil87, pp.759] donne la de nition suivante:

natural language via a translation algorithm and which is not plausibly explicated in terms of, or reducible to, other entities of the same type."

Une vue commune aux approches objectivistes est la suivante:

{ Chaque entite est soit primitive soit construite a partir de primitives par certain principes de composition;

{ La structure conceptuelle interne est le resultat de l'application de ces principes de composi-tion;

{ Les entites sans structure interne constituent des primitives et ont un sens directement sai-sissable, le sens des autres entites est indirectement deduit par le biais des principes de composition qui les relient a des entites primitives.

Il est interessant a ce niveau de remarquer le parallele qui existe entre la facon dont les primitives sont traitees dans le cadre d'une vue objectiviste, et la maniere dont une formule en logique de premier ordre est construite a partir des atomes.

2.2.2 Quels Types de Relations Semantiques Choisir

Dans cette section nous enumerons les types de relations conceptuelles les plus couramment utilisees en recherche d'informations. Cette enumeration est issue d'un travail de compilation des travaux presentes dans [Sab88, Jou93]. Elle se base aussi sur de nombreux systemes conceptuels de recherche d'informations. Il s'avere ainsi que souvent, les relations primitives admettent un des types suivants:

a) La hierarchie

Le lien de hierarchie est un lien fondamental dans plusieurs applications. Il est generalement necessaire de di erencier les liens entre classes, des liens entre classes et individus, c'est-a-dire en termes mathematiques, distinguer l'inclusion de l'appartenance:

{ l'appartenance d'un individu a une classe ou l'attribution d'une propriete a un objet revient a la creation d'un lien hierarchique, comme par exemple, l'enonce Jean est un homme traduit par: Sorte-de(Jean, Homme). Cela signi e que l'individu \Jean" appartient a la classe des hommes ou encore que le conceptHomme s'applique a Jean;

{ l'inclusion ou la \subordination d'une classe a une classe" est exprimee dans des enonces comme les hommes sont des mammiferes ou encore les lapins sont des animaux. Pour le premier enonce, le lien signi e que l'ensemble des individus auxquels on attribue le concept

Hommeest inclus dans l'ensemble des individus auxquels on attribue le conceptMammifere. Les liens de hierarchie sont caracterises par la non-symetrie. Le lien d'appartenance est un lien non re exive et non transitive. Par contre le lien d'inclusion est re exive, antisymetrique et transitive.