• Aucun résultat trouvé

Recapitulatif des fonctionnalites

Requ^ete 15

2.6.1 Recapitulatif des fonctionnalites

Nous resumons dans le tableau de la gure 2.8 les di erentes caracteristiques qui nous interessent dans les systemes et langages de requ^etes que nous avons plus particulierement presentes. Systemes Operateurs sur la Composition Operateurs sur la Sequence Usage des

Attributs Usage duContenu CaracteristiquesAutres MULTOS

[Tha90] cheminsd'acces operateurssur les attributs alphanum. \pattern matching" sur le texte et operateurs sur les images

Composants actifs / passifs,

la granularite des reponses est

xe MAESTRO

[Mac91] d'acces etchemins usage de quanti cat.

operateurs rst, last et sur les listes

attributs purement textuels sur groupes de documents (globaux) \pattern matching" sur le texte granularite des reponses au choix POQL

[Chr96] d'acces avecchemins variables

operations sur

les listes Attributs BDet variables d'attributs \pattern matching" sur le texte et proximite des termes PAT expressions [ST94] inclusion et distance structurelle \pattern matching" sur le texte et proximite des termes Navarro

[Nav95] inclusion etdistance structurelle

operations sur

les listes matching" sur\pattern le texte et proximite des termes combinaison de vues multiples IOTA

[CDBK86] attributsglobaux operateurs RI ordonnancementpertinence et des reponses HyQ [Kim93], SgmlQL [MMR95] chemins d'acces, manipulation d'arborescence manipulation

de listes attributs BD reconstructionoperateurs de

PRIME-GC [BFM+97]

attributs

globaux attribut decontenu semantique dynamique rech. semantique sur composants multimedias, pertinence et ordonnancement des reponses

Manipulation de la composition

: il s'agit de determiner quels types d'operateurs sont disponibles pour interroger sur la relation de composition de la structure. Nous re-connaissons ainsi principalement les possibilites de de nir des chemins d'acces dans la structure, d'adjoindre des variables a ces chemins d'acces ou de speci er des distances dans la structure.

Les systemes MULTOS [BR90], MAESTRO [Mac91] et le langage POQL [Chr96] pro-posent des chemins d'acces pour construire des requ^etes permettant de naviguer dans la structure des documents. POQL y adjoint la notion de variable permettant ainsi de comparer ces chemins et de les dans les reponses. Les modeles bases sur les PAT expres-sions [ST94] et le modele de Navarro [Nav95] privilegient des notions d'inclusion dans la structure et autorisent des speci cations sur les distances entre composants structurels.

Manipulation de la sequence

: il s'agit de determiner quels types d'operateurs sont dis-ponibles pour interroger sur la relation de sequence de la structure. L'interrogation des composants repetes (par exemple une suite de paragraphes) se fait par l'intermediaire d'operateurs sur les listes et plus generalement nous retrouvons l'introduction d'opera-teurs tels que rst, lastou la speci cation d'une position dans la liste des composants. MULTOS et les modeles bases sur les PAT expressions ignorent ce type d'interrogation alors que MAESTRO et le modele de Navarro proposent des operateurs de position-nement dans une liste de composants. Le langage de requ^ete POQL integre lui aussi la notion de position dans une liste de composants repetes (suite de paragraphes) ou dans un encha^nement de composants. Il faut noter qu'aucun operateur speci que n'est introduit pour le traitement de la sequence ce qui peut rendre complexe l'ecriture de ces requ^etes.

Usage des Attributs

: nous determinons deux types d'attributs, les attributs locaux et les attributs globaux. Les attributs globaux sont de nis au niveau du document complet ou d'une collection de document alors que les attributs locaux sont de nis au niveau des composants du document comme le propose la norme SGML. Il nous faut aussi savoir quelles sortes d'attributs sont disponibles pour chaque systeme et quels operateurs pour les manipuler sont o erts.

Les PAT expressions n'admettent pas d'attributs tout comme le modele de Navarro. Toutefois, ce dernier modele permet de representer certains attributs par d'autres voies: par l'intermediaire d'une vue de presentation, il est possible de mettre en forme les attributs de presentation. Par exemple, il sera possible d'avoir les composants qui sont en italique avec la vue de presentation sans passer par un attribut. Le systeme MAESTRO propose uniquement des attributs textuels et globaux alors que MULTOS propose des attributs alphanumeriques qui peuvent ^etre confondus avec les composants structurels. Il en va de m^eme avec le langage POQL qui autorise les attributs locaux sur les composants structurels des documents. De plus, POQL supporte la notion de variable d'attributs.

Traitement du contenu des documents

: d'une part il faut savoir quels types de docu-ments sont geres, c'est-a-dire quels medias sont autorises et d'autre part nous donnons les operateurs permettant d'interroger sur le contenu de ces documents.

Excepte le systeme MULTOS qui traite simultanement des composants textuels et des images xes, les autres systemes comportent exclusivement des donnees textuelles. Les PAT expressions et le modele de Navarro sont particulierement dedies aux documents

textuels. Un SGBD qui supporte le langage POQL peut accueillir plusieurs types de donnees mais les operateurs d'interrogation sur le contenu se limitent aux attributs et aux parties textuelles des documents.

Seul les systemes IOTA et MULTOS proposent de veritables fonctionnalites de systemes de recherche d'informations, a savoir une phase d'indexation comportant une analyse du contenu semantique des documents et une representation de ce contenu conformement a un modele. Ainsi qu'une phase d'interrogation ordonnant les reponses selon leur per-tinence. Le systeme IOTA exploite la structure pour indexer les documents et propose une strategie d'indexation reprise par la suite dans [Khe95], [LYYB96] ou [RF96].

Autres caracteristiques

: les autres caracteristiques que nous pouvons relever dans ces sys-temes concernent la granularite des reponses, c'est-a-dire sous quelle forme sont presen-tees les reponses: un document complet, un composant du document, une construction de composants du document. Nous nous interessons aussi au fait que ces reponses soient ou non ordonnees en fonction de criteres. En n, nous notons quelle est la structure qui a ete privilegiee (structure physique, logique ou conceptuelle) ou si plusieurs sortes de structures sont combinees.

L'un des elements qui nous semble le plus pro table pour ce type de systemes est la forme de la reponse. Puisque nous considerons des documents structures, c'est-a-dire des composants lies entre eux, il semble important que les reponses de ces systemes pro tent de cette notion de composants et puissent donc prendre la forme d'ensemble organise ou non de composants. Il s'agit de de nir la granularite des reponses. Le systeme MULTOS ne donne acces dans les reponses qu'a des documents complets. Il est impossible de speci er dans la requ^ete un choix de granularite. Les autres systemes autorisent la speci cation du type de reponse souhaite sauf IOTA qui restitue le composant qui correspond le mieux a la requ^ete (d'un point de vue purement semantique).

A n d'assouplir l'indexation et de s'adapter a un maximum de types de documents, MULTOS de nit la notion de composants actifs et de composants passifs. Les compo-sants actifs peuvent ^etre interroges sur leur contenu alors que les compocompo-sants passifs peuvent uniquement ^etre interroges sur leur existence.

Le modele de Navarro propose des requ^etes combinant de multiples vues du document. Ceci signi e qu'une requ^ete peut mixer des conditions sur plusieurs sortes de structure, par exemple la structure logique et la structure de presentation. Les autres ne prennent qu'un unique type de structure dans leurs requ^etes.

Ce recapitulatif laisse appara^tre plusieurs elements que nous souhaitons mettre en avant dans notre travail:

{ Tout d'abord la capacite que doit avoir un systeme manipulant des documents structures a acceder a n'importe quel element de la structure. Cela semble imperatif pour que l'utilisateur exploite la complexite de ce type de documents et qu'il n'ait pas une phase de recherche supplementaire parmi les reponses pour acceder a l'element de structure qu'il souhaite. Il faut donc lui fournir immediatement cet element.

{ Ensuite, il semble aussi primordial d'utiliser l'ensemble des informations presentes dans ce type de document, que ce soit les informations instanciant les attributs des compo-sants de structure, les relations de structure ou bien le contenu m^eme des compocompo-sants

de structure. Nous constatons ainsi que malgre les e orts realises pour rendre l'interro-gation moins contraignante vis-a-vis des connaissances structurelles (chemins d'acces, variables d'attributs, etc), l'acces a un composant necessite toujours une connaissance assez s^ure de la structure sans que celle-ci ne semble totalement exploitee. Il est par exemple impossible d'acceder a un composant d'apres un attribut particulier si cet at-tribut n'est pas de ni sur ce composant et cela est toujours vrai m^eme lorsque cet attribut est de ni a un niveau inferieur ou superieur dans la structure.

La puissance d'un tel systeme se juge donc selon nous dans sa capacite a rendre en tant que reponse tout element susceptible de combler le besoin d'information de l'utilisateur. Or ce besoin ne s'exprime pas forcement en terme d'un chemin d'acces a un composant de structure mais plut^ot en terme de la description de ce composant de structure. Nous avons vu que dans les systemes presentes la structure est souvent privilegiee au detriment de la description des composants et de leur contenu. Nous souhaitons donc axer notre travail vers une meilleure prise en compte de la description des composants en conservant dans cette description le contexte structurel.