• Aucun résultat trouvé

Requ^ete 15

2.6.2 Discussion et orientation

La recherche sur les documents structures doit combiner les aspects donnees et documents puisque d'une part nous souhaitons retrouver des elements d'apres leur contenu et d'autre part nous voulons aussi les retrouver d'apres les caracteristiques de leur structure. La recherche de documents structures appara^t alors comme une uni cation de la recherche de Donnees et de la recherche documentaire. Nous recapitulons ces remarques sur la recherche de documents structures dans le tableau suivant:

Recherche de

Donnees DocumentaireRecherche Recherche deDocuments Structures

Modele Deterministe Non Deterministe Deterministe et

Non Deterministe

Langage de requ^ete Declaratif Naturel Naturel, declaratif

Correspondance Exacte Partielle Partielle

Les reponses Correspondance Pertinence Pertinence

Structurelle

Figure 2.9.

Position de la recherche de documents structures par rapport a la recherche de donnees et a la recherche documentaire

Notre travail s'oriente donc plus precisement vers la description d'un modele de repre-sentation des documents structures et la de nition d'une strategie de recherche adaptee a ce modele. Il nous faut de nir sur ce modele comment se comporte les informations et comment celles-ci peuvent ^etre utilisees. Nous reprenons ici les discussions possibles sur les points qui nous interessent dans notre travail.

ad-mettent des caracteristiques communes au niveau de la de nition syntaxique de la structure. Ils proposent comme base la structure logique du document et admettent selon les types de documents des granularites plus ou moins nes. Les bases textuelles peuvent aller jusqu'a des granularites se situant au niveau des symboles du texte (ca-racteres, ponctuation, etc).

Notre intention est de fournir un modele de representation pour des documents struc-tures comportant principalement du texte et des images xes. Nous allons donc nous concentrer sur ces deux medias et fournir un modele uni e. Ceci signi e que nous devons pouvoir representer des parties textuelles et des images xes en etant capable de com-prendre chacun de ces elements. Par ailleurs, nous ne devons pas ecarter les possibles integrations d'autres medias m^eme si notre etude se limite ici aux textes et aux images. L'autre aspect sur lequel nous devons nous attarder reside dans la representation de la structure du document. Il faut tout d'abord determiner quelle structure nous re-presentons puis decider comment nous la rere-presentons. Pour determiner la structure a representer, il est possible de choisir une norme de representation telle que SGML, ODA ou des normes derivees (TEI) et proposer un modele en accord avec ce choix. La seconde solution est de proposer un modele qui soit independant des normes de representation. C'est cette seconde solution que nous adoptons car nous travaillons sur l'acces aux do-cuments structures alors que les normes de representation englobent certains aspects que nous n'abordons pas, presentation du document, gestion des documents, etc. Nous privilegions donc une representation dans le cadre particulier de la recherche des do-cuments structures. Nous conservons une certaine independance vis-a-vis des normes tout en sachant que notre modele doit pouvoir accueillir des documents conformes a ces normes. Ainsi, un document conforme a une de nition SGML pourra ^etre represente dans notre modele sans avoir a remodeler sa structure.

Le Langage de requ^ete

: les langages de requ^ete des systemes de recherche d'information privilegient une expression en langue naturelle alors que les langages de requ^etes des systemes de gestion de bases de donnees, et particulierement ceux gerant des docu-ments structures, sont declaratifs et ils reclament un utilisateur expert (connaissance du langage, connaissance de la structure des documents, etc). Les re exions actuelles sur l'assouplisement des langages de requ^etes declaratifs en introduisant des variables sur les attributs ou bien des notions de chemins d'acces partiels sur les systemes ob-jets necessitent une connaissance moindre sur la structure des documents et le nom des attributs de cette structure. Par ailleurs, l'integration dans ces langages declaratifs de modules d'interrogation plus naturels (par exemple recherche plein texte et recherche thematique) montre la necessite d'un rapprochement entre les langages declaratifs des systemes de gestion de bases de donnees et les langages naturels des systemes de re-cherche d'information.

Nous n'avons pas l'intention de fournir un nouveau langage de requ^etes mais nous pro-posons d'orienter notre travail vers des fonctionnalites qu'un langage de requ^etes sur des documents structures devrait integrer. Il s'agit par exemple d'une interrogation combi-nant des speci cations structurelles, des speci cations factuelles et des speci cations de contenu.

Les speci cations structurelles contiennent des contraintes sur les types d'elements re-cherches, la composition de ces elements ou encore leurs positionnements respectifs dans

la structure syntaxique.

Les speci cations factuelles correspondent a des contraintes sur les attributs classiques des bases de donnees: une date, un auteur, un numero de chapitre, etc.

En n, les speci cations de contenu abordent plus speci quement la problematique de la recherche d'information en permettant d'interroger sur le contenu du document, a savoir son contenu semantique, sa thematique, ou encore les caracteristiques propres a chaque media.

La correspondance

: la correspondance exacte des systemes de gestion de bases de donnees conna^t des avantages dont le principal reside dans la \certitude" de cerner exactement le contenu d'une base, mais elle ne peut ^etre generalisee a tous les descripteurs d'un document complexe. Il faut donc choisir selon le type du descripteur le mode de corres-pondance le plus approprie.

L'objectif donne dans la discussion sur le modele nous incite a considerer des attributs permettant de representer et de decrire les caracteristiques de chaque composant struc-turel d'un document. Dans le domaine des bases de donnees, un domaine de de nition est rattache a chaque attribut. C'est ce domaine qui va fournir le mode de correspon-dance que nous mettrons en pratique sur l'attribut.

Nous estimons que la complexite de certaines informations qui representent les com-posants necessite des domaines de de nition s'apparentant a des langages d'indexation tels qu'ils sont connus en recherche d'information. Un langage d'indexation est compose d'un vocabulaire de base et de regles de constructions des expressions de ce langage. Comme exemples de langages d'indexation en recherche d'informations, nous pouvons citer les ensembles de mots-cles, les graphes conceptuels [OP97a, Che92] ou encore les logiques descriptives [SS96]. Nous ne voulons pas par ailleurs proposer un mode de cor-respondance reposant sur un unique formalisme et preferons conserver une independance vis-a-vis de ces formalismes.

Nous admettons cependant que le mode de correspondance partiel est un element essen-tiel pour estimer la pertinence des documents ou des parties de document et proposons donc une structure d'accueil tant pour des descripteurs utilisant une correspondance exacte que pour des descripteurs utilisant une correspondance partielle. Cette structure d'accueil sera de nie au niveau du modele de document et de la representation des descripteurs.

Les reponses

: dans le contexte particulier des documents structures, nous devons parti-culierement nous interesser a cette facette de l'interrogation. Par rapport a l'approche classique des systemes de recherche d'informations qui restitue un ensemble de docu-ments pertinents, nous devons tenir compte de l'aspect complexe des docudocu-ments. Ainsi, il est inutile de retourner un document complet lorsqu'une partie de ce document re-pond. Il est preferable, selon nous, de focaliser les reponses sur les parties pertinentes des documents.

Focaliser sur les parties pertinentes signi e restituer uniquement la ou les parties des documents qui correspondent aux criteres de la requ^ete. Toutefois, il faut se garder de declarer que toute partie d'un document est une reponse potentielle. En e et, les do-cuments structures peuvent comporter des composants qui n'ont pas de sens soit parce

qu'ils prennent leurs sens dans un contexte particulier (au voisinage d'un autre compo-sant par exemple), soit pour des raisons de tailles (une encyclopedie est un document structure mais peut-on considerer qu'on a renseigne un utilisateur en lui retournant comme reponse une encyclopedie complete?). Par ce dernier exemple, nous voulons eta-blir que toute partie de document ou tout document n'est pas forcement interessant en tant que reponse pour l'utilisateur. Nous l'avons montre dans PRIME-GC ou nous avons ecarte de la structure d'indexation un element intermediaire qui est la liste des series d'images medicales. Nous proposons de retrouver directement une image ou bien le compte-rendu medical qui contient la liste des series d'images mais pas une serie d'images. Il s'agit de delimiter a priori l'inter^et des types des elements de la struc-ture pour ne pas introduire dans les reponses des elements qui, pris hors du contexte structurel, ne prennent pas tout leur sens.

Nous devons donc de nir parmi les composants d'un document structure quels sont ceux qui sont des reponses potentielles. Ceci doit se faire en accord avec la notion d'indexation de nie au niveau du modele de document structure. Nous adoptons l'approche classique de la recherche d'informations qui consiste a dire qu'une reponse potentielle est un element qui admet un descripteur.