• Aucun résultat trouvé

Les documents multimedias en recherche d'informations

Requ^ete 15

2.5.3 Les documents multimedias en recherche d'informations

L'interrogation par le contenu des documents structures multimedia est dicile a mettre en place car elle necessite l'instanciation de modeles pour chacun des medias comme l'avait propose le systeme MULTOS. De plus, les travaux actuels partent souvent du postulat que les donnees sont indexees et n'aboutissent que rarement a un systeme complet comprenant les phase d'indexation et d'interrogation des documents.

Nous decrivons le travail que nous avons mene sur l'application PRIME-GC (pour Pro-totype de Recherche d'Informations MEdicales - plate-forme Graphes Conceptuels) [FM96, Fou97, BFM+97, BFMM97] qui manipule des donnees textuelles et des images. Dans cette application, nous de nissons un processus d'indexation integrant la structure puisque les in-formations se propagent des feuilles de la structure vers l'element racine. Il s'agit ici d'une ap-proche comparable a celles de Lee & al. [LYYB96], Kheirbek et Chiaramella [Khe95, CFM96] ou Fuhr et Rolleke[RF96].

L'application PRIME-GC

Dans notre approche, nous considerons une structure d'indexation, c'est-a-dire que nous de nissons en amont du processus d'indexation les elements de la structure qui doivent ^etre indexes. Nous ecartons ainsi des elements qui n'apporteraient rien en tant que reponse ou bien qui necessiteraient de la part de l'utilisateur une fouille dans ces elements.

Les donnees de PRIME-GC sont modelisees par l'intermediaire d'une grammaire BNF en respectant les speci cites du systeme d'informations en place au service du Centre Hospitalier

Universitaire de Grenoble d'ou elles proviennent. Elles respectent la modelisation suivante:

<Dossier Patient>::= <Dossier Administratif Patient> <Dossier Medical Patient>

<Dossier Medical Patient>::= <Dossier Commun Patient>j*(<Dossier Medical de Specialite>)

<Dossier Medical de Specialite>::= <Date d'Examen> <Examen> <Examen>::= 1*<Medecin Demandeur>

1*<Specialiste> <Compte-Rendu>

1*<Serie d'Images>

0*1<Index Examen>

<Compte-Rendu>::= <Texte>0*1<Index Compte-Rendu>

<Serie d'Images>::= 1*<IRM> <IRM>::= <Image>0*1<Index Image>

Dans ce modele de donnees apparaissent les elements indexes, a savoir les Examens, les

Compte-Rendus et les IRMs (Images par Resonance Magnetique). Les series d'images ainsi que les donnees non medicales, les donnees factuelles et les elements structurels qui sont des parents des examens ont ete ecartes de la structure d'indexation.

Liens d’indexation de Spécialité Relation de composition Données Indexées Dossier Médical Données Factuelles Patient Patient Dossier Commun Données médicales Dossier Administratif Patient Dossier Médical Dossier Patient

Date d’Examen Examen

Compte-Rendu Serie d’Images

IRM 1*

1* 1*

Figure 2.7.

La structure des documents de PRIME-GC

A partir de la de nition des elements de la structure que nous indexons, nous avons utilise le langage d'indexation de ni par Berrut dans [Ber88]. Il s'agit d'un langage complexe, note L, dont les termes prennent la forme suivante:terme2Vocabulaire[ (LOperateur

 L). Le vocabulaire et les operateurs de ce langage ont ete etablis en collaboration avec les medecins du CHU de Grenoble et comportent un vocabulaire specialise dont des regles

grammaticales garantissent les associations entre les elements du vocabulaire par les opera-teurs. Les operateurs correspondent ici a des relations semantiques telles que \en relation topologique avec", \a pour valeur", \a pour valeur locative", etc.

Ce langage d'indexation servait a l'origine pour l'indexation des textes medicaux du sys-teme RIME (lesCompte-Rendus). Nous l'avons repris pour indexer le contenu semantique des images medicales de PRIME-GC en utilisant le modele developpe par Mechkour pour repre-senter les images xes [Mec95c]. Ainsi, les images indexees sont representees par un sous-ensemble des vues decrites dans le modele

EMIR

2 (voir la description page 46) [Mec95c]: une vue structurelle, une vue symbolique et une vue spatiale. La vue spatiale comporte les informations geometriques decrivant les objets de l'image et les relations spatiales decrivant leurs positions relatives. La vue symbolique permet la representation du contenu semantique des objets de l'image. En n, la vue structurelle assure l'homogeneite et le dialogue entre les deux vues precedentes en decrivant la decomposition de l'image en objets.

Pour cette application particuliere, nous avions donc des outils d'indexation tant pour les textes medicaux (les Compte-Rendus) [Ber88] que pour les images medicales (les IRMs) [BMB95, Bou95], il nous restait a de nir un outil pour indexer les elements m^elant les deux (les Examens). Un processus d'indexation dynamique permettant de deduire l'indexation des examens a partir des indexations des Compte-Rendus et des IRMs est utilise. Ce processus repose sur une fonction, notee Indexation Dynamique, qui reprend le contenu des composants d'un examen et fournit en sortie une indexation pour l'examen.

SoitS1;::: ;SN les composants indexes deS

Indexation(S) =Indexation Dynamique(S1;::: ;SN)

Nous utilisons une fonction ad-hoc qui de nit la remontee des termes d'indexation des composants de

S

, notes

S

i pour

i

= 1

:::N

, vers

S

. Cette fonction exprime la remontee des termes communs entre deux index d'images ou entre un index d'image et un index de compte-rendu de chaque examen. Cette fonction deremontee des termes d'indexation s'inspire du travail plus generique que nous avons mene dans le cadre du projet FERMI [CFM96, BFM+97]: le processus de recherche de PRIME-GC est une mise en oeuvre du modele logique, pour qu'un document D soit une reponse a une requ^ete Q, il faut demontrer que l'implication logique

d

!

q

est veri ee, ou

d

et

q

sont les representations du document D et de la requ^ete Q. Dans le modele logique, les documents et les requ^etes sont exprimes sous la forme d'expressions logiques et la pertinence est basee sur la consequence logique.

Nous proposons des requ^etes typees, c'est-a-dire adressant une categorie particuliere d'ele-ments: soit les examens, soit les compte-rendus, soit les images. Nous distinguons la fonction de correspondance visant les examens et les compte-rendus de celle operant sur les images. En e et, la representation des images contient des elements d'information (objets spatiaux et relations spatiales) que les autres representations n'admettent pas et qui requierent un traitement particulier.

La mise en correspondance sur les examens et les compte-rendus proposent deux niveaux de reponse:

1. l'index complet du document repond a la requ^ete. Il s'agit des meilleures reponses possibles.

2. il existe des termes de l'index du document qui apparaissent dans la requ^ete. Ces docu-ments repondent partiellement a la requ^ete et sont consideres comme de moins bonnes reponses.

Sachant que les index utilisent le formalisme des graphes conceptuels, nous n'avons pas actuellement d'outils permettant d'etablir un ordonnancement des reponses mais nous pro-posons des niveaux de reponses. Nous rappelons qu'avec ce formalisme, un document repond a une requ^ete lorsque le graphe de la requ^ete se projette dans le graphe du document. Un terme de l'index d'un document appara^t dans une requ^ete lorsque un terme de la requ^ete se projette dans le graphe du document.

La correspondance sur les images est constituee de plusieurs niveaux de reponses depen-dant de l'usage ou non des di erentes facettes du modele de representation des images. Cet ordonnancement prend la forme suivante:

1. les images dans lesquelles se projette la requ^ete,

2. les images dans lesquelles les vues symboliques et spatiales de la requ^ete se projettent independamment,

3. les images dans lesquelles la vue symbolique de la requ^ete se projette, 4. les images dans lesquelles la vue spatiale de la requ^ete se projette, 5. les images dans lesquelles un terme de la requ^ete se projette.

A travers cet ordonnancement, nous de nissons la relation de pertinence entretenue par les images avec la requ^ete dans laquelle nous privilegions la vue symbolique par rapport a la vue spatiale.

Dans la correspondance de nie pour le systeme PRIME-GC, la structure n'appara^t que faiblement puisqu'il n'y a pas de recherche globale sur l'ensemble des elements d'un document. Cependant, ce systeme a le merite de mettre en evidence le bien fonde de l'approche dyna-mique de l'indexation des documents structures pour fournir une representation aux elements de structure. Par ailleurs, PRIME-GC demontre l'utilite de di erents niveaux de reponses introduits dans les fonctions de correspondance et ayant un sens. Il ne s'agit pas ici d'une valeur numerique mais du fait de l'utilisation ou non de certaines informations. Ceci permet d'expliquer pourquoi tel document repond ou tel autre ne repond pas.

2.6 Synthese

Nous avons presente plusieurs types de systemes et langages de requ^etes capables de supporter di erentes sortes de documents, et principalement des documents structures.

Nous relevons que le principal de auquel se confrontent ces systemes et langages de requ^etes releve de la exibilite de l'interrogation. Le document structure est complexe de par sa nature et peut donc ^etre interroge de multiples facons. La exibilite dans l'interrogation se traduit par l'introduction de techniques permettant de masquer la complexite du document lors de l'interrogation et d'acceder directement aux composants structurels pertinents.