• Aucun résultat trouvé

linguistique pour l’indexation sémantique des documents multilingues Loïc Maisonnasse

N/A
N/A
Protected

Academic year: 2022

Partager "linguistique pour l’indexation sémantique des documents multilingues Loïc Maisonnasse"

Copied!
22
0
0

Texte intégral

(1)

linguistique pour l’indexation sémantique des documents multilingues

Loïc Maisonnasse — Catherine Roussey — Sylvie Calabretto Farah Harrathi

Université de Lyon, CNRS, LIRIS UMR 5205 INSA de Lyon, Université Claude Bernard Lyon 1 Campus de la Doua, Bâtiment Blaise Pascal 20, Avenue Albert Einstein

F-69621 Villeurbanne cedex CEMAGREF de Clermont Ferrand 24, Avenue des Landais F-63172 Aubière

RÉSUMÉ. Dans cet article nous présentons une approche statistique d’indexation sémantique des documents multilingues. L’approche que nous proposons est composée de trois étapes : extraction des termes, détection des concepts et détection des relations à partir des couples de concepts. Notre approche est validée par un ensemble d’expérimentations sur la collection ImageCLEFmed 2007 et une comparaison avec une approche linguistique. Nous montrons ainsi que l’approche statistique obtient des résultats équivalents à l’approche linguistique sans adapter la phase d’indexation à la langue du document.

ABSTRACT. This article presents a statistical approach of semantic indexing for multilingual documents. The proposed approach is composed of three stages: extraction of terms, detection of concepts and detection of relations from couples of terms. Our approach is validated by a set of experiments on the ImageCLEFmed 2007 collection and a comparison with a linguistic approach. The experiments show that the statistical approach obtains results equivalent to the linguistic one without adapting the indexing procedure to the document language.

MOTS-CLÉS : recherche d’information, indexation sémantique, ontologie, documents multilingues, analyse linguistique, mesure statistique.

KEYWORDS: information retrieval, semantic indexing, ontology, multilingual documents, linguistic analysis, statistical measurement.

DOI:10.3166/DN.14.2.193-214 © 2011 Lavoisier, Paris

(2)

1. Introduction

La numérisation des documents et le développement des technologies internet génèrent une augmentation incessante de la masse de documents disponibles. Face à cette masse documentaire, le lecteur se sent désorienté et a besoin d’outils pour l’aider à filtrer les documents afin d’accéder aux documents pertinents. Dans ce but, les systèmes de recherche d’information (SRI) proposent à l’utilisateur une liste de documents répondant à son besoin d’information formulé sous forme de requête.

Les statistiques présentées dans (InternetWorldStat, 2010) montrent la diversité des langues utilisées dans les documents et dans les requêtes des utilisateurs. Ainsi, les SRI doivent maintenant répondre à un nouveau défi : proposer à l’utilisateur une liste de documents écrits dans des langues différentes répondant à une requête formulée dans la langue de l’utilisateur : la langue de l’utilisateur peut être différente des langues des documents. Ces nouveaux systèmes documentaires portent le nom de SRI Translingues (2 langues) ou multilingues (N Langues).

Notre travail s’intéresse au cas des SRI multilingues gérant trois langues : français, anglais et allemand. Plus particulièrement, nous travaillons sur la phase d’extraction d’information à partir des textes, phase préliminaire au processus d’indexation des documents. Notre objectif est de surmonter la barrière de la langue dans un SRI en représentant chaque document d’un corpus multilingue par un ensemble de concepts ou un ensemble de relations entre concepts. Les concepts et les relations composent un langage pivot de représentation de l’information et sont définis dans une ressource sémantique (RS) externe.

L’objectif de notre travail est de comparer l’usage d’une ressource sémantique avec différentes méthodes d’indexation. Nous souhaitons évaluer si la RS permet de compenser les résultats d’une méthode d’indexation non spécifique à une langue donnée. Nous souhaitons donc mettre en place une méthode d’indexation suffisamment générique pour qu’elle soit applicable sur l’ensemble des documents du corpus multilingue sans distinction de leur langue. Nous proposons donc une méthode statistique de détection des concepts et de relations. L’extraction des termes qui dénotent ces concepts est effectuée en se basant sur un corpus d’appui, pour l’extraction des termes simples, et sur une mesure statistique, pour extraire les termes complexes. Ces termes sont ensuite transformés en concepts à l’aide d’une ressource sémantique. Ensuite les couples de concepts sont utilisés pour détecter les relations prédéfinies dans la ressource sémantique.

La section 2 présente un état de l’art sur les méthodes d’indexation utilisant des ressources sémantiques externes. Les étapes de notre méthode ainsi que les bases théoriques sont présentées dans la section 3. Dans la section 4 nous présentons une validation expérimentale de la méthode et nous concluons dans la section 5.

(3)

2. État de l’art

Les ressources sémantiques sont utilisées à la fois dans les systèmes de recherche d’information (SRI) et les moteurs de recherche du web sémantique pour faciliter l’accès aux documents.

2.1. Ressource sémantique dans les systèmes de RI

L’utilisation de ressources sémantiques (RS) dans les systèmes de recherche d’information (RI) peut s’appliquer à plusieurs processus de RI : l’expansion de requête, la génération d’index ou l’amélioration du score de pertinence document requête. La plupart des travaux de RI se sont surtout orientés sur l’usage de RS pour l’expansion de requêtes (Zhou et al., 2007 ; Zhang, 2009).

D’autres travaux se sont intéressés aux ressources sémantiques pour la génération d’index (Baziz et al., 2005). Nous nous intéressons uniquement à ce type d’approche que nous appelons indexation sémantique. L’indexation sémantique partage les mêmes objectifs que l’annotation sémantique du web sémantique. Nous clarifions cette notion dans la section suivante.

2.2. Ressource sémantique dans les moteurs de recherche du WS

Avec l’avènement du web sémantique et des ontologies sur le web, des travaux se sont intéressés à l’annotation de documents web à partir d’une ontologie dans le but d’en faciliter l’accès. Ce processus est appelé annotation sémantique (Handschuh et al., 2003).

Les travaux actuels dans le domaine du web sémantique s’orientent sur la précision de ces annotations et leur automatisation (Jonquet et al., 2009). Dans le domaine médical plusieurs outils d’annotation sémantique automatique sont disponibles actuellement comme MetaMap ou Mgrep. La précision de ces outils permet de désambiguïser un terme en lui associant un seul concept.

Si l’annotation sémantique vise la précision, l’indexation sémantique quand à elle doit aboutir à un compromis entre précision et rappel. En effet, les outils de désambiguïsation de termes ont montré leur limite dans les systèmes de RI (Sanderson, 2008). Ainsi l’indexation sémantique ne sélectionne pas un unique concept par terme, mais essaye d’éliminer de la liste des candidats possibles les concepts « hors sujet ». En RI, l’ensemble des composants de l’index permettront de désambiguïser le terme ambigu. Par conséquent, l’indexation sémantique doit s’assurer que le concept effectivement dénoté par le terme appartient à l’index sans se limiter sur le nombre de concepts qu’il peut contenir.

(4)

2.3. Indexation séman

Dans le cadre de no d’index :

– un index compos 2010 ; Trieschnigg et des corpus monolingu

– un index compo (Maisonnasse et al., 20 des corpus multilingu L’ensemble de ces morphosyntaxique pou langue du document. A une ressource sémant d’utiliser des outils lin d’extraction des term équivalente. Ainsi, av changer d’analyseur lin 3. Notre approche d’i

Figure 1. Vue d’ensem

mantique multilingue

e notre étude nous nous intéressons à la génération de de posé de concepts comme dans (Jonquet et al., 2009 ; Din

et al., 2009 ; Zhou et al., 2007). Ces travaux ont été te ingues ;

posé de concepts et de relations entre concepts comm ., 2009 ; 2007, Lacoste et al., 2006). Ces travaux ont été te ngues.

ces travaux utilisent des méthodes linguistiques à base d pour détecter les concepts et ont donc besoin d’iden

Au contraire de ces méthodes, nous voudrions montrer antique externe de qualité suffisante, il n’est pas né s linguistiques adaptés à une langue donnée et qu’une m termes statistique permet d’obtenir des résultats de , avec cette méthode statistique, nous ne seront pas a

r linguistique à chaque fois que la langue du document ch d’indexation sémantique

semble de notre méthode d’extraction d’éléments d’index

deux types Dinh et al., té testés sur omme dans té testés sur se d’analyse identifier la trer qu’avec nécessaire ne méthode de qualité amenés à t change.

dexation

(5)

Comme le montre la figure 1, l’approche que nous proposons est composée de trois étapes : extraction des termes, détection des concepts et détection des relations à partir des couples de concepts. Chacune de ces étapes est constituée de deux processus distincts. Notre méthode de détection de concepts ou de relations est une étape préliminaire à un processus d’indexation sémantique. En effet, pour construire la représentation finale des documents ou des requêtes, une méthode d’indexation sémantique doit être complétée par exemple par un processus de pondération de concepts et de relations entre concepts.

3.1. Extraction des termes

Nous distinguons deux types de termes : les termes simples composés d’un seul mot et les termes complexes composés d’une suite de mots. Nous utilisons un corpus d’appui pour extraire les termes simples et une nouvelle mesure statistique pour l’extraction des termes complexes.

3.1.1. Extraction des termes simples

Notre processus d’indexation commence par découper le texte en mots. Un mot est une suite de caractères alphanumériques délimitée par des caractères de ponctuation. Ensuite, pour chacun des mots découverts, nous le classons dans deux catégories : mots vides ou mots pleins.

Un « mot vide » est un mot qui ne doit pas être utilisé pour indexer un document.

Ce type de mot a un pouvoir informatif faible : il peut être un mot grammatical ou un mot lexical non discriminant comme les jours de la semaine (Vergne, 2004). Ces mots vides sont très fréquents. De ce fait, ils se distribuent de manière identique indépendamment des corpus où ils apparaissent (Salton et al., 1983). Le principe du moindre effort défini par George K. Zipf (1994) a mis en évidence que du fait de leur fréquence élevée ces mots sont généralement courts.

Au contraire un « mot plein » est un mot qui doit être utilisé pour décrire le contenu d’un document car il possède un pouvoir discriminant fort.

Nous approximons la liste des mots vides en supposant que les mots vides apparaissent dans deux corpus qui couvrent deux domaines disjoints et ont une taille inférieure à un seuil donné. Nous utilisons un corpus d’appui Ca qui couvre un domaine différent du domaine couvert par le corpus à indexer Ci.

_|

: le vocabulaire du corpus d’appui – : le vocabulaire du corpus à indexer

(6)

– Seuil : le seuil utilisé pour la taille des mots a été fixé à 4 lettres dans nos expérimentations. Cette valeur a été choisie arbitrairement et sera ajustée ultérieurement après plusieurs expérimentations.

Nous considérons un terme simple comme un mot non vide c’est-a-dire un mot plein.

_ | \ _

Cette technique à base de comparaison de corpus est aussi utilisée dans l’outil TermoStat (Drouin, 2003). TermoStat utilise un corpus non spécialisé pour réduire le nombre de termes simples d’un corpus spécialisé en se basant sur des comparaisons de fréquences.

3.1.2. Extraction des termes complexes

D’après (Smadja, 1993), une collocation est une combinaison récurrente de mots qui se trouvent ensembles plus souvent que par le simple fait du hasard et qui correspondent à une utilisation arbitraire. Il existe différents types de collocations (en fonction du type grammatical de ses composants ou de la régularité de la collocation). Certaines collocations représentent des syntagmes nominaux figés qui sont propres à un domaine. L’objet de notre étude porte sur la détection de ces types de collocations que nous appellerons termes complexes. (Roche et al., 2008), utilisent l’information mutuelle pour extraire des collocations pertinentes pour la constitution de lexiques spécifiques. Cette mesure consiste à comparer la probabilité d’apparition des cooccurrences de mots à la probabilité d’apparition de ces mots séparément. Cette mesure est donnée par (Church et al., 1990) :

IMm1, m2% log2) Pm1, m2

Pm1+ Pm2, ΀ϭ΁

où Pm- (respectivement Pm.) est une estimation de la probabilité d’apparition du mot m- (respectivement m.). Cette probabilité est calculée à partir de la fréquence d’apparition du mot m- dans le corpus, normalisée par N le nombre de mots contenus dans le corpus. Pm-, m. est une estimation de la probabilité que les deux mots apparaissent ensemble dans une fenêtre de taille donnée. Cette probabilité est estimée par la fréquence d’apparition du couple m-m. divisé par N.

Les termes complexes sont des séquences de mots qui se suivent et dont la probabilité d’apparition ensemble est plus fréquente que par le simple fait du hasard.

l’IM est utilisée pour détecter des composantes des termes complexes, ces composantes sont forcément des mots pleins. Par contre, l’IM ne permet pas de détecter une suite de mots pleins suivis de mots vides, car la fréquence des mots vides est très supérieure à la fréquence des mots pleins.

Pour pallier l’inconvénient de la formule de l’IM proposée dans (Church et al., 1990), nous proposons une nouvelle mesure l’information mutuelle adaptée (IMA).

Cette nouvelle formule permet de détecter des suites de mots pleins suivis de mots

(7)

vides, car nous substituons Pm. par Pm- si m. est un mot vide. L’IMA est donné par :

IMAm1, m2 01 2

13log2)Pm1, m2

Pm12 , m2 est un mot vide log2) Pm1, m2

Pm1+ Pm2, sinon

< ΀Ϯ΁

Le processus d’extraction des termes complexes est un processus itératif et incrémental. Nous construisons les termes complexes de longueur n+1 mots à partir des termes de longueur n mots. Nous partons de la liste des termes simples (de longueur 1 mot), pour chaque suite de mots on calcule la valeur de l’IMA. Les suites de mots dont la valeur de l’IMA est supérieure à un seuil fixé à 15 par expérimentation deviennent des « termes en construction ». La valeur du seuil (15) correspond à la valeur de l’IMA à partir de laquelle la valeur de la précision moyenne et la valeur de la précision à 5 documents se stabilisent. Les termes en construction sont ajoutés à la liste des termes en entrée d’une nouvelle itération du processus d’extraction. Un terme en construction devient un terme complexe quand il n’est plus possible de lui ajouter un mot. Ainsi le résultat du processus d’extraction des termes complexes contient les suites de mots les plus longues que l’on peut extraire des textes ainsi que les termes simples.

3.2. Détection des concepts à partir d’une ressource sémantique

Pour transformer les termes complexes en concepts nous utilisons une ressource sémantique multilingue externe RS telle qu’un thésaurus ou une base lexicale. Cette ressource contient un ensemble de concepts C et un ensemble de relations entre concepts R(c1,c2). Comme le montre la ressource de la figure 2, à chaque concept est associé un ou plusieurs termes par langue avec les propriétés SKOS (Miles et al., 2005) « prefLabel » (preferred label) ou « altLabel » (alternative label). L’ensemble de ces termes forment le vocabulaire de la ressource et sera noté VRs.

<rdf:RDF>

<skos:Concept rdf:about="C1">

<skos:prefLabel xml:lang=en> Acquired Immunodeficiency Syndrome </skos:prefLabel>

<skos:altLabel xml:lang=en > AIDS </skos:altLabel>

<skos:altLabel xml:lang=en > AIDS - HIV-1 stage 6</skos:altLabel>

<skos:prefLabel xml:lang=FRE> syndrome d'immuno-déficience acquise </skos:prefLabel>

<skos:altLabel xml:lang=FRE > SIDA </skos:altLabel>

</skos:Concept>

</rdf:RDF>

Figure 2. Exemple d’un concept d’une ressource sémantique au format SKOS

(8)

3.2.1. Projection des termes dans la ressource sémantique

A partir de l’ensemble des termes extraits à l’étape précédente, nous recherchons dans le vocabulaire de la ressource sémantique VRs les termes complexes du document. Pour ce faire nous définissons l’opérateur S>, aussi nommé

« conceptualisation des termes ». Cet opérateur permet de déterminer le ou les concepts dénotés par un terme.

? t VAB, S>

t

%

C

c C/c est dénoté par t

K

Ainsi pour le concept de l’exemple de la figure 2 on aura :

LS>Acquired ImmunodeNiciency Syndrome % CC1K S>"AIDS " % CC1K

S>"AIDS – HIV T 1 stage 6 " % CC1K

<

3.2.2. Désambiguïsation des termes

L’opérateur de conceptualisation de terme S> consiste à affecter à chaque terme appartenant au vocabulaire de VRs des concepts de C. Cependant certains termes sont ambigus : les termes homographes et les termes polysémiques. Nous distinguons deux situations d’ambiguïté : une ambiguïté langagière et une ambiguïté sémantique.

Ambiguïté langagière ou homographie : deux termes appartenant à des langues différentes peuvent avoir la même forme dans un texte : termes homographes. Par exemple le mot « table » existe en français et en anglais. Dans le cas où ti est homographe, nous cherchons dans le document le terme V non ambigu le plus proche possible de W. Nous définissons une distance intitulée dist_doc(V, W) qui retourne le nombre de mots qui séparent V de W dans le document doc.

? W X Y |ZW| [ 1, \V X|

?] X: |Z V| % 1 _Z`]a_ % 1 _XV, W b _X], W où |X| représente la cardinalité de l’ensemble X.

La langue de V définira la langue du terme W. Ainsi nous définissons l’opérateur Smc que nous appelons « désambiguïsation langagière » qui permet de déterminer le concept (ou les concepts) dénoté par un terme dans une langue donnée, de la manière suivante :

? t VAB, Sc>

t, l

%

C

c C / c est dénoté par t dans la langue l

K

Ambiguïté sémantique ou polysémie : un terme peut être associé à plusieurs concepts dans RS : termes polysémiques. Par exemple dans WordNet, le terme

« circuit » est associé à 8 concepts : il possède 7 sens en tant que nom et un seul sens en tant que verbe. Dans le cas où ti est polysémique, nous recherchons les termes V

non ambigus apparaissant dans la même phrase que ti. Si V est non ambigu cela signifie qu’il existe un unique concept XVdénoté par V. Pour déterminer si W et V

(9)

appartiennent à la même phrase, nous définissons un seuil, intitulé phrase, correspondant au nombre de mots moyen d’une phrase du document doc. Ainsi W et V appartiennent à la même phrase si dist_doc(V, W) ≤ phrase. Nous privilégions le concept XW dénoté par W qui est utilisé dans le plus grand nombre de relations de RS : R(XV ,XW) ou R(XW , XV). Pour ce faire nous définissons la fonction nbRel:C×CdR qui retourne le nombre de relations définies dans RS utilisant un couple de concepts donné. S’il n’existe pas de terme V non ambigu dans la phrase de W, nous conservons l’ensemble des concepts dénotés par W.

?W X Y |eZW, | [ 1,

?V X Y |ZV| % 1 , XV % ZV _XV, W b f,

\XW eZW, | ?XgW eZW, , hijXV, XW k hijXV, XgW

3.3. Détection des relations à partir d’une ressource sémantique

L’étape de détection de concepts est suivie d’une étape de détection de relations entre concepts. Nous partons de l’hypothèse qu’une relation sémantique existe entre deux concepts si ces concepts sont détectés dans la même phrase et si la ressource sémantique définit au moins une relation sémantique entre ces deux concepts. Le nom de la relation sémantique n’est pas utilisé dans notre méthode d’indexation, mais peut faire l’objet d’un processus de désambiguïsation. Les travaux de (Maisonnasse et al., 2008) ont montré qu’une étape de désambiguïsation des relations améliore les résultats de manière non significative et peut donc être évitée.

4. Expérimentations et résultats

Dans cette section, nous commençons par la présentation des données de test, ensuite nous présentons les résultats de nos expérimentations.

4.1. Les données de test

Pour nos expérimentations, nous avons testé notre proposition sur des documents médicaux écrits en trois langues : l’anglais, l’allemand et le français. Nous avons utilisé comme corpus multilingue, les parties textuelles des collections CLEF Medical. La ressource sémantique utilisée est le thésaurus médical multilingue UMLS.

Notre corpus d’appui a été constitué de deux corpus parallèles du domaine légal.

4.1.1. Le corpus de test : la collection ImageCLEFmed

La collection CLEF Medical est constituée d’une collection d’images et d’un jeu de requêtes pour évaluer les systèmes de RI (Muller et al., 2006). A chaque image

(10)

de la collection est associé un compte rendu multilingue qui décrit l’image. Un compte rendu est associé à au moins une image. Ces comptes rendus peuvent être rédigés en anglais, en allemand ou en français. Nous nous sommes servis des collections des années 2005, 2006 et 2007. La collection de 2007 contient les documents des années 2005 et 2006 et est constituée au total de 55 485 documents.

Les requêtes de la collection CLEF Medical 2007 sont composées d’une image exemple et d’une partie textuelle. La partie textuelle d’une requête est écrite dans une des trois langues de la collection. Dans nos expérimentations nous avons utilisé 85 requêtes avec les jugements de pertinence associés. Les jugements de pertinence sont réalisés au niveau des images, nous considérons qu’un compte rendu est pertinent pour une requête donnée s’il correspond à au moins une image pertinente de cette requête. La figure 3 présente un extrait de compte-rendu en anglais issu de la collection 2005.

<MetadataID> 6068 </MetadataID>

<GlobalID> 1112 </GloabelID>

<Title> RESPIRATORY </Title>

<Description> RESPIRATORY: Lung: Arteriosclerosis Grade 3:

Micro low mag H&E same as in slide grade 3 lesion with dilated appearing arteriole distal to the small artery lesion

</Description>

Figure 3. Extrait d’un compte rendu médical en anglais

4.1.2. Le corpus d’appui : rapports du parlement européen

Dans nos expérimentations, nous utilisons le corpus du parlement européen comme corpus d’appui. Ce corpus est un ensemble de 10 corpus parallèles écrits dans 11 langues (Philipp, 2005). Le corpus est collecté à partir des rapports du parlement européen. Pour constituer notre corpus, nous avons associé le corpus parallèle anglais-allemand et le corpus parallèle anglais-français. Ainsi, notre corpus d’appui est constitué des documents écrits dans les trois langues de notre corpus de test. Pour chacune de ces langues, le corpus contient environ 30 millions de mots.

4.1.3. La ressource externe : le méta-thésaurus UMLS

UMLS (Unified Medical Language System) est un méta-thésaurus multilingue qui couvre le domaine médical. Cette ressource a été créée dans le but de faciliter la recherche et l'intégration d'informations provenant des multiples sources d'information biomédicales électroniques (NLM, 2010). Il est la fusion de plusieurs ressources sémantiques écrites telles que MeSH, SNOMEDCT et RXNORM (111 ressources). UMLS contient plus de 1 million de concepts reliés à plus de 5,5 millions de termes dans 17 langues. Les 17 langues ne sont pas couvertes de la

(11)

même manière dans UMLS. L’anglais est la langue la plus représentée avec 68 % du vocabulaire, l’allemand couvre 2,84 % du vocabulaire et le français 2,55 %.

UMLS définit un concept comme l’identifiant d’un groupe de termes et de leurs variantes. En plus des concepts, UMLS propose un réseau sémantique de haut niveau d’abstraction constitué de catégories de concepts et de relations entre ces catégories (Degoulet et al., 1991). La figure 4 présente un extrait de ce réseau sémantique. Notez qu’il existe plusieurs relations possibles entre deux catégories données de concepts.

Figure 4. Extrait du réseau sémantique entre catégories de concepts de UMLS

4.2. Méthodologie d’évaluation

Pour évaluer notre proposition, nous étudions les performances d’un SRI existant en variant la méthode d’extraction des éléments d’indexation. Nous souhaitons comparer l’efficacité de notre méthode statistique par rapport à une méthode linguistique utilisant différents analyseurs.

4.2.1. Les systèmes de RI de référence

Nous utilisons comme système de référence, un système de recherche d’information basé sur une approche modèle de langue développé par (Maisonnasse,

(12)

2008). Le modèle de langue appliqué à la RI a été proposé par (Ponte et al., 1998).

L’idée de base considère chaque document d comme un échantillon d’une langue donnée, et l’interrogation comme un processus génératif de la requête q. Retrouver les documents répondant à une requête revient à déterminer les probabilités P(q/d) : la probabilité que la requête q soit générée à partir du modèle du document d. Nous allons utiliser deux systèmes différents de recherche d’information basés sur les modèles de langue :

1. le premier système utilise un modèle de langue défini sur des concepts uniquement. Ce modèle de langue a été proposé dans (Maisonnasse et al., 2009) et s’intitule modèle conceptuel unigramme (MCU) ;

2. le second système utilise un modèle de langue défini sur les relations entre deux concepts. Il s’agit d’une extension du MCU. Ce modèle a été proposé dans (Maisonnasse et al., 2008) et s’intitule modèle relationnel sans étiquette (MRSE).

Dans le modèle MCU, une requête q est composée d’un ensemble Cq de concepts, chaque concept étant indépendant des autres. La probabilité que la requête q soit générée par le modèle du document d se décompose sous la forme :

lY| % lY|m % l`no_ma % p lXW|mqZ,o

Zr ΀ϯ΁

où sXW, Yest la fréquence du concept XW dans la requête q.

La quantité lXW|m est calculée par un maximum de vraisemblance combiné à un lissage de Jelinek-Mercer.

lXW|m % 1 T tu ) sXW, d

ZwxsXV, d, y tu) sXW, D

xzZwxsXV, d, ΀ϰ΁

sXW, d (respectivement sXW, D) est la fréquence du concept ci dans le document d (respectivement dans la collection D ) et tu est le lissage de Jelinek-Mercer estimé par apprentissage dans (Maisonnasse et al., 2009).

Dans le modèle MRSE, une requête q est représentée par un graphe Gq=(Cq, Eq) où Cq représente l’ensemble des concepts du graphe et Eq l’ensemble des relations entre deux concepts. Eq définit une application notée L, de Cq × Cq dans {0,1} qui indique s’il existe ou non une relation entre deux concepts. La probabilité que la requête q soit générée par le modèle du document d se décompose sous la forme :

lY| % l`{o_ma % l`no_mal|o|no, m ΀ϱ΁

avec

l`no_ma % p lXW|m

Z}r

΀ϲ΁

(13)

l`|o_no, ma % p l~XW, X]|no, m

W,],W]

΀ϳ΁

La quantité P(ci|Md) est donnée par l’équation précédente et la quantité P(L(ci, cj)|Cq, Md) est estimée de manière analogue par la formule suivante :

l`~`XW, X]a % €_no, ma

% 1 T t€ s`XW, X], a y 1 T €s‚`XW, X], a s`XW, X], a y s‚`XW, X], a y t € s`XW, X], ƒa y 1 T €s‚`XW, X], ƒa

s`XW, X], ƒa y s‚`XW, X], ƒa

΀ϴ΁

sX, cj, d (respectivement sX, cj, D) représente le nombre de fois où le concept ci est relié à cj dans le document d (respectivement dans la collection D). De manière similaire, s‚X, cj, d (respectivement s‚X, cj, D) représente le nombre de fois où les concepts ci et cj apparaissent dans le document d sans être reliés (respectivement dans la collection D). x prend la valeur 0 ou 1 suivant que la relation est observée ou non. t est le lissage de Jelinek-Mercer estimé par apprentissage dans (Maisonnasse et al., 2008).

4.2.2. La méthode linguistique de détection des concepts

(Maisonnasse et al., 2009), utilisent une méthode linguistique de détection des concepts de UMLS sur la collection CLEF Medical 2007. La méthode se décompose en quatre étapes :

1. Analyse morphosyntaxique du document avec lemmatisation des formes fléchies ;

2. Filtrage des mots en fonction de leur catégorie grammaticale : seuls sont conservés les noms, les adjectifs et les abréviations.

3. Repérage des mots ou séquences de mots du document apparaissant dans UMLS. Cette étape est aussi appelée projection des mots du document dans UMLS.

Son résultat est une liste de concepts UMLS.

4. Filtrage des concepts identifiés.

Cette méthode a été utilisée avec trois outils linguistiques différents :

– MetaMap est un analyseur morphosyntaxique associé à UMLS qui permet d’extraire les concepts à partir des documents. Cet analyseur ne traite que les documents écrits en anglais,

– MiniPar permet d’extraire les termes à partir des documents écrits en anglais, – TreeTagger est un analyseur morphosyntaxique qui détecte la catégorie grammaticale d’un mot et son lemme. Il existe une version de TreeTagger pour l’anglais, le français et l’allemand.

(14)

MetaMap réalise l’ensemble des étapes de la méthode linguistique de détection de concepts UMLS. Ainsi un seul concept est détecté par terme. Lorsque les autres outils sont utilisés, l’étape 4 n’est pas exécutée, c'est-à-dire qu’aucun filtrage n’est réalisé sur les concepts UMLS. Trois versions différentes de cette méthode linguistique ont été utilisées sur le corpus trilingue de la collection CLEF Medical 2007.

1. MM : la première version utilise l’analyseur MetaMap sur les documents anglais et TreeTagger sur les documents français et allemands.

2. MP : la seconde version utilise l’outil MiniPar sur les documents anglais et TreeTagger sur les documents français et allemands.

3. TT : la troisième version utilise l’analyseur TreeTagger sur les documents anglais, français et allemands.

4.3. Résultats

Nous évaluons notre méthode statistique d’extraction d’éléments d’indexation à travers l’étude des résultats du SRI multilingue. Nous avons calculé la précision moyenne (PM) et la précision à 5 documents (P@5) avec trois ensembles de requêtes différentes appliquées sur le même corpus trilingue : les requêtes anglaises (ENG), les requêtes françaises (FRE), les requêtes allemandes (GER). Le choix de ces deux mesures se justifie par le fait que d’une part, la précision moyenne donne un aperçu général de l’efficacité de notre approche et, d’autre part, par le fait que la précision à 5 documents donne un jugement de la performance de cette approche sur les documents les plus consultés par un utilisateur d’un SRI (les 5 premiers documents de la liste retournée par le SRI).

4.3.1. Evaluation de la détection statistique des concepts par langue

La figure 5 présente les courbes de précision moyenne à 11 points de rappel avec notre méthode statistique de détection de concepts en utilisant le SRI basé sur le modèle de langue MCU. Les courbes montrent que la couverture de la langue dans la ressource sémantique a un impact direct sur les résultats du système. Pour mémoire, nous rappelons que le vocabulaire de UMLS est constitué de 68 % de termes anglais, 2,8% de termes allemands et de 2,5 % de termes français. En effet, nous constatons que les requêtes écrites en anglais (ENG) obtiennent des résultats plus précis que les requêtes des deux autres langues. La précision moyenne obtenue pour les requêtes allemandes (GER) et les requêtes françaises (FRE) sont presque similaires avec une légère amélioration pour l’allemand.

(15)

Figure 5. Résultats de la méthode statistique de détection de concepts sur trois langues

4.3.2. Comparaison de notre approche statistique avec les approches linguistiques Nous comparons les résultats obtenus par le SRI basé sur MCU utilisant notre méthode statistique de détection de concepts avec les trois versions du SRI utilisant trois outils linguistiques différents. Ces versions différentes du SRI basé sur MCU sont présentées dans (Maisonnasse et al., 2009). Dans ces travaux, les auteurs utilisent la même collection : la collection CLEF Medical 2007. Ainsi nous pouvons comparer directement nos résultats aux résultats obtenus par des analyses linguistiques. Il faut noter que les méthodes d’indexation présentées dans (Maisonnasse et al., 2009) ont obtenu la première place dans la campagne d’évaluation CLEF Medical 2007 et la troisième place dans la campagne d’évaluation CLEF Medical 2008. Les évaluations ont porté sur les 85 requêtes de la collection CLEF Medical. Le tableau 1 présente les valeurs obtenues pour la précision moyenne PM et la précision à 5 documents P@5.

MM désigne l’analyse linguistique avec MetaMap, MP désigne l’analyse linguistique avec MiniPar, TT désigne l’analyse linguistique utilisant uniquement TreeTagger et STAT l’analyse statistique. Les résultats de la méthode de détection de concept à l’aide des trois outils linguistiques ont été présentés dans (Maisonnasse et al., 2009).

(16)

Approche Analyse PM P@5 PM1 ∆P@52

MM 0.246 0.357 -0,81 % 19,05 %

Linguistique MP 0.246 0.424 -0,81 % 0,24 %

TT 0.258 0.462 -5,43 % -8,01 %

Statistique STAT 0.244 0.425

Tableau 1. Comparaison des méthodes de détection de concepts

Nous constatons qu’en précision moyenne, les méthodes linguistiques sont légèrement meilleures que notre méthode statistique. En utilisant une approche statistique, la valeur de la précision moyenne a diminué de 2,35 %. Par contre, en précision à 5 documents notre approche donne des résultats meilleurs.

L’augmentation de la valeur de la précision à 5 documents est de 3,76 % en moyenne.

En particulier, nous notons que les résultats obtenus par l’analyseur TreeTagger sont meilleurs que les résultats obtenus par notre approche. Par contre, les résultats de notre approche statistique sont meilleurs que les résultats obtenus par MetaMap et par MiniPar.

4.3.3. Evaluation du processus d’extraction des termes simples

Pour évaluer les résultats de notre phase d’extraction des termes simples, nous comparons la liste des mots vides extraits à partir de notre corpus de test avec une liste de référence. Cette liste de référence est constituée des listes de mots vides des trois langues de notre étude trouvées sur le web. Les listes des mots vides français, anglais et allemand contiennent respectivement 124, 36 et 127 mots. Ainsi, la liste de référence utilisée contient en total 287 mots vides. Nous avons utilisé les mesures de précision et rappel pour évaluer l’extraction des mots vides :

Précision %nombre de mots vides extraits et qui sont présents dans la liste de référence le nombre de mots vides extraits Rappel %nombre de mots vides extraits et qui sont présents dans la liste de référence

nombre de mots vides de la liste de référence Ce qui donne

Précision=235/235=100%

Rappel =(235 )/287=81.88%

1. ∆PM %‹Œ Ž‘’ “”• –—˜—™ ‹Œ Ž‘’ “”• ”‘”š›B šœ‘’œBœž’

‹Œ Ž‘’ “”• ”‘”š›B šœ‘’œBœž’ + 100 2. ∆P@5 %‹@¢ Ž‘’ “”• –—˜—™ ‹@¢ Ž‘’ “”• ”‘”š›B šœ‘’œBœž’

‹@¢ Ž‘’ “”• ”‘”š›B šœ‘’œBœž’ + 100

(17)

Notre méthode d’extraction des mots vides à partir d’un corpus d’appui est précise et obtient un taux de rappel égal à 81,88 %. Cette valeur montre que certains mots vides de la liste de référence ne sont pas extraits par notre processus d’extraction. Par exemple les mots « dedans », « dehors » et « force ». D’une part, ces mots sont absents du corpus de tests et, d’autre part, ces mots ont une taille supérieure au seuil utilisé fixé à 4 lettres.

4.3.4. Evaluation du processus de désambiguïsation

Dans notre méthode de détection des concepts nous traitons deux types d’ambiguïté : langagière et sémantique. Nous avons voulu évaluer l’impact de la désambiguïsation sur les résultats du SRI basé sur le modèle MCU. Ainsi, nous comparons les résultats obtenus sans désambiguïsation (STA) aux résultats obtenus avec désambiguïsation (ATA). Ces résultats sont présentés dans la figure 6.

Figure 6. Evaluation de l’impact de la désambiguïsation

La figure 6 montre que les courbes de la précision à 11 points de rappel avec désambiguïsation sont au dessus des courbes sans désambiguïsation. La désambiguïsation a amélioré la valeur de la précision moyenne de presque 5 % pour les trois langues (voir tableau 2). Par opposition à la précision moyenne, la précision à 5 documents a régressé. Cette régression est de 3 % pour l’anglais, 6 % pour l’allemand et 14% pour le français. Elle s’explique par le fait que notre processus de désambiguïsation est plus sélectif. Cette sélection est surtout marquée dans les premiers documents retrouvés.

Ϭ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ

Ϭ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ

ƉƌĠĐŝƐŝŽŶ

ZĂƉƉĞů

^dE'

^d&Z

^d'Z dE' d&Z d'Z

(18)

STA ATA

Langue PM P@5 PM P@5 ∆PM ∆P@5

ENG 0.238 0.439 0.244 0.425 3 % -3 %

GER 0.109 0.148 0.115 0.139 6 % -6 %

FRE 0.086 0.148 0.089 0.127 3 % -14 %

Tableau 2. Résultats de la désambiguïsation sur trois langues

4.3.5. Evaluation de la détection des relations sémantiques

Pour évaluer l’impact de la détection des relations dans un SRI, nous avons utilisé deux systèmes de recherche d’information utilisant notre méthode statistique d’extraction d’éléments d’indexation : le premier système utilise le modèle MCU pour représenter les documents et les requêtes par un ensemble de concepts, ces résultats sont représentés par les courbes intitulées « Concepts » de la figure 7. Le second système utilise le modèle MRSE pour représenter les documents et les requêtes par un ensemble de concepts et de relations entre deux concepts. Ces résultats sont représentés par les courbes intitulées « Concepts+ Relations » dans la figure 7.

Concepts seuls Concepts + Relations

Langue MAP P@5 MAP P@5 ∆MAP ∆P@5

ENG 0.244 0.425 0.249 0.449 2,05 % 5,65 %

GER 0.115 0.139 0.139 0.162 20,87 % 16,55 %

FRE 0.089 0.127 0.093 0.153 4,49 % 20,47 %

Tableau 3. Résultats de la détection des relations sur trois langues

La figure 7 présente la courbe de la précision à 11 points de rappel des deux systèmes de recherche d’information. Le deuxième système utilisant les relations donne des résultats meilleurs que ceux obtenus par le premier système traitant uniquement les concepts. Cette amélioration des résultats est observée pour toutes les langues. Comparée à l’utilisation des concepts seuls, l’utilisation des relations en plus des concepts améliore la précision moyenne et la précision à 5 documents. Les détails de ces améliorations sont donnés dans le tableau 3.

Nous notons que l’amélioration est plus importante pour les langues n’ayant pas un fort taux de couverture dans la ressource sémantique. Par contre, pour la langue anglaise l’amélioration n’est pas significative.

(19)

Figure 7. Evaluation de l’impact de la détection des relations

5. Conclusion

Dans cet article, nous avons proposé une méthode d’indexation sémantique des documents multilingues. Cette méthode se base sur une technique statistique de détection de concepts et de relations entre concepts et exploite une ressource sémantique. Notre méthode n’utilise pas d’analyse linguistique dans le processus d’extraction des termes simples et des termes complexes. Nos expérimentations ont montré que notre approche statistique donne des résultats similaires aux méthodes utilisant des techniques linguistiques mais elle est dépendante de la couverture de la langue dans la ressource sémantique. Elle présente l’avantage d’être facilement adaptable à d’autres corpus multilingues. De plus, l’approche statistique est simple à mettre en œuvre contrairement aux approches linguistiques. Cependant, notre approche présente une limite. Elle ne trouve sa performance que sur des corpus contenant suffisamment de documents et de termes. Dans notre étude, le corpus de test contenait environs 55 000 comptes rendus médicaux, le corpus d’appui 1 million de termes par langues et la ressource sémantique 3 millions de termes anglais, 1 million de termes allemands et 1 millions de termes français. En effet, notre approche est basée sur des mesures statistiques, ces mesures sont significatives uniquement sur des corpus suffisamment grands.

Dans des travaux futurs nous envisageons de faire évoluer notre approche sur différents points :

– utiliser la fréquence des mots plutôt que la longueur pour la détection des mots vides dans le corpus d’appui,

Ϭ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ

Ϭ ϭϬ ϮϬ ϯϬ ϰϬ ϱϬ ϲϬ ϳϬ ϴϬ ϵϬ ϭϬϬ

ƉƌĠĐŝƐŝŽŶ

ZĂƉƉĞů

ŽŶĐĞƉƚƐ͗E'

ŽŶĐĞƉƚƐ͗&Z

ŽŶĐĞƉƚƐ͗'Z

ŽŶĐĞƉƚƐнZĞůĂƚŝŽŶ Ɛ͗E'

ŽŶĐĞƉƚƐнZĞůĂƚŝŽŶ Ɛ͗&Z

(20)

– utiliser d’autres mesures de détection de collocation de termes pour extraire les termes complexes comme le rapport de vraisemblance,

– perfectionner les deux opérateurs de projection sur la ressource sémantique (S>

et Sc>). En effet, la projection est stricte et ne prend pas en considération les variations lexicales et syntaxiques des termes,

– comparer les résultats des méthodes linguistiques et statistiques dans d’autres domaines que le domaine médical,

– évaluer l’impact de la taille en nombre de termes des ressources utilisées (corpus d’appui, ressource sémantique, corpus de test) sur les résultats du système.

6. Bibliographie

Baziz M., Boughanem M., Aussenac-Gilles N., “Evaluating a Conceptual Indexing Method by Utilizing WordNet.”, Actes du 6e workshop of Cross-Language Evaluation Forum, CLEF’2005, Vienne, Autriche, 2005, LNCS 4022, p. 238-246.

Church K.W., Hanks P., “Word association norms, mutual information and lexicography”, Computational Linguistic, vol. 1, Mars 1990, p. 22-29.

Degoulet P., Fieschi M., Traitement de l'information médicale: méthodes et applications hospitalières, Masson, 1991.

Drouin P., “Term extraction using non-technical corpora as a point of leverage”, Terminology, vol. 9, n° 1, 2003, p. 99-117.

Handschuh S., Staab S., “Annotation for the Semantic Web”, Frontiers in Artificial Intelligence and Applications, IOS press 2003.

InternetWordStats.com, “Internet Usage World Stats - Internet and Population Statistics”

http://www.internetworldstats.com/

Jonquet C., Coulet A., Shah N.H., Musen M.A., « Indexation et intégration de ressources textuelles à l’aide d’ontologies : application au domaine biomédical », Actes des 21e Journées Francophones d’Ingéniérie des Connaissances, IC’2010, Nîmes, 2010, p. 271 282.

Lacoste C., Chevallet J.-P. ,Lim J.-H., Wei X., Raccoceanu D., Hoang D.L.T, Teodorescu R., Vuillenemot F., “IPAL knowledge-based medical image retrieval in imageClefMed 2006”, Actes du 7e workshop of Cross-Language Evaluation Forum, CLEF’2006 Alicante, Espagne, 2006, LNCS 4730, p. 694-701.

Maisonnasse L., Gaussier E., Chevallet J.-P., « Combinaison d’analyses sémantiques pour la recherche d’information médicale », Actes de l’atelier Recherche d’Information SEmantique dans le cadre de la conférence INFORSID’2009, Toulouse, p. 1-11.

Maisonnasse L., Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale, Thèse de Doctorat en Informatique, Université Joseph Fourier, 2008.

(21)

Maisonnasse L., Gaussier E., Chevallet J.-P., « Modélisation de relations dans l’approche modèle de langue en recherche d’information », Actes de la 5e Conférence en Recherche d’Information et Applications, CORIA’2008 , Trégastel, Mars 2008, p. 305-319.

Maisonnasse L., Gaussier E., Chevallet J-P., “Multiplying concept sources for graph modeling”, Actes du 8e workshop of Cross-Language Evaluation Forum, CLEF’2007, Budapest, Hongrie, 2007, LNCS 5152, p. 585-592.

Miles A., Matthews B., Beckett D., Brickley D., Wilsonm Rogers N., “SKOS: A language to describe simple knowledge structures for the web”, Actes de XTech 2005: XML, The Web and Beyond (XTECH 2005), Amsterdam, Netherlands, May 2005. http://epubs.Cclrc .ac.uk/work-details?w=33893

Muller H., Deselaers T., Lehmann T., Clough P., Hersh W., “Overview of the ImageCLEFmed 2006 medical retrieval and annotation tasks”, Actes du 7e workshop of Cross-Language Evaluation Forum, CLEF’2006, Alicante, Espagne, 2006, LNCS 4730, p. 595-608.

National Library of Medecine, “Unified Medical Language System Fact Sheet”

http://www.nlm.nih.gov/pubs/factsheets/umls.html.

Philipp K., Europarl: A Parallel Corpus for Statistical Machine Translation, Technical report MT Summit 2005. http://www.statmt.org/europarl/

Ponte J M., Croft W B., “A Language Modeling Approach to Information Retrieval”, Actes de 21th annual international ACM SIGIR conference on Research and Development in Information Retrieval, Melbourne, Australie, aôut 1998, p. 275-281.

Roche M., Prince V., « Evaluation et détermination de la pertinence pour des syntagmes candidats à la collocation», Actes des Journées internationales d’Analyse statistique des Données Textuelles, JADT’08, Lyon, 2008, p. 1009-1020.

Salton G., McGill M.J., Introduction to Modern Information Retrieval, McGraw-Hill, 1983.

Sanderson M., “Ambiguous Queries: Test Collections Need More Sense”, Actes de 31th Annual International ACM-SIGIR conference on Research and Development in Information Retrieval, Singapore, juillet 2008, p. 499-506.

Smadja F., “Retrieving collocations from text: Xtract”, Computational Linguistics 1993, vol. 19, n° 1, p. 143-177.

Trieschnigg D., Pezik P., Lee V., de Jong F., Kraaij W., Rebholz-Schuhmann D., “MeSH Up:

effective MeSH text classification for improved document retrieval”, Bioinformatics 2009, vol 25, n° 11, p. 1412-1418.

Vergne J., « Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource », Actes des Journées internationales d’Analyse statistique des Données Textuelles, JADT’04, Louvain-la-Neuve, Belgique, mars 2004, p. 1157-1164.

Zhang C., Cui B., Cong G., Wang Y-J., “A Revisit of Query Expansion with Different Semantic Levels”, Actes de 14th International Conference Database Systems for Advanced Applications, DASFAA 2009, Brisbane, Australie, Avril 2009, LNCS 5463, p. 662-676.

(22)

Zhou W., Yu CT., Smalheiser NR., Torvik VI., Hong J., “Knowledge-intensive conceptual retrieval and passage extraction of biomedical literature”, Actes de 30th annual international ACM SIGIR conference on Research and Development in Information Retrieval, Amsterdam, Pays-Bas, juillet 2007, p. 655-662.

Zipf G. K., “Human Behavior and the Principle of Least Effort”, New York, Harper, 1949 réédition 1966.

Références

Documents relatifs

Pour évaluer les résultats de notre phase d’extraction des termes simples, nous comparons la liste des mots vides extraits à partir de notre corpus de test avec une

Nous aborderons le problème de l’intertextualité et du choix théorique qui en découle (§ 2) ; puis nous présenterons les différents critères sémantiques retenus pour

Whenever the source wants to reach the agent, it sends a message to the last known location of the agent; if this communication fails, then the source sends a location request to

Discrete time approximation and Monte Carlo simulation of backward stochastic differential equations. Méthodes probabilistes pour les équations de

The article is organized as follows: In section II , we de- termine the temperature profiles for a cantilever heated by a laser in vacuum. We evaluate the effects of thermal

— Le D aily Express publie taie dépêche de Canton d isant que le mou- vçm ent révolutionnaire s’étend aux autres Villes.. Les fédéraux sem blent se

Skinner ont promu l’idée d’un Machiavel républicain, c’est dans le sillage d’historiens qui ont fui l’Allemagne dans les années 1930 à cause de leur origine juive et qui

In all cases, the styrene adsorption was evaluated by optical transduction using the associated luminance variation of the gratings probed by a simple CCD camera,