3.2 Expansion de requˆ etes en RI par la base g´ en´ erique MGB
3.2.1 Travaux reli´ es ` a l’expansion de requˆ etes en RI
3.3 Evaluation exp´´ erimentale de l’approche d’expansion . . . . 89
3.3.1 R´esultats et discussion . . . . 90
3.3.2 Tests de significativit´e . . . . 92
3.4 Enrichissement d’une ontologie de domaine par la base MGB . 93
3.4.1 Techniques d’enrichissement d’ontologies . . . . 94
3.4.2 Nouvelle approche d’enrichissement d’ontologies . . . . 95
3.4.3 OMGB : Un r´eseau conceptuel prox´emique pour la repr´esentation
des connaissances . . . . 98
3.5 Nouvelle approche d’indexation conceptuelle en RI . . . . 99
3.5.1 Phase 1 : Identification et pond´eration des concepts repr´esentatifs
d’un document . . . 100
3.5.2 Phase 2 : D´esambigu¨ısation des concepts . . . 102
3.5.3 Phase 3 : Construction du r´eseau prox´emique d’un documentDoc
-OMGB . . . 103
3.6 Evaluation de l’approche d’indexation conceptuelle´ . . . 104
3.6.1 Cadre d’´evaluation . . . 104
3.6.2 R´esultats et discussion . . . 106
3.7 Bilan des contributions . . . 108
3.1 Objectifs du chapitre
Les contributions expos´ees dans ce chapitre se situent dans le croisement de l’ECT et de la
Recherche d’Information (RI). L’´etude propos´ee est consacr´ee `a l’exploitation de la base g´en´
e-rique de r`egles d’association entre termes MGBpour l’am´elioration des r´esultats de la recherche
d’information [Latiri et al., 2012b, Latiri et al., 2012a]. Notre principale motivation d´ecoule du
fait que, dans la pratique, les Syst`emes de Recherche d’Information (SRIs) font apparaˆıtre des
´
ecarts notables entre la pertinence utilisateur et la pertinence syst`eme. Ces ´ecarts, mesur´es en
terme de rappel et de pr´ecision, sont li´es essentiellement `a deux probl´ematiques tr`es abord´ees
en RI : (i) l’imperfection de l’indexation automatique des documents, due aux probl`emes
d’in-terpr´etation du langage naturel et au traitement des ambigu¨ıt´es ; et, (ii) les probl`emes pos´es
par une interrogation effectu´ee avec une requˆete originelle de l’utilisateur qui manque souvent
de pr´ecision.
Bien entendu, ces probl`emes ne sont pas disjoints. Les travaux d´ecrits dans ce chapitre
traitent des deux probl´ematiques `a travers l’utilisation de la base g´en´erique MGB dans une
approche d’expansion automatique de requˆetes [Latiri et al., 2012b], d’une part, et dans la
proposition d’une nouvelle approche d’indexation conceptuelle, d’autre part. Cette derni`ere est
bas´ee sur une ontologie de domaine enrichie par la base MGB [Ben Ghezaiel et al., 2010, Ben
Ghezaielet al., 2011, Latiriet al., 2012a].
3.2 Expansion de requˆetes en RI par la base g´en´erique MGB
La RI ´etudie le processus d’ad´equation entre la requˆete d’un utilisateur et une collection de
documents, dont le r´esultat est souvent un sous-ensemble de documents pertinents contenant
les mˆemes termes de la requˆete originelle. Le mod`ele classique de RI[Salton and McGill, 1983]
consiste `a attribuer, `a chaque document d’une collection, des termes d’indexation, dits index
du document, limitant les requˆetes `a l’ensemble global des termes de l’index, et utilisant des
mesures de correspondance entre les requˆetes et les documents.
Une des difficult´es rencontr´ees au cours d’une session de recherche documentaire est li´ee aux
choix des termes d’interrogation. En effet, dans bien des cas, les termes de la requˆete, exprim´ee
par l’utilisateur, ne correspondent pas exactement aux descripteurs des documents retenus par le
mod`ele d’indexation. De ce fait, afin d’avoir des documents pertinents, l’utilisateur est contraint
d’utiliser le “vocabulaire de description du document” propre au syst`eme. Face `a cette contrainte,
il est possible de faire appel `a la technique d’expansion de requˆetes [Buckley et al., 1994] afin
d’am´eliorer la correspondance requˆete/document, et ce en ´etendant la requˆete par des termes
additionnels, corr´el´es `a ceux de la requˆete originelle. Intuitivement, l’apport d’une telle technique
ne se r´eduit pas `a l’am´elioration du rappel en r´ecup´erant des documents pertinents qui ne peuvent
pas ˆetre trouv´es par la requˆete utilisateur, mais ´egalement `a am´eliorer la pr´ecision des documents
trouv´es en les pla¸cant en haut de la liste des documents pertinents.
L’issue de recherche que nous sugg´erons est le d´eploiement des r`egles d’association entre
termes [Agrawal and Skirant, 1994] dans un processus d’expansion de requˆetes en RI [Haddad
et al., 2000, Linet al., 2008, Rungsawanget al., 1999, Tangpong and Rungsawang, 2000].
Intui-tivement, une r`egle d’association traduit la probabilit´e d’avoir les termes de la conclusion dans
un document, sachant que ceux de la pr´emisse y sont. Ainsi, l’utilisation de telles d´ependances
dans un processus d’expansion de requˆetes am´eliore sensiblement la pertinence d’un SRI, car
elles refl`etent des corr´elations fortes et implicites d´ecouvertes `a partir de la collection de
docu-ments. Toutefois, face au nombre tr`es important de r`egles d’association entre termes qui peuvent
ˆ
etre d´ecouvertes `a partir d’une collection de documents, nous proposons un nouveau processus
d’expansion automatique de requˆetes moyennant la base g´en´erique minimaleMGB[Latiriet al.,
2012b].
Avant de d´ecrire le nouveau processus d’expansion automatique de requˆetes propos´e, nous
allons pr´esenter, dans ce qui suit, quelques travaux de l’´etat de l’art relatifs `a l’expansion de
requˆetes.
3.2. Expansion de requˆetes en RI par la base g´en´erique MGB 87
3.2.1 Travaux reli´es `a l’expansion de requˆetes en RI
La probl´ematique d’expansion de requˆetes a ´et´e largement abord´ee par la communaut´e RI
depuis deux d´ecennies [Buckley et al., 1994, Ruthven, 2003, Joho et al., 2004, Kumaran and
Allan, 2008]. Les diff´erentes approches propos´ees peuvent ˆetre group´ees en deux principales
classes selon le type de connaissances utilis´e lors de l’expansion, `a savoir :
1. Expansion `a partir des collections de documents : Ces approches d’expansion
uti-lisent des connaissances d´eriv´ees `a partir des collections de textes. Elles observent g´en´
e-ralement la r´egularit´e des termes dans un contexte d´etermin´e d’une collection de textes.
Elles sont bas´ees sur l’hypoth`ese qui stipule que “L’emploi de deux termes en co-occurrence
est l’expression d’une relation s´emantique entre eux” [Rijsbergen, 1979]. L’avantage de ces
approches est qu’elles sont faciles `a mettre en œuvre tout en ´etant ind´ependantes du corpus.
Parmi les premiers travaux relatifs `a cette classe d’approches, Grefensette [Grefenstette,
1992] contribue par une approche syntaxique d’extraction de contextes de mots `a partir
des corpus textuels pour produire la liste des mots reli´es `a n’importe quel mot du corpus.
Ces mots reli´es seront utilis´es dans l’expansion de requˆetes.
D’autres approches s’appuient sur une analyse statistique des collections par l’extraction
de r`egles d’association entre termes, afin d’ajouter des termes voisins `a la requˆete originelle
[Tangpong and Rungsawang, 2000, Haddadet al., 2000]. Les associations sont g´en´eralement
bas´ees sur la co-occurrence des termes dans les documents [Rungsawanget al., 1999, Sunet
al., 2006, Linet al., 2008]. L’usage d’une telle technique a montr´e que les liens inter-termes
renforcent la notion de pertinence des documents par rapport aux requˆetes.
2. Expansion `a base de ressources externes existantes :Certaines approches
d’expan-sion de requˆetes utilisent un vocabulaire contrˆol´e issu de ressources lexicales et s´emantiques
externes, tels que les th´esaurus [Croft and Yufeng, 1994, Voorhees, 1994, Hu et al., 2009]
et les ontologies [Song et al., 2007]. Un panorama d’approches d’expansion de requˆetes `a
base de ressources externes de connaissances est pr´esent´e dans [Bhogal et al., 2007].
Les premiers travaux, qui ont fait appel `a des ressources lexicales externes de type
dic-tionnaire ou th´esaurus, ont d’abord tent´e d’utiliser la base lexicale WordNet pour r´ealiser
l’expansion de requˆetes [Voorhees, 1993]. Plus r´ecemment, d’autres travaux ont propos´e
des approches d’enrichissement de requˆetes utilisant Wikip´edia comme collection externe
[Koolen and Kamps, 2011].
En outre, parmi les approches utilisant les connaissances du domaine pour l’expansion de
requˆetes, les auteurs dans [Bodner and Song, 1996, Yang and Yao, 2005] ont propos´e des
m´ecanismes d’expansion de requˆetes par des termes li´es dans un r´eseau s´emantique,
re-pr´esentant une base de connaissances sp´ecifique d’un domaine. Dans [Revuri et al., 2006],
Revuri et al. d´efinissent diff´erents cas d’expansion de requˆetes avec divers ´el´ements d’une
ontologie de domaine tels que les concepts, les propri´et´es et les instances. Une autre
tech-nique d’expansion s´emantique de requˆetes combinant les r`egles d’association entre termes
et une ontologie de domaine est propos´ee dans [Song et al., 2007].
Par ailleurs, dans le domaine de la RI m´edicale, K. Friberg [Friberg, 2007] s’appuie sur
l’ontologie m´edicale MeSH pour ´etendre une requˆete par des mots simples intervenant dans
la construction de certains mots compos´es. ´Egalement, dans [D´ıaz-Galianoet al., 2008], les
auteurs utilisent l’ontologie MeSH pour ´etendre les requˆetes utilisateurs avec des termes
m´edicaux.
En se positionnant par rapport aux approches d’expansion de requˆetes de l’´etat de l’art, nous
proposons, dans ce qui suit, une approche statistique d’expansion automatique de requˆetes, bas´ee
sur les co-occurrences de termes. Les corr´elations entre les termes sont extraites par une technique
de fouille globale de la collection de documents. Notre approche a pour caract´eristique, comme
les autres m´ethodes d’expansion de requˆetes susmentionn´ees, de repr´esenter un document et une
requˆete par des vecteurs de pond´erations, dans lesquels chaque pond´eration est associ´ee `a un
terme.
Dans le document
Extraction de Connaissances a partir de Textes : M ethodes et Applications
(Page 100-103)