a laquelle il se rapporte. L’avantage est que cela simplifie la recherche spatiale ´etant
donn´e qu’une seule information spatiale est associ´ee `a chaque document. Les d´ecoupages
administratifs ´etant hi´erarchiques (le monde est divis´e en continents, puis en pays, r´
e-gions, villes, . . . ) et porteurs de sens, ils utilisent cette structure. Il est donc possible de
regrouper plusieurs villes au sein d’une mˆeme r´egion par exemple.
En appliquant une approche similaire au temporel et au th´ematique, c’est `a dire
en obtenant le contexte spatial, le contexte temporel et le contexte th´ematique du
do-cument, la combinaison s’appliquerait logiquement. En effet, chaque crit`ere subissant
une uniformisation de type g´en´eralisation, ils seraient comparables. N´eanmoins, comme
l’expliquent Lieberman et al. [LSSS07], il est tr`es difficile d’obtenir un seul focus si le
document contient des informations spatiales tr`es ´eloign´ees, `a moins de tr`es fortement
augmenter l’impr´ecision des r´esultats. Si, par exemple, un document parle de la ville de
Biarritz (au Sud-Ouest de la France) et de la ville de Lille (au nord de la France), la
g´en´eralisation va retourner la France compl`ete. La focalisation/synth`ese, qui dans cet
exemple conduit `a une g´en´eralisation excessive, n’est donc pas recommand´ee [LSSS07].
4.6 Conclusion
Il existe diff´erents types d’uniformisation selon les donn´ees utilis´ees et l’objectif vis´e.
La normalisation consiste `a borner des scores, g´en´eralement entre 0 et 1. Mˆeme si des
scores sont born´es de mani`ere ´equivalente, cela n’implique pas n´ecessairement qu’ils sont
comparables. Certains peuvent ˆetre surnot´es ou ´evalu´es diff´eremment (de mani`ere binaire
par exemple) ce qui peut ajouter un biais s’ils sont coupl´es.
La standardisation permet de convertir des ´evaluations qualitatives (non num´eriques)
en ´evaluations quantitatives (sur l’intervalle [0;1]). Elle s’applique en aide `a la d´ecision
multicrit`ere. Elle demande certains param´etrages de l’utilisateur pour que le syst`eme soit
capable de faire cette conversion. Tout comme la normalisation, les scores sont born´es
entre 0 et 1.
La g´en´eralisation permet de ne conserver que les informations les plus importantes.
Il existe 2 types de g´en´eralisations. La premi`ere vise l’identification des concepts (ou
cat´egories telles que : voiture, homme, . . . ) pr´esents dans un document `a partir
d’infor-mations de diff´erents types (par exemple extraites d’images et de textes). La deuxi`eme
regroupe des informations de mˆeme type pour ne conserver que les plus importantes. Ce
regroupement implique aussi que toutes les informations soient rattach´ees `a un seul type
(par exemple lesvisterms pour une image). Cette approche permet de plus d’utiliser des
m´ethodes statistiques telles que la fr´equence d’apparition ´eprouv´ee en RI. Ainsi il est
possible de la combiner directement avec l’approche utilis´ee pour les termes. La g´en´
era-lisation implique n´eanmoins une perte d’information puisque elle consiste `a ´eliminer les
d´etails.
En recherche d’information g´eographique, l’approche de focalisation, qui s’assimile
`
a une g´en´eralisation maximum, cherche `a n’associer qu’une information spatiale `a un
document. Cette approche pose probl`eme lorsque les informations spatiales sont tr`es
´eloign´ees.
Nous avons choisi de traiter chaque facette de l’information g´eographique de
ma-ni`ere sp´ecifique et ind´ependante comme le pr´econisent de nombreux travaux en RIG tels
que [CJP06,MSA05]. Afin de permettre aux utilisateurs de faire des recherches sur
plu-sieurs facettes il est n´ecessaire de les combiner. Notre probl´ematique principale est donc
de trouver comment combiner les r´esultats issus de chaque SRI d´edi´e (spatial, temporel
et th´ematique) lors de la phase d’interrogation du corpus.
Le chapitre3a pr´esent´e diff´erentes approches de combinaison de crit`eres en Recherche
d’Information et dans d’autres domaines. Comme nous avons pu le constater, celles
uti-lis´ees en RIG se limitent essentiellement soit `a une approche de type filtrage en r´ealisant
l’intersection des ensembles de r´esultats (donc il n’y a pas de classement de r´esultat),
soit `a des m´ethodes lin´eaires ne permettant aucun param´etrage de la combinaison. En ce
qui concerne les approches d’aide `a la d´ecision multicrit`ere, elles proposent, pour chaque
crit`ere, de sp´ecifier son importance ou encore de r´egler le degr´e de compensation entre
les crit`eres. Cette flexibilit´e nous int´eresse particuli`erement et nous avons donc d´ecid´e
d’adapter ces approches pour notre proposition de combinaison par contrainte ´etendue.
Le chapitre4a pr´esent´e diff´erentes approches d’uniformisation. En recherche
d’infor-mation g´eographique, certains syst`emes se sont pass´es d’uniformisation en utilisant des
approches de combinaisons tr`es simples (tel que le filtrage). Dans les autres cas les
com-binaisons, notamment via des approches lin´eaires, ont ´et´e effectu´ees sans uniformisation.
Comme nous avons pu le constater, cela peut introduire des biais (crit`ere avantag´e).
´
Etant donn´e que chaque facette de l’information g´eographique est trait´ee avec un SRI
d´edi´e (un spatial, un temporel et un th´ematique) (voir chapitre 2), nous avons donc
trois approches d’indexation et trois approches de RI diff´erentes. L’approche propos´ee
par Pham et al. [PMLC07] pour traiter les images de mani`ere similaire aux textes,
c’est-`
a-dire l’utilisation de termes visuels (visterms) et le calcul d’un poids par rapport `a la
fr´equence d’apparition, nous int´eresse particuli`erement. En effet, les approches
statis-tiques appliqu´ees aux termes (TF·IDF, mod`ele vectoriel de Salton) sont utilis´ees depuis
des ann´ees et donnent de bons r´esultats [BYRN99]. Nous souhaitons donc adapter de
telles approches statistiques au traitement des informations spatiales et temporelles, afin
d’utiliser une approche homog`ene pour les diff´erentes facettes de l’information g´
eogra-phique. Il s’agit, d’une part, d’homog´en´eiser les formes de repr´esentation de l’information
spatiale et de l’information temporelle et, d’autre part, de mettre en œuvre une mˆeme
approche statistique de calcul de score de pertinence.
Le chapitre 2 a d´etaill´e les traitements impliqu´es dans la Recherche d’Information
G´eographique textuelle. Comme nous pouvons le voir, il existe divers SRIG traitant
seulement certaines facettes de l’information g´eographique (g´en´eralement spatiale et
th´ematique) ou les trois pour certains. N´eanmoins il n’existe pas de cadre d’´
evalua-tion permettant d’´evaluer un SRIG. Afin de tester et d’´evaluer des SRIG supportant la
combinaison des trois facettes, il est donc n´ecessaire de mettre en place un tel cadre. Pour
les SRI textuels il existe des campagnes d’´evaluations reconnues tel que TREC. Nous
avons donc d´ecid´e de capitaliser ce savoir-faire en y int´egrant les sp´ecificit´es relatives `a
l’information g´eographique.
Dans le document
Combinaison de critères par contraintes pour la Recherche d'Information Géographique
(Page 76-80)