• Aucun résultat trouvé

En appliquant une approche similaire au temporel et au th´ ematique, c’est ` a dire en obtenant le contexte spatial, le contexte temporel et le contexte th´ ematique du

a laquelle il se rapporte. L’avantage est que cela simplifie la recherche spatiale ´etant

donn´e qu’une seule information spatiale est associ´ee `a chaque document. Les d´ecoupages

administratifs ´etant hi´erarchiques (le monde est divis´e en continents, puis en pays, r´

e-gions, villes, . . . ) et porteurs de sens, ils utilisent cette structure. Il est donc possible de

regrouper plusieurs villes au sein d’une mˆeme r´egion par exemple.

En appliquant une approche similaire au temporel et au th´ematique, c’est `a dire

en obtenant le contexte spatial, le contexte temporel et le contexte th´ematique du

do-cument, la combinaison s’appliquerait logiquement. En effet, chaque crit`ere subissant

une uniformisation de type g´en´eralisation, ils seraient comparables. N´eanmoins, comme

l’expliquent Lieberman et al. [LSSS07], il est tr`es difficile d’obtenir un seul focus si le

document contient des informations spatiales tr`es ´eloign´ees, `a moins de tr`es fortement

augmenter l’impr´ecision des r´esultats. Si, par exemple, un document parle de la ville de

Biarritz (au Sud-Ouest de la France) et de la ville de Lille (au nord de la France), la

g´en´eralisation va retourner la France compl`ete. La focalisation/synth`ese, qui dans cet

exemple conduit `a une g´en´eralisation excessive, n’est donc pas recommand´ee [LSSS07].

4.6 Conclusion

Il existe diff´erents types d’uniformisation selon les donn´ees utilis´ees et l’objectif vis´e.

La normalisation consiste `a borner des scores, g´en´eralement entre 0 et 1. Mˆeme si des

scores sont born´es de mani`ere ´equivalente, cela n’implique pas n´ecessairement qu’ils sont

comparables. Certains peuvent ˆetre surnot´es ou ´evalu´es diff´eremment (de mani`ere binaire

par exemple) ce qui peut ajouter un biais s’ils sont coupl´es.

La standardisation permet de convertir des ´evaluations qualitatives (non num´eriques)

en ´evaluations quantitatives (sur l’intervalle [0;1]). Elle s’applique en aide `a la d´ecision

multicrit`ere. Elle demande certains param´etrages de l’utilisateur pour que le syst`eme soit

capable de faire cette conversion. Tout comme la normalisation, les scores sont born´es

entre 0 et 1.

La g´en´eralisation permet de ne conserver que les informations les plus importantes.

Il existe 2 types de g´en´eralisations. La premi`ere vise l’identification des concepts (ou

cat´egories telles que : voiture, homme, . . . ) pr´esents dans un document `a partir

d’infor-mations de diff´erents types (par exemple extraites d’images et de textes). La deuxi`eme

regroupe des informations de mˆeme type pour ne conserver que les plus importantes. Ce

regroupement implique aussi que toutes les informations soient rattach´ees `a un seul type

(par exemple lesvisterms pour une image). Cette approche permet de plus d’utiliser des

m´ethodes statistiques telles que la fr´equence d’apparition ´eprouv´ee en RI. Ainsi il est

possible de la combiner directement avec l’approche utilis´ee pour les termes. La g´en´

era-lisation implique n´eanmoins une perte d’information puisque elle consiste `a ´eliminer les

d´etails.

En recherche d’information g´eographique, l’approche de focalisation, qui s’assimile

`

a une g´en´eralisation maximum, cherche `a n’associer qu’une information spatiale `a un

document. Cette approche pose probl`eme lorsque les informations spatiales sont tr`es

´eloign´ees.

Nous avons choisi de traiter chaque facette de l’information g´eographique de

ma-ni`ere sp´ecifique et ind´ependante comme le pr´econisent de nombreux travaux en RIG tels

que [CJP06,MSA05]. Afin de permettre aux utilisateurs de faire des recherches sur

plu-sieurs facettes il est n´ecessaire de les combiner. Notre probl´ematique principale est donc

de trouver comment combiner les r´esultats issus de chaque SRI d´edi´e (spatial, temporel

et th´ematique) lors de la phase d’interrogation du corpus.

Le chapitre3a pr´esent´e diff´erentes approches de combinaison de crit`eres en Recherche

d’Information et dans d’autres domaines. Comme nous avons pu le constater, celles

uti-lis´ees en RIG se limitent essentiellement soit `a une approche de type filtrage en r´ealisant

l’intersection des ensembles de r´esultats (donc il n’y a pas de classement de r´esultat),

soit `a des m´ethodes lin´eaires ne permettant aucun param´etrage de la combinaison. En ce

qui concerne les approches d’aide `a la d´ecision multicrit`ere, elles proposent, pour chaque

crit`ere, de sp´ecifier son importance ou encore de r´egler le degr´e de compensation entre

les crit`eres. Cette flexibilit´e nous int´eresse particuli`erement et nous avons donc d´ecid´e

d’adapter ces approches pour notre proposition de combinaison par contrainte ´etendue.

Le chapitre4a pr´esent´e diff´erentes approches d’uniformisation. En recherche

d’infor-mation g´eographique, certains syst`emes se sont pass´es d’uniformisation en utilisant des

approches de combinaisons tr`es simples (tel que le filtrage). Dans les autres cas les

com-binaisons, notamment via des approches lin´eaires, ont ´et´e effectu´ees sans uniformisation.

Comme nous avons pu le constater, cela peut introduire des biais (crit`ere avantag´e).

´

Etant donn´e que chaque facette de l’information g´eographique est trait´ee avec un SRI

d´edi´e (un spatial, un temporel et un th´ematique) (voir chapitre 2), nous avons donc

trois approches d’indexation et trois approches de RI diff´erentes. L’approche propos´ee

par Pham et al. [PMLC07] pour traiter les images de mani`ere similaire aux textes,

c’est-`

a-dire l’utilisation de termes visuels (visterms) et le calcul d’un poids par rapport `a la

fr´equence d’apparition, nous int´eresse particuli`erement. En effet, les approches

statis-tiques appliqu´ees aux termes (TF·IDF, mod`ele vectoriel de Salton) sont utilis´ees depuis

des ann´ees et donnent de bons r´esultats [BYRN99]. Nous souhaitons donc adapter de

telles approches statistiques au traitement des informations spatiales et temporelles, afin

d’utiliser une approche homog`ene pour les diff´erentes facettes de l’information g´

eogra-phique. Il s’agit, d’une part, d’homog´en´eiser les formes de repr´esentation de l’information

spatiale et de l’information temporelle et, d’autre part, de mettre en œuvre une mˆeme

approche statistique de calcul de score de pertinence.

Le chapitre 2 a d´etaill´e les traitements impliqu´es dans la Recherche d’Information

G´eographique textuelle. Comme nous pouvons le voir, il existe divers SRIG traitant

seulement certaines facettes de l’information g´eographique (g´en´eralement spatiale et

th´ematique) ou les trois pour certains. N´eanmoins il n’existe pas de cadre d’´

evalua-tion permettant d’´evaluer un SRIG. Afin de tester et d’´evaluer des SRIG supportant la

combinaison des trois facettes, il est donc n´ecessaire de mettre en place un tel cadre. Pour

les SRI textuels il existe des campagnes d’´evaluations reconnues tel que TREC. Nous

avons donc d´ecid´e de capitaliser ce savoir-faire en y int´egrant les sp´ecificit´es relatives `a

l’information g´eographique.