Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

En appliquant une approche similaire au temporel et au th´ ematique, c’est ` a dire en obtenant le contexte spatial, le contexte temporel et le contexte th´ ematique du

Dans le document Combinaison de critères par contraintes pour la Recherche d'Information Géographique (Page 76-80)

a laquelle il se rapporte. L’avantage est que cela simplifie la recherche spatiale ´etant

donné qu’une seule information spatiale est associée à chaque document. Les découpages

administratifs étant hiérarchiques (le monde est divisé en continents, puis en pays, r´

e-gions, villes, . . . ) et porteurs de sens, ils utilisent cette structure. Il est donc possible de

regrouper plusieurs villes au sein d’une mˆeme r´egion par exemple.

En appliquant une approche similaire au temporel et au th´ematique, c’est `a dire

en obtenant le contexte spatial, le contexte temporel et le contexte th´ematique du

do-cument, la combinaison s’appliquerait logiquement. En effet, chaque crit`ere subissant

une uniformisation de type généralisation, ils seraient comparables. Néanmoins, comme

l’expliquent Lieberman et al. [LSSS07], il est tr`es difficile d’obtenir un seul focus si le

document contient des informations spatiales très éloignées, à moins de très fortement

augmenter l’impr´ecision des r´esultats. Si, par exemple, un document parle de la ville de

Biarritz (au Sud-Ouest de la France) et de la ville de Lille (au nord de la France), la

généralisation va retourner la France complète. La focalisation/synthèse, qui dans cet

exemple conduit à une généralisation excessive, n’est donc pas recommandée [LSSS07].

4.6 Conclusion

Il existe différents types d’uniformisation selon les données utilisées et l’objectif visé.

La normalisation consiste à borner des scores, généralement entre 0 et 1. Même si des

scores sont bornés de manière équivalente, cela n’implique pas nécessairement qu’ils sont

comparables. Certains peuvent être surnotés ou évalués différemment (de manière binaire

par exemple) ce qui peut ajouter un biais s’ils sont coupl´es.

La standardisation permet de convertir des ´evaluations qualitatives (non num´eriques)

en évaluations quantitatives (sur l’intervalle [0;1]). Elle s’applique en aide à la décision

multicritère. Elle demande certains paramétrages de l’utilisateur pour que le système soit

capable de faire cette conversion. Tout comme la normalisation, les scores sont born´es

entre 0 et 1.

La g´en´eralisation permet de ne conserver que les informations les plus importantes.

Il existe 2 types de généralisations. La première vise l’identification des concepts (ou

catégories telles que : voiture, homme, . . . ) présents dans un document à partir

d’infor-mations de diff´erents types (par exemple extraites d’images et de textes). La deuxi`eme

regroupe des informations de mˆeme type pour ne conserver que les plus importantes. Ce

regroupement implique aussi que toutes les informations soient rattach´ees `a un seul type

(par exemple lesvisterms pour une image). Cette approche permet de plus d’utiliser des

méthodes statistiques telles que la fréquence d’apparition éprouvée en RI. Ainsi il est

possible de la combiner directement avec l’approche utilis´ee pour les termes. La g´en´

era-lisation implique néanmoins une perte d’information puisque elle consiste à éliminer les

d´etails.

En recherche d’information g´eographique, l’approche de focalisation, qui s’assimile

`

a une généralisation maximum, cherche à n’associer qu’une information spatiale à un

document. Cette approche pose probl`eme lorsque les informations spatiales sont tr`es

´eloign´ees.

Nous avons choisi de traiter chaque facette de l’information g´eographique de

ma-nière spécifique et indépendante comme le préconisent de nombreux travaux en RIG tels

que [CJP06,MSA05]. Afin de permettre aux utilisateurs de faire des recherches sur

plu-sieurs facettes il est n´ecessaire de les combiner. Notre probl´ematique principale est donc

de trouver comment combiner les résultats issus de chaque SRI dédié (spatial, temporel

et th´ematique) lors de la phase d’interrogation du corpus.

Le chapitre3a présenté différentes approches de combinaison de critères en Recherche

d’Information et dans d’autres domaines. Comme nous avons pu le constater, celles

uti-lisées en RIG se limitent essentiellement soit à une approche de type filtrage en réalisant

l’intersection des ensembles de r´esultats (donc il n’y a pas de classement de r´esultat),

soit à des méthodes linéaires ne permettant aucun paramétrage de la combinaison. En ce

qui concerne les approches d’aide à la décision multicritère, elles proposent, pour chaque

critère, de spécifier son importance ou encore de régler le degré de compensation entre

les critères. Cette flexibilité nous intéresse particulièrement et nous avons donc décidé

d’adapter ces approches pour notre proposition de combinaison par contrainte ´etendue.

Le chapitre4a présenté différentes approches d’uniformisation. En recherche

d’infor-mation géographique, certains systèmes se sont passés d’uniformisation en utilisant des

approches de combinaisons tr`es simples (tel que le filtrage). Dans les autres cas les

com-binaisons, notamment via des approches linéaires, ont été effectuées sans uniformisation.

Comme nous avons pu le constater, cela peut introduire des biais (crit`ere avantag´e).

´

Etant donné que chaque facette de l’information géographique est traitée avec un SRI

dédié (un spatial, un temporel et un thématique) (voir chapitre 2), nous avons donc

trois approches d’indexation et trois approches de RI diff´erentes. L’approche propos´ee

par Pham et al. [PMLC07] pour traiter les images de mani`ere similaire aux textes,

c’est-`

a-dire l’utilisation de termes visuels (visterms) et le calcul d’un poids par rapport `a la

fréquence d’apparition, nous intéresse particulièrement. En effet, les approches

statis-tiques appliquées aux termes (TF·IDF, modèle vectoriel de Salton) sont utilisées depuis

des ann´ees et donnent de bons r´esultats [BYRN99]. Nous souhaitons donc adapter de

telles approches statistiques au traitement des informations spatiales et temporelles, afin

d’utiliser une approche homog`ene pour les diff´erentes facettes de l’information g´

eogra-phique. Il s’agit, d’une part, d’homogénéiser les formes de représentation de l’information

spatiale et de l’information temporelle et, d’autre part, de mettre en œuvre une mˆeme

approche statistique de calcul de score de pertinence.

Le chapitre 2 a détaillé les traitements impliqués dans la Recherche d’Information

G´eographique textuelle. Comme nous pouvons le voir, il existe divers SRIG traitant

seulement certaines facettes de l’information géographique (généralement spatiale et

th´ematique) ou les trois pour certains. N´eanmoins il n’existe pas de cadre d’´

evalua-tion permettant d’´evaluer un SRIG. Afin de tester et d’´evaluer des SRIG supportant la

combinaison des trois facettes, il est donc n´ecessaire de mettre en place un tel cadre. Pour

les SRI textuels il existe des campagnes d’´evaluations reconnues tel que TREC. Nous

avons donc décidé de capitaliser ce savoir-faire en y intégrant les spécificités relatives à

l’information g´eographique.

Dans le document Combinaison de critères par contraintes pour la Recherche d'Information Géographique (Page 76-80)

Télécharger maintenant "Combinaison de critère..."

Outline

Documents relatifs