HAL Id: tel-00551889
https://tel.archives-ouvertes.fr/tel-00551889v2
Submitted on 14 Feb 2011
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de
Recherche d’Information Géographique
Damien Palacio
To cite this version:
Damien Palacio. Combinaison de critères par contraintes pour la Recherche d’Information Géo- graphique. Interface homme-machine [cs.HC]. Université de Pau et des Pays de l’Adour, 2010.
Français. �tel-00551889v2�
TH` ESE
pour l’obtention du
Doctorat de l’Universit´ e de Pau et des Pays de l’Adour
(sp´ ecialit´ e informatique)
pr´ esent´ ee par
Damien PALACIO
Combinaison de crit` eres par contraintes pour la Recherche
d’Information G´ eographique
soutenue publiquement le 26 novembre 2010
Composition du jury
Pr´ esident : Florence SED ` ES IRIT, Universit´ e Paul Sabatier, Toulouse Rapporteurs : B´ en´ edicte BUCHER IGN, Paris
Eric GAUSSIER ´ LIG, Universit´ e Joseph Fourier, Grenoble 1 Gabriella PASI DiSCo, Universit` a degli Studi di Milano - Bicocca Examinateur : Guillaume CABANAC IRIT, Universit´ e Paul Sabatier, Toulouse
Directeurs : Mauro GAIO LIUPPA, Universit´ e de Pau et des Pays de l’Adour
Christian SALLABERRY LIUPPA, Universit´ e de Pau et des Pays de l’Adour
Je suis vraiment ravi d’ˆ etre arriv´ e ` a mener ` a bien cette th` ese d´ emarr´ ee il y a main- tenant trois ans. Je tiens ` a remercier toutes les personnes qui ont contribu´ e de pr` es ou de loin ` a cette r´ eussite.
Je remercie B´ en´ edicte Bucher, ´ Eric Gaussier et Gabriella Pasi d’avoir accept´ e de rapporter ce m´ emoire, ainsi que Florence S` edes et Guillaume Cabanac d’en ˆ etre les examinateurs. Je suis tr` es honor´ e d’avoir un jury si renomm´ e !
Merci ` a Mauro Gaio d’avoir accept´ e de m’encadrer durant cette th` ese et pour ses conseils avis´ es. Merci ´ egalement ` a Christian Sallaberry, co-encadrant, pour sa tr` es grande disponibilit´ e et son aide pr´ ecieuse ` a toutes les occasions. Je suis ravi d’avoir travaill´ e ` a vos cˆ ot´ es pendant ces trois ans.
Je souhaite aussi remercier nos coll` egues toulousains, Guillaume Cabanac et Gilles Hubert, avec qui nous avons entam´ e une collaboration suite ` a la conf´ erence ECIR et qui a ´ et´ e tr` es enrichissante et fructueuse (plusieurs articles, dont le meilleur papier d’ECDL’10). J’esp` ere que l’ann´ ee qui arrive permettra de continuer cette collaboration ! Je tiens ` a remercier la Communaut´ e d’Agglom´ eration de Pau Pyr´ en´ ees d’avoir financ´ e ce travail de th` ese. J’esp` ere que le projet d’industrialisation de nos prototypes verra le jour et permettra ` a la M´ ediath` eque Intercommunale ` a Dimension R´ egionale de Pau de disposer d’un moteur de recherche plus adapt´ e ` a leurs collections.
Ce fut un grand plaisir de travailler au sein de l’´ equipe DESI, devenue T2I en 2009, ainsi que dans le laboratoire LIUPPA et dans les locaux du d´ epartement informatique de l’universit´ e. Mais aussi de partager les repas tous les midis et faire quelques sorties avec vous (CongDuc, Annig, Laurent, les deux Eric, Sophie, Bruno, Nicolas, . . . ). Merci plus particuli` erement ` a Christophe pour sa compagnie quotidienne ;)
Merci ` a tous les anciens doctorants pour leur aide et leurs conseils : les deux Julien, Pierre, Christine et Cyril. Je souhaite aussi encourager tous les doctorants encore au laboratoire : Thanh Vu, Van Tien, Minh Duc, Nour, ´ Eric, Natacha, Youssef, Julien, John et Camille.
Je souhaite aussi remercier tous mes amis qui m’ont support´ e et encourag´ e pendant ce travail. Merci ` a Fran¸ cois pour toutes ces choses qu’il a pu obtenir et dont il m’a fait profiter pour me distraire ;) Merci particuli` erement ` a Patxi et ´ Emilie d’avoir accept´ e de relire ce manuscrit pour corriger les (trop) nombreuses fautes restantes !!
Pour finir je remercie vivement toute ma famille de m’avoir soutenu tout au long
de ce travail, d’avoir accept´ e mes visites moins fr´ equentes ou (trop) courtes et d’avoir
toujours ´ et´ e l` a en cas de besoin. Merci ` a ma grand-m` ere pour ses guides tr` es utiles lors de
mes d´ eplacements en conf´ erence. Bon courage ` a mes deux fr` eres (S´ ebastien et Mathieu)
et ` a ma sœur (M´ elanie) pour trouver leur voie. Enfin merci ` a mes parents pour tout ce
qu’ils ont fait pour que je puisse en arriver l` a et pour leur totale confiance.
Table des figures 1
Liste des tableaux 3
Partie I Introduction : la recherche d’information g´ eographique dans
des fonds documentaires textuels 5
Chapitre 1 Contexte
1.1 Introduction . . . . 7 1.2 Objectif : am´ eliorer la RIG en combinant des SRI existants . . . . 8 1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ erog` enes de RI ? . 11 1.4 Contributions : uniformisation g´ en´ erique, combinaison personnalisable
et ´ evaluations . . . . 12 1.5 Organisation du manuscrit . . . . 13
Partie II Etat de l’Art : de l’information g´ ´ eographique dans des do- cuments textuels ` a la recherche d’information combinant des crit` eres
spatiaux, temporels et th´ ematiques 15
Introduction de l’´ etat de l’art Chapitre 2
Traitement automatique de l’information g´ eographique dans des textes
2.1 Introduction . . . . 20
2.2 L’information g´ eographique dans des textes . . . . 20
2.3 Mod´ elisation de l’information g´ eographique exprim´ ee dans des docu- ments textuels . . . . 23
2.3.1 Langages de mod´ elisation pour l’information spatiale . . . . . 25
2.3.2 Langages de mod´ elisation pour l’information temporelle . . . . 27
2.4 Extraction et Indexation dans un but de Recherche d’Information G´ eographique . . . . 28
2.4.1 Extraction d’Information dans un but de Recherche d’Infor- mation G´ eographique . . . . 28
2.4.2 Indexation d’Information dans un but de Recherche d’Infor- mation G´ eographique . . . . 31
2.4.3 Recherche d’Information G´ eographique (RIG) dans les docu- ments textuels . . . . 33
2.4.4 Evaluation d’un Syst` ´ eme de Recherche d’Information G´ eogra- phique . . . . 36
2.5 Syst` emes d´ edi´ es ` a la Recherche d’Information G´ eographique . . . . . 38
2.6 Conclusion . . . . 40
Chapitre 3 Combinaison de crit` eres 3.1 Introduction . . . . 43
3.2 Fusion et Recherche d’Information Multim´ edia . . . . 44
3.3 Agr´ egation de crit` eres et Syst` emes d’aide ` a la D´ ecision . . . . 45
3.4 Approches en Recherche d’Information G´ eographique . . . . 50
3.5 Conclusion . . . . 54
Chapitre 4 Uniformisation de crit` eres 4.1 Introduction . . . . 57
4.2 Normalisation en Recherche d’Information . . . . 58
4.3 G´ en´ eralisation pour la Recherche d’Information Multimedia . . . . 59
4.4 Standardisation pour les Syst` emes d’aide ` a la D´ ecision . . . . 62
4.5 La focalisation spatiale en Recherche d’Information G´ eographique . . 62
Conclusion de l’´ etat de l’art
Partie III Contribution : vers la combinaison par contraintes de
crit` eres de recherche en RIG 67
Introduction de la contribution Chapitre 5
Uniformisation de donn´ ees
5.1 Introduction . . . . 71
5.2 Indexation multidimensionnelle bas´ ee sur le « tuilage » . . . . 72
5.2.1 Approche de tuilage . . . . 73
5.2.2 Tuilage multi-´ echelle . . . . 75
5.2.3 Types de tuilages . . . . 76
5.2.4 Application ` a l’information g´ eographique . . . . 76
5.2.5 Pond´ eration des tuiles . . . . 77
5.3 Approches de recherche d’information appliqu´ ees au tuilage . . . . 79
5.4 Conclusion . . . . 80
Chapitre 6 Recherche d’information g´ eographique par combinaison de crit` eres 6.1 Introduction . . . . 83
6.2 Combinaisons lin´ eaires standards . . . . 85
6.3 Combinaisons lin´ eaires ´ etendues . . . . 88
6.3.1 Combinaisons ´ etendues par niveaux de priorit´ es . . . . 89
6.3.2 Combinaisons ´ etendues par niveaux d’exigences, de pr´ ef´ erences et d’op´ erateurs . . . . 90
6.4 Cadre exp´ erimental d’´ evaluation d’un SRI G´ eographique . . . . 94
6.4.1 Constitution d’une collection de test pour ´ evaluer la recherche d’information g´ eographique . . . . 95
6.4.2 Protocole d’analyse comparative de SRI g´ eographiques . . . . 96
6.5 Conclusion . . . . 97
Chapitre 7 Impl´ ementations
7.1 Introduction . . . . 99
7.2 PIV : Syst` eme de Recherche d’Information G´ eographique dans des documents textuels . . . 100
7.3 PIV
2(« PIVsquare ») : uniformisation des crit` eres . . . 101
7.4 PIVcomb : combinaison par contraintes . . . 104
7.5 Outils pour exp´ erimentations . . . 105
7.5.1 PIVone (« pivoine ») : v´ erification et s´ election des requˆ etes . . 105
7.5.2 PIVasse : ´ Evaluations/Assessment . . . 107
7.6 Conclusion . . . 108
Chapitre 8 Exp´ erimentations 8.1 Introduction . . . 110
8.2 Evaluation de l’approche d’uniformisation appliqu´ ´ ee ` a l’information spatiale . . . 110
8.2.1 Comparaison des SRI spatiaux PIV et PIV
2. . . 111
8.2.2 Analyse et comparaison de diff´ erents tuilages spatiaux et for- mules de pond´ eration . . . 112
8.2.3 Analyse par type de relation spatiale . . . 112
8.2.4 Test de l’index de granularit´ e la plus proche de celle de la requˆ ete112 8.3 Evaluation de l’approche d’uniformisation appliqu´ ´ ee ` a l’information temporelle . . . 115
8.3.1 Comparaison des SRI temporels PIV et PIV
2. . . 115
8.3.2 Analyse et comparaison de tuilages temporels et formules de pond´ eration . . . 116
8.4 Evaluation de l’approche par combinaison appliqu´ ´ ee ` a l’information g´ eographique . . . 117
8.4.1 Mise en place de la collection de test MIDR 2010 . . . 118
8.4.2 Comparaison des op´ erateurs lin´ eaires . . . 118
en œuvre avec CombMNZ . . . 119 8.4.4 Analyse par topic de la combinaison lin´ eaire CombMNZ . . . . 120 8.4.5 Comparaison CombMNZ avec PIVComb . . . 121 8.5 Conclusion . . . 123 Conclusion de la contribution
Partie IV Conclusion 127
Chapitre 9 Conclusion
9.1 Synth` ese . . . 129 9.2 Discussions et Perspectives . . . 131
9.2.1 Combinaison par contraintes : prise en charge de diff´ erents op´ erateurs . . . 131 9.2.2 De l’importance d’interfaces adapt´ ees . . . 132 9.2.3 Autres perspectives . . . 134
Bibliographie 139
2.1 Information G´ eographique . . . . 21
2.2 Traitement de l’information spatiale . . . . 22
2.3 Exemple de liens hi´ erarchiques pouvant ˆ etre exprim´ es dans une ontologie 24 2.4 Les 8 relations topologiques pouvant exister entre 2 r´ egions x et y selon le mod` ele RCC-8 [RCC92] (illustration extraite de [Les07]) . . . . 24
2.5 Relations d’Allen [All84] (illustration extraite de [MT04]) . . . . 25
2.6 Processus de recherche d’information (illustration extraite de [GD09]) . . 33
2.7 Evaluation d’un SRI (illustration extraite de [Voo07]) . . . . 38
3.1 Fusion sur une vid´ eo . . . . 45
3.2 Agr´ egation de crit` eres . . . . 46
3.3 Agr´ egation de crit` eres (avec pr´ ef´ erences) . . . . 47
3.4 Agr´ egation de Crit` eres (avec ´ evaluations quantitatives proportionnelles) . 47 3.5 Agr´ egation de Crit` eres (avec ´ evaluations quantitatives proportionnelles et pr´ ef´ erences) . . . . 48
3.6 Agr´ egation de Crit` eres (avec l’op´ erateur OWA) . . . . 49
3.7 Agr´ egation de Crit` eres (avec l’approche par priorit´ e) . . . . 50
3.8 Approche de filtrage s´ equentiel en RIG . . . . 51
3.9 Approche de type filtrage parall` ele en RIG . . . . 52
3.10 Approche de combinaisons lin´ eaires en RIG . . . . 53
3.11 Approche de type projection en RIG . . . . 54
4.1 Recherche d’information standard et normalisation . . . . 58
4.2 Recherche d’information g´ eographique et normalisation . . . . 60
4.3 D´ ecoupage d’une image en visterms . . . . 61
4.4 Exemple de standardisation . . . . 63
5.1 Approche de tuilage . . . . 73
5.2 Repr´ esentations spatiales . . . . 74
5.3 Tuilage g´ en´ er´ e par rapport aux repr´ esentations existantes . . . . 74
5.4 Tuilage conserv´ e (tuiles color´ ees) . . . . 74
5.5 Indexation multi-´ echelles . . . . 75
5.6 Tuilage calendaire (Mois) . . . . 77
5.7 Tuilage r´ egulier (Tuiles de 40 jours) . . . . 77
5.8 Tuilage administratif (R´ egional) . . . . 77
5.9 Tuilage r´ egulier (10x10) . . . . 77
5.10 Tuilage r´ egulier sur des objets spatiaux . . . . 79
5.11 Exemple d’index par rapport au tuilage r´ egulier de la figure 5.10 . . . . . 79
6.1 Principe de combinaison de r´ esultats de recherche avec CombMNZ. . . . . 87
6.2 R´ esultats de l’exemple 1 (tableau 1.2) avec CombMNZ . . . . 87
6.3 R´ esultats de l’exemple 2 (tableau 1.3) avec CombMNZ. . . . . 88
7.1 PIV
2: interrogation par intersection . . . 103
7.2 PIV
2: interrogation par ´ egalit´ e . . . 103
7.3 PIVone : r´ esultats d’une requˆ ete . . . 106
7.4 PIVasse : ´ evaluation d’un document . . . 107
8.1 Calcul de pertinence d’une ES d’un document pour une requˆ ete donn´ ee dans le syst` eme PIV (illustration extraite de [SGPL08]) . . . 111
8.2 R´ epartition des ES dans notre corpus . . . 114
8.3 R´ epartition des ES administratives dans notre corpus . . . 114
8.4 Calcul de pertinence d’une ET d’un document pour une requˆ ete donn´ ee dans le syst` eme PIV (illustration extraite de [LGS07]) . . . 116
8.5 R´ epartition des ET calendaires dans notre corpus . . . 117
9.1 Approche possible pour mettre en œuvre l’inclusion . . . 133
9.2 Interface d’interrogation spatiale : interpr´ etation de la requˆ ete . . . 135
9.3 Interface d’interrogation spatiale : affichage des r´ esultats . . . 135
9.4 Interface d’interrogation temporelle : interpr´ etation de la requˆ ete . . . 136
9.5 Interface d’interrogation temporelle : affichage des r´ esultats . . . 136
9.6 Exemple d’interface illustrant l’interpr´ etation de la requˆ ete par le syst` eme et permettant de corriger si besoin est . . . 137
9.7 Exemple d’interface d’interrogation simple . . . 137
1.1 Extraits du livre : « Excursions autour du Vignemale dans les hautes
vall´ ees de Cauterets, de Gavarnie et du Rio Aran en Aragon » [Mei87] . . 9
1.2 Exemple de requˆ ete multicrit` ere th´ ematique . . . . 10
1.3 Exemple de requˆ ete multicrit` ere g´ eographique . . . . 10
2.1 Entr´ ee « Pau » dans Geonames . . . . 22
2.2 Exemple de repr´ esentations possibles pour Aquitaine (respectivement : centro¨ıde, boˆıte englobante (MBR) et polygone) . . . . 23
2.3 Exemple de r´ esultat de lemmatisation du texte du tableau 1.1 avec le logiciel TreeTagger [Sch94]. . . . . 29
2.4 Exemple d’index invers´ e . . . . 32
2.5 Mod` ele vectoriel : matrice document-par-termes . . . . 34
2.6 Formules utilis´ ees pour ´ evaluer un syst` eme de RI . . . . 37
2.7 Syst` emes de Recherche d’Information G´ eographique . . . . 39
5.1 Formules de fr´ equence . . . . 78
5.2 Formules de pond´ eration appliqu´ ees aux index uniformis´ es . . . . 80
5.3 Mod` ele vectoriel : matrice document-par-tuiles . . . . 81
6.1 La combinaison de crit` eres de recherche en RI & RIG . . . . 84
6.2 Formules de combinaisons propos´ ees par Fox et al. [FS93] . . . . 86
6.3 Sc´ enarios de recherche possible . . . . 92
6.4 Requˆ ete 1 : Choix, Op´ erateurs, Pr´ ef´ erences et Exigences . . . . 92
6.5 Requˆ ete 2 : Choix, Op´ erateurs, Pr´ ef´ erences et Exigences . . . . 93
6.6 Requˆ ete 2 : Choix, Op´ erateurs, Pr´ ef´ erences proportionnelles et Exigences 93 6.7 Requˆ ete 1 : Choix, Op´ erateurs, Pr´ ef´ erences proportionnelles et Exigences 94 7.1 Table de l’index contenant les informations extraites . . . 100
7.2 Table de l’index contenant les repr´ esentations . . . 100
7.3 Table de l’index contenant le tuilage . . . 102
7.4 Table de l’index contenant les liaisons tuiles-documents et les poids associ´ es102
7.5 Comparaison du nombre de r´ esultats obtenus pour chaque op´ erateur avec
une requˆ ete donn´ ee . . . 104
8.1 Comparaison PIV - PIV
2(meilleur tuilage spatial et formule de pond´ eration)112 8.2 Comparaison de diff´ erents tuilages spatiaux et formules de pond´ eration
(MAP) . . . 112 8.3 Comparaison des diff´ erentes formules de pond´ eration sur un tuilage com-
munal pour chaque type de relation spatiale (MAP) . . . 113 8.4 Comparaison de l’approche multi-´ echelles au tuilage par d´ efaut . . . 113 8.5 Comparaison PIV - PIV
2(meilleur tuilage temporel et formule de pond´ e-
ration) . . . 116 8.6 Comparaison de diff´ erents tuilages temporels et formules de pond´ eration
(MAP) . . . 117 8.7 Performances relatives de combinateurs et effet de la normalisation. . . . 119 8.8 Efficacit´ e des SRI par rapport aux baselines th´ ematiques. . . . 120 8.9 Etude par topic de la distribution des documents pertinents selon les trois ´
facettes, de la performance du SRI PIV
2et de la compl´ ementarit´ e des
facettes. . . . 122
8.10 Comparaison de diff´ erentes approches de combinaison . . . 123
Introduction : la recherche
d’information g´ eographique dans
des fonds documentaires textuels
Contexte
Sommaire
1.1 Introduction . . . . 7 1.2 Objectif : am´ eliorer la RIG en combinant des SRI existants 8 1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ ero-
g` enes de RI ? . . . . 11 1.4 Contributions : uniformisation g´ en´ erique, combinaison
personnalisable et ´ evaluations . . . . 12 1.5 Organisation du manuscrit . . . . 13
1.1 Introduction
Ce manuscrit pr´ esente mes travaux de th` ese financ´ es par la Communaut´ e d’Agglom´ e- ration de Pau Pyr´ en´ ees
1et r´ ealis´ es dans le Laboratoire d’Informatique de l’Universit´ e de Pau et des Pays de l’Adour (LIUPPA)
2, plus particuli` erement au sein de l’´ equipe Docu- ment ´ Electronique, S´ emantique et Interaction (DESI)
3devenue depuis fin 2009 l’´ equipe Traitement, Interaction, Information (T2I). Cette th` ese s’inscrit dans la continuit´ e des travaux de Julien Lesbegueries [Les07] ; elle vise l’acc` es ` a l’information par le contenu des documents.
Ces travaux ont ´ et´ e r´ ealis´ es sur une collection de livres num´ eris´ es et fournis par la M´ ediath` eque Intercommunale ` a Dimension R´ egionale (MIDR). Ce sont notamment des livres de type r´ ecits de voyages. Le tableau 1.1 pr´ esente des extraits d’un de ces livres. N´ eanmoins les approches propos´ ees ici pourraient s’appliquer ` a d’autres types de corpus contenant des informations g´ eographiques. Les tableaux 1.2 et 1.3 pr´ esentent deux exemples de requˆ etes effectu´ ees par des utilisateurs. Les exemples pr´ esent´ es dans ces trois tableaux serviront de support d’illustration aux diff´ erentes discussions men´ ees tout au long de ce manuscrit.
1. http://www.agglo-pau.fr
2. http://liuppa.univ-pau.fr
3. http://liuppa.univ-pau.fr/DESI/
Dans ce chapitre, nous allons nous int´ eresser au contexte de la th` ese, c’est ` a dire aux objectifs, probl´ ematiques, hypoth` eses ainsi qu’aux contributions vis´ ees.
1.2 Objectif : am´ eliorer la recherche d’information g´ eogra- phique en combinant des Syst` emes de RI existants
Aujourd’hui la Recherche d’Information (RI) est essentiellement focalis´ ee sur le Web.
En effet, sur Internet plus de 200 millions de sites web
4sont recens´ es. Les moteurs de recherche (Google, Bing, Exalead. . . ) proposent d’aider les utilisateurs ` a trouver ce qui les int´ eresse dans cette masse d’informations.
Une ´ etude r´ ealis´ ee sur les recherches scolaires a r´ ev´ el´ e que les trois cat´ egories princi- pales « de crit` eres de recherche » sont : bibliographie (personnes), chronologie (p´ eriodes) et g´ eographie (lieux) [MMBS09]. Plusieurs ´ etudes montrent une part non n´ egligeable d’informations g´ eographiques dans les requˆ etes des utilisateurs : pour les moteurs Ex- cite [SK04], AOL [GAMS08] et Yahoo [JZR
+08] cette proportion varie entre 12,7% et 18,6%. N´ eanmoins, les moteurs de recherche usuels ne permettent pas de prendre en compte la particularit´ e de certains types d’information, tels que le spatial ou le tem- porel. En effet, ils se limitent ` a la recherche de termes que l’utilisateur fournit dans sa requˆ ete. Si nous souhaitons trouver des documents relatant des ´ ev´ enements associ´ es au sud de Pau, le moteur ne va chercher que « sud » et « Pau ». Or un document ´ evoquant
« Juran¸con », qui est une commune limitrophe ` a celle de Pau, et situ´ ee ` a son sud, devrait aussi ˆ etre retourn´ e. De mˆ eme pour le temporel, si nous souhaitons trouver des documents d´ ecrivant des ´ ev´ enements relatifs au xx
esi` ecle, le moteur de recherche ne devrait pas seulement retourner les documents contenant « xx
esi` ecle » mais aussi ceux contenant
« 1901 »,« 1902 »,. . .
Les sites Web ne sont pas la seule source sur laquelle porte la recherche d’information.
En cette ` ere du tout num´ erique, la num´ erisation des documents papiers progresse en quantit´ e et en qualit´ e. Google par exemple, ` a travers son service Google Books
5, num´ erise massivement des livres et magazines qui sont ensuite mis ` a la disposition du grand public.
De plus, avec l’essor des livres ´ electroniques (appel´ es aussi « liseuses » ou encore e-books ), tels que le Kindle d’Amazon ou le Reader de Sony, ainsi que des tablettes PC, tels que certains EEE d’Asus ou l’Ipad d’Apple, les versions ´ electroniques des documents sont de plus en plus pl´ ebiscit´ ees. Cela permet de transporter et visualiser des centaines voire des milliers de documents sur une simple carte m´ emoire.
La num´ erisation s’est longtemps limit´ ee ` a la cr´ eation de simples versions ´ electro- niques, c’est ` a dire une image par page de livre, ce qui empˆ eche la moindre recherche et r´ eduit les interactions possibles avec ces versions ´ electroniques. Google Books soumet les versions num´ eris´ ees ` a des logiciels de reconnaissance de caract` eres et donc propose les textes contenus dans ces livres. Il est par cons´ equent, possible de rechercher des mots dans les livres ainsi num´ eris´ es.
4. http://news.netcraft.com/archives/2010/07/16/july-2010-web-server-survey-16.html
5. http://books.google.fr/books
— Paragraphe 443 (d1) —
Pendant que Russell courait le monde, une autre ´ etoile de la pl´ eiade, Charles Packe, appa- raissait ` a Gavarnie , cette mˆ eme ann´ ee 1858 . [. . . ] A Gavarnie , il y a moins ` a d´ ecouvrir qu’ailleurs et le Grand Cirque, d’apr` es lui, avait depuis longtemps perdu le prestige et le charme de l’inconnu.
— Paragraphe 446 (d2) —
Donc, d` es son retour, fin de 1861 , avec Laurent Passet, guide de Gavarnie , il va faire l’ascension du Vignemale , sa premi` ere.
— Paragraphe 461 (d3) —
[. . . ] Russell d´ ecide superbement : le Vignemale , pr` es de Gavarnie . Le Vignemale , le plus haut point o` u l’on puisse atteindre par territoire fran¸ cais. Et lorsque, en 1880 , Russell fait sa cinqui` eme ascension du Vignemale , c’est pour d´ eterminer le point pr´ ecis o` u il am´ enagera une grotte.
— Paragraphe 469 (d4) —
Le 8 aoˆ ut 1903 , Henri Russell accomplit sa trente-troisi` eme ascension et redescend avec tristesse ` a Gavarnie , abandonnant pour la derni` ere fois son glacier, ses grottes et cette cime qui ´ etait son idole. Mais son souvenir plane toujours sur cette belle montagne et sa silhouette s’´ evoque comme celle du roi conqu´ erant, possesseur du roc, et po` ete du Vignemale .
— Paragraphe 518 (d5) —
Cette musique improvis´ ee me remet en m´ emoire l’histoire du compositeur Musard qui eut vers 1840 son heure de c´ el´ ebrit´ e. Il fit plusieurs voyages aux Pyr´ en´ ees ; les montagnes l’inspiraient, disait-il, dans ses compositions musicales.[. . . ]
— Paragraphe 592 (d6) —
A ce propos, l’autre soir, au refuge, nous avions le plaisir de causer avec de savants camarades
— de vrais montagnards ceux-l` a — qui connaissent la montagne encore mieux que moi, puisqu’ils l’´ etudient sous tous ses aspects : sur terre, sous terre et au fond des lacs. Nous discutions sur le mot : alpiniste, employ´ e aux quatre coins du monde pour d´ esigner les sportsmen qui « font de la montagne ». On se sert dans les Pyr´ en´ ees avec raison du mot pyr´ en´ eiste ; mais cette expression est rest´ ee strictement r´ egionale. La raison en est que la renomm´ ee des Alpes et des ascensions alpines a ´ et´ e consacr´ ee avant celle des Pyr´ en´ ees, et surtout parce que, ce vocable d’origine latine a ´ et´ e r´ epandu dans toute la Gaule par les arm´ ees romaines pour d´ esigner les sommets qui leur rappelaient les hautes montagnes bornant l’ancienne Italie . La d´ enomination d’ « Alpes » a donc ´ et´ e appliqu´ ee ` a l’´ epoque romaine ` a toute r´ egion de montagnes en dehors mˆ eme des Alpes proprement dites. C’est ainsi que le mot « alpage » est ´ egalement utilis´ e un peu partout dans le sens des pˆ aturages ou d’herbages dans la montagne, mˆ eme dans les Pyr´ en´ ees , bien qu’ici le mot vulgaire, pour cette d´ esignation, soit celui de « port »
Table 1.1 – Extraits du livre : « Excursions autour du Vignemale dans les hautes vall´ ees
de Cauterets, de Gavarnie et du Rio Aran en Aragon » [Mei87]
« les risques accidentels en montagne si possible li´ es ` a des balades ou randonn´ ees »
Table 1.2 – Exemple de requˆ ete multicrit` ere th´ ematique
« documents sur les montagnes des Pyr´ en´ ees entre 1800 et 1900 mais pas sur Gavarnie et si possible sans rapport avec les ascensions »
Table 1.3 – Exemple de requˆ ete multicrit` ere g´ eographique
De plus en plus d’organismes tels que des m´ ediath` eques ou mus´ ees se sont lanc´ es dans des campagnes de num´ erisations et d’oc´ erisation de leurs collections. Le but est donc de permettre aux utilisateurs d’effectuer des recherches depuis n’importe o` u (m´ e- diath` eque, domicile, t´ el´ ephone, . . . ) grˆ ace ` a une interface Web, sur tous les ouvrages de leur collection. Cela permet notamment de consulter des œuvres rares ou trop abim´ ees pour ˆ etre accessibles physiquement par tous.
Nous nous pla¸ cons dans ce contexte de recherche d’information appliqu´ ee ` a des corpus de documents patrimoniaux num´ eris´ es compos´ es de journaux, lithographies, romans, r´ ecits de voyages, . . . Dans le cadre de ce travail de th` ese, nous nous limitons aux r´ ecits de voyages qui sont de longs documents (plusieurs centaines de pages) et qui contiennent de nombreuses ´ evocations spatiales et temporelles (notamment sur les Pyr´ en´ ees aux xviii- xix
esi` ecles). Il faut noter que ces documents, fournis par la MIDR, ont ´ et´ e oc´ eris´ es avec perte de la structure logique. Seules les ruptures de ligne ont ´ et´ e conserv´ ees et nous les avons consid´ er´ ees comme des marques de fin de paragraphe. De par la longueur de ces documents et ´ etant donn´ ee l’absence de leur structure, le point d’entr´ ee choisi est le paragraphe. Ainsi, lorsqu’un utilisateur effectue une recherche, le moteur lui retourne l’ensemble des paragraphes pertinents provenant des documents du corpus. N´ eanmoins, pour chaque information extraite, un lien est conserv´ e vers l’expression, le paragraphe et le document. Ainsi il est possible d’envisager des sc´ enarios de navigation dans l’ensemble du document ` a partir d’un paragraphe.
Concernant les usagers, nous distinguons plusieurs cat´ egories potentiellement int´ e- ress´ ees par une recherche proposant des crit` eres g´ eographiques :
– les ´ erudits, par exemple des historiens, souhaitant retrouver des informations pr´ e- cises sur un lieu ou une date.
– les archivistes pour, par exemple, am´ eliorer les annotations des documents.
– les enseignants et leurs ´ el` eves pour, par exemple, g´ en´ erer l’itin´ eraire d´ ecrit dans un livre de type r´ ecit de voyage.
– les touristes pour, par exemple, d´ eterminer quelles sont les activit´ es, monuments ou
autres, accessibles dans un lieu donn´ e (« gorges au sud de Laruns », « r´ esurgences
autour de Pau », . . . ).
– n’importe quel utilisateur souhaitant chercher des informations avec des crit` eres spatiaux ou temporels.
L’utilisation de traitements conduisant ` a des index pr´ ecis et adapt´ es ` a chaque type d’information (spatiale, temporelle et th´ ematique) permet de r´ epondre aux diff´ erents besoins des utilisateurs. Notre objectif est ainsi d’am´ eliorer la recherche d’information g´ eographique en combinant les r´ esultats obtenus par des traitements spatiaux et tempo- rels d´ edi´ es et des strat´ egies classiques de recherche d’information g´ en´ eralement utilis´ ees pour des crit` eres th´ ematiques. Il est donc n´ ecessaire de d´ eterminer la m´ ethode la plus ad´ equate pour combiner des telles informations.
1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ erog` enes de RI ?
L’h´ et´ erog´ en´ eit´ e des donn´ ees contenues dans certains documents (par exemple multi- m´ edias) n´ ecessite leur d´ ecomposition en plusieurs crit` eres. Par exemple, pour une vid´ eo, elle sera d´ ecompos´ ee en un certain nombre d’images et une bande sonore (pouvant ˆ etre convertie en texte s’il s’agit de discours). De mˆ eme, l’h´ et´ erog´ en´ eit´ e des donn´ ees repr´ e- sentant certaines informations n´ ecessite leur d´ ecomposition en plusieurs crit` eres. Par exemple, selon [Use96,Gai01] l’information g´ eographique peut ˆ etre d´ ecompos´ ee en trois facettes : le spatial, le temporel et le th´ ematique.
Nous avons choisi de traiter chacune de ces facettes
6sp´ ecifiquement et de mani` ere ind´ ependante, comme pr´ econis´ e dans de nombreux travaux en Recherche d’Information G´ eographique (RIG) tels que [CJP06,MSA05]. Nous avons donc un syst` eme de RIG d´ edi´ e conduisant ` a des index pr´ ecis (contrairement ` a GeoNames qui propose des index moins pr´ ecis, notamment de part la nature ponctuelle des repr´ esentations) et des m´ ethodes de calcul adapt´ ees pour chacune des facettes. Si nous souhaitons traiter des requˆ etes g´ eo- graphiques portant sur diff´ erents crit` eres
7(telle que la requˆ ete du tableau 1.3 page 10), il est n´ ecessaire de combiner les r´ esultats issus de chacun des Syst` emes de Recherche d’Information (SRI) utilis´ es. Notre probl´ ematique principale est de trouver comment r´ ealiser cette combinaison. N´ eanmoins, comme nous allons le voir par la suite, en RIG, les approches de combinaisons sont peu nombreuses et non flexibles. Un utilisateur ne peut pas param´ etrer cette combinaison, par exemple, en favorisant un crit` ere.
Comme nous venons de l’indiquer, nous avons, d’une part, des index contenant des repr´ esentations de donn´ ees et, d’autre part, des m´ ethodes de calcul adapt´ ees ` a chacune des facettes de l’information g´ eographique. Cette h´ et´ erog´ en´ eit´ e des repr´ esentations et des m´ ethodes de calcul implique la n´ ecessit´ e de les homog´ en´ eiser. Il faut donc les uniformiser afin de les combiner comme le pr´ econisent Malczewski et al. [MCF
+03] et Pham et al. [PMLC07]. Actuellement, les Syst` emes de Recherche d’Information (SRI) classiques
6. Le terme facette d´ esignera l’une des trois composantes g´ eographiques que sont le spatial, le temporel et le th´ ematique.
7. Un crit` ere est une partie de la requˆ ete pouvant porter sur une facette g´ eographique. Il faut noter
qu’une requˆ ete peut contenir plusieurs crit` eres d’une mˆ eme facette. Par exemple, la requˆ ete du tableau 1.3
page 10 contient deux crit` eres spatiaux.
traitent la facette th´ ematique de mani` ere simplifi´ ee par des approches statistiques bas´ ees sur les termes. Or, Pham et al. [PMLC07] proposent d’imiter ces approches utilis´ ees pour les termes (troncature, calculs de poids bas´ es sur les fr´ equences et mod` ele vectoriel de Salton [Sal71]) afin d’appliquer des adaptations de ces traitements aux images. Nous pensons que les diff´ erentes facettes de l’information g´ eographique peuvent aussi ˆ etre homog´ en´ eis´ ees de mani` ere similaire aux approches appliqu´ ees aux termes. Par la suite, nous nous limiterons donc ` a l’´ etude des approches bas´ ees sur le calcul de statistiques.
En recherche d’information classique, les requˆ etes peuvent contenir plusieurs mots cl´ es. Les moteurs de recherches actuels (tels que Google ou Terrier [OAP
+05]) permettent de faire deux types de recherche. La recherche standard se base sur des approches clas- siques de type TF·IDF et produit scalaire telles que pr´ esent´ es dans le chapitre 2. Ici la requˆ ete est constitu´ ee uniquement de mots cl´ es. La recherche ´ etendue permet d’ajouter des contraintes sur les diff´ erents ´ el´ ements de la requˆ ete. Parmi les op´ erateurs existants, nous pouvons notamment citer :
– + : exprime une exigence, le terme qui suit l’op´ erateur doit ˆ etre pr´ esent dans un document r´ esultat ;
– − : exprime une exclusion, le terme qui suit l’op´ erateur ne doit pas ˆ etre pr´ esent dans un document r´ esultat ;
– ˆ: exprime une pr´ ef´ erence, cet op´ erateur associe un coefficient r´ eel qui valorise la pr´ esence de ce terme dans un document r´ esultat. Il faut noter que Google n’offre g` ere pas cet op´ erateur.
La combinaison des diff´ erents ´ el´ ements de la requˆ ete ´ etant facilit´ ee par l’homog´ en´ eit´ e de ces derniers (uniquement des mots cl´ es), ces moteurs permettent ` a un utilisateur de pr´ eciser sa requˆ ete et de param´ etrer de telles combinaisons via des contraintes. N´ ean- moins, il faut noter que le classement des r´ esultats est souvent opaque. Les moteurs ne sp´ ecifient pas, dans l’ensemble r´ esultat pr´ esent´ e, quels sont les crit` eres qui ont ´ et´ e satisfaits et dans quelle mesure ils l’ont ´ et´ e. Nous pensons qu’il est possible d’´ etendre la combinaison de crit` eres g´ eographiques de mani` ere similaire via des contraintes.
Enfin, concernant la recherche d’information g´ eographique, nous avons pu constater que les syst` emes existants n’´ evaluent que partiellement le gain apport´ e par la combinai- son des diff´ erentes facettes de l’information g´ eographique. Notre hypoth` ese est que la combinaison de ces diff´ erentes facettes am´ eliore la pertinence des r´ esultats de mani` ere significative. N´ eanmoins, comme nous allons le voir par la suite, il n’existe pas de cadre d’´ evaluation de syst` emes de RIG.
1.4 Contributions : uniformisation g´ en´ erique, combinaison personnalisable et ´ evaluations
Dans notre ´ equipe, une chaˆıne de traitement spatiale permettant de bˆ atir des index
spatiaux et supportant une approche de recherche d’information spatiale a ´ et´ e mise
en place dans le prototype PIV par Julien Lesbegueries [Les07]. De la mˆ eme mani` ere,
une chaˆıne de traitement temporelle g´ en´ erant des index temporels et supportant une
approche de recherche d’information temporelle a ´ et´ e mise en place pour le prototype
PIV par Annig Le Parc-Lacayrelle [LGS07]. Pour la facette th´ ematique, il existe de nombreux syst` emes de recherche d’information tel que Terrier
8permettant de travailler sur les termes. Nous disposons donc d’un prototype (PIV) contenant deux chaˆınes de traitements ind´ ependantes et de SRI d´ edi´ es aux termes.
A travers nos diff´ ` erentes contributions nous proposons une alternative aux approches actuellement utilis´ ees en recherche d’information g´ eographique. Ces contributions sont : 1. Une approche d’uniformisation g´ en´ erique que nous appliquons ` a l’information spa- tiale ou ` a l’information temporelle extraite des documents en vue de leur indexa- tion. Il s’agit de mettre en œuvre une strat´ egie similaire ` a celles appliqu´ ees en RI classique sur les termes (lemmatisation/troncature, calculs de poids bas´ es sur les fr´ equences et mod` ele vectoriel de Salton [Sal71]).
2. L’´ evaluation de la combinaison des diff´ erentes facettes de l’information g´ eogra- phique en RI et la quantification de l’apport de cette combinaison. Pour cela, nous proposons, dans un premier temps, d’utiliser des approches lin´ eaires standards ayant fait leurs preuves en RI classique.
3. Une approche de combinaison, originale et g´ en´ erique, bas´ ee sur les contraintes et que nous appliquons ` a la RIG. Le but est de permettre ` a un utilisateur de personnaliser la combinaison en sp´ ecifiant des contraintes pour chaque crit` ere.
4. Un cadre exp´ erimental permettant d’´ evaluer un SRI g´ eographique.
1.5 Organisation du manuscrit
La partie suivante d´ ecrit l’´ etat de l’art sur lequel nous nous sommes appuy´ es. Dans le premier chapitre de cette partie, sont introduites les notions requises relatives ` a l’infor- mation g´ eographique et la recherche d’information, ainsi qu’un comparatif des syst` emes existants. Dans le chapitre suivant, nous pr´ esentons diff´ erentes m´ ethodes de combinaison existantes, pas n´ ecessairement d´ edi´ ees ` a l’information g´ eographique. Pour terminer cette partie, le dernier chapitre illustre diff´ erentes approches existantes pour uniformiser des crit` eres avant de mettre en œuvre des strat´ egies de combinaison.
La troisi` eme partie d´ etaille notre contribution. Dans un premier chapitre, est pr´ esen- t´ ee notre approche g´ en´ erique d’uniformisation, appliqu´ ee au spatial ainsi qu’au tempo- rel. Le chapitre qui suit pr´ esente nos propositions pour combiner ces diff´ erents crit` eres g´ eographiques. Ensuite un chapitre pr´ esente les prototypes mis au point, et un dernier d´ etaille nos exp´ erimentations.
La derni` ere partie contient une synth` ese de ce m´ emoire et propose des perspectives pour la suite de ces travaux.
8. http://ir.dcs.gla.ac.uk/terrier/
Etat de l’Art : de l’information ´ g´ eographique dans des documents
textuels ` a la recherche
d’information combinant des crit` eres spatiaux, temporels et
th´ ematiques
Cette deuxi` eme partie s’organise en 3 chapitres. Dans un premier chapitre, nous d´ ecrivons les diff´ erentes op´ erations n´ ecessaires ` a la Recherche d’Information standard mais aussi ` a la Recherche d’Information G´ eographique : extraction, indexation, recherche d’information ainsi qu’´ evaluation. Dans ce premier chapitre les syst` emes de RIG les plus repr´ esentatifs sont pr´ esent´ es.
Dans un deuxi` eme chapitre, nous nous int´ eressons ` a la combinaison de crit` eres. ´ Etant donn´ e que peu d’approches existent en RIG, nous nous sommes int´ eress´ es ` a la combi- naison de crit` eres dans d’autres domaines. En Recherche d’Information Multim´ edia, la fusion de crit` eres permet de combiner des informations provenant de documents de diff´ e- rents types (exemple : images et textes). Pour l’aide ` a la d´ ecision, l’agr´ egation de crit` eres permet de proposer ` a un utilisateur les choix les plus proches de ses exigences (tous les crit` eres ne pouvant pas ˆ etre n´ ecessairement satisfaits en mˆ eme temps).
Dans un dernier chapitre, nous pr´ esentons les diff´ erentes approches d’uniformisation
existantes et mises en œuvre en amont de la combinaison de crit` eres. La normalisation
utilis´ ee en Recherche d’Information permet de borner les scores de pertinences des docu-
ments (entre 0 et 1 g´ en´ eralement). La g´ en´ eralisation, utilis´ ee en Recherche d’Information
Multim´ edia, permet de r´ eduire le nombre d’informations en ´ eliminant les d´ etails. La stan-
dardisation, pour l’aide ` a la d´ ecision multicrit` ere, permet de convertir des ´ evaluations
qualitatives (par exemple : la couleur d’une voiture) en ´ evaluations quantitatives (par
exemple : 1 pour bleu et rouge, 0,7 pour orange et jaune, . . . ). Concernant l’informa-
tion g´ eographique, il existe une approche de focalisation spatiale qui consiste ` a r´ eduire
l’ensemble des informations spatiales d’un document en une seule.
Traitement automatique de l’information g´ eographique dans
des documents textuels dans un but de recherche d’information
Sommaire
2.1 Introduction . . . . 20 2.2 L’information g´ eographique dans des textes . . . . 20 2.3 Mod´ elisation de l’information g´ eographique exprim´ ee
dans des documents textuels . . . . 23 2.3.1 Langages de mod´ elisation pour l’information spatiale . . . 25 2.3.2 Langages de mod´ elisation pour l’information temporelle . 27 2.4 Extraction et Indexation dans un but de Recherche d’In-
formation G´ eographique . . . . 28 2.4.1 Extraction d’Information dans un but de Recherche d’In-
formation G´ eographique . . . . 28 2.4.2 Indexation d’Information dans un but de Recherche d’In-
formation G´ eographique . . . . 31 2.4.3 Recherche d’Information G´ eographique (RIG) dans les do-
cuments textuels . . . . 33 2.4.4 Evaluation d’un Syst` ´ eme de Recherche d’Information G´ eo-
graphique . . . . 36 2.5 Syst` emes d´ edi´ es ` a la Recherche d’Information G´ eogra-
phique . . . . 38
2.6 Conclusion . . . . 40
2.1 Introduction
Dans ce chapitre, nous allons consid´ erer en d´ etail en quoi consiste le traitement de l’in- formation, plus particuli` erement de l’information g´ eographique textuelle. Tout d’abord, nous allons d´ efinir l’information g´ eographique textuelle. Ensuite les principales mod´ eli- sations et langages de mod´ elisations g´ eographiques textuels seront expos´ es. Puis nous expliciterons les diff´ erentes ´ etapes li´ ees au traitement automatique de l’information g´ eo- graphique (extraction, indexation, recherche d’information). Pour finir nous ´ evoquerons les principaux Syst` emes de Recherche d’Information G´ eographiques existants. Comme indiqu´ e dans le chapitre pr´ ec´ edent, nous nous limiterons ` a l’´ etude des approches bas´ ees sur les statistiques car nous souhaitons les r´ eutiliser pour les informations spatiales et temporelles.
2.2 L’information g´ eographique dans des textes
Le mot information peut avoir diverses significations selon le contexte dans lequel il est utilis´ e. Au sens ´ etymologique, l’information est l’action de donner une forme. Au niveau du langage, une information est constitu´ ee d’une ou plusieurs donn´ ee(s), bien form´ ee(s) et porteuse(s) de sens [Flo09]. La recherche d’information traditionnelle uti- lise pour repr´ esenter l’information contenue dans un document des mots-cl´ es ou plus g´ en´ eralement des termes
9[BYRN99].
« Selon Goodchild [LGMR05], le probl` eme fondamental de l’information g´ eogra- phique est que celle-ci lie un espace, souvent un instant et quelquefois des propri´ e- t´ es descriptives. Il utilise une m´ etaphore de la chimie en soulignant le caract` ere ato- mique des composantes spatiales, temporelles et descriptives de l’information g´ eogra- phique » [Lou08]. L’information g´ eographique, peut donc se d´ efinir comme un en- semble de trois facettes : th` eme, espace et temps [Use96,Gai01,Lou08]. Elle peut se repr´ e- senter sous diff´ erentes formes : repr´ esentation graphique (pour le spatial par exemple en 2D (carte) ou 3D (avec les ´ el´ evations)), repr´ esentation textuelle (sous forme d’expression) ou encore repr´ esentation sous forme de donn´ ees (tuples dans une base de donn´ ees).
Dans notre cas, nous travaillons sur l’information g´ eographique repr´ esent´ ee sous forme textuelle. Cette information est donc dilu´ ee dans le discours, ce qui rend diffi- cile son extraction. Par exemple, dans l’extrait suivant : « Le 8 aoˆ ut 1903, Henri Russell accomplit sa trente-troisi` eme ascension et redescend avec tristesse ` a Gavarnie. » (ta- bleau 1.1 page 9), un lieu est mentionn´ e (Gavarnie) mais il n’est pas pr´ ecis´ e s’il s’agit de la commune, du Cirque ou encore de la station de ski. La figure 2.1 illustre l’informa- tion g´ eographique avec un exemple textuel. Dans cet exemple, l’information spatiale est
9. Un terme est un mot ou groupe de mots ayant du sens. Il est qualifi´ e de mot-cl´ e lorsqu’il a ´ et´ e
pr´ es´ electionn´ e [BYRN99].
repr´ esent´ ee par « au sud de Pau ». Ce syntagme
10permet de retrouver uniquement les documents traitant du « sud » et de « Pau ». Cette mˆ eme information spatiale repr´ esent´ ee par une g´ eom´ etrie 2D pourra retourner beaucoup d’informations (documents ´ evoquant Juran¸con, Gan, . . . ) grˆ ace ` a des op´ erateurs spatiaux adapt´ es (tels que la translation et l’intersection). Cette limite est aussi vraie pour les autres facettes. Pour le temporel,
« xx
esi` ecle » repr´ esent´ ee par un intervalle de temps permet de retourner toutes les dates ou p´ eriodes qui s’y rapportent (par exemple : 1905, ´ et´ e 1960, . . . ).
Figure 2.1 – Information G´ eographique
Ces trois facettes doivent toujours exister. N´ eanmoins dans une unit´ e documentaire (dans notre cas le paragraphe), certaines facettes peuvent ne pas ˆ etre pr´ esentes ou de mani` ere implicite. Par exemple, une information temporelle peut ˆ etre indiqu´ ee dans un paragraphe et ne pas ˆ etre r´ ep´ et´ ee dans ceux qui suivent ou uniquement de mani` ere partielle.
Pour ne pas se restreindre ` a ces repr´ esentations textuelles, il est donc n´ ecessaire d’identifier ces informations g´ eographiques et de les convertir en donn´ ees permettant de tirer parti de leur sp´ ecificit´ e. Un traitement bas´ e sur une analyse s´ emantique du texte permet de d´ etecter les informations spatiales (ou temporelles) d’un document et de leur associer une repr´ esentation symbolique (tel que « au sud de Pau » est une repr´ esentation de type orientation appliqu´ ee ` a la commune de Pau). N´ eanmoins, pour pouvoir r´ ealiser, lors de la recherche, des op´ erations spatiales (calcul d’intersection par exemple), il est n´ ecessaire de calculer une repr´ esentation num´ erique. Les informations d´ etect´ ees peuvent ˆ
etre subjectives ou d´ ependantes du contexte d’invocation, donc les repr´ esentations nu- m´ eriques associ´ ees impliquent toujours une certaine approximation.
Ainsi, de mani` ere g´ en´ erale, l’information spatiale d´ etect´ ee dans un syntagme nominal est successivement repr´ esent´ ee sous forme textuelle, symbolique et enfin num´ erique (voir figure 2.2). La validation et l’approximation num´ erique d’une telle information spatiale
10. Un syntagme est un regroupement de mots. C’est donc une unit´ e interm´ ediaire entre le mot et la
phrase [RPR99]
n´ ecessite l’usage de bases de connaissances particuli` eres : dictionnaires spatiaux (gazet- teers) pouvant ˆ etre manipul´ es via des outils d´ edi´ es tel que les Syst` emes d’Information G´ eographiques (SIG). Un gazetteer est une liste de noms de lieux associ´ es ` a leur loca- lisation (coordonn´ ees). A ces lieux peuvent ˆ etre aussi pr´ ecis´ ees diverses caract´ eristiques (par exemple statistiques tels que la population, ou physiques tels que le relief). Prenons l’exemple du gazetteer Geonames
11, chaque entr´ ee est d´ ecrite par un nom, un pays, un type (parc, lac, montagne, ville, . . . ), une latitude et une longitude. Le tableau 2.1 montre les propri´ et´ es de la ville de Pau sur Geonames. Un syst` eme d’information g´ eographique permet d’une part de stocker des donn´ ees spatiales, et, d’autre part d’utiliser des op´ e- rateurs pour les manipuler (intersection, distance, . . . ). Les donn´ ees spatiales peuvent ˆ etre plus ou moins pr´ ecises : uniquement des points (latitude/longitude par exemple), seulement les coordonn´ ees du rectangle d´ elimitant l’information spatiale (on parle de boˆıte englobante ou MBR pour Minimum Bounding Rectangle en anglais), ou encore la forme g´ eom´ etrique fine (tel qu’un polygone) (voir tableau 2.2).
Figure 2.2 – Traitement de l’information spatiale
Propri´ et´ e Valeur
Nom Pau
Pays France, Aquitaine
Classe lieu habit´ e, population 82 697 Latitude N 43˚18’ 0”
Longitude W 0˚22’ 0”
Table 2.1 – Entr´ ee « Pau » dans Geonames
11. http://www.geonames.org/
Table 2.2 – Exemple de repr´ esentations possibles pour Aquitaine (respectivement : centro¨ıde, boˆıte englobante (MBR) et polygone)
Pour l’information temporelle, le principe est le mˆ eme : d´ etect´ ee dans un syntagme nominal, elle est successivement repr´ esent´ ee sous forme textuelle, symbolique puis num´ e- rique (ici ce sont des intervalles de temps et non des points ou g´ eom´ etries). Pour traiter l’information calendaire il est aussi n´ ecessaire de disposer de bases de connaissance, n´ eanmoins moins complexes que pour le spatial.
Enfin concernant la facette th´ ematique, l’information reste g´ en´ eralement limit´ ee aux termes utilis´ es en recherche d’information standard. N´ eanmoins des termes diff´ erents peuvent couvrir des th` emes identiques (exemple : automobile et voiture). Cette approche peut ˆ etre compl´ et´ ee par des ressources externes (th´ esaurus, ontologies) contenant des liens de synonymie ou hi´ erarchiques (voir figure 2.3). Nous envisageons la combinaison des facettes spatiales, temporelles et th´ ematiques. Toutefois pour le th´ ematique, nous utiliserons les mod` eles et outils de RI classiques. Aussi, ne nous d´ etaillerons pas davantage la facette th´ ematique qui se limitera ` a l’exploitation des termes.
Maintenant que nous avons pr´ esent´ e l’information g´ eographique dans des documents textuels, nous allons nous int´ eresser aux travaux relatifs ` a la mod´ elisation de cette in- formation.
2.3 Mod´ elisation de l’information g´ eographique exprim´ ee dans des documents textuels
L’information g´ eographique, de par sa sp´ ecificit´ e, n´ ecessite l’usage d’une mod´ elisation
adapt´ ee ` a chacune de ses facettes. Les traitements appliqu´ es pour extraire l’information
g´ eographique de discours textuels ´ etant limit´ es, les mod` eles utilis´ es sont g´ en´ eralement
succincts et formels. Dans ce contexte, pour le spatial, un mod` ele de r´ ef´ erence est RCC-8
(Region Connection Calculus ) [RCC92,Les07] qui d´ efinit huit relations entre deux r´ egions
x et y, telles que le recouvrement partiel ou l’´ egalit´ e (voir figure 2.4 pour les diff´ erentes
Figure 2.3 – Exemple de liens hi´ erarchiques pouvant ˆ etre exprim´ es dans une ontologie
relations topologiques). Il existe des extensions permettant de prendre en compte les repr´ esentations lin´ eaires [EMH94]. Pour le temporel, un mod` ele de r´ ef´ erence est celui propos´ ee par Allen mettant en œuvre les relations entre intervalles de temps [All84, MT04] (voir figure 2.5 pour les diff´ erentes relations temporelles).
Figure 2.4 – Les 8 relations topologiques pouvant exister entre 2 r´ egions x et y selon le mod` ele RCC-8 [RCC92] (illustration extraite de [Les07])
Concernant les langages de mod´ elisation pour l’information g´ eographique textuelle, nous pouvons distinguer plusieurs types en fonction de leur finalit´ e : ´ echange ou descrip- tion des connaissances. La plupart sont r´ ealis´ ees en XML (eXtensible Markup Language ), qui est un langage de balisage g´ en´ erique permettant de structurer l’information [BB99].
Dans cette section, nous prendrons l’exemple de l’information spatiale « au sud de Pau »
pour illustrer les diff´ erents marquages spatiaux. De mˆ eme, pour le temporel nous utili-
Figure 2.5 – Relations d’Allen [All84] (illustration extraite de [MT04])
serons l’exemple « d´ ebut de janvier 2010 ». Ces repr´ esentations num´ eriques n´ ecessitent d’ˆ etre calcul´ ees.
2.3.1 Langages de mod´ elisation pour l’information spatiale
Un langage de mod´ elisation spatial de type format d’´ echange tr` es r´ epandu est le Geography Markup Language (GML). D´ efinit par l’OGC
12, il permet de stocker des objets g´ eographiques, plus particuli` erement les g´ eom´ etries correspondantes (repr´ esenta- tions num´ eriques). GML a par ailleurs ´ et´ e con¸ cu pour ˆ etre utilis´ e dans d’autres langages XML. Il g` ere uniquement les repr´ esentations num´ eriques (donc pas de repr´ esentations symboliques). Le listing 2.1 illustre le code GML de la repr´ esentation « au Sud de Pau ».
Comme nous pouvons le voir, nous avons un objet de type polygone (« <gml:Polygon> ») et les latitudes/longitudes de ses diff´ erents points.
Listing 2.1 – Exemple de GML (au sud de Pau)
1 <gml : Polygon>
2 <gml : o u t e r B o u n d a r y I s>
3 <gml : L i n e a r R i n g>
4 <gml : c o o r d i n a t e s>
5 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2
6 −0 . 3 9 2 7 4 3 2 5 9 8 1 0 5 1 3 , 4 3 . 3 0 6 1 3 1 7 7 9 6 0 9 8
7 −0 . 2 9 4 2 3 1 8 0 9 3 1 5 0 8 1 , 4 3 . 3 0 8 5 8 6 3 4 9 8 9 8 9
8 −0 . 2 9 0 9 5 0 7 7 9 5 4 4 8 6 8 , 4 3 . 2 3 6 9 5 8 4 5 5 8 2 2 4
9 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2
10 </gml : c o o r d i n a t e s>
11 </gml : L i n e a r R i n g>
12 </gml : o u t e r B o u n d a r y I s>
13 </gml : Polygon>
12. L’Open Geospatial Consortium (OGC) est un consortium international proposant des formats
ouverts sur l’information g´ eographique
Keyhole Markup Language (KML)
13, est un autre langage de mod´ elisation spatial de type format d’´ echange tr` es r´ epandu. D´ efini ´ egalement par l’OGC, il est notamment utilis´ e dans GoogleMaps ou GoogleEarth. Tout comme le GML, il g` ere uniquement les repr´ esentations num´ eriques, par contre il peut d´ ecrire des styles associ´ es aux repr´ esen- tations (couleur, ´ epaisseur des bordures, . . . ). Le listing 2.2 illustre le code KML de la repr´ esentation « au Sud de Pau ». Comme dans l’exmple du GML listing 2.1, nous avons un objet de type polygone (« <Polygon> ») et les latitudes/longitudes de ses diff´ erents points. La principale diff´ erence est qu’aux coordonn´ ees sont associ´ ees des informations pour la visualisation (couleur rouge, trait ´ epais).
Listing 2.2 – Exemple de KML (au sud de Pau)
1 <kml>
2 <Document>
3 <S t y l e i d =”r e d L i n e ”>
4 <L i n e S t y l e><c o l o r>f f 0 0 0 0 f f</ c o l o r><width>4</width></L i n e S t y l e>
5 </ S t y l e>
6 <Placemark>
7 <s t y l e U r l>#r e d L i n e</ s t y l e U r l>
8 <Polygon>
9 <o u t e r B o u n d a r y I s>
10 <L i n e a r R i n g>
11 <c o o r d i n a t e s>
12 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2
13 −0 . 3 9 2 7 4 3 2 5 9 8 1 0 5 1 3 , 4 3 . 3 0 6 1 3 1 7 7 9 6 0 9 8
14 −0 . 2 9 4 2 3 1 8 0 9 3 1 5 0 8 1 , 4 3 . 3 0 8 5 8 6 3 4 9 8 9 8 9
15 −0 . 2 9 0 9 5 0 7 7 9 5 4 4 8 6 8 , 4 3 . 2 3 6 9 5 8 4 5 5 8 2 2 4
16 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2
17 </ c o o r d i n a t e s>
18 </L i n e a r R i n g>
19 </o u t e r B o u n d a r y I s>
20 </Polygon>
21 </Placemark>
22 </Document>
23 </kml>
SpatialML
14[MHR
+08] est un langage de marquage spatial de type description des connaissances. Il a ´ et´ e d´ evelopp´ e par l’organisation am´ ericaine MITRE
15. SpatialML g` ere les repr´ esentations num´ eriques des lieux (balise PLACE). Par contre, pour les relations spatiales (balises SIGNAL et LINK), il ne stocke que des repr´ esentations symboliques (voir figure 2.2 page 22 pour les diff´ erents types de repr´ esentations). Le listing 2.3 illustre le code SpatialML de la repr´ esentation « au Sud de Pau ». Comme nous pouvons le voir, la ville de Pau a ´ et´ e identifi´ ee et des coordonn´ ees lui ont ´ et´ e associ´ ees ; la relation d’orientation (sud) a aussi ´ et´ e identifi´ ee mais il n’y a pas de repr´ esentation num´ erique associ´ ee.
Listing 2.3 – Exemple de SpatialML (au sud de Pau)
1 <SIGNAL i d =”1” t y p e =”DIRECTION”>sud</SIGNAL>
2 <PLACE i d =”2” c o u n t r y =”FR” form =”NAM” l a t l o n g = ”4 3 . 3 0 1 6 6 7N −0.368611W”>Pau</
PLACE>
13. http://www.opengeospatial.org/standards/kml/
14. https://spatialml.mitre.org/
15. http://www.mitre.org/
3 <PLACE i d =”3” />
4 <RLINK i d =”4” d i s t a n c e =2 d i r e c t i o n =”S ” s o u r c e =”2” t a r g e t =”3” s i g n a l s =”1”/>
2.3.2 Langages de mod´ elisation pour l’information temporelle
Pour l’information temporelle, le langage de mod´ elisation textuel le plus r´ epandu est TIMEX3 (successeur de TIMEX2). Il permet de repr´ esenter num´ eriquement des informations temporelles au format standard ISO-8601 [Man03]. Les listing 2.4 illustre le code TIMEX3 de la repr´ esentation « d´ ebut de janvier 2010 ».
Listing 2.4 – Exemple de TIMEX3 (d´ ebut de janvier 2010)
1 <TIMEX3 t i d =”t 2 ” t y p e =”DATE” v a l u e =”2010−01−10” />
2 <TIMEX3 t i d =”t 3 ” t y p e =”DURATION” v a l u e =”P15D ” b e g i n P o i n t =”t 1 ” e n d P o i n t =”t 2 ” />
Pour le marquage temporel, il existe un ´ equivalent ` a SpatialML : TimeML
16[PCI
+03, PKLS05]. Il utilise TIMEX3 pour le marquage des donn´ ees temporelles. Tout comme SpatialML il marque les relations temporelles mais ne leur associe que des repr´ esentations symboliques (pas de repr´ esentations num´ eriques). Le listing 2.5 illustre le code TimeML de la repr´ esentation « d´ ebut de janvier 2010 ». Comme nous pouvons le voir, la date
« janvier 2010 » a ´ et´ e identifi´ ee et une repr´ esentation num´ erique lui a ´ et´ e associ´ ee ; la relation temporelle d’inclusion (d´ ebut) a aussi ´ et´ e identifi´ ee mais il n’y a pas de repr´ esentation num´ erique associ´ ee.
Listing 2.5 – Exemple de TimeML (d´ ebut de janvier 2010)
1 <SIGNAL s i d =”s 1 ”>debut</SIGNAL>
2 de
3 <TIMEX3 t i d =”t 1 ” t y p e =”DATE” v a l u e =”2010−01”>
4 j a n v i e r 2010
5 </TIMEX3>
6 <TLINK e v e n t I n s t a n c e I D =”e i 1 ” r e l a t e d T o T i m e =”t 1 ” s i g n a l I D =”s 1 ” r e l t y p e =”
BEGINS”/>