• Aucun résultat trouvé

Combinaison de critères par contraintes pour la Recherche d'Information Géographique

N/A
N/A
Protected

Academic year: 2021

Partager "Combinaison de critères par contraintes pour la Recherche d'Information Géographique"

Copied!
166
0
0

Texte intégral

(1)

HAL Id: tel-00551889

https://tel.archives-ouvertes.fr/tel-00551889v2

Submitted on 14 Feb 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Recherche d’Information Géographique

Damien Palacio

To cite this version:

Damien Palacio. Combinaison de critères par contraintes pour la Recherche d’Information Géo- graphique. Interface homme-machine [cs.HC]. Université de Pau et des Pays de l’Adour, 2010.

Français. �tel-00551889v2�

(2)

TH` ESE

pour l’obtention du

Doctorat de l’Universit´ e de Pau et des Pays de l’Adour

(sp´ ecialit´ e informatique)

pr´ esent´ ee par

Damien PALACIO

Combinaison de crit` eres par contraintes pour la Recherche

d’Information G´ eographique

soutenue publiquement le 26 novembre 2010

Composition du jury

Pr´ esident : Florence SED ` ES IRIT, Universit´ e Paul Sabatier, Toulouse Rapporteurs : B´ en´ edicte BUCHER IGN, Paris

Eric GAUSSIER ´ LIG, Universit´ e Joseph Fourier, Grenoble 1 Gabriella PASI DiSCo, Universit` a degli Studi di Milano - Bicocca Examinateur : Guillaume CABANAC IRIT, Universit´ e Paul Sabatier, Toulouse

Directeurs : Mauro GAIO LIUPPA, Universit´ e de Pau et des Pays de l’Adour

Christian SALLABERRY LIUPPA, Universit´ e de Pau et des Pays de l’Adour

(3)
(4)

Je suis vraiment ravi d’ˆ etre arriv´ e ` a mener ` a bien cette th` ese d´ emarr´ ee il y a main- tenant trois ans. Je tiens ` a remercier toutes les personnes qui ont contribu´ e de pr` es ou de loin ` a cette r´ eussite.

Je remercie B´ en´ edicte Bucher, ´ Eric Gaussier et Gabriella Pasi d’avoir accept´ e de rapporter ce m´ emoire, ainsi que Florence S` edes et Guillaume Cabanac d’en ˆ etre les examinateurs. Je suis tr` es honor´ e d’avoir un jury si renomm´ e !

Merci ` a Mauro Gaio d’avoir accept´ e de m’encadrer durant cette th` ese et pour ses conseils avis´ es. Merci ´ egalement ` a Christian Sallaberry, co-encadrant, pour sa tr` es grande disponibilit´ e et son aide pr´ ecieuse ` a toutes les occasions. Je suis ravi d’avoir travaill´ e ` a vos cˆ ot´ es pendant ces trois ans.

Je souhaite aussi remercier nos coll` egues toulousains, Guillaume Cabanac et Gilles Hubert, avec qui nous avons entam´ e une collaboration suite ` a la conf´ erence ECIR et qui a ´ et´ e tr` es enrichissante et fructueuse (plusieurs articles, dont le meilleur papier d’ECDL’10). J’esp` ere que l’ann´ ee qui arrive permettra de continuer cette collaboration ! Je tiens ` a remercier la Communaut´ e d’Agglom´ eration de Pau Pyr´ en´ ees d’avoir financ´ e ce travail de th` ese. J’esp` ere que le projet d’industrialisation de nos prototypes verra le jour et permettra ` a la M´ ediath` eque Intercommunale ` a Dimension R´ egionale de Pau de disposer d’un moteur de recherche plus adapt´ e ` a leurs collections.

Ce fut un grand plaisir de travailler au sein de l’´ equipe DESI, devenue T2I en 2009, ainsi que dans le laboratoire LIUPPA et dans les locaux du d´ epartement informatique de l’universit´ e. Mais aussi de partager les repas tous les midis et faire quelques sorties avec vous (CongDuc, Annig, Laurent, les deux Eric, Sophie, Bruno, Nicolas, . . . ). Merci plus particuli` erement ` a Christophe pour sa compagnie quotidienne ;)

Merci ` a tous les anciens doctorants pour leur aide et leurs conseils : les deux Julien, Pierre, Christine et Cyril. Je souhaite aussi encourager tous les doctorants encore au laboratoire : Thanh Vu, Van Tien, Minh Duc, Nour, ´ Eric, Natacha, Youssef, Julien, John et Camille.

Je souhaite aussi remercier tous mes amis qui m’ont support´ e et encourag´ e pendant ce travail. Merci ` a Fran¸ cois pour toutes ces choses qu’il a pu obtenir et dont il m’a fait profiter pour me distraire ;) Merci particuli` erement ` a Patxi et ´ Emilie d’avoir accept´ e de relire ce manuscrit pour corriger les (trop) nombreuses fautes restantes !!

Pour finir je remercie vivement toute ma famille de m’avoir soutenu tout au long

de ce travail, d’avoir accept´ e mes visites moins fr´ equentes ou (trop) courtes et d’avoir

toujours ´ et´ e l` a en cas de besoin. Merci ` a ma grand-m` ere pour ses guides tr` es utiles lors de

mes d´ eplacements en conf´ erence. Bon courage ` a mes deux fr` eres (S´ ebastien et Mathieu)

et ` a ma sœur (M´ elanie) pour trouver leur voie. Enfin merci ` a mes parents pour tout ce

qu’ils ont fait pour que je puisse en arriver l` a et pour leur totale confiance.

(5)
(6)
(7)
(8)

Table des figures 1

Liste des tableaux 3

Partie I Introduction : la recherche d’information g´ eographique dans

des fonds documentaires textuels 5

Chapitre 1 Contexte

1.1 Introduction . . . . 7 1.2 Objectif : am´ eliorer la RIG en combinant des SRI existants . . . . 8 1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ erog` enes de RI ? . 11 1.4 Contributions : uniformisation g´ en´ erique, combinaison personnalisable

et ´ evaluations . . . . 12 1.5 Organisation du manuscrit . . . . 13

Partie II Etat de l’Art : de l’information g´ ´ eographique dans des do- cuments textuels ` a la recherche d’information combinant des crit` eres

spatiaux, temporels et th´ ematiques 15

Introduction de l’´ etat de l’art Chapitre 2

Traitement automatique de l’information g´ eographique dans des textes

(9)

2.1 Introduction . . . . 20

2.2 L’information g´ eographique dans des textes . . . . 20

2.3 Mod´ elisation de l’information g´ eographique exprim´ ee dans des docu- ments textuels . . . . 23

2.3.1 Langages de mod´ elisation pour l’information spatiale . . . . . 25

2.3.2 Langages de mod´ elisation pour l’information temporelle . . . . 27

2.4 Extraction et Indexation dans un but de Recherche d’Information G´ eographique . . . . 28

2.4.1 Extraction d’Information dans un but de Recherche d’Infor- mation G´ eographique . . . . 28

2.4.2 Indexation d’Information dans un but de Recherche d’Infor- mation G´ eographique . . . . 31

2.4.3 Recherche d’Information G´ eographique (RIG) dans les docu- ments textuels . . . . 33

2.4.4 Evaluation d’un Syst` ´ eme de Recherche d’Information G´ eogra- phique . . . . 36

2.5 Syst` emes d´ edi´ es ` a la Recherche d’Information G´ eographique . . . . . 38

2.6 Conclusion . . . . 40

Chapitre 3 Combinaison de crit` eres 3.1 Introduction . . . . 43

3.2 Fusion et Recherche d’Information Multim´ edia . . . . 44

3.3 Agr´ egation de crit` eres et Syst` emes d’aide ` a la D´ ecision . . . . 45

3.4 Approches en Recherche d’Information G´ eographique . . . . 50

3.5 Conclusion . . . . 54

Chapitre 4 Uniformisation de crit` eres 4.1 Introduction . . . . 57

4.2 Normalisation en Recherche d’Information . . . . 58

4.3 G´ en´ eralisation pour la Recherche d’Information Multimedia . . . . 59

4.4 Standardisation pour les Syst` emes d’aide ` a la D´ ecision . . . . 62

4.5 La focalisation spatiale en Recherche d’Information G´ eographique . . 62

(10)

Conclusion de l’´ etat de l’art

Partie III Contribution : vers la combinaison par contraintes de

crit` eres de recherche en RIG 67

Introduction de la contribution Chapitre 5

Uniformisation de donn´ ees

5.1 Introduction . . . . 71

5.2 Indexation multidimensionnelle bas´ ee sur le « tuilage » . . . . 72

5.2.1 Approche de tuilage . . . . 73

5.2.2 Tuilage multi-´ echelle . . . . 75

5.2.3 Types de tuilages . . . . 76

5.2.4 Application ` a l’information g´ eographique . . . . 76

5.2.5 Pond´ eration des tuiles . . . . 77

5.3 Approches de recherche d’information appliqu´ ees au tuilage . . . . 79

5.4 Conclusion . . . . 80

Chapitre 6 Recherche d’information g´ eographique par combinaison de crit` eres 6.1 Introduction . . . . 83

6.2 Combinaisons lin´ eaires standards . . . . 85

6.3 Combinaisons lin´ eaires ´ etendues . . . . 88

6.3.1 Combinaisons ´ etendues par niveaux de priorit´ es . . . . 89

6.3.2 Combinaisons ´ etendues par niveaux d’exigences, de pr´ ef´ erences et d’op´ erateurs . . . . 90

6.4 Cadre exp´ erimental d’´ evaluation d’un SRI G´ eographique . . . . 94

6.4.1 Constitution d’une collection de test pour ´ evaluer la recherche d’information g´ eographique . . . . 95

6.4.2 Protocole d’analyse comparative de SRI g´ eographiques . . . . 96

6.5 Conclusion . . . . 97

(11)

Chapitre 7 Impl´ ementations

7.1 Introduction . . . . 99

7.2 PIV : Syst` eme de Recherche d’Information G´ eographique dans des documents textuels . . . 100

7.3 PIV

2

(« PIVsquare ») : uniformisation des crit` eres . . . 101

7.4 PIVcomb : combinaison par contraintes . . . 104

7.5 Outils pour exp´ erimentations . . . 105

7.5.1 PIVone (« pivoine ») : v´ erification et s´ election des requˆ etes . . 105

7.5.2 PIVasse : ´ Evaluations/Assessment . . . 107

7.6 Conclusion . . . 108

Chapitre 8 Exp´ erimentations 8.1 Introduction . . . 110

8.2 Evaluation de l’approche d’uniformisation appliqu´ ´ ee ` a l’information spatiale . . . 110

8.2.1 Comparaison des SRI spatiaux PIV et PIV

2

. . . 111

8.2.2 Analyse et comparaison de diff´ erents tuilages spatiaux et for- mules de pond´ eration . . . 112

8.2.3 Analyse par type de relation spatiale . . . 112

8.2.4 Test de l’index de granularit´ e la plus proche de celle de la requˆ ete112 8.3 Evaluation de l’approche d’uniformisation appliqu´ ´ ee ` a l’information temporelle . . . 115

8.3.1 Comparaison des SRI temporels PIV et PIV

2

. . . 115

8.3.2 Analyse et comparaison de tuilages temporels et formules de pond´ eration . . . 116

8.4 Evaluation de l’approche par combinaison appliqu´ ´ ee ` a l’information g´ eographique . . . 117

8.4.1 Mise en place de la collection de test MIDR 2010 . . . 118

8.4.2 Comparaison des op´ erateurs lin´ eaires . . . 118

(12)

en œuvre avec CombMNZ . . . 119 8.4.4 Analyse par topic de la combinaison lin´ eaire CombMNZ . . . . 120 8.4.5 Comparaison CombMNZ avec PIVComb . . . 121 8.5 Conclusion . . . 123 Conclusion de la contribution

Partie IV Conclusion 127

Chapitre 9 Conclusion

9.1 Synth` ese . . . 129 9.2 Discussions et Perspectives . . . 131

9.2.1 Combinaison par contraintes : prise en charge de diff´ erents op´ erateurs . . . 131 9.2.2 De l’importance d’interfaces adapt´ ees . . . 132 9.2.3 Autres perspectives . . . 134

Bibliographie 139

(13)
(14)

2.1 Information G´ eographique . . . . 21

2.2 Traitement de l’information spatiale . . . . 22

2.3 Exemple de liens hi´ erarchiques pouvant ˆ etre exprim´ es dans une ontologie 24 2.4 Les 8 relations topologiques pouvant exister entre 2 r´ egions x et y selon le mod` ele RCC-8 [RCC92] (illustration extraite de [Les07]) . . . . 24

2.5 Relations d’Allen [All84] (illustration extraite de [MT04]) . . . . 25

2.6 Processus de recherche d’information (illustration extraite de [GD09]) . . 33

2.7 Evaluation d’un SRI (illustration extraite de [Voo07]) . . . . 38

3.1 Fusion sur une vid´ eo . . . . 45

3.2 Agr´ egation de crit` eres . . . . 46

3.3 Agr´ egation de crit` eres (avec pr´ ef´ erences) . . . . 47

3.4 Agr´ egation de Crit` eres (avec ´ evaluations quantitatives proportionnelles) . 47 3.5 Agr´ egation de Crit` eres (avec ´ evaluations quantitatives proportionnelles et pr´ ef´ erences) . . . . 48

3.6 Agr´ egation de Crit` eres (avec l’op´ erateur OWA) . . . . 49

3.7 Agr´ egation de Crit` eres (avec l’approche par priorit´ e) . . . . 50

3.8 Approche de filtrage s´ equentiel en RIG . . . . 51

3.9 Approche de type filtrage parall` ele en RIG . . . . 52

3.10 Approche de combinaisons lin´ eaires en RIG . . . . 53

3.11 Approche de type projection en RIG . . . . 54

4.1 Recherche d’information standard et normalisation . . . . 58

4.2 Recherche d’information g´ eographique et normalisation . . . . 60

4.3 D´ ecoupage d’une image en visterms . . . . 61

4.4 Exemple de standardisation . . . . 63

5.1 Approche de tuilage . . . . 73

5.2 Repr´ esentations spatiales . . . . 74

5.3 Tuilage g´ en´ er´ e par rapport aux repr´ esentations existantes . . . . 74

5.4 Tuilage conserv´ e (tuiles color´ ees) . . . . 74

5.5 Indexation multi-´ echelles . . . . 75

5.6 Tuilage calendaire (Mois) . . . . 77

(15)

5.7 Tuilage r´ egulier (Tuiles de 40 jours) . . . . 77

5.8 Tuilage administratif (R´ egional) . . . . 77

5.9 Tuilage r´ egulier (10x10) . . . . 77

5.10 Tuilage r´ egulier sur des objets spatiaux . . . . 79

5.11 Exemple d’index par rapport au tuilage r´ egulier de la figure 5.10 . . . . . 79

6.1 Principe de combinaison de r´ esultats de recherche avec CombMNZ. . . . . 87

6.2 R´ esultats de l’exemple 1 (tableau 1.2) avec CombMNZ . . . . 87

6.3 R´ esultats de l’exemple 2 (tableau 1.3) avec CombMNZ. . . . . 88

7.1 PIV

2

: interrogation par intersection . . . 103

7.2 PIV

2

: interrogation par ´ egalit´ e . . . 103

7.3 PIVone : r´ esultats d’une requˆ ete . . . 106

7.4 PIVasse : ´ evaluation d’un document . . . 107

8.1 Calcul de pertinence d’une ES d’un document pour une requˆ ete donn´ ee dans le syst` eme PIV (illustration extraite de [SGPL08]) . . . 111

8.2 R´ epartition des ES dans notre corpus . . . 114

8.3 R´ epartition des ES administratives dans notre corpus . . . 114

8.4 Calcul de pertinence d’une ET d’un document pour une requˆ ete donn´ ee dans le syst` eme PIV (illustration extraite de [LGS07]) . . . 116

8.5 R´ epartition des ET calendaires dans notre corpus . . . 117

9.1 Approche possible pour mettre en œuvre l’inclusion . . . 133

9.2 Interface d’interrogation spatiale : interpr´ etation de la requˆ ete . . . 135

9.3 Interface d’interrogation spatiale : affichage des r´ esultats . . . 135

9.4 Interface d’interrogation temporelle : interpr´ etation de la requˆ ete . . . 136

9.5 Interface d’interrogation temporelle : affichage des r´ esultats . . . 136

9.6 Exemple d’interface illustrant l’interpr´ etation de la requˆ ete par le syst` eme et permettant de corriger si besoin est . . . 137

9.7 Exemple d’interface d’interrogation simple . . . 137

(16)

1.1 Extraits du livre : « Excursions autour du Vignemale dans les hautes

vall´ ees de Cauterets, de Gavarnie et du Rio Aran en Aragon » [Mei87] . . 9

1.2 Exemple de requˆ ete multicrit` ere th´ ematique . . . . 10

1.3 Exemple de requˆ ete multicrit` ere g´ eographique . . . . 10

2.1 Entr´ ee « Pau » dans Geonames . . . . 22

2.2 Exemple de repr´ esentations possibles pour Aquitaine (respectivement : centro¨ıde, boˆıte englobante (MBR) et polygone) . . . . 23

2.3 Exemple de r´ esultat de lemmatisation du texte du tableau 1.1 avec le logiciel TreeTagger [Sch94]. . . . . 29

2.4 Exemple d’index invers´ e . . . . 32

2.5 Mod` ele vectoriel : matrice document-par-termes . . . . 34

2.6 Formules utilis´ ees pour ´ evaluer un syst` eme de RI . . . . 37

2.7 Syst` emes de Recherche d’Information G´ eographique . . . . 39

5.1 Formules de fr´ equence . . . . 78

5.2 Formules de pond´ eration appliqu´ ees aux index uniformis´ es . . . . 80

5.3 Mod` ele vectoriel : matrice document-par-tuiles . . . . 81

6.1 La combinaison de crit` eres de recherche en RI & RIG . . . . 84

6.2 Formules de combinaisons propos´ ees par Fox et al. [FS93] . . . . 86

6.3 Sc´ enarios de recherche possible . . . . 92

6.4 Requˆ ete 1 : Choix, Op´ erateurs, Pr´ ef´ erences et Exigences . . . . 92

6.5 Requˆ ete 2 : Choix, Op´ erateurs, Pr´ ef´ erences et Exigences . . . . 93

6.6 Requˆ ete 2 : Choix, Op´ erateurs, Pr´ ef´ erences proportionnelles et Exigences 93 6.7 Requˆ ete 1 : Choix, Op´ erateurs, Pr´ ef´ erences proportionnelles et Exigences 94 7.1 Table de l’index contenant les informations extraites . . . 100

7.2 Table de l’index contenant les repr´ esentations . . . 100

7.3 Table de l’index contenant le tuilage . . . 102

7.4 Table de l’index contenant les liaisons tuiles-documents et les poids associ´ es102

7.5 Comparaison du nombre de r´ esultats obtenus pour chaque op´ erateur avec

une requˆ ete donn´ ee . . . 104

(17)

8.1 Comparaison PIV - PIV

2

(meilleur tuilage spatial et formule de pond´ eration)112 8.2 Comparaison de diff´ erents tuilages spatiaux et formules de pond´ eration

(MAP) . . . 112 8.3 Comparaison des diff´ erentes formules de pond´ eration sur un tuilage com-

munal pour chaque type de relation spatiale (MAP) . . . 113 8.4 Comparaison de l’approche multi-´ echelles au tuilage par d´ efaut . . . 113 8.5 Comparaison PIV - PIV

2

(meilleur tuilage temporel et formule de pond´ e-

ration) . . . 116 8.6 Comparaison de diff´ erents tuilages temporels et formules de pond´ eration

(MAP) . . . 117 8.7 Performances relatives de combinateurs et effet de la normalisation. . . . 119 8.8 Efficacit´ e des SRI par rapport aux baselines th´ ematiques. . . . 120 8.9 Etude par topic de la distribution des documents pertinents selon les trois ´

facettes, de la performance du SRI PIV

2

et de la compl´ ementarit´ e des

facettes. . . . 122

8.10 Comparaison de diff´ erentes approches de combinaison . . . 123

(18)

Introduction : la recherche

d’information g´ eographique dans

des fonds documentaires textuels

(19)
(20)

Contexte

Sommaire

1.1 Introduction . . . . 7 1.2 Objectif : am´ eliorer la RIG en combinant des SRI existants 8 1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ ero-

g` enes de RI ? . . . . 11 1.4 Contributions : uniformisation g´ en´ erique, combinaison

personnalisable et ´ evaluations . . . . 12 1.5 Organisation du manuscrit . . . . 13

1.1 Introduction

Ce manuscrit pr´ esente mes travaux de th` ese financ´ es par la Communaut´ e d’Agglom´ e- ration de Pau Pyr´ en´ ees

1

et r´ ealis´ es dans le Laboratoire d’Informatique de l’Universit´ e de Pau et des Pays de l’Adour (LIUPPA)

2

, plus particuli` erement au sein de l’´ equipe Docu- ment ´ Electronique, S´ emantique et Interaction (DESI)

3

devenue depuis fin 2009 l’´ equipe Traitement, Interaction, Information (T2I). Cette th` ese s’inscrit dans la continuit´ e des travaux de Julien Lesbegueries [Les07] ; elle vise l’acc` es ` a l’information par le contenu des documents.

Ces travaux ont ´ et´ e r´ ealis´ es sur une collection de livres num´ eris´ es et fournis par la M´ ediath` eque Intercommunale ` a Dimension R´ egionale (MIDR). Ce sont notamment des livres de type r´ ecits de voyages. Le tableau 1.1 pr´ esente des extraits d’un de ces livres. N´ eanmoins les approches propos´ ees ici pourraient s’appliquer ` a d’autres types de corpus contenant des informations g´ eographiques. Les tableaux 1.2 et 1.3 pr´ esentent deux exemples de requˆ etes effectu´ ees par des utilisateurs. Les exemples pr´ esent´ es dans ces trois tableaux serviront de support d’illustration aux diff´ erentes discussions men´ ees tout au long de ce manuscrit.

1. http://www.agglo-pau.fr

2. http://liuppa.univ-pau.fr

3. http://liuppa.univ-pau.fr/DESI/

(21)

Dans ce chapitre, nous allons nous int´ eresser au contexte de la th` ese, c’est ` a dire aux objectifs, probl´ ematiques, hypoth` eses ainsi qu’aux contributions vis´ ees.

1.2 Objectif : am´ eliorer la recherche d’information g´ eogra- phique en combinant des Syst` emes de RI existants

Aujourd’hui la Recherche d’Information (RI) est essentiellement focalis´ ee sur le Web.

En effet, sur Internet plus de 200 millions de sites web

4

sont recens´ es. Les moteurs de recherche (Google, Bing, Exalead. . . ) proposent d’aider les utilisateurs ` a trouver ce qui les int´ eresse dans cette masse d’informations.

Une ´ etude r´ ealis´ ee sur les recherches scolaires a r´ ev´ el´ e que les trois cat´ egories princi- pales « de crit` eres de recherche » sont : bibliographie (personnes), chronologie (p´ eriodes) et g´ eographie (lieux) [MMBS09]. Plusieurs ´ etudes montrent une part non n´ egligeable d’informations g´ eographiques dans les requˆ etes des utilisateurs : pour les moteurs Ex- cite [SK04], AOL [GAMS08] et Yahoo [JZR

+

08] cette proportion varie entre 12,7% et 18,6%. N´ eanmoins, les moteurs de recherche usuels ne permettent pas de prendre en compte la particularit´ e de certains types d’information, tels que le spatial ou le tem- porel. En effet, ils se limitent ` a la recherche de termes que l’utilisateur fournit dans sa requˆ ete. Si nous souhaitons trouver des documents relatant des ´ ev´ enements associ´ es au sud de Pau, le moteur ne va chercher que « sud » et « Pau ». Or un document ´ evoquant

« Juran¸con », qui est une commune limitrophe ` a celle de Pau, et situ´ ee ` a son sud, devrait aussi ˆ etre retourn´ e. De mˆ eme pour le temporel, si nous souhaitons trouver des documents d´ ecrivant des ´ ev´ enements relatifs au xx

e

si` ecle, le moteur de recherche ne devrait pas seulement retourner les documents contenant « xx

e

si` ecle » mais aussi ceux contenant

« 1901 »,« 1902 »,. . .

Les sites Web ne sont pas la seule source sur laquelle porte la recherche d’information.

En cette ` ere du tout num´ erique, la num´ erisation des documents papiers progresse en quantit´ e et en qualit´ e. Google par exemple, ` a travers son service Google Books

5

, num´ erise massivement des livres et magazines qui sont ensuite mis ` a la disposition du grand public.

De plus, avec l’essor des livres ´ electroniques (appel´ es aussi « liseuses » ou encore e-books ), tels que le Kindle d’Amazon ou le Reader de Sony, ainsi que des tablettes PC, tels que certains EEE d’Asus ou l’Ipad d’Apple, les versions ´ electroniques des documents sont de plus en plus pl´ ebiscit´ ees. Cela permet de transporter et visualiser des centaines voire des milliers de documents sur une simple carte m´ emoire.

La num´ erisation s’est longtemps limit´ ee ` a la cr´ eation de simples versions ´ electro- niques, c’est ` a dire une image par page de livre, ce qui empˆ eche la moindre recherche et r´ eduit les interactions possibles avec ces versions ´ electroniques. Google Books soumet les versions num´ eris´ ees ` a des logiciels de reconnaissance de caract` eres et donc propose les textes contenus dans ces livres. Il est par cons´ equent, possible de rechercher des mots dans les livres ainsi num´ eris´ es.

4. http://news.netcraft.com/archives/2010/07/16/july-2010-web-server-survey-16.html

5. http://books.google.fr/books

(22)

— Paragraphe 443 (d1) —

Pendant que Russell courait le monde, une autre ´ etoile de la pl´ eiade, Charles Packe, appa- raissait ` a Gavarnie , cette mˆ eme ann´ ee 1858 . [. . . ] A Gavarnie , il y a moins ` a d´ ecouvrir qu’ailleurs et le Grand Cirque, d’apr` es lui, avait depuis longtemps perdu le prestige et le charme de l’inconnu.

— Paragraphe 446 (d2) —

Donc, d` es son retour, fin de 1861 , avec Laurent Passet, guide de Gavarnie , il va faire l’ascension du Vignemale , sa premi` ere.

— Paragraphe 461 (d3) —

[. . . ] Russell d´ ecide superbement : le Vignemale , pr` es de Gavarnie . Le Vignemale , le plus haut point o` u l’on puisse atteindre par territoire fran¸ cais. Et lorsque, en 1880 , Russell fait sa cinqui` eme ascension du Vignemale , c’est pour d´ eterminer le point pr´ ecis o` u il am´ enagera une grotte.

— Paragraphe 469 (d4) —

Le 8 aoˆ ut 1903 , Henri Russell accomplit sa trente-troisi` eme ascension et redescend avec tristesse ` a Gavarnie , abandonnant pour la derni` ere fois son glacier, ses grottes et cette cime qui ´ etait son idole. Mais son souvenir plane toujours sur cette belle montagne et sa silhouette s’´ evoque comme celle du roi conqu´ erant, possesseur du roc, et po` ete du Vignemale .

— Paragraphe 518 (d5) —

Cette musique improvis´ ee me remet en m´ emoire l’histoire du compositeur Musard qui eut vers 1840 son heure de c´ el´ ebrit´ e. Il fit plusieurs voyages aux Pyr´ en´ ees ; les montagnes l’inspiraient, disait-il, dans ses compositions musicales.[. . . ]

— Paragraphe 592 (d6) —

A ce propos, l’autre soir, au refuge, nous avions le plaisir de causer avec de savants camarades

— de vrais montagnards ceux-l` a — qui connaissent la montagne encore mieux que moi, puisqu’ils l’´ etudient sous tous ses aspects : sur terre, sous terre et au fond des lacs. Nous discutions sur le mot : alpiniste, employ´ e aux quatre coins du monde pour d´ esigner les sportsmen qui « font de la montagne ». On se sert dans les Pyr´ en´ ees avec raison du mot pyr´ en´ eiste ; mais cette expression est rest´ ee strictement r´ egionale. La raison en est que la renomm´ ee des Alpes et des ascensions alpines a ´ et´ e consacr´ ee avant celle des Pyr´ en´ ees, et surtout parce que, ce vocable d’origine latine a ´ et´ e r´ epandu dans toute la Gaule par les arm´ ees romaines pour d´ esigner les sommets qui leur rappelaient les hautes montagnes bornant l’ancienne Italie . La d´ enomination d’ « Alpes » a donc ´ et´ e appliqu´ ee ` a l’´ epoque romaine ` a toute r´ egion de montagnes en dehors mˆ eme des Alpes proprement dites. C’est ainsi que le mot « alpage » est ´ egalement utilis´ e un peu partout dans le sens des pˆ aturages ou d’herbages dans la montagne, mˆ eme dans les Pyr´ en´ ees , bien qu’ici le mot vulgaire, pour cette d´ esignation, soit celui de « port »

Table 1.1 – Extraits du livre : « Excursions autour du Vignemale dans les hautes vall´ ees

de Cauterets, de Gavarnie et du Rio Aran en Aragon » [Mei87]

(23)

« les risques accidentels en montagne si possible li´ es ` a des balades ou randonn´ ees »

Table 1.2 – Exemple de requˆ ete multicrit` ere th´ ematique

« documents sur les montagnes des Pyr´ en´ ees entre 1800 et 1900 mais pas sur Gavarnie et si possible sans rapport avec les ascensions »

Table 1.3 – Exemple de requˆ ete multicrit` ere g´ eographique

De plus en plus d’organismes tels que des m´ ediath` eques ou mus´ ees se sont lanc´ es dans des campagnes de num´ erisations et d’oc´ erisation de leurs collections. Le but est donc de permettre aux utilisateurs d’effectuer des recherches depuis n’importe o` u (m´ e- diath` eque, domicile, t´ el´ ephone, . . . ) grˆ ace ` a une interface Web, sur tous les ouvrages de leur collection. Cela permet notamment de consulter des œuvres rares ou trop abim´ ees pour ˆ etre accessibles physiquement par tous.

Nous nous pla¸ cons dans ce contexte de recherche d’information appliqu´ ee ` a des corpus de documents patrimoniaux num´ eris´ es compos´ es de journaux, lithographies, romans, r´ ecits de voyages, . . . Dans le cadre de ce travail de th` ese, nous nous limitons aux r´ ecits de voyages qui sont de longs documents (plusieurs centaines de pages) et qui contiennent de nombreuses ´ evocations spatiales et temporelles (notamment sur les Pyr´ en´ ees aux xviii- xix

e

si` ecles). Il faut noter que ces documents, fournis par la MIDR, ont ´ et´ e oc´ eris´ es avec perte de la structure logique. Seules les ruptures de ligne ont ´ et´ e conserv´ ees et nous les avons consid´ er´ ees comme des marques de fin de paragraphe. De par la longueur de ces documents et ´ etant donn´ ee l’absence de leur structure, le point d’entr´ ee choisi est le paragraphe. Ainsi, lorsqu’un utilisateur effectue une recherche, le moteur lui retourne l’ensemble des paragraphes pertinents provenant des documents du corpus. N´ eanmoins, pour chaque information extraite, un lien est conserv´ e vers l’expression, le paragraphe et le document. Ainsi il est possible d’envisager des sc´ enarios de navigation dans l’ensemble du document ` a partir d’un paragraphe.

Concernant les usagers, nous distinguons plusieurs cat´ egories potentiellement int´ e- ress´ ees par une recherche proposant des crit` eres g´ eographiques :

– les ´ erudits, par exemple des historiens, souhaitant retrouver des informations pr´ e- cises sur un lieu ou une date.

– les archivistes pour, par exemple, am´ eliorer les annotations des documents.

– les enseignants et leurs ´ el` eves pour, par exemple, g´ en´ erer l’itin´ eraire d´ ecrit dans un livre de type r´ ecit de voyage.

– les touristes pour, par exemple, d´ eterminer quelles sont les activit´ es, monuments ou

autres, accessibles dans un lieu donn´ e (« gorges au sud de Laruns », « r´ esurgences

autour de Pau », . . . ).

(24)

– n’importe quel utilisateur souhaitant chercher des informations avec des crit` eres spatiaux ou temporels.

L’utilisation de traitements conduisant ` a des index pr´ ecis et adapt´ es ` a chaque type d’information (spatiale, temporelle et th´ ematique) permet de r´ epondre aux diff´ erents besoins des utilisateurs. Notre objectif est ainsi d’am´ eliorer la recherche d’information g´ eographique en combinant les r´ esultats obtenus par des traitements spatiaux et tempo- rels d´ edi´ es et des strat´ egies classiques de recherche d’information g´ en´ eralement utilis´ ees pour des crit` eres th´ ematiques. Il est donc n´ ecessaire de d´ eterminer la m´ ethode la plus ad´ equate pour combiner des telles informations.

1.3 Probl´ ematique : comment combiner des crit` eres h´ et´ erog` enes de RI ?

L’h´ et´ erog´ en´ eit´ e des donn´ ees contenues dans certains documents (par exemple multi- m´ edias) n´ ecessite leur d´ ecomposition en plusieurs crit` eres. Par exemple, pour une vid´ eo, elle sera d´ ecompos´ ee en un certain nombre d’images et une bande sonore (pouvant ˆ etre convertie en texte s’il s’agit de discours). De mˆ eme, l’h´ et´ erog´ en´ eit´ e des donn´ ees repr´ e- sentant certaines informations n´ ecessite leur d´ ecomposition en plusieurs crit` eres. Par exemple, selon [Use96,Gai01] l’information g´ eographique peut ˆ etre d´ ecompos´ ee en trois facettes : le spatial, le temporel et le th´ ematique.

Nous avons choisi de traiter chacune de ces facettes

6

sp´ ecifiquement et de mani` ere ind´ ependante, comme pr´ econis´ e dans de nombreux travaux en Recherche d’Information G´ eographique (RIG) tels que [CJP06,MSA05]. Nous avons donc un syst` eme de RIG d´ edi´ e conduisant ` a des index pr´ ecis (contrairement ` a GeoNames qui propose des index moins pr´ ecis, notamment de part la nature ponctuelle des repr´ esentations) et des m´ ethodes de calcul adapt´ ees pour chacune des facettes. Si nous souhaitons traiter des requˆ etes g´ eo- graphiques portant sur diff´ erents crit` eres

7

(telle que la requˆ ete du tableau 1.3 page 10), il est n´ ecessaire de combiner les r´ esultats issus de chacun des Syst` emes de Recherche d’Information (SRI) utilis´ es. Notre probl´ ematique principale est de trouver comment r´ ealiser cette combinaison. N´ eanmoins, comme nous allons le voir par la suite, en RIG, les approches de combinaisons sont peu nombreuses et non flexibles. Un utilisateur ne peut pas param´ etrer cette combinaison, par exemple, en favorisant un crit` ere.

Comme nous venons de l’indiquer, nous avons, d’une part, des index contenant des repr´ esentations de donn´ ees et, d’autre part, des m´ ethodes de calcul adapt´ ees ` a chacune des facettes de l’information g´ eographique. Cette h´ et´ erog´ en´ eit´ e des repr´ esentations et des m´ ethodes de calcul implique la n´ ecessit´ e de les homog´ en´ eiser. Il faut donc les uniformiser afin de les combiner comme le pr´ econisent Malczewski et al. [MCF

+

03] et Pham et al. [PMLC07]. Actuellement, les Syst` emes de Recherche d’Information (SRI) classiques

6. Le terme facette d´ esignera l’une des trois composantes g´ eographiques que sont le spatial, le temporel et le th´ ematique.

7. Un crit` ere est une partie de la requˆ ete pouvant porter sur une facette g´ eographique. Il faut noter

qu’une requˆ ete peut contenir plusieurs crit` eres d’une mˆ eme facette. Par exemple, la requˆ ete du tableau 1.3

page 10 contient deux crit` eres spatiaux.

(25)

traitent la facette th´ ematique de mani` ere simplifi´ ee par des approches statistiques bas´ ees sur les termes. Or, Pham et al. [PMLC07] proposent d’imiter ces approches utilis´ ees pour les termes (troncature, calculs de poids bas´ es sur les fr´ equences et mod` ele vectoriel de Salton [Sal71]) afin d’appliquer des adaptations de ces traitements aux images. Nous pensons que les diff´ erentes facettes de l’information g´ eographique peuvent aussi ˆ etre homog´ en´ eis´ ees de mani` ere similaire aux approches appliqu´ ees aux termes. Par la suite, nous nous limiterons donc ` a l’´ etude des approches bas´ ees sur le calcul de statistiques.

En recherche d’information classique, les requˆ etes peuvent contenir plusieurs mots cl´ es. Les moteurs de recherches actuels (tels que Google ou Terrier [OAP

+

05]) permettent de faire deux types de recherche. La recherche standard se base sur des approches clas- siques de type TF·IDF et produit scalaire telles que pr´ esent´ es dans le chapitre 2. Ici la requˆ ete est constitu´ ee uniquement de mots cl´ es. La recherche ´ etendue permet d’ajouter des contraintes sur les diff´ erents ´ el´ ements de la requˆ ete. Parmi les op´ erateurs existants, nous pouvons notamment citer :

– + : exprime une exigence, le terme qui suit l’op´ erateur doit ˆ etre pr´ esent dans un document r´ esultat ;

– − : exprime une exclusion, le terme qui suit l’op´ erateur ne doit pas ˆ etre pr´ esent dans un document r´ esultat ;

– ˆ: exprime une pr´ ef´ erence, cet op´ erateur associe un coefficient r´ eel qui valorise la pr´ esence de ce terme dans un document r´ esultat. Il faut noter que Google n’offre g` ere pas cet op´ erateur.

La combinaison des diff´ erents ´ el´ ements de la requˆ ete ´ etant facilit´ ee par l’homog´ en´ eit´ e de ces derniers (uniquement des mots cl´ es), ces moteurs permettent ` a un utilisateur de pr´ eciser sa requˆ ete et de param´ etrer de telles combinaisons via des contraintes. N´ ean- moins, il faut noter que le classement des r´ esultats est souvent opaque. Les moteurs ne sp´ ecifient pas, dans l’ensemble r´ esultat pr´ esent´ e, quels sont les crit` eres qui ont ´ et´ e satisfaits et dans quelle mesure ils l’ont ´ et´ e. Nous pensons qu’il est possible d’´ etendre la combinaison de crit` eres g´ eographiques de mani` ere similaire via des contraintes.

Enfin, concernant la recherche d’information g´ eographique, nous avons pu constater que les syst` emes existants n’´ evaluent que partiellement le gain apport´ e par la combinai- son des diff´ erentes facettes de l’information g´ eographique. Notre hypoth` ese est que la combinaison de ces diff´ erentes facettes am´ eliore la pertinence des r´ esultats de mani` ere significative. N´ eanmoins, comme nous allons le voir par la suite, il n’existe pas de cadre d’´ evaluation de syst` emes de RIG.

1.4 Contributions : uniformisation g´ en´ erique, combinaison personnalisable et ´ evaluations

Dans notre ´ equipe, une chaˆıne de traitement spatiale permettant de bˆ atir des index

spatiaux et supportant une approche de recherche d’information spatiale a ´ et´ e mise

en place dans le prototype PIV par Julien Lesbegueries [Les07]. De la mˆ eme mani` ere,

une chaˆıne de traitement temporelle g´ en´ erant des index temporels et supportant une

approche de recherche d’information temporelle a ´ et´ e mise en place pour le prototype

(26)

PIV par Annig Le Parc-Lacayrelle [LGS07]. Pour la facette th´ ematique, il existe de nombreux syst` emes de recherche d’information tel que Terrier

8

permettant de travailler sur les termes. Nous disposons donc d’un prototype (PIV) contenant deux chaˆınes de traitements ind´ ependantes et de SRI d´ edi´ es aux termes.

A travers nos diff´ ` erentes contributions nous proposons une alternative aux approches actuellement utilis´ ees en recherche d’information g´ eographique. Ces contributions sont : 1. Une approche d’uniformisation g´ en´ erique que nous appliquons ` a l’information spa- tiale ou ` a l’information temporelle extraite des documents en vue de leur indexa- tion. Il s’agit de mettre en œuvre une strat´ egie similaire ` a celles appliqu´ ees en RI classique sur les termes (lemmatisation/troncature, calculs de poids bas´ es sur les fr´ equences et mod` ele vectoriel de Salton [Sal71]).

2. L’´ evaluation de la combinaison des diff´ erentes facettes de l’information g´ eogra- phique en RI et la quantification de l’apport de cette combinaison. Pour cela, nous proposons, dans un premier temps, d’utiliser des approches lin´ eaires standards ayant fait leurs preuves en RI classique.

3. Une approche de combinaison, originale et g´ en´ erique, bas´ ee sur les contraintes et que nous appliquons ` a la RIG. Le but est de permettre ` a un utilisateur de personnaliser la combinaison en sp´ ecifiant des contraintes pour chaque crit` ere.

4. Un cadre exp´ erimental permettant d’´ evaluer un SRI g´ eographique.

1.5 Organisation du manuscrit

La partie suivante d´ ecrit l’´ etat de l’art sur lequel nous nous sommes appuy´ es. Dans le premier chapitre de cette partie, sont introduites les notions requises relatives ` a l’infor- mation g´ eographique et la recherche d’information, ainsi qu’un comparatif des syst` emes existants. Dans le chapitre suivant, nous pr´ esentons diff´ erentes m´ ethodes de combinaison existantes, pas n´ ecessairement d´ edi´ ees ` a l’information g´ eographique. Pour terminer cette partie, le dernier chapitre illustre diff´ erentes approches existantes pour uniformiser des crit` eres avant de mettre en œuvre des strat´ egies de combinaison.

La troisi` eme partie d´ etaille notre contribution. Dans un premier chapitre, est pr´ esen- t´ ee notre approche g´ en´ erique d’uniformisation, appliqu´ ee au spatial ainsi qu’au tempo- rel. Le chapitre qui suit pr´ esente nos propositions pour combiner ces diff´ erents crit` eres g´ eographiques. Ensuite un chapitre pr´ esente les prototypes mis au point, et un dernier d´ etaille nos exp´ erimentations.

La derni` ere partie contient une synth` ese de ce m´ emoire et propose des perspectives pour la suite de ces travaux.

8. http://ir.dcs.gla.ac.uk/terrier/

(27)
(28)

Etat de l’Art : de l’information ´ g´ eographique dans des documents

textuels ` a la recherche

d’information combinant des crit` eres spatiaux, temporels et

th´ ematiques

(29)
(30)

Cette deuxi` eme partie s’organise en 3 chapitres. Dans un premier chapitre, nous d´ ecrivons les diff´ erentes op´ erations n´ ecessaires ` a la Recherche d’Information standard mais aussi ` a la Recherche d’Information G´ eographique : extraction, indexation, recherche d’information ainsi qu’´ evaluation. Dans ce premier chapitre les syst` emes de RIG les plus repr´ esentatifs sont pr´ esent´ es.

Dans un deuxi` eme chapitre, nous nous int´ eressons ` a la combinaison de crit` eres. ´ Etant donn´ e que peu d’approches existent en RIG, nous nous sommes int´ eress´ es ` a la combi- naison de crit` eres dans d’autres domaines. En Recherche d’Information Multim´ edia, la fusion de crit` eres permet de combiner des informations provenant de documents de diff´ e- rents types (exemple : images et textes). Pour l’aide ` a la d´ ecision, l’agr´ egation de crit` eres permet de proposer ` a un utilisateur les choix les plus proches de ses exigences (tous les crit` eres ne pouvant pas ˆ etre n´ ecessairement satisfaits en mˆ eme temps).

Dans un dernier chapitre, nous pr´ esentons les diff´ erentes approches d’uniformisation

existantes et mises en œuvre en amont de la combinaison de crit` eres. La normalisation

utilis´ ee en Recherche d’Information permet de borner les scores de pertinences des docu-

ments (entre 0 et 1 g´ en´ eralement). La g´ en´ eralisation, utilis´ ee en Recherche d’Information

Multim´ edia, permet de r´ eduire le nombre d’informations en ´ eliminant les d´ etails. La stan-

dardisation, pour l’aide ` a la d´ ecision multicrit` ere, permet de convertir des ´ evaluations

qualitatives (par exemple : la couleur d’une voiture) en ´ evaluations quantitatives (par

exemple : 1 pour bleu et rouge, 0,7 pour orange et jaune, . . . ). Concernant l’informa-

tion g´ eographique, il existe une approche de focalisation spatiale qui consiste ` a r´ eduire

l’ensemble des informations spatiales d’un document en une seule.

(31)
(32)

Traitement automatique de l’information g´ eographique dans

des documents textuels dans un but de recherche d’information

Sommaire

2.1 Introduction . . . . 20 2.2 L’information g´ eographique dans des textes . . . . 20 2.3 Mod´ elisation de l’information g´ eographique exprim´ ee

dans des documents textuels . . . . 23 2.3.1 Langages de mod´ elisation pour l’information spatiale . . . 25 2.3.2 Langages de mod´ elisation pour l’information temporelle . 27 2.4 Extraction et Indexation dans un but de Recherche d’In-

formation G´ eographique . . . . 28 2.4.1 Extraction d’Information dans un but de Recherche d’In-

formation G´ eographique . . . . 28 2.4.2 Indexation d’Information dans un but de Recherche d’In-

formation G´ eographique . . . . 31 2.4.3 Recherche d’Information G´ eographique (RIG) dans les do-

cuments textuels . . . . 33 2.4.4 Evaluation d’un Syst` ´ eme de Recherche d’Information G´ eo-

graphique . . . . 36 2.5 Syst` emes d´ edi´ es ` a la Recherche d’Information G´ eogra-

phique . . . . 38

2.6 Conclusion . . . . 40

(33)

2.1 Introduction

Dans ce chapitre, nous allons consid´ erer en d´ etail en quoi consiste le traitement de l’in- formation, plus particuli` erement de l’information g´ eographique textuelle. Tout d’abord, nous allons d´ efinir l’information g´ eographique textuelle. Ensuite les principales mod´ eli- sations et langages de mod´ elisations g´ eographiques textuels seront expos´ es. Puis nous expliciterons les diff´ erentes ´ etapes li´ ees au traitement automatique de l’information g´ eo- graphique (extraction, indexation, recherche d’information). Pour finir nous ´ evoquerons les principaux Syst` emes de Recherche d’Information G´ eographiques existants. Comme indiqu´ e dans le chapitre pr´ ec´ edent, nous nous limiterons ` a l’´ etude des approches bas´ ees sur les statistiques car nous souhaitons les r´ eutiliser pour les informations spatiales et temporelles.

2.2 L’information g´ eographique dans des textes

Le mot information peut avoir diverses significations selon le contexte dans lequel il est utilis´ e. Au sens ´ etymologique, l’information est l’action de donner une forme. Au niveau du langage, une information est constitu´ ee d’une ou plusieurs donn´ ee(s), bien form´ ee(s) et porteuse(s) de sens [Flo09]. La recherche d’information traditionnelle uti- lise pour repr´ esenter l’information contenue dans un document des mots-cl´ es ou plus g´ en´ eralement des termes

9

[BYRN99].

« Selon Goodchild [LGMR05], le probl` eme fondamental de l’information g´ eogra- phique est que celle-ci lie un espace, souvent un instant et quelquefois des propri´ e- t´ es descriptives. Il utilise une m´ etaphore de la chimie en soulignant le caract` ere ato- mique des composantes spatiales, temporelles et descriptives de l’information g´ eogra- phique » [Lou08]. L’information g´ eographique, peut donc se d´ efinir comme un en- semble de trois facettes : th` eme, espace et temps [Use96,Gai01,Lou08]. Elle peut se repr´ e- senter sous diff´ erentes formes : repr´ esentation graphique (pour le spatial par exemple en 2D (carte) ou 3D (avec les ´ el´ evations)), repr´ esentation textuelle (sous forme d’expression) ou encore repr´ esentation sous forme de donn´ ees (tuples dans une base de donn´ ees).

Dans notre cas, nous travaillons sur l’information g´ eographique repr´ esent´ ee sous forme textuelle. Cette information est donc dilu´ ee dans le discours, ce qui rend diffi- cile son extraction. Par exemple, dans l’extrait suivant : « Le 8 aoˆ ut 1903, Henri Russell accomplit sa trente-troisi` eme ascension et redescend avec tristesse ` a Gavarnie. » (ta- bleau 1.1 page 9), un lieu est mentionn´ e (Gavarnie) mais il n’est pas pr´ ecis´ e s’il s’agit de la commune, du Cirque ou encore de la station de ski. La figure 2.1 illustre l’informa- tion g´ eographique avec un exemple textuel. Dans cet exemple, l’information spatiale est

9. Un terme est un mot ou groupe de mots ayant du sens. Il est qualifi´ e de mot-cl´ e lorsqu’il a ´ et´ e

pr´ es´ electionn´ e [BYRN99].

(34)

repr´ esent´ ee par « au sud de Pau ». Ce syntagme

10

permet de retrouver uniquement les documents traitant du « sud » et de « Pau ». Cette mˆ eme information spatiale repr´ esent´ ee par une g´ eom´ etrie 2D pourra retourner beaucoup d’informations (documents ´ evoquant Juran¸con, Gan, . . . ) grˆ ace ` a des op´ erateurs spatiaux adapt´ es (tels que la translation et l’intersection). Cette limite est aussi vraie pour les autres facettes. Pour le temporel,

« xx

e

si` ecle » repr´ esent´ ee par un intervalle de temps permet de retourner toutes les dates ou p´ eriodes qui s’y rapportent (par exemple : 1905, ´ et´ e 1960, . . . ).

Figure 2.1 – Information G´ eographique

Ces trois facettes doivent toujours exister. N´ eanmoins dans une unit´ e documentaire (dans notre cas le paragraphe), certaines facettes peuvent ne pas ˆ etre pr´ esentes ou de mani` ere implicite. Par exemple, une information temporelle peut ˆ etre indiqu´ ee dans un paragraphe et ne pas ˆ etre r´ ep´ et´ ee dans ceux qui suivent ou uniquement de mani` ere partielle.

Pour ne pas se restreindre ` a ces repr´ esentations textuelles, il est donc n´ ecessaire d’identifier ces informations g´ eographiques et de les convertir en donn´ ees permettant de tirer parti de leur sp´ ecificit´ e. Un traitement bas´ e sur une analyse s´ emantique du texte permet de d´ etecter les informations spatiales (ou temporelles) d’un document et de leur associer une repr´ esentation symbolique (tel que « au sud de Pau » est une repr´ esentation de type orientation appliqu´ ee ` a la commune de Pau). N´ eanmoins, pour pouvoir r´ ealiser, lors de la recherche, des op´ erations spatiales (calcul d’intersection par exemple), il est n´ ecessaire de calculer une repr´ esentation num´ erique. Les informations d´ etect´ ees peuvent ˆ

etre subjectives ou d´ ependantes du contexte d’invocation, donc les repr´ esentations nu- m´ eriques associ´ ees impliquent toujours une certaine approximation.

Ainsi, de mani` ere g´ en´ erale, l’information spatiale d´ etect´ ee dans un syntagme nominal est successivement repr´ esent´ ee sous forme textuelle, symbolique et enfin num´ erique (voir figure 2.2). La validation et l’approximation num´ erique d’une telle information spatiale

10. Un syntagme est un regroupement de mots. C’est donc une unit´ e interm´ ediaire entre le mot et la

phrase [RPR99]

(35)

n´ ecessite l’usage de bases de connaissances particuli` eres : dictionnaires spatiaux (gazet- teers) pouvant ˆ etre manipul´ es via des outils d´ edi´ es tel que les Syst` emes d’Information G´ eographiques (SIG). Un gazetteer est une liste de noms de lieux associ´ es ` a leur loca- lisation (coordonn´ ees). A ces lieux peuvent ˆ etre aussi pr´ ecis´ ees diverses caract´ eristiques (par exemple statistiques tels que la population, ou physiques tels que le relief). Prenons l’exemple du gazetteer Geonames

11

, chaque entr´ ee est d´ ecrite par un nom, un pays, un type (parc, lac, montagne, ville, . . . ), une latitude et une longitude. Le tableau 2.1 montre les propri´ et´ es de la ville de Pau sur Geonames. Un syst` eme d’information g´ eographique permet d’une part de stocker des donn´ ees spatiales, et, d’autre part d’utiliser des op´ e- rateurs pour les manipuler (intersection, distance, . . . ). Les donn´ ees spatiales peuvent ˆ etre plus ou moins pr´ ecises : uniquement des points (latitude/longitude par exemple), seulement les coordonn´ ees du rectangle d´ elimitant l’information spatiale (on parle de boˆıte englobante ou MBR pour Minimum Bounding Rectangle en anglais), ou encore la forme g´ eom´ etrique fine (tel qu’un polygone) (voir tableau 2.2).

Figure 2.2 – Traitement de l’information spatiale

Propri´ et´ e Valeur

Nom Pau

Pays France, Aquitaine

Classe lieu habit´ e, population 82 697 Latitude N 43˚18’ 0”

Longitude W 0˚22’ 0”

Table 2.1 – Entr´ ee « Pau » dans Geonames

11. http://www.geonames.org/

(36)

Table 2.2 – Exemple de repr´ esentations possibles pour Aquitaine (respectivement : centro¨ıde, boˆıte englobante (MBR) et polygone)

Pour l’information temporelle, le principe est le mˆ eme : d´ etect´ ee dans un syntagme nominal, elle est successivement repr´ esent´ ee sous forme textuelle, symbolique puis num´ e- rique (ici ce sont des intervalles de temps et non des points ou g´ eom´ etries). Pour traiter l’information calendaire il est aussi n´ ecessaire de disposer de bases de connaissance, n´ eanmoins moins complexes que pour le spatial.

Enfin concernant la facette th´ ematique, l’information reste g´ en´ eralement limit´ ee aux termes utilis´ es en recherche d’information standard. N´ eanmoins des termes diff´ erents peuvent couvrir des th` emes identiques (exemple : automobile et voiture). Cette approche peut ˆ etre compl´ et´ ee par des ressources externes (th´ esaurus, ontologies) contenant des liens de synonymie ou hi´ erarchiques (voir figure 2.3). Nous envisageons la combinaison des facettes spatiales, temporelles et th´ ematiques. Toutefois pour le th´ ematique, nous utiliserons les mod` eles et outils de RI classiques. Aussi, ne nous d´ etaillerons pas davantage la facette th´ ematique qui se limitera ` a l’exploitation des termes.

Maintenant que nous avons pr´ esent´ e l’information g´ eographique dans des documents textuels, nous allons nous int´ eresser aux travaux relatifs ` a la mod´ elisation de cette in- formation.

2.3 Mod´ elisation de l’information g´ eographique exprim´ ee dans des documents textuels

L’information g´ eographique, de par sa sp´ ecificit´ e, n´ ecessite l’usage d’une mod´ elisation

adapt´ ee ` a chacune de ses facettes. Les traitements appliqu´ es pour extraire l’information

g´ eographique de discours textuels ´ etant limit´ es, les mod` eles utilis´ es sont g´ en´ eralement

succincts et formels. Dans ce contexte, pour le spatial, un mod` ele de r´ ef´ erence est RCC-8

(Region Connection Calculus ) [RCC92,Les07] qui d´ efinit huit relations entre deux r´ egions

x et y, telles que le recouvrement partiel ou l’´ egalit´ e (voir figure 2.4 pour les diff´ erentes

(37)

Figure 2.3 – Exemple de liens hi´ erarchiques pouvant ˆ etre exprim´ es dans une ontologie

relations topologiques). Il existe des extensions permettant de prendre en compte les repr´ esentations lin´ eaires [EMH94]. Pour le temporel, un mod` ele de r´ ef´ erence est celui propos´ ee par Allen mettant en œuvre les relations entre intervalles de temps [All84, MT04] (voir figure 2.5 pour les diff´ erentes relations temporelles).

Figure 2.4 – Les 8 relations topologiques pouvant exister entre 2 r´ egions x et y selon le mod` ele RCC-8 [RCC92] (illustration extraite de [Les07])

Concernant les langages de mod´ elisation pour l’information g´ eographique textuelle, nous pouvons distinguer plusieurs types en fonction de leur finalit´ e : ´ echange ou descrip- tion des connaissances. La plupart sont r´ ealis´ ees en XML (eXtensible Markup Language ), qui est un langage de balisage g´ en´ erique permettant de structurer l’information [BB99].

Dans cette section, nous prendrons l’exemple de l’information spatiale « au sud de Pau »

pour illustrer les diff´ erents marquages spatiaux. De mˆ eme, pour le temporel nous utili-

(38)

Figure 2.5 – Relations d’Allen [All84] (illustration extraite de [MT04])

serons l’exemple « d´ ebut de janvier 2010 ». Ces repr´ esentations num´ eriques n´ ecessitent d’ˆ etre calcul´ ees.

2.3.1 Langages de mod´ elisation pour l’information spatiale

Un langage de mod´ elisation spatial de type format d’´ echange tr` es r´ epandu est le Geography Markup Language (GML). D´ efinit par l’OGC

12

, il permet de stocker des objets g´ eographiques, plus particuli` erement les g´ eom´ etries correspondantes (repr´ esenta- tions num´ eriques). GML a par ailleurs ´ et´ e con¸ cu pour ˆ etre utilis´ e dans d’autres langages XML. Il g` ere uniquement les repr´ esentations num´ eriques (donc pas de repr´ esentations symboliques). Le listing 2.1 illustre le code GML de la repr´ esentation « au Sud de Pau ».

Comme nous pouvons le voir, nous avons un objet de type polygone (« <gml:Polygon> ») et les latitudes/longitudes de ses diff´ erents points.

Listing 2.1 – Exemple de GML (au sud de Pau)

1 <gml : Polygon>

2 <gml : o u t e r B o u n d a r y I s>

3 <gml : L i n e a r R i n g>

4 <gml : c o o r d i n a t e s>

5 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2

6 −0 . 3 9 2 7 4 3 2 5 9 8 1 0 5 1 3 , 4 3 . 3 0 6 1 3 1 7 7 9 6 0 9 8

7 −0 . 2 9 4 2 3 1 8 0 9 3 1 5 0 8 1 , 4 3 . 3 0 8 5 8 6 3 4 9 8 9 8 9

8 −0 . 2 9 0 9 5 0 7 7 9 5 4 4 8 6 8 , 4 3 . 2 3 6 9 5 8 4 5 5 8 2 2 4

9 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2

10 </gml : c o o r d i n a t e s>

11 </gml : L i n e a r R i n g>

12 </gml : o u t e r B o u n d a r y I s>

13 </gml : Polygon>

12. L’Open Geospatial Consortium (OGC) est un consortium international proposant des formats

ouverts sur l’information g´ eographique

(39)

Keyhole Markup Language (KML)

13

, est un autre langage de mod´ elisation spatial de type format d’´ echange tr` es r´ epandu. D´ efini ´ egalement par l’OGC, il est notamment utilis´ e dans GoogleMaps ou GoogleEarth. Tout comme le GML, il g` ere uniquement les repr´ esentations num´ eriques, par contre il peut d´ ecrire des styles associ´ es aux repr´ esen- tations (couleur, ´ epaisseur des bordures, . . . ). Le listing 2.2 illustre le code KML de la repr´ esentation « au Sud de Pau ». Comme dans l’exmple du GML listing 2.1, nous avons un objet de type polygone (« <Polygon> ») et les latitudes/longitudes de ses diff´ erents points. La principale diff´ erence est qu’aux coordonn´ ees sont associ´ ees des informations pour la visualisation (couleur rouge, trait ´ epais).

Listing 2.2 – Exemple de KML (au sud de Pau)

1 <kml>

2 <Document>

3 <S t y l e i d =”r e d L i n e ”>

4 <L i n e S t y l e><c o l o r>f f 0 0 0 0 f f</ c o l o r><width>4</width></L i n e S t y l e>

5 </ S t y l e>

6 <Placemark>

7 <s t y l e U r l>#r e d L i n e</ s t y l e U r l>

8 <Polygon>

9 <o u t e r B o u n d a r y I s>

10 <L i n e a r R i n g>

11 <c o o r d i n a t e s>

12 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2

13 −0 . 3 9 2 7 4 3 2 5 9 8 1 0 5 1 3 , 4 3 . 3 0 6 1 3 1 7 7 9 6 0 9 8

14 −0 . 2 9 4 2 3 1 8 0 9 3 1 5 0 8 1 , 4 3 . 3 0 8 5 8 6 3 4 9 8 9 8 9

15 −0 . 2 9 0 9 5 0 7 7 9 5 4 4 8 6 8 , 4 3 . 2 3 6 9 5 8 4 5 5 8 2 2 4

16 −0 . 3 8 9 3 3 9 5 9 3 2 6 2 4 3 3 , 4 3 . 2 3 4 5 0 7 0 9 7 2 5 5 2

17 </ c o o r d i n a t e s>

18 </L i n e a r R i n g>

19 </o u t e r B o u n d a r y I s>

20 </Polygon>

21 </Placemark>

22 </Document>

23 </kml>

SpatialML

14

[MHR

+

08] est un langage de marquage spatial de type description des connaissances. Il a ´ et´ e d´ evelopp´ e par l’organisation am´ ericaine MITRE

15

. SpatialML g` ere les repr´ esentations num´ eriques des lieux (balise PLACE). Par contre, pour les relations spatiales (balises SIGNAL et LINK), il ne stocke que des repr´ esentations symboliques (voir figure 2.2 page 22 pour les diff´ erents types de repr´ esentations). Le listing 2.3 illustre le code SpatialML de la repr´ esentation « au Sud de Pau ». Comme nous pouvons le voir, la ville de Pau a ´ et´ e identifi´ ee et des coordonn´ ees lui ont ´ et´ e associ´ ees ; la relation d’orientation (sud) a aussi ´ et´ e identifi´ ee mais il n’y a pas de repr´ esentation num´ erique associ´ ee.

Listing 2.3 – Exemple de SpatialML (au sud de Pau)

1 <SIGNAL i d =”1” t y p e =”DIRECTION”>sud</SIGNAL>

2 <PLACE i d =”2” c o u n t r y =”FR” form =”NAM” l a t l o n g = ”4 3 . 3 0 1 6 6 7N −0.368611W”>Pau</

PLACE>

13. http://www.opengeospatial.org/standards/kml/

14. https://spatialml.mitre.org/

15. http://www.mitre.org/

(40)

3 <PLACE i d =”3” />

4 <RLINK i d =”4” d i s t a n c e =2 d i r e c t i o n =”S ” s o u r c e =”2” t a r g e t =”3” s i g n a l s =”1”/>

2.3.2 Langages de mod´ elisation pour l’information temporelle

Pour l’information temporelle, le langage de mod´ elisation textuel le plus r´ epandu est TIMEX3 (successeur de TIMEX2). Il permet de repr´ esenter num´ eriquement des informations temporelles au format standard ISO-8601 [Man03]. Les listing 2.4 illustre le code TIMEX3 de la repr´ esentation « d´ ebut de janvier 2010 ».

Listing 2.4 – Exemple de TIMEX3 (d´ ebut de janvier 2010)

1 <TIMEX3 t i d =”t 2 ” t y p e =”DATE” v a l u e =”2010−01−10” />

2 <TIMEX3 t i d =”t 3 ” t y p e =”DURATION” v a l u e =”P15D ” b e g i n P o i n t =”t 1 ” e n d P o i n t =”t 2 ” />

Pour le marquage temporel, il existe un ´ equivalent ` a SpatialML : TimeML

16

[PCI

+

03, PKLS05]. Il utilise TIMEX3 pour le marquage des donn´ ees temporelles. Tout comme SpatialML il marque les relations temporelles mais ne leur associe que des repr´ esentations symboliques (pas de repr´ esentations num´ eriques). Le listing 2.5 illustre le code TimeML de la repr´ esentation « d´ ebut de janvier 2010 ». Comme nous pouvons le voir, la date

« janvier 2010 » a ´ et´ e identifi´ ee et une repr´ esentation num´ erique lui a ´ et´ e associ´ ee ; la relation temporelle d’inclusion (d´ ebut) a aussi ´ et´ e identifi´ ee mais il n’y a pas de repr´ esentation num´ erique associ´ ee.

Listing 2.5 – Exemple de TimeML (d´ ebut de janvier 2010)

1 <SIGNAL s i d =”s 1 ”>debut</SIGNAL>

2 de

3 <TIMEX3 t i d =”t 1 ” t y p e =”DATE” v a l u e =”2010−01”>

4 j a n v i e r 2010

5 </TIMEX3>

6 <TLINK e v e n t I n s t a n c e I D =”e i 1 ” r e l a t e d T o T i m e =”t 1 ” s i g n a l I D =”s 1 ” r e l t y p e =”

BEGINS”/>

Il existe des langages d´ edi´ es aux repr´ esentations num´ eriques des informations que ce soit pour le spatial (GML) ou le temporel (TIMEX3). Les langages SpatialML et TimeML ont ´ et´ e mis en place pour pouvoir int´ egrer ces repr´ esentations num´ eriques et y ajouter les relations spatiales et temporelles. Ces informations ´ etant floues, il est int´ eressant de conserver les repr´ esentations symboliques. N´ eanmoins, ces langages ne permettent pas d’associer des repr´ esentations num´ eriques ` a ces repr´ esentations symboliques. ` A no- ter que contrairement ` a SpatialML qui est mis ` a jour r´ eguli` erement (version 3 diffus´ ee en octobre 2009), TimeML semble ˆ etre arrˆ et´ e actuellement (version 1.2.1 sortie en 2005).

Afin de pouvoir marquer l’information comme nous venons de le voir, il faut d’abord l’identifier via une phase d’extraction. Puis une fois pass´ ees ces deux ´ etapes, ces infor- mations pourront ˆ etre index´ ees afin de permettre ` a un utilisateur de faire des recherches.

16. http://www.timeml.org/site/index.html

(41)

2.4 Extraction et Indexation dans un but de Recherche d’Information G´ eographique

Dans cette partie, nous allons expliquer les diff´ erentes ´ etapes n´ ecessaires ` a la Re- cherche d’Information. ´ Etant donn´ e que nous nous int´ eressons surtout ` a la Recherche d’Information G´ eographique, la Recherche d’Information traditionnelle ne sera pr´ esent´ ee que de mani` ere succincte.

Il existe un grand nombre de syst` emes supportant la recherche d’information tels que : Lemur

17

[OC01], Lucene

18

[GH05], ou Terrier

19

[OAP

+

05]. Les moteurs de re- cherche, tel que Google ou Yahoo utilisent aussi des syst` emes de recherche d’informa- tion similaires. Pour la recherche d’information s´ emantique, il existe des plateformes de traitement automatique du langage naturel (TALN) tel que GATE

20

[CMBT02] ou Lin- guaStream

21

[BW06]. Pour l’information g´ eographique, il existe des projets qui se sont int´ eress´ es ` a une ou plusieurs facettes. Nous allons ` a la fin de ce chapitre (section 2.5) voir en d´ etail les plus repr´ esentatifs.

2.4.1 Extraction d’Information dans un but de Recherche d’Informa- tion G´ eographique

Dans [Poi03], Poibeau a mis en place un glossaire dans lequel il donne cette d´ efinition de l’extraction d’information : « Activit´ e qui consiste ` a remplir automatiquement une banque de donn´ ees ` a partir de textes ´ ecrits en langue naturelle [Paz97, Paz99]. Elle s’oppose classiquement ` a la recherche documentaire (information retrieval), qui vise ` a retrouver dans une base de documents un ensemble de documents pertinents au regard d’une question [SM83, Voo99] ». Or ici nous allons aborder l’extraction d’information dans le but de constituer des index ` a des fins de recherche d’information. En effet, pour acc´ el´ erer la recherche et donner des scores de pertinence aux documents il est indispensable de passer par une phase d’extraction et d’indexation. Dans un premier temps, nous allons pr´ esenter de l’extraction d’information standard, puis nous traiterons les cas particuliers du spatial et du temporel.

2.4.1.1 Extraction d’information classique

L’analyse lexicale d’un document permet de convertir un flux de caract` eres en flux de mots ou termes [BYRN99]. Dans cet ensemble de termes, ne sont conserv´ es que ceux qui sont significatifs. Certains termes peu discriminants (ex : « de », « ` a ») sont ´ elimin´ es grˆ ace ` a ce qu’on appelle une liste de mots vides (ou stoplist). Une fois l’ensemble des termes discriminants extraits, un processus d´ enomm´ e lemmatisation [GGHR00], permet d’obtenir pour chaque terme son lemme. Un lemme est la forme canonique d’un mot.

17. http://www.lemurproject.org/

18. http://lucene.apache.org

19. http://ir.dcs.gla.ac.uk/terrier/

20. http://gate.ac.uk/

21. http://www.linguastream.org/

(42)

Par exemple, pour un verbe c’est son infinitif. Ainsi pour chaque document, la phase d’extraction d’information permet d’obtenir l’ensemble des lemmes qu’il contient. Le tableau 2.3 pr´ esente un extrait des lemmes obtenus pour le texte du tableau 1.1. Pour pouvoir lemmatiser les termes et ´ eliminer les termes peu discriminants, un syst` eme doit donc utiliser un algorithme adapt´ e ` a la langue et une liste de mots vide pour chaque langue. Certains syst` emes ne supportent que quelques langues (pour Lemur : anglais, chinois et arabe). N´ eanmoins, la lemmatisation n’est pas la seule m´ ethode existante.

Par exemple, la troncature raccourcit les mots d´ epassant une certaine taille fix´ ee (par exemple : avantages → avantag pour une taille fix´ ee ` a sept caract` eres). Les termes extraits seront ensuite pond´ er´ es selon des formules que nous pr´ esentons dans la section 2.4.2.1.

Token Conserv´ e Lemme

Pendant oui pendant

que non

Russel oui russel

courait oui courir

le non

monde oui monde

. . .

Table 2.3 – Exemple de r´ esultat de lemmatisation du texte du tableau 1.1 avec le logiciel TreeTagger [Sch94].

Des traitements avanc´ es cherchent ` a extraire les entit´ es nomm´ ees pr´ esentes dans des documents textuels. Les entit´ es nomm´ ees repr´ esentent « l’ensemble des noms de per- sonnes, d’entreprises et de lieux pr´ esents dans un texte donn´ e. On associe souvent ` a ces

´

el´ ements d’autres syntagmes rep´ erables par des grammaires locales comme les dates, les unit´ es mon´ etaires, les pourcentages. . . » [Poi03]. L’extraction d’entit´ es nomm´ ees n´ eces- site au pr´ ealable une phase d’extraction telle que pr´ esent´ ee ci-dessus pour les termes.

Ensuite, un d´ etecteur d’entit´ es nomm´ ees (NER pour Named Entity Recognition en an- glais) utilise g´ en´ eralement une base de r` egles ou un syst` eme d’apprentissage pour d´ etec- ter les entit´ es nomm´ ees et les cat´ egoriser [Poi03]. Voici un exemple de r` egle : « un nom propre pr´ ec´ ed´ e par la pr´ eposition ` a, est potentiellement un lieu ». Le syst` eme GATE cit´ e auparavant contient un module de d´ etection d’entit´ es nomm´ ees : Annie

22

. Le syst` eme LinguaStream

23

permet ´ egalement de construire et d’appliquer de telles r` egles.

2.4.1.2 Extraction d’information spatiale

L’extraction d’information spatiale n´ ecessite d’utiliser un d´ etecteur d’entit´ es nom- m´ ees spatial tels que MetaCarta

24

ou OpenCalais

25

. Ici, seuls les lieux nous int´ eressent.

Ce traitement permet d’obtenir une liste d’entit´ es spatiales candidates. Ces entit´ es spa-

22. http://gate.ac.uk/ie/annie.html 23. http://www.linguastream.org/

24. http://www.metacarta.com

25. http://www.opencalais.com

Références

Documents relatifs

Il est essentiel de remplacer depuis la dernière ligne delà page 547 jusqu'à la fin de l'article, le mot personne parle mot objet et vice versa. Le même problème a été

Si Ton observe dans une verticale les nombres croissants d'une suite de périodes, ce sont les mêmes qui composent dans un autre ordre la même portion de la verticale

Combien de fois depuis votre dernière visite avez-vous consommé une drogue récréative (à l’exclusion du cannabis, de l’alcool, de la caféine ou du tabac / nicotine) ou

[r]

Jules propose des combinaisons de 5 couleurs, et obtient de Romain, en réponse, les scores correspondants (nombre de couleurs de la combinaison proposée qui sont présentes dans

 Calcul global : combien d’addition binaires paar seconde pour gérer un flux video {{ 1 Mpix/s, 3 couleurs(RVB), 8 bits/couleur, }}. si l’ajustement de couleur est fait sous la

Dans cette combinaison lin´ eaire,. A, B et C sont les vecteurs combin´ es et 1, 2 et 3 sont

Le principe de récurrence sera mis en œuvre dans certains exercices (mais non dans la partie cours).. Combien y a-t-il de personnes qui préfèrent ajouter du lait ou du sucre ? b. A