• Aucun résultat trouvé

Face aux enjeux épistémologiques et méthodologiques que nous avons exposés dans le deuxième chapitre de ce travail, l’objectif de cette thèse est bien de construire un instrument permettant d’étudier une information spatio-temporelle. Aussi, nos premières investigations nous ont orientés vers l’outil SIG, que nous avons défini préalablement, en pointant les limites « matérielles » dans notre approche de l’accessibilité. Pour autant, face à nos questions de recherche, nous pointons ici les apports et limites de l’outil SIG d’un point de vue scientifique, qui ouvrent de nouvelles perspectives à la frontière entre l’information géographique et les sciences informatiques (Goodchild et Longley, 2014).

Plus qu’un outil pour le géographe, le Système d’Information Géographique questionne des objets et des méthodes dans la science de l’information géographique (Pickles, 1995). Ses dénominations sont en revanche diverses : les Américains la nomment volontiers GIScience (Goodchild, 1995), quand les francophones – Français et Québécois plus spécifiquement – la nomment Géomatique (Collet, 2005). De nombreux Britanniques ont quant à eux diffusé le terme de Geocomputation (Openshaw et Abrahart, 1996). Il s’agit ici de montrer dans quelle mesure nous nous emparons de ces concepts, ces méthodes et ces outils, en réponse à notre question de recherche. Loin de rejeter l’outil SIG appliqué à notre raisonnement, il s’agit au contraire de l’enrichir et de l’entourer d’autres outils participant à la construction d’un instrument géohistorique.

4.1.1. Des enjeux de la science de l’information géographique …

Nécessairement impliqués dans le tournant quantitatif de la géographie (Haggett, Frey et Cliff, 1977), les développements de l’informatique des années 60 et 70 ont multiplié les possibilités de calcul, ont complexifié les modèles les plus simples et ont attisé le besoin de données toujours plus nombreuses (Gahegan, 1999). Pour autant, l’auteur y voit aussi un asservissement du géographe à l’ordinateur, qui imposait une structure appauvrie des données, où les concepts des géographes avaient du mal à se retrouver et où les géographes peinaient à adapter leur vocabulaire. Pour autant, un peu plus tard, les premiers SIG ont été discrètement développés à l’écart des géographes, parfois devenus sceptiques à l’ordinateur. Gahegan suggère alors un rapprochement entre le géographe et l’informaticien, participant à la large utilisation des SIG depuis le milieu des années 1980.

En introduction de la définition d’une GIScience, Michael Goodchild et Paul Longley posent trois enjeux scientifiques (Goodchild et Longley, 2014). Ils peuvent être appliqués dans le cadre simple d’un SIG à de nombreux, sinon tous les objets de recherche, montrant ainsi que les implications sont avant tout scientifiques et fondamentales, avant d’être appliquées et opérationnelles. Nous identifions de même une proximité entre ces enjeux et ceux de notre travail de recherche. Il s’agit :

 D’un enjeu pratique : comment aborder l’incertitude dans l’information géographique (Openshaw et Taylor, 1979) ;

 D’un enjeu empirique : il répond à la première loi de la géographie établie par Walter Tobler, qui dit que « tout interagit avec tout, mais deux objets proches ont plus de chances de le faire que deux objets éloignés » (Tobler, 1970) ;

 D’un enjeu théorique : il permet de qualifier les relations entre les objets géographiques sur le plan, de manière topologique, connues sous le terme de « 9- intersection of topology » (Egenhofer et Franzosa, 1991).

Ils sont devenus d’autant plus prégnants que les géographes ont de plus en plus à se confronter à de grands ensembles de données spatio-temporelles : l’enjeu pratique réside dans l’extraction de l’information géographique et pose la question des échelles, tandis que les enjeux empiriques et théoriques posent la question de l’établissement de modèles de relation et d’interaction des objets représentés dans le SIG. Ces trois états de fait concordent également avec les questionnements de notre recherche et sont donc liés dans un raisonnement sur la longue durée. L’enjeu pratique l’est quand l’information est géohistorique (Knowles, 2005) : l’incertitude est liée alors à l’incomplétude, et à la méthode d’implémentation de l’information temporelle. L’enjeu empirique l’est quand l’accessibilité est selon nous une variable clé des relations entre réseau et territoire. L’enjeu théorique l’est tout autant quand il s’agit de croiser des informations surfaciques à des informations linéaires, a fortiori si l’on considère des découpages spatiaux et temporels évolutifs.

Ces trois enjeux de la science de l’information géographique répondent exactement et successivement à ceux que nous avons posés pour la construction de l’instrument de recherche de notre seconde partie. Il s’agit bien d’extraire l’information géohistorique contenue dans la base de données FRANcE, constituée à de larges échelles. Ici, l’objectif est la capitalisation de cette information pour en faire ressortir des connaissances géohistoriques inédites. Dans un second temps, les autres enjeux participent à la construction de modèles d’analyse spatiale (Miller et Goodchild, 2014), qui s’attachent aussi bien à définir des relations que des interactions.

Si l’adéquation entre notre question de recherche et le cadre des GISciences est éclairant, le recours à de larges bases de données spatio-temporelles pose la question de l’utilisation du seul outil SIG pour nos analyses. D’abord, les protocoles de collecte qui visent à consigner l’information spatio-temporelle participe aux limites des SIG quand ils sont confrontés aux temporalités (Thévenin, 2010). De plus, face à l’émergence de grandes bases de données spatio-temporelles, que beaucoup appellent aujourd’hui big data (Kitchin, 2014a), ce sont les performances de l’outil SIG qui sont remises en cause. Une des réponses à ces limites réside sans doute sur le passage progressif de l’utilisation d’un logiciel SIG commercial sur sa propre machine à l’utilisation de serveurs, qui ont permis la multiplication des processeurs nécessaires au calcul ainsi que des architectures nécessaires au stockage. Aujourd’hui, la question de la gestion de flux de données instantanés issus des réseaux sociaux, de l’utilisation des téléphones mobiles relève selon certains auteurs d’un nouveau paradigme scientifique (Kitchin, 2014b), largement guidé par les données traitées de manière intensive. Sans entrer dans un quatrième paradigme scientifique, nous identifions toutefois dans notre cas des similitudes entre certaines propriétés dédiées aux big data d’un côté (Kitchin, 2014b), et les caractéristiques de la base de données FRANcE d’un autre. L’objectif n’est pas d’inscrire notre base de données dans les big data mais de montrer en quoi les problématiques qui en sont issues peuvent être appliquées dans notre cas :

 Le volume, quand il faut gérer des matrices d’accessibilité entre les 36 000 communes françaises ;

 La vélocité : elle est toutefois relative, malgré les mises à jour possibles tant pour les données de population que pour l’évolution du réseau ferroviaire. De même, les contraintes liées à la collecte de la donnée géohistorique fait qu’elle n’est pas continue ;

 La variété des données : elle est plus ou moins structurée et pas forcément homogénéisée ;

 L’exhaustivité : elle capte l’ensemble de la population, l’ensemble du réseau ;  La résolution : le niveau administratif le plus fin permet une identification par

indexation, il en est de même pour les sections de réseau ;

 La relation : il existe des champs permettant d’adjoindre d’autres larges bases ;  La flexibilité : les extensions par les champs et par la multiplication des individus

sont rendues possibles par le modèle de données PONT.

Si certains auteurs se contentent de comparer les big data à des données qui ne peuvent entrer dans les formats d’une feuille de calcul de logiciels bureautiques (Kitchin, 2014b), le volume n’est qu’une des caractéristiques des grands ensembles de données spatio-temporelles. Elles rencontrent un vif succès aujourd’hui dans les colloques de géographie, tels l’AAG ou l’ECTGQ20, où des sessions spéciales sont organisées de manière systématique. Aussi, la plupart des publications tendent aujourd’hui à rassembler les approches qui relèvent de la géographie quantitative, de la GIScience de celle qui relève de l’analyse spatiale (Cuyala, 2014). Malgré cette propension à les rassembler, on pourra identifier par la suite quelques nuances.

Ainsi, face aux enjeux que nous venons de soulever, Mark Gahegan identifie depuis la fin des années 1990 une « tentative consciente de faire avancer la recherche par le retour à l’analyse géographique, que ce soit avec ou sans l’outil SIG » (Gahegan, 1999). Il y voit là l’agenda de la GeoComputation, dont l’objectif est d’enrichir la discipline géographique par une boîte à outils et de méthodes pour modéliser et analyser des problèmes géographiques complexes, parfois non- déterministes. L’effort est alors à accomplir dans la double perspective de notre discipline et celle des sciences informatiques. En dépit des intentions clairement énoncées, la définition de la GeoComputation est en revanche sujette à de nombreux débats, qui persistent à chaque rassemblement. Symptomatique des vocables entre Etats-Unis et Angleterre, sur les treizes rassemblements organisés par le Centre for Computational Geography, les deux tiers l’ont été dans un pays du Commonwealth. Ils ont lieu en alternance avec la conférence internationale des GIScience, montrant à la fois les proximités et les frontières floues qui les entourent.

Plus qu’une agglomération d’outils et de logiciels, Paul Longley définit la GeoComputation comme « ce que ses chercheurs et pratiquants font, rien de plus, rien de moins » (Longley, 1998). Derrière ce consensus, se cachent des définitions complémentaires : Stewart Fotheringham la définit comme celle qui se réfère à des « méthodes d’analyse spatiale dans lesquels l’ordinateur y joue un rôle pivot » (Fotheringham, Brunsdon et Chariton, 1998) alors que Stan Openshaw la définit comme l’application de calculs à haute performance (HPC) mobilisant l’intelligence artificielle pour résoudre des problèmes géographiques complexes ou invisibles (Ehlen, Caldwell et Harding, 2002 ;

20 AAG : Annual Meeting of the Association of American Geographers. ECTQG : European Colloquium in

Openshaw et Abrahart, 1996), à l’origine d’un nouveau paradigme scientifique. A l’opposé, Helen Clouclelis voit dans cet ensemble d’outils et de méthodes « une application éclectique de méthodes et techniques computationnelles pour dresser des propriétés spatiales, pour expliquer un phénomène géographique et pour résoudre des problèmes géographiques » (Couclelis, 1998). Cette pluralité des définitions nous permet de définir dans un premier temps la GeoComputation comme la rencontre de la géographie, l’analyse spatiale et l’informatique.

4.1.2. … à la GeoComputation dans une perspective géohistorique

Nous proposons ici de définir dans quelle mesure et jusqu’où nous inscrivons notre travail dans la GeoComputation. Le rapprochement est d’abord aisé par le préfixe Geo. De la même manière que l’information spatiale est au cœur du raisonnement géohistorique, elle l’est aussi dans cette démarche-là. La base de données FRANcE y entre alors naturellement par l’information localisée, et a fortiori complétée par une information temporelle. Dès lors, nous souhaitons aussi mettre en place une démarche géo-méthodologique : en identifiant le besoin de se démarquer du seul outil SIG, la démarche par la GeoComputation paraît donc se justifier. Pour cela, nous nous appuyons sur les trois piliers définis plus haut, ainsi que l’exemple d’un module d’enseignement destiné au cycle master à l’Ecole Polytechnique de Lausanne21, qui définit son objectif par l’ « analyse d’informations géo-référencées qui requiert l’utilisation de méthodes informatiques ».

La question de recherche que nous avons développée fait naturellement appel à l’analyse spatiale, qui permet une « étude formalisée de la configuration et des propriétés de l’espace des sociétés » (Lévy et Lussault, 2003). Elle est à rapprocher des méthodes statistiques. Il faut cependant associer différentes méthodes mobilisées, selon la définition donnée par Denise Pumain dans l’encyclopédie en ligne Hypergéo. Elle identifie un rôle actif ou passif de l’espace dans l’identification des structures et propriétés (Table 4. 1), qui justifie alors notre recours à la GeoComputation, quand nous utilisons des méthodes dans lesquelles l’espace joue surtout un rôle actif.

Table 4. 1. L’analyse spatiale en géographie

Les principes de la GeoComputation peuvent être replacés dans ces distinctions, avec un primat dans le rôle actif de l’espace. Il s’agit alors d’analyser directement les informations géocodées : de nombreux logiciels SIG ont implémenté des fonctions rendant compte de la statistique spatiale. Elle est définie par la définition de variables intrinsèquement spatiales, qui permettent notamment de qualifier les distributions géographiques, venant appuyer les hypothèses de la loi de Tobler, selon laquelle l’intensité des relations est fonction de la proximité des objets analysés. Parmi elles, les indicateurs LISA (Local Indicators of Spatial Association) sont ceux qui permettent d’explorer des données spatiales : ils permettent de mesurer le caractère non-stationnaire et hétérogène d’une variable dans l’espace (Anselin, 1995). Ils sont globaux (Indice de Moran), mais leur décomposition locale permet d’identifier des structures de clustering, que l’on peut traduire en français par grappe. Par ailleurs, la modélisation de l’espace à partir d’informations contenues dans des matrices d’interaction permet également de rendre compte de l’espace, à condition qu’elles décrivent un espace hétérogène et anisotrope (Haggett, Frey et Cliff, 1977) : c’est dans cette acception que nous replaçons le concept d’accessibilité, où il s’agit de complexifier cette information dans ce chapitre. Pour autant, la prise en compte de l’information temporelle doit aussi parfois s’affranchir d’un rôle actif de l’espace dans une modélisation fixée a priori. Pour cela, nous nous forçons toutefois de maximiser l’information contenue dans les matrices d’interactions.

La construction des matrices d’interaction, pour rendre compte de l’évolution des accessibilités sur le temps long, se heurte à la complexité des déplacements ainsi qu’au dimensionnement de la base de données FRANcE. C’est ici que nous identifions les enjeux qui lient la géographie et l’informatique. On rejoint ici l’objectif du cours décrit plus haut qui lie l’analyse d’une information géo-référencée à des méthodes informatiques sophistiquées, où « l’implémentation d’algorithmes est capable de rendre compte de la localisation d’un objet par rapport à ses voisins, grâce au calcul à haute performance ». Dès lors, nous verrons dans la suite du chapitre comment nous nous emparons de la théorie des graphes, définie comme théorie informatique et mathématique. En dépit de l’utilisation détournée du graphe dans l’extension Network Analyst du logiciel ArcGIS, nous misons sur l’utilisation de logiciels dédiés à la structuration et l’analyse de graphe, quand il est porteur d’une information spatiale, sans nous contraindre toutefois à devoir systématiquement utiliser des informations géocodées. Ainsi, Mei Po Kwan a montré comment la croissance des performances informatiques a permis de nouvelles investigations dans les champs de l’accessibilité (Kwan, 2004). Il montre l’évolution des capacités dans la prise en compte de trajectoires individuelles à des échelles locales. Ainsi, en 1967, un réseau a été complètement implémenté manuellement avec 100 nœuds et 246 arcs. Le travail précurseur de Lenntorp est certainement le premier réseau de transport digitalisé pour l’étude de configurations dans l’espace-temps (Kwan, 2004 ; Lenntorp, 1976). Depuis, l’auteur a développé des algorithmes susceptibles d’être implémentés dans des logiciels commerciaux, mais le développement des ressources en libre accès, qui a déjà retenu notre attention dans les humanités numériques paraît ici être une piste incontournable.

Le rapprochement vers les sciences informatiques vient ici en complément de notre inscription dans les humanités numériques : la GeoComputation participe alors au dialogue avec d’autres disciplines (Singleton, 2014). Pour autant, s’extraire d’un environnement SIG suggère un changement de langage, qui a toutefois été anticipé lors la modélisation conceptuel des données opérée dans le troisième chapitre. Prenant au pied de la lettre la nécessaire collaboration entre chercheurs, le recours aux logiciels libres et ouverts paraît incontournable dans la GeoComputation

(Bivand, 2011). De manière concomitante, une organisation internationale Open Geospatial Consortium Inc. a été créée pour répondre à l’impératif d’interopérabilité des SIG. Mais étrangement, l’un de ses premiers protocoles est d’adapter les fichiers shapefile, qui est devenu de facto le fichier de formes standard des SIG, développés au départ par ESRI puis largement adoptés dans les logiciels libres comme propriétaires. Ces entreprises vers le monde de l’accès libre relève selon nous d’une démarche croissante dans la géographie théorique et quantitative, dans laquelle les chercheurs, pour dépasser les limites des SIG classiques, sont amenés à introduire dans leur propre recherche la pratique du codage informatique (Rey, 2009). Par la suite, le partage du code participe à l’évaluation de la reproductibilité d’une méthode de digitalisation et de collecte d’informations dans le cadre des SIG-H (Gregory et Ell, 2006), de validation et d’analyse dans le cadre de la GeoComputation (Bivand, 2011). Ainsi, selon le même auteur, la géographie de la santé, l’épidémiologie, l’écologie, la gestion des ressources en eau sont les domaines qui ont le plus profité du développement de logiciels en open source. La géohistoire peut y prendre toute sa place également.

Nous défendons toutefois ici l’utilisation de SIG-Serveur : l’objectif n’est pas de développer un nouveau logiciel mais d’utiliser les capacités d’un système de gestion de bases de données pour y ajouter les composants de l’information géographique (Figure 4. 1), et s’adapter à des logiciels déjà existants. Son principal intérêt réside dans la capacité de stockage qui se trouve multipliée sur un serveur, plutôt que sur un ordinateur utilisateur, les données pouvant être partagées par ailleurs par plusieurs utilisateurs, reprenant les propriétés d’un système de gestion de bases de données. L’intérêt passe aussi par l’absence d’une interface utilisateur, qui participe à la diffusion sans logiciel prérequis et par des performances accrues, même si l’interfaçage est toujours possible avec des logiciels SIG, SIG-Desktop, pour la visualisation des données. PostGIS est aujourd’hui la librairie la plus utilisée, par l’IGN par exemple, parce qu’elle est selon les auteurs aujourd’hui la plus complète et totalement libre (Steiniger et Hunter, 2013), à l’intérieur du SGBD PostgreSQL. L’interopérabilité est permise par les librairies géospatiales : GDAL est la plus répandue. Elle permet de lire l’information spatiale dans presque tous les types d’infrastructures (Bivand, 2011 ; Steiniger et Bocher, 2009). Ces librairies permettent non seulement le transfert de fichiers vers le serveur, mais peuvent aussi permettre d’utiliser les données du serveur dans le cadre d’autres outils.

Dès lors, les premières étapes de la construction de notre instrument de recherche reprennent les enjeux de la science de l’information géographique, que l’on adapte dans le contexte de la GeoComputation, parce qu’elle est selon nous la scène d’une production de connaissances géohistoriques qui concilie l’analyse spatiale, le raisonnement sur le temps long et de plus importantes capacités de calcul.

Figure 4. 1. Du SIG utilisateur au SIG serveur

4.1.3. Une chaîne géohistorique dans un couplage modéré

Les enjeux exprimés par un projet SIG-H ont montré comment ils n’étaient qu’en partie généraux mais aussi particuliers en fonction des objets. Ceux de la science de l’information géographique sont aussi un arbitrage entre des considérations générales et la mise en place de dispositifs particuliers. Se pose donc la question du couplage (Bivand et Neteler, 2000 ; Thévenin, 2010) entre ce qui relève strictement du SIG et ce qui n’en relève pas : dans notre questionnement géohistorique, il s’agit d’évaluer la place que l’on donne au SIG dans la construction de l’instrument de recherche (Figure 4. 2).

Le couplage peut être faible (Loose-Coupling) : dans ce cas, on identifie des difficultés opérationnelles dues à la segmentation des opérations de traitement, qui peuvent souvent nécessiter la conversion de formats de fichier, de changer de langage informatique. A l’inverse, le couplage peut être fort (Tight-Coupling) : les opérations de traitement et d’analyse sont effectuées au cœur du SIG, ou inversement. Dans ce cas, les possibilités d’analyse peuvent être contraintes par les capacités du SIG, ou la prise en compte de l’information spatiale peut être contrainte par le dispositif dans lequel on implémente des fonctions SIG. En position intermédiaire, le couplage modéré (Moderate-Coupling) permet de tirer profit des différents dispositifs. Le lien entre les différents éléments doit alors être optimisé : on privilégie des langages et outils libres, ouverts et largement utilisés. Dans le cadre de cette thèse, ce positionnement dans la GeoComputation s’est d’abord concrétisé par la migration de la base de données FRANcE, jusqu’ici largement exploitée à l’aide d’ArcGIS, dans le SGBD PostgreSQL, accompagné de son extension PostGIS. Le couplage modéré