• Aucun résultat trouvé

Ces approches restent trop limitées pour constituer des bases de données suffisantes au niveau national. Pour l’inventaire UTCATF, elles ne peuvent être utilisées qu’en complément d’autres méthodes afin, par exemple, de mieux comprendre la traduction locale de phénomènes enregistrés à échelle plus large.

3.2.9 La mise en cohérence des données hétérogènes

Le rassemblement de données spatiales hétérogènes est un enjeu qui a émergé depuis les années 1980, avec les moyens informatiques permettant de compiler des données, et soulève des problèmes théoriques et pratiques (Saalfeld, 1988). On parle de « conflation » lorsque les informations qui traitent du même objet permettent d’être résumées en un seul objet (White, 1981), et d’informations conflictuelles lorsqu’il n’est pas possible de résumer ces deux informations sans avoir à choisir entre l’une ou l’autre (Corgne, et al. 2003). Les sous-sections précédentes ont décrit les raisons de l’incohérence des données entre elles, et expliquent pourquoi ces approches engendrent des données indépendantes (sans lien entre elles) et conflictuelles (contradictoires). Malgré ces incohérences, les différents utilisateurs de données, académiques et institutionnels, ont besoin d’utiliser ces informations en complément, selon une logique d’additivité des données (Joennoz, 2001). Pour réaliser au mieux cette mise en parallèle, il faut pouvoir mettre ces sources en cohérence les unes par rapport aux autres, de manière à concilier des approches souvent considérées incompatibles (Obersteiner, et al 2006). Cette harmonisation concerne les trois grandes dimensions déjà présentées :

- le plan spatial (accord sur des espaces et des limites communes) - le plan temporel (accord sur les dynamiques)

- le plan thématique (accord sur le type de catégories présentes)

Il existe donc des recherches sur la mise en cohérence de plusieurs sources incohérentes en tachant de creuser ces différences et de chercher des voies d’interopérabilité. Cette mise en parallèle se fait selon différents degrés : la complémentarité, la combinaison, l’interopérabilité et l’intégration. Seul le dernier degré entraîne la création de tierce donnée, d’une carte hybride.

La complémentarité

La complémentarité la plus simple est celle qui consiste à considérer les données comme complémentaires mais incomparables, c’est-à-dire essentiellement différentes, et de les mettre en parallèle, car elles offrent un regard différent sur une même réalité (Fuller, et al. 1998 ; Fritz et See, 2008 ; Chery, et al. 2014 ; Gérard, 2014). Néanmoins dans cette approche, les légendes et résolutions spatiales originelles sont conservées sans harmonisation.

La combinaison

La combinaison cherche à rapprocher deux données complémentaires mais en les retraitant de façon à faciliter cette complémentarité. Les différents niveaux de résolution sont alors combinés de façon à repérer des échelles minimales de convergence, autrement dit de trouver le plus petit commun diviseur (nomenclature simplifiée, résolution spatiale la plus large), ce qui passe par un appauvrissement de l’information. L’objectif est qu’une donnée peut en corriger une autre dès lors qu’elle est plus fiable (par sa méthode, plus précise, plus homogène, etc.) (Kim, et al. 2015). Il peut par exemple s’agir de combiner une enquête non spatialement explicite telle qu’un inventaire forestier avec une donnée cartographique (Pilli et al. 2012), ou l’enquête LUCAS avec Corine Land Cover (Gallego et Bamps, 2008).

L’interopérabilité

La volonté des utilisateurs de données d’occupation du sol est d’utiliser simultanément différentes données, et de pouvoir articuler (inter-relate) les classes entre elles et d’inter-étalonner (intercalibrate) les estimations de changements d’occupation du sol issues de sources différentes (Wyatt, et al. 1994). Aller au-delà de la simple combinaison pour mettre en cohérence les données demande un travail important sur leurs résolutions. Cet objectif représente un défi important pour

certaines données très hétérogènes (Köhl, et al. 1999). Néanmoins plusieurs travaux présentent des méthodes pour parvenir au mieux à mettre en œuvre cette mise en cohérence (Herold, et al. 2006). Les classes peuvent être mises en correspondance de façon binaire (une classe dans la nomenclature source correspond à une seule autre dans la nomenclature de référence, correspondance de type 1-n (1 à plusieurs)) ou de façon plus linéaire (Wyatt, et al. 1994) ; dans la logique de l’accord flou (fuzzy

agreement), où plusieurs classes ont des probabilités de correspondre à plusieurs autres

(correspondance multiple de type n-n, plusieurs à plusieurs) (Hagen, 2003). Les classes sont plus ou moins aisément mises en correspondance : par exemple, les approches spécifiques pour suivre la forêt rendent la mise en cohérence délicate (Köhl, et al. 1999) ; de même pour différencier prairies et cultures (Kinoshita, et al. 2014). Cette approche s’inscrit dans un mouvement général de facilitation de l’interopérabilité porté par les acteurs institutionnels, en particulier en Europe via la directive INSPIRE (2007/2/CE) qui établit les modalités d’une infrastructure d'information géographique cohérente (Léobet, 2009 ; 2011). Au niveau international, la norme ISO 19157 renseigne aussi sur les différents critères d’incertitude d’une donnée géographique : exhaustivité, précision géométrique, etc. Ce contexte, entre autres, a engendré la mise en place de projets de mutualisation de l’information géographique, par exemple à l’IGN (Gressin, 2014), entre différents inventaires forestiers européens (Tomppo, et al. 2010 ; Stahl, et al. 2012 ; Vidal, et al. 2013) ou dans le cadre du Pôle Théia1 (Desconnets et Gasperi, 2013). Des raisons de coût expliquent aussi la volonté croissante de limiter la création de données indépendantes et éparses pour privilégier la continuité, la complémentarité, la réutilisation des référentiels et la réduction de la fragmentation des jeux de données sur l’occupation du sol. C’est dans ce cadre que TerUti et LUCAS ont été rapprochés (ils devaient même fusionner, voir chap. 4) (Jacques et Gallego, 2005 ; Zimmer, 2011), ou que des produits d’occupation du sol régionaux réutilisent la nomenclature de Corine Land Cover (Autran, 2006).

L’intégration (ou fusion)

Il faut bien distinguer l’agrégation (terme général décrivant la simple mise en parallèle directe des données) et l’intégration (opération précise de fusion de données préalablement mises en cohérence, donnant lieu à la création d’un tiers-produit hybride). La première étape de l’intégration est donc une harmonisation thématique approfondie pour rendre les données parfaitement interopérables. Cette harmonisation peut se faire selon deux approches: i/ la standardisation des nomenclatures et des méthodes de production de données selon une ‘approche ontologique unique’ (Ahlqvist, 2008) entrainant des difficultés et réduisant l’information (Köhl, et al 1999 ; Herold, et al. 2006), et ii) la standardisation en amont du vocabulaire utilisé dans les intitulés et les définitions des classes (Liu et al, 2002 ; Latifovic et al, 2004 ; Foody, 2006) selon une « approche ontologique hybride » (Ahlqvist, 2008), de manière à distinguer au-delà des classes d’occupation et d’utilisation (Stewart, 1998) les « briques constitutives élémentaires » ou primitives de données (« data primitives », Comber, 2014), désignés sous le terme d’« attributs d’occupation du sol » par Farmer, et al. (2012) et rejoignant l’idéal d’un langage unifié pour décrire le paysage (Di Gregorio, 2005 ; Gaucherel, 2012).

L’harmonisation concerne aussi la résolution spatiale. Il s’agit d’une part d’harmoniser l’échelle spatiale des cartes, selon la résolution la moins précise (Batista e Silva et al., 2013 ; Carvalho, et al. 2015), en redécoupant les unités minimales (Rammankutty et Foley, 1998 Rammankutty, et al. 2008), ou encore en appliquant une nouvelle maille pixellique où les classes sont associées selon une règle de majorité (Cohen, 2003 ; Fuchs, et al. 2015). En effet, les données rassemblées ne s’accordent pas sur les frontières des polygones, ce qui oblige à définir des règles de priorisation. Cependant, des données supplémentaires spécifiques (réseau de transport, hydrographie…) peuvent contribuer à définir ces frontières et à définir une partition de base, un « squelette » vide que les données d’occupation du sol vont pouvoir remplir de leur information

1

Le pôle Théia est un organisme de diffusion des données spatiales associant divers organismes (CEA, Cerema, Cirad, CNES, CNRS, IGN, Inra, IRD, Irstea, Météo-France, Onera) : theia-land.fr.

thématique. Reste, une fois le cadre formel fixé, l’incertitude relative à l’interprétation de ce que contient cette forme. Fixer les bordures ne supprime qu’un facteur d’incertitude. De plus, fixer à l’avance les contours des formes paysagères pourrait tendre à déconsidérer des bordures apparues entre temps, qui ne seraient pas matérialisées par une infrastructure linéaire de transport, et ainsi favoriser l’homogénéisation, sur la carte, d’espaces pourtant constitués de plusieurs parties à l’occupation du sol distincte – et qui auraient été bien interprétées comme distinctes si des routes avaient délimité ces sous-parties. Ceci est particulièrement problématique au regard du rôle important des infrastructures de transport dans les changements d’occupation du sol.

La seconde étape est la fusion des données. Il s’agit de l’intégration par enrichissement d’une donnée avec une autre, avec une logique d’ajout de précision progressive (Lillesand et Chipman, 1998 ; Batista e Silva, et al, 2013). L’objectif est de donner lieu à une carte hybride plus précise, dépassant la résolution originale de la carte de base, selon le principe que le tout obtenu est supérieur à l’addition des parties (Pérez-Hoyos, et al 2012). Des règles de décision permettent de choisir les classes à affecter finalement en fonction des différentes classes indiquées par les données d’entrée (Stewart, 1998). L’objectif peut aussi être de créer une carte de probabilité de présence d’une classe, selon une logique floue et non conventionnelle (Dessel, et al. 2011 ; Kinoshita, et al. 2014). La théorie de Dempster-Shafer, ou théorie des évidences, est une technique de fusion de données qui permet la décomposition des données sources en ensembles d’informations élémentaires (Le Hegarat-Mascle et al, 2006). Les conflits de fusion entraînent néanmoins des erreurs et Corgne et al (2003) proposent une méthode plus performante, basée sur la théorie de Dezert-Smarandache.

De multiples travaux ont mené à l’intégration de données hétérogènes, à différentes échelles. Le tableau suivant présente quelques exemples de cartes hybrides dont le périmètre thématique est exhaustif et mises en œuvre à échelle régionale, nationale ou mondiale :

Tableau 3.5. La création de cartes hybrides intégration de données dans la littérature

Référence Périmètre Données d’entrée

Enslin, et al. 1977 (procédure) Landsat, photographies aériennes, cartes topographiques

Stewart, 1998 Michigan (Etats-Unis) ; 1990.

Landsat TM, cadastre, zones environnementales, réseau routier

Jung, et al. 2006 Mondial ; 2000. GLCC1, GLC2000, MODIS

Iwao, et al. 2011 Mondial MODIS, GLC2000, UMD

Butenuth, et al. 2007 Allemagne IKONOS, Cartes topographiques et géologiques, Perez-Hoyos, 2012 Europe ; 2006 CLC, GLC2000, MODIS and GlobCover + LUCAS

(validation)

Ran, et al. 2012 Chine ; 2000 MODIS, carte de végétation, hydrologie, land-use. Batista e Silva et al., 2013 Europe CLC06, Soil Sealing Layer, Tele Atlas, Urban

Atlas, Water Bodies Data Fuchs et al. 2013 Europe ; 1900-2010 CLC, Eurostat, FAO,

Kinoshita, et al. 2014 Mondial MODIS, GLC2000, GlobCover, GLCNMO Carvalho, et al. 2015 Brésil Données foncières, parcs naturels, MODIS

Jung et al. (2006) et Fuchs et al. (2013) inscrivent leur démarche dans le contexte du suivi des flux de carbone liés aux changements d’occupation du sol.

Cette approche par intégration ne règle pas tous les problèmes d’exactitude. L’augmentation de la précision spatiale se fait au détriment de la cohérence cartographique (Batista e Silva et al., 2013) et

1

GLC : Global Land Cover; UMD : University of Maryland dataset ; CLCNMO : Global Land Cover by National Mapping Organizations.

l’exactitude finale n’est pas toujours plus élevée que celle des données sources principales (Kinoshita, et al. 2014).

Outline

Documents relatifs