Un modèle objet indexé par des événements de changement

Un modèle pour des hiérarchies multiples et évolutives

5.1 Un modèle objet indexé par des événements de changement

Nous présentons ici les deux principales motivations qui justifient notre modèle : la gestion simul-tanée de plusieurs nomenclatures, et l’intégration d’une ontologie historique des territoires associée aux événements de changement. Ensuite, le modèle est complètement décrit et des exemples viennent ap-puyer son utilité et les possibilités qu’il offre.

5.1.1 Motivations du modèle

La motivation du modèle vient de ce que nous souhaitons comparer et associer un maximum d’indi-cateurs statistiques, issus de bases de données constituées de façon indépendantes les unes des autres, et par là même hétérogènes. La première source d’hétérogénéité est liée au support de collecte des données, qui varie suivant les nomenclatures étudiées, et change au cours du temps.

5.1.1.1 Des supports multiples, multi-niveaux, non-alignés

Il s’agit de prendre en compte la multiplicité et l’hétérogénéité des supports spatiaux des statis-tiques territoriales. Nous limitons notre modélisation au support de type polygonal irrégulier, le plus fréquent dans le cas des données socio-économiques. Par exemple, le recueil de données statistiques au niveau européen est harmonisé dans la Nomenclature des Unités Territoriales Statistiques (NUTS), [Parlement européen 03]. Cette nomenclature reprend les découpages territoriaux historiques, qui sont de formes polygonales irrégulières et structure l’information en cinq niveaux, du plus fin au plus large, en terme notamment de seuils démographiques :

– LAU2 (au niveau des communes en France), – LAU1 (au niveau des cantons en France),

– NUTS3 (au niveau des départements en France) - entre 150 000 et 800 000 d’habitants, – NUTS2 (au niveau des régions en France) - entre 800 000 et 3 millions d’habitants,

– NUTS1 (au niveau des grandes régions en France) - entre 3 millions et 7 millions d’habitants, – NUTS0 (au niveau des états),

Les seuils démographiques servent essentiellement à harmoniser les niveaux intermédiaires NUTS3, NUTS2 et NUTS1, mais par exemple, les états représentent une dérogation à ce principe puisque le Luxembourg est une unité de environ un demi-million d’habitants, mais placée au niveau NUTS0. L’em-prise spatiale de la NUTS est celle de l’Europe constituée des 27 états membres de l’Union Européenne.

En réalité, nous visons au delà l’intégration de supports plus particuliers : – les formes morphologiques des villes (Urban Morphological Zones, UMZ) ;

– les groupements de communes en structures de coopération intercommunale (EPCI à fiscalité propre et/ou territoire de Pays en France) ;

– l’ensemble des bassins versants d’un espace d’étude ; – la nomenclature des États reconnus par l’ONU (les WUTS). – etc.

Dans cette thèse, nous nous limitons à des objets vectoriels de forme polygonale, et nous ne prenons pas en compte les grilles régulières (formats raster). Par exemple, nous écartons la grille Corine Land Cover dont les pixels couvrent des zones d’un hectare, et sur lesquels sont identifiés le type majoritaire d’occupation du sol.

Ces supports de type polygones irréguliers sont définis comme des partitions spatiales de l’espace géographique qui forment alors un zonage du territoire. Un zonage est un découpage ou une partition de l’espace. Il peut servir à l’appropriation, la gestion, l’aménagement ou la connaissance de l’es-pace. Il existe, en effet, différents types de zonage, selon les acteurs et les fonctions : zonage politico-administratif, zonage statistique, zonage d’aménagement du territoire, etc. Un zonage peut êtrecouvrant

(partition totale de l’espace) par rapport à un espace d’étude déterminé, qu’on appelle l’aire d’étude, ou biennon couvrant. Dans le premier cas, on dira que le zonage est unmaillagedu territoire, [Grasland 98]. Les cas de zonages non couvrants sont fréquents, et sur ces zonages, des données socio-économiques sont aussi collectées, ou bien analysées. On peut citer par exemple, les bassins d’emplois en Europe, les formes morphologiques des villes (nomenclature UMZ), et les structures intercommunales. On peut noter que les données sont encore très rarement collectées directement au niveau des structures intercom-munales, mais plutôt au niveau communal, et l’on doit agréger en fonction de la composition communale des structures intercommunales.

Très fréquemment, les nomenclatures qu’utilisent les producteurs de données définissent des niveaux hiérarchiques constitués de zonages qui s’emboîtent les uns dans les autres à partir d’un zonage

élémen-taire, le zonage le plus fin de l’espace dans la nomenclature considérée. Ainsi, les zonages forment les niveaux de cette hiérarchie, et l’emboîtement est défini par l’inclusion spatiale de toute unité de niveau inférieur dans une unité de niveau supérieure. Ces différents niveaux constituent une organisation hiérar-chique du territoire dans laquelle chaque unité appartient à une ou plusieurs unités de niveau supérieur. Le niveau constitue aussi une échelle d’observation et d’analyse du territoire.

Les données associées peuvent être des variables qualitatives ou quantitatives. Les variables quanti-tatives sont des grandeurs numériques qui proviennent de comptages, de mesures ou de calculs effectués sur des comptages ou des mesures, comme par exemple le nombre d’habitants ou de ménages dans une unité territoriale. Parmi les variables quantitatives, les variables qui ne sont pas des ratios (pourcentage d’une variable quantitative par une autre), c’est-à-dire les variablesquantitatives absolues(ou stocks), ont la propriété d’être additives : les valeurs de deux unités de même niveau peuvent être additionnées pour calculer la valeur associée à l’union des surfaces des deux unités.

Par rapport aux hiérarchies dites « agrégatives », un travail fondamental mené dans le cadre de la gestion de données multidimensionnelles complexes pour des entrepôts de données a donné lieu à des définitions plus précises de ces hiérarchies [Pedersen 01, Banerjee 09]. D’après ces travaux, une hiérar-chie peut êtrestricte,ontooucouvranteou au contrairenon-stricte,non-onto,non-couvrante: « stricte » signifie que tout élément d’un niveau n’appartient qu’à un seul autre élément de niveau supérieur, « onto » correspond au fait que l’arbre représentant cette hiérarchie est équilibré et que tout élément d’un niveau non élémentaire possède un sous-élément de niveau directement inférieur, tandis que « couvrante » si-gnifie que tout élément d’un niveau appartient à au moins un élément de niveau supérieur. Ainsi, une hiérarchie est dite stricte lorsque chaque unité possède au moins une et une seule entité supérieure, et onto lorsque toute unité de niveau non élémentaire englobe au moins une unité. Ce cas d’organisation arborescente des unités territoriales correspond à une réalité, celle par exemple de l’organisation des NUTS, figure 5.1, qui est issue de la volonté de produire des niveaux comparables en termes démogra-phiques pour la collecte des données statistiques. Ce cas intéressant est étudié [Rigaux 95] par rapport à la dimension spatiale, car il permet l’agrégation ascendante depuis les feuilles vers la racine de l’arbre des données, et offre des possibilités de vérification avec les invariants suivants :

– (i) la géométrie d’une unité non élémentaire est l’union des géométries des unités qui la com-posent ;

– (ii) la valeur d’une variable quantitative absolue d’une unité non-élémentaire est constitué par l’agrégation des valeurs associées aux unités qui la composent.

can1 can2 can3 can5 d1 c10 d3 d2 c1 c2 c3 c4 c5 c6 c7 c8 c9 LAU2 LAU1 NUTS3 niveaux niveau 3 niveau 2

niveau 1 gu Unité géographique

Zonage Adhésion de tous les membres

NUTS2 r1 r2

can4 can6

niveau 4

FIGURE5.1 – Hiérarchie et niveaux dans la NUTS.

Dans le cadre de la constitution d’un réservoir de données issues de supports hétérogènes, la connais-sance de ces relations d’agrégation est utile car les opérations d’agrégation vont permettre de transférer dans un zonage commun des indicateurs mesurés sur des niveaux de zonages différents. On peut

éga-lement s’appuyer sur des contraintes de désagrégation utiles : par exemple, un effectif compté sur un département se répartit sur les effectifs des communes composant ce département, et pas sur les com-munes du département voisin. Nous souhaitons donc nous ramener à la gestion de hiérarchies de zonage, pour lesquelles la disponibilité des variables et des géométries sur le maillage élémentaire permet de constituer, par agrégation, un ensemble d’informations multi-échelles.

Cependant, il apparaît que l’organisation hiérarchique stricte des unités territoriales n’est pas sys-tématique. Les récentes recompositions territoriales locales en France en sont un bon exemple. Pour rationaliser la gestion territoriale, il s’agit de relancer l’intercommunalité et de construire des territoires plus vastes que la commune, d’une taille suffisante pour atteindre une masse critique en matière de po-pulation. De nouveaux Établissements Publics de Coopération Intercommunale (EPCI) sont créés, mais également ce qu’on appelle des « territoires de projet » (politique des Pays). Même si ce n’est pas expli-cite dans les lois, une forme de structure hiérarchique avec emboîtement spatial se dessine. Par exemple, en milieu rural, un premier niveau est constitué par les communautés de communes (un des nouveaux EPCI) ; un second par le Pays, fédérant plusieurs communautés de communes. Le Pays est le niveau de réflexion et de conceptualisation du projet de développement local ; les communautés de communes sont chargées des réalisations concrètes. Mais la création de ces zonages intercommunaux est progres-sive, puisque les différentes structures ne sont pas obligatoires et reposent pour partie sur l’initiative des acteurs locaux. En conséquence, il existe un certain nombre de cas ne respectant pas un emboîtement hiérarchique strict.

La figure 5.2 présente certains de ces cas, et illustre comment ce que nous avons défini comme «nomenclature des intercommunalités», constituée de trois niveaux (les communes, les EPCI et les Pays), forme une hiérarchie non stricte et non onto :

– 1. Une unité d’un certain niveau peut avoir deux unités de niveau directement supérieur. Sur l’exemple, l’EPCIe₄ est partagé entre le Paysp₃ et le Pays p₄. Dans ce cas, e₄ n’adhère pas à la fois àp3 etp4; ce sont une partie des communes constituant e4 qui adhèrent àp3, et l’autre partie des communes qui adhèrent àp₄. Ces cas devraient être transitoires, les EPCI devant nor-malement respecter, à terme, les limites des Pays, et ces derniers étant définis, en général, par leurs EPCI adhérents, et non par les communes adhérentes.

– 2. On observe des appartenances multiples à plusieurs niveaux de zonages. Sur l’exemple, la com-munec₇ adhère à un EPCIe₄ mais aussi à un paysp₃ (cas possible sie₄ n’adhère pas dans son ensemble àp3).

– 3. Une unité d’un niveau peut n’avoir aucune unité supérieure dans la nomenclature considérée. Sur l’exemple, la communec₄n’a pas d’unité supérieure.

– 4. Les sauts de niveau sont fréquents. Sur l’exemple, l’unitéc6n’a pas d’unité supérieure dans les EPCI, mais appartient directement à un paysp₂. Une autre variante est la hiérarchie non complète avec manque du niveau supérieur : cas dec₅, qui appartient à e₃, mais il n’y a pas de Pays au niveau supérieur.

FIGURE5.2 – Nomenclature des intercommunalités sur une région française.

Le modèle que nous proposons vise à produire de l’information agrégée sur des niveaux non élémen-taires. Cela reste possible dans ces cas, à condition de définir plus précisément les relations d’agrégation dans la nomenclature. La relation d’agrégation doit lier les niveaux concernés, chaque zonage appar-tenant à une certaine nomenclature, et cette relation d’agrégation pourra être typée. Le typage le plus simple est l’agrégation totale : les unités considérées appartiennent entièrement à leur unité supérieure. Dans ce cas, les prédicats (i) et (ii) énoncés plus haut (page 143) s’appliquent directement pour l’éva-luation des unités supérieures. Sinon, on est dans le cas d’une situation d’agrégation partielle. C’est le cas de l’EPCIe4 qui appartient aux paysp3 etp4. Mais, dans ce cas, la géométrie des unités de niveau supérieure ne peut être constituée par agrégation des unités lui appartenant partiellement. Il faut donc chercher dans un zonage de niveau inférieur une relation d’agrégation totale pour constituer l’unité. Sur l’exemple, les communesc8etc9forment par agrégation totale le paysp4.

5.1.1.2 Un support qui change

La comparaison et l’analyse des données suivant la dimension temporelle est fortement gênée par le fait qu’une même nomenclature change au cours du temps, aussi bien sur le plan de la forme des unités territoriales au niveau le plus élémentaire, que sur le plan de l’organisation (ce qui affecte les niveaux non-élémentaires). Les effets des évolutions sont visibles au niveau de chaque unité géographique.

Ce problème, identifié comme le"split tract problem"[Howenstine 93] a donné lieu à de nombreux travaux de recherche. De précédents travaux [Cheylan 97] soulignent que l’attribution d’une identité à une unité géographique peut permettre de retracer son évolution spatio-temporelle puisque tous ses at-tributs sont susceptibles de varier de façon indépendante : son empreinte spatiale, son nom, son centre, son code, son statut, son appartenance, etc. Certains auteurs proposent une ontologie du changement [Hornsby 98], basée sur la reconnaissance d’une identité pour les unités géographiques, mais celle-ci n’a pas d’implémentation immédiate parce que l’identité d’une unité géographique est subjective. En effet, cette approche reste purement abstraite car la méthode d’identification (ou reconnaissance d’une même entité à travers le temps) n’est pas abordée sur le plan opératoire. Il s’agit de déterminer un critère mesurable pour la continuation de l’identité d’une entité entre deux versions, que ce soit en compa-rant le nom, l’empreinte spatiale, le code ou son centre. Or, chacun de ces attributs peut changer entre deux versions, sans que l’identité de l’entité qu’ils décrivent ne soit altérée. Comme nous l’avons mis en évidence dans l’état de l’art, il apparaît qu’en réalité les modèles objets basés sur le paradigme iden-titaire sont très peu répandus car ils se heurtent à l’épineuse question de l’identité. Nous proposons de résoudre cette question en deux temps. Dans un premier temps, le modèle proposé est centré sur une unité géographique dont nous décrivons tous les attributs. Dans un second temps, nous proposons une méthode d’identification des unités à partir de ces attributs, et nous proposons un algorithme pour la

maintenance de ce modèle. Le modèle que nous proposons est qualifié d’objet, comme défendu par Wor-boys [WorWor-boys 98]. Ce modèle permet de définir un ensemble d’unités géographiques existant dans une ou plusieurs nomenclatures, ensemble que nous nommonsle système territorial, qui évolue au fil des versions de nomenclatures publiées. En effet, les versions de nomenclature décrivent les évolutions du système. Dans la section consacrée à la mise à jour et à la maintenance de ce modèle, nous décrivons une procédure d’identification semi-automatique des unités géographiques dans le système territorial, à partir de la comparaison de deux versions de nomenclature.

Par ailleurs, nous proposons d’indexer ce modèle par les événements du changement, ceux étant à l’origine (la cause) des modifications sur les attributs des unités géographiques. En effet, les chan-gements ne surviennent pas sans raison. Ces raisons sont à rechercher du côté des motivations poli-tiques, stratégiques et sociales. Cette hypothèse est soutenue par l’étude de M. Ben Rebah menée sur les recompositions territoriales des maillages administratifs en Tunisie dans le cadre de ses travaux de thèse [Ben Rebah 08]. Les stratégies à l’oeuvre sont souvent purement calculatoires comme dans le cas du "Gerrymandering" ou "charcutage électoral". Un exemple très connu a été décrit par Mor-gan [MorMor-gan 03] : il explique que le pays de Galles, initialement divisé en deux régions nord et sud avec des valeurs moyennes de PIB par habitant par rapport aux autres régions européennes, a été plus tard remembré en deux régions est et ouest, avec une région Ouest ayant un PIB inférieur à 75% de la moyenne européenne. Ce remembrement avait pour principal objectif de faire en sorte que la partie ouest devienne éligible pour les fonds structurels européens, en accord avec l’objectif numéro un de la politique européenne de cohésion territoriale. Il ressort ici, comme dans de nombreux exemples, que de la taille et la forme des parcelles territoriales peut dépendre le nombre d’habitants recensés, les richesses décomptées ou le type majoritaire d’usage du sol enregistré. C’est pourquoi elles sont sujettes à mo-dification, dans la cadre de stratégies politiques et économiques. Il apparaît donc fondamental que les changements dans les découpages ou l’organisation puissent être indexés par les événements décrivant les causes du changement. Dans ce cas, le modèle cesse d’être uniquement descriptif et devient alors explicatif de la dynamique du territoire. Cette approche est actuellement fortement défendue au sein de la communauté de géomatique, comme l’expliquent différents travaux [Langran 92], [Peuquet 02], [Claramunt 95], [Wachowicz 99] qui donnent lieu à des propositions de modèle orienté-objet indexé par des événements comme celui de Worboys, [Worboys 05] ou de Wachowicz, [Wachowicz 99].

De fait, décrire les causes d’un changement reste malaisé, car ces causes sont particulièrement abs-traites et sujettes à débat, donc difficiles à modéliser. Sans aller jusqu’à expliquer les causes d’un chan-gement sur le plan politique ou stratégique, nous souhaitons cependant donner aux experts les moyens de reconnaître quelles sont les unités impliquées dans un même changement, et quelle est la nature de ce changement. Ceci doit faciliter la lecture du phénomène géographique, et permettre de passer d’une lec-ture classique de l’espace (c’est-à-dire le découpage territorial observé suivant une succession de dates) à une lecture par type de changement : quels sont-ils ? où se produisent-ils majoritairement ? Ainsi, nous entendons faciliter l’analyse des changements survenus sur un lieu, une région en particulier puisque le modèle pourra être interrogé pour une certaine unité géographique, sur laquelle sera posée la question de la succession des changements qu’elle a éventuellement subis. Le changement se produit à un certain moment et peut impliquer une ou plusieurs unités : nous le désignons par le terme « événement ». Un événement est défini par une date, un état territorial initial et un état territorial final. Il faut noter que les événements sont datés approximativement, puisque le changement est détecté suite à l’insertion dans le système d’une nouvelle nomenclature. Cette date doit pouvoir être modifiée par un expert s’il dispose de plus d’informations sur cet événement. De plus, on imagine que des événements peuvent composer une suite d’événements qui s’inscrit dans un événement de temps long, s’étalant sur une période. Nous suggérons donc d’employer le terme d’événement de généalogie(à l’origine d’autres événements) pour

désigner ces événements de temps long, décrits par une période et non pas simplement une date. Un événement de généalogie sera donc constitué d’événements particuliers, qui sont eux datés.

Parmi ces événements particuliers, nous distinguons ceux qui ne s’appliquent qu’à l’unité géogra-phique, de façon individuelle au niveau de l’identité géogragéogra-phique, de ceux qui associent plusieurs unités dans une transformation qui sera au minimum spatiale, c’est-à-dire lorsqu’il y a un échange de terri-toires entre plusieurs unités. La première catégorie d’événement est appelée «événement de vie» ou

LifeEvent en anglais, alors que les seconds sont dits «événement territoriaux» ouTerritorialEventen anglais. Ainsi, nous postulons que les événements territoriaux sont essentiellement définis par les formes et les surfaces de territoires mises en jeu, indépendamment de l’identité des unités géographiques. Ces événements peuvent avoir un impact sur les unités géographiques, du point de vue de leur identité. Ils ont donc des événements de vie comme conséquence.

Les événements de vie peuvent être :

– une apparition, qui correspond à la création dans le système territorial d’une nouvelle unité avec une identité propre ;

– une transformation, c’est-à-dire un changement de l’un des attributs de l’unité géographique, mais sans altération de son identité ;

– une disparition, qui correspond à la date de fin de vie d’une unité géographique, et à la fin de sa mise à jour, puisqu’elle n’est plus censée être modifiée dans les versions suivantes du système territorial.

Un événement de vie peut se produire de façon totalement indépendante des autres unités : par exemple, un changement de code ou de capitale pour un pays n’affecte pas les autres pays. Mais très souvent, les événements de vie sont provoqués par des interactions avec d’autres unités géographiques dans le cadre d’un événement territorial.

Nous avons besoin de décrire précisément ce que sont les événements territoriaux. C’est pourquoi

Dans le document Modèles et méthodes pour l'information spatio-temporelle évolutive (Page 160-180)