• Aucun résultat trouvé

Le chapitre 4 a associé succinctement la démarche de calibrage à celle de validation dans le cadre du questionnement sur l’utilisation des modèles et notamment des automates cellulaires. Le présent chapitre porte plus précisément de la phase de calibrage. En effet, comme le mentionne J. M. Epstein, la seconde question « abordée par curiosité », après celle du « pourquoi modéliser ? » est bien celle de la validation (Epstein, 2008).

Si certaines applications récentes ne présentent pas d’étape de validation des résultats produits (van Vliet et al., 2016), l’évaluation de leur qualité reste un élément important qu’il apparaît délicat de négliger (Paegelow et al., 2018). En effet, la validation permet de communiquer les résultats dans un contexte précis et transparent. Elle peut aussi s’avérer rassurante lors du développement d’outils destinés à un public plus large, notamment non- issu du monde académique, qui chercherait dans le modèle, des possibilités d’applications concrètes.

L’étape de validation permet par ailleurs de cerner plus objectivement les performances d’un modèle, en soulignant notamment ses limites. En ce sens, elle met en lumière l’incertitude liée à l’utilisation du modèle, la « perfection relative » des résultats obtenus. Cette étape est extrêmement intéressante, à la fois pour parfaire la démarche de modélisation, mais également pour adapter l’utilisation du modèle à ses performances, lesquelles s’illustrent dans la validité des résultats. Comme le souligne J. M. Epstein, un modèle peut s’avérer précieux, sans pour autant être totalement « juste ». Cette considération est également illustrée par G. Box : « Tous les modèles sont faux, mais certains sont utiles40 » (Box & Draper, 1987).

Les chapitres 4 et 5 ont présentés respectivement les raisons et objectifs associés à la sélection, d’une part, de l’outil de simulation, l’automate cellulaire, et d’autre part, de la méthode menant à la création et au calibrage des règles de transition, à savoir l’apprentissage automatique par arbres de décision. Si la création et le calibrage des règles pour l’AC sont automatiques, le calibrage des paramètres de l’algorithme AD ne l’est pas. Or cet élément influe le jeu de règles, et permet in fine d’en apprécier la validité, raison pour laquelle la

Chapitre 6 – Une difficulté : le calibrage

184

réflexion sur les paramètres de l’AD est utile au choix du modèle comme à l’appréciation de sa performance.

Le présent chapitre permet donc, dans un premier temps, de revenir sur la notion de validation dans les modèles de changement d’occupation du sol. Le modèle utilisé dans ce travail est ensuite sélectionné après une première phase de validation, intrinsèquement liée à la phase de calibrage du paramétrage de l’arbre de décision. Cette phase permet également d’établir l’influence des variables d’occupation du sol et de localisation géographique sur la performance du modèle. Enfin, un paramétrage est sélectionné pour présenter l’enjeu de la validation spatiale dans l’évaluation de la performance du modèle ainsi qu’en tant que support de visualisation des résultats.

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

185

1.

V

ALIDATIONET CALIBRAGE

L’étape de validation, comme celle du calibrage, reste sujette à discussion encore aujourd’hui. Aucune méthode particulière ne fait actuellement consensus pour valider les modèles de changement d’occupation du sol. Nous retenons deux limites majeures rencontrées lors de cette étape (van Vliet et al., 2016) :

L’impossibilité de déterminer l’exactitude d’une proposition lors de l’étude d’un système non clos, comme celui des changements d’occupation du sol. En effet, les modèles s’appuient sur des données d’entrées qui ne pourront jamais être connues dans leur totalité (les processus résultent de la combinaison d’une infinité de variables).

Les modèles de changement d’occupation du sol ne permettent pas une validation absolue en raison de la part d’incertitude existante au sein même de la donnée observée, mais également en raison du caractère non stationnaire41 du processus.

L’objectif recherché à travers cette étape est donc principalement une évaluation de la performance du modèle au regard de l’objet d’étude, et non une recherche de la perfection (Houet et al., 2016).

Le besoin d’évaluer la pertinence d’un résultat est inhérent au travail de recherche, d’autant plus lors d’une démarche d’aide à la décision. Les résultats obtenus pendant l’étape de validation ne présentent donc pas un caractère binaire (juste ou faux), mais permettent de faire évoluer le modèle en fonction de l’évaluation de sa performance. C’est pourquoi, l’étape de validation reste « un défi ouvert sans fin clairement définie » (Aumann, 2007). La validation d’un modèle en géographie peut être abordée suivant deux angles, parfois conjugués. Le premier est porté sur l’analyse de la performance à travers les résultats numériques produits lors de l’élaboration du modèle. Ici, nous considérons, par exemple, le coefficient de corrélation de Matthews (CCM), l’efficacité de prédiction des transitions urbaines (Vrais Positifs), le nombre de règles nécessaires, la surestimation des transitions (Faux Positifs) et l’erreur de prédiction (Faux Négatifs). Ces données sont issues d’une matrice de confusion classique présentée dans le chapitre 5, parallèlement aux différents indicateurs de performance (Chapitre 5 section 3.1). Les résultats peuvent donc être analysés indépendamment de leur spatialisation, puisque l’analyse des transitions est effectuée de manière binaire. Elle est donc identique aux données observées (juste – VP et VN) ou non- identique (fausse – FP et FN). Le second angle est basé sur la spatialisation des résultats, qui, par l’appréhension d’une cohérence spatiale, apparaît moins manichéenne que l’approche binaire.

Cette section permet dans un premier temps, de présenter différentes formes de validations numériques ou spatiales. L’étape de validation est ensuite discutée d’après la structure du modèle développé (AC contraint ou non). Pour finir, la combinaison des méthodes retenues est argumentée.

Chapitre 6 – Une difficulté : le calibrage

186 1.1. Des contraintes à identifier

La difficulté associée à l’étape de validation est variable. Elle pourra dépendre de plusieurs paramètres, notamment des contraintes intégrées au préalable lors du développement du modèle ou celle intégrées lors de la simulation. Le chapitre 4 mentionnait l’évolution des AC, amenés à s’éloigner progressivement de leur définition classique (Couclelis, 1997). Nous retiendrons ici deux types de contraintes majeures pouvant intervenir dans l’élaboration du modèle et impactant le processus de validation : l’intégration d’une contrainte quantitative et l’intégration d’une contrainte spatiale.

Contraintes quantitatives

L’intégration d’une contrainte quantitative est une démarche qui permet de limiter les transitions proposées par le modèle à un nombre prédéfini. Le seuil limite de transition est ainsi imposé en amont de la simulation et prémunit le modèle d’une surestimation des changements. L’intégration de cette contrainte dans le processus de modélisation est courante dans le développement de modèles AC étudiant les changements d’occupation du sol (Ghosh et al., 2017).

Dans le cas d’une approche rétrospective, la contrainte est déterminée d’après les changements observés des cellules existantes. Par exemple, nous pouvons établir un seuil de transition en comptant le nombre de transitions urbaines observées entre 1990 et 2006 pour contraindre la simulation AC. Dans un cadre prospectif, une contrainte quantitative peut être imposée, selon différentes modalités. Lors d’une approche statistique, la contrainte quantitative peut par exemple être déterminée d’après l’utilisation des chaînes de Markov42. À défaut, elle peut répondre à un objectif politique (limitation de l’étalement urbain, urbanisation de zones spécifiques, etc.), dont il sera question d’étudier les conséquences à travers l’utilisation de modèles de simulation (Frémond, 2015). Ainsi, à partir de la quantité de transitions prédéfinie, statistiquement ou à dire d’expert politiquement, différents scénarios d’aménagement peuvent être testés et comparés par le biais de simulations. L’utilisation du modèle est, dès lors, prémunie de toute surestimation des changements. À l’issue de la détermination de la contrainte, qu’elle résulte d’un cadre rétrospectif ou prospectif, deux cas de figure sont susceptibles de se présenter, selon les caractéristiques du modèle et sa zone d’application. Dans une première hypothèse, le modèle devra avoir recours à plusieurs pas de simulation pour atteindre le seuil établi. Dans la seconde, un seul pas de simulation suffira au modèle pour atteindre le seuil de transitions, voire le surpasser. Dans ce cas, un choix aléatoire au sein des transitions proposées devra être effectué. Ce choix peut être dépendant d’une probabilité de transition variable ou encore hiérarchisé d’après des critères exogènes (zone attractive, zone réglementée, etc.). Au regard de cette sélection aléatoire, la sensibilité du modèle devra néanmoins être évaluée, notamment d’un point de vue spatial, puisque chaque essai pourra engendrer une image différente des changements en matière de localisation (Chapitre 5 – Section 2.3).

42 Processus stochastique permettant de définir un changement d’état dans le futur à partir d’une donnée dans

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

187

Contraintes spatiales

Les contraintes spatiales sont définies ici comme les zonages préexistants interdisant une transition, ou augmentant sa probabilité de façon exogène. Elles peuvent se matérialiser par l’intégration de plans réglementaires ou d’objectifs d’aménagements (densification, préservation de certains espaces, etc.). Le recours aux zonages réglementaires est courant dans l’élaboration des modèles43. Leur implémentation peut notamment être utilisée pour

évaluer leur impact sur les changements d’occupation du sol, ou encore l’adéquation des changements vis-à-vis des contraintes réglementaires. Pour autant des études ont montré l’écart entre le cadre fixé par la réglementation ou les plans d’aménagement, et la réalité du développement et des changements d’occupation du sol (Alfasi et al., 2012). Ces deux points soutiennent notre choix de ne pas intégrer les plans réglementaires pour limiter et délimiter en amont les zones pouvant accueillir le développement urbain.

L’interdiction ou la limitation exogène, par l’utilisateur, des changements possibles peut s’avérer favorable à la performance générale du modèle. En effet, dans le cadre d’un AC, des cellules répondant positivement à une règle mais localisées dans un périmètre proscrit, n’effectueront pas la transition. Les faux positifs (FP) peuvent donc être limités en amont. Ils n’intégreront pas les cellules répondant positivement aux règles mais localisées dans un périmètre proscrit, ni celles induisant un dépassement du seuil fixé de transitions.

Or, l’objectif de ce travail n’est pas d’augmenter la performance du modèle en intégrant des zonages restrictifs, ou des seuils dans le nombre de transitions. Il s’agit de parvenir à une certaine performance à travers le modèle lui-même, par l’apprentissage basé sur la description du voisinage et la localisation de la cellule. De plus, la différence entre le modèle et les données observées présente en elle-même un intérêt, puisque comme le souligne P. H. Verburg « la différence entre la réponse donnée par le modèle et les changements d’occupation du sol observés pourrait indiquer que lors d’une des étapes du développement du modèle, le processus réel est capturé de manière inadéquate. Tracer l’origine de cette différence pourrait révéler des informations concernant le fonctionnement du processus réel, et fournir des suggestions concernant l’amélioration du modèle à cet égard » (Verburg et al., 2016). Ainsi, le modèle présenté ici n’intègre ni contrainte quantitative, ni contrainte spatiale.

1.2. Des possibilités à adapter

Notre démarche de modélisation induit une simulation spatialement explicite44. L’échantillon des techniques de validation présentées dans cette sous-section concerne donc celles relevées dans un tel cadre de simulation. L’objectif est de donner un aperçu global des techniques mobilisées pour la validation. Les modèles de changement d’occupation du sol peuvent être validés :

- d’après la précision de leurs résultats (localisation ou forme urbaine des changements) ;

- par l’analyse de leur sensibilité lors de la modification des variables ou des seuils des paramètres ;

43 Metronamica, parmi d’autres modèles, permet par exemple l’intégration de plan réglementaires.

44« Approche basée sur une carte initiale d’occupation du sol, typiquement représentée par une grille raster

Chapitre 6 – Une difficulté : le calibrage

188

- par l’incertitude du modèle concernant la variation des résultats, à paramétrage et variables identiques.

La validation peut être effectuée indépendamment des données utilisées pour construire le modèle, ou d’après ces mêmes données. L’utilisation de données externes (données issues d’un espace ou d’une acquisition temporelle différente, ou encore un échantillon de données isolées lors de la création du modèle) permet une validation plus objective et une estimation plus réaliste de la performance du modèle notamment lors de l’utilisation d’algorithmes d’apprentissage automatique. Nous nous intégrons dans cette démarche en isolant 25% du jeu de données lors de l’apprentissage par arbre de décision. Quand une portion du jeu de données est isolée pour le test (Chapitre 5) la sélection des cellules mises à l’écart est aléatoire. Elle préserve néanmoins les caractéristiques globales du jeu complet, notamment la proportion des cellules urbanisées et celles qui ne présente pas de changement entre 1990 et 2006. Dans ce cas, la sensibilité du modèle vis-à-vis de la composition de l’échantillon isolé doit être testée. Ce point est développé plus précisément dans la suite du chapitre (section 2.3).

Dans la continuité, l’étape de validation peut être réalisée suivant une approche quantitative ou spatiale, stricte ou progressive. Les différents indicateurs quantitatifs tels que la précision, la sensibilité, l’efficacité et le Coefficient de Corrélation de Matthews (CCM), font partie de ceux qui permettent d’évaluer la précision de la localisation dans un objectif de réponse binaire (juste ou fausse). Cette approche est la plus stricte et ne laisse pas de flexibilité dans l’appréciation de la performance du modèle. Elle est utilisée dans la plupart des études de cas récentes (van Vliet et al., 2016). Il est néanmoins légitime de se poser la question du caractère adéquat de cette méthode de validation lors de l’utilisation de modèles de changement d’occupation du sol, d’autant plus lorsque l’on souhaite conserver une précision relativement importante à des échelles néanmoins larges. Ainsi, le modèle est-il faux si la transition modélisée n’est pas localisée à l’endroit exact de la transition observée, mais dans un certain périmètre ? Par exemple, une analyse « near hit » (Hagen, 2003; van Vliet et al., 2013a) permet d’intégrer la logique floue dans l’évaluation de la précision de localisation de la transition ou celle du changement de classe (Figure 6. 1).

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

189

Figure 6. 1 Six situation ou les cartes de gauche et droite sont comparées, en considérant l’aspect flou de la localisation (Hagen, 2003):

Ainsi, l’analyse des résultats n’est plus binaire mais présente un seuil de tolérance plus flexible dans la modélisation d’une transition considérée comme juste. Cet élément fait l’objet de développements lors de la validation spatiale (Section 3).

1.3. Un choix à justifier

L’étape de validation est particulièrement enrichissante pour l’étude du processus de développement urbain sur la zone frontalière franco-allemande. Elle permet la sélection d’un meilleur modèle en fonction du paramétrage dont est issu l’arbre de décision. Pour rappel, la définition du meilleur modèle est basée sur les critères suivant spécifiés chapitre 5 section 3.3 :

- Le coefficient de corrélation de Matthews ; - L’efficacité de prédiction des transitions ; - Le nombre de règles nécessaires ;

Chapitre 6 – Une difficulté : le calibrage

190

L’objectif de l’étape de validation dans ce travail est double. Elle permet dans un premier temps de sélectionner le meilleur modèle en étudiant la sensibilité des résultats obtenus en fonction du paramétrage. Dans un second temps, l’influence des variables de localisation géographique peut être analysée, inférant notamment l’impact de la frontière dans la caractérisation du développement urbain. En effet, puisque l’algorithme intègre la sélection des variables influentes dans la description du voisinage ou dans la caractérisation intrinsèque de la cellule, il sera possible d’indiquer si la localisation géographique dans l’un ou l’autre des pays se révèle être un critère retenu.

Il s’agit de nous appuyer, dans un premier temps, sur une validation stricte cellule par cellule, permettant de sélectionner le meilleur modèle. Bien que basée sur une vision binaire, elle présente l’avantage d’être simple et permet de faciliter la communication autour de l’outil à tout type d’utilisateur (Sous-section 3.2). L’utilisation d’une méthode plus flexible incluant par exemple de la logique floue améliorerait la caractérisation de la performance du modèle mais ne rendrait pas le modèle en lui-même, plus performant. Elle n’est donc pas privilégiée à ce stade. Une méthode est cependant utilisée dans un second temps, afin de réaliser une approche spatiale de l’évaluation des résultats, laquelle permet d’analyser l’homogénéité des performances de modélisation au sein de la zone d’étude (Sous-section 3.3).

Les étapes de paramétrages et de validation sont étroitement liées puisque les tests de paramétrage sont réitérés jusqu’à leur validation. Leur combinaison permet in fine la sélection du paramétrage optimal, donc du meilleur modèle.

La première étape menant à la sélection du meilleur modèle sur notre zone d’étude est celle de la définition du paramétrage de l’arbre de décision, incluant la taille du voisinage et la pondération servant à équilibrer l’effectif de la classe à prédire (transition urbaine). L’objectif est donc d’évaluer la sensibilité du modèle à la variation de ces deux paramètres. L’exploration de leur influence permet de valider le choix des seuils qui mènent à la sélection du meilleur modèle, mais apporte également une réponse quant à la taille du voisinage à considérer dans la simulation AC. Cette étape relève donc du calibrage de l’algorithme de l’arbre de décision.

Pour ce faire, nous maximisons, dans un premier temps, l’information contenue dans le jeu de données, dans le but de maximiser les performances de l’apprentissage. Ainsi, toutes les variables sont incluses (occupation du sol et localisation géographique) et l’apprentissage a été effectué sur l’intégralité du jeu de données des données. Cette étape permet de s’abstraire du biais lié à l’échantillonnage aléatoire et de la nécessité d’évaluer la sensibilité du modèle comme dans le cas de l’utilisation d’une partie entraînement et test. Ces éléments sont explorés par la suite (Section 2.3). Ainsi, pour commencer, les seuls points considérés sont :

- La performance du modèle lié au paramétrage de l’AD ; - L’apport des variables de localisation géographique.

C’est dans un second temps qu’un échantillonnage est effectué pour dissocier une partie entraînement et une partie test du jeu de données, et qu’une analyse de la sensibilité du modèle liée à l’échantillonnage est réalisée. Chaque simulation est alors réalisée 10 fois pour évaluer le lien entre l’échantillonnage et la performance des modèles produits. Le meilleur paramétrage est ensuite choisi d’après les valeurs médianes des indicateurs de performances : médianes des CCM (entraînement et test), mise en relation avec la valeur médiane du nombre de règles nécessaire, et de la valeur médiane de la capacité de prédiction

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

191

des transitions. Une fois le choix du modèle arrêté, une analyse plus spécifique de l’apport des variables de localisation géographique est considérée.

L’étape de validation est donc répétée autant que nécessaire à l’obtention du paramétrage du modèle optimal pour la simulation du développement urbain sur la zone d’étude. La section suivante présente les tests réalisés à cet effet.

2.

T

EST DES PARAMÈTRES

Comme expliqué précédemment (Sous-section 1.3) cette première étape de calibrage explore la performance du modèle, en s’appuyant uniquement sur l’occupation du sol comme facteur explicatif de la transition urbaine. Cette simplification permet de focaliser exclusivement l’analyse sur le lien entre la taille du jeu de règles (nombre de règles, nombre de variables mobilisées) et la performance du modèle.

Le travail de calibrage présente également un intérêt thématique dans notre travail, puisqu’à l’issue, il devient possible de mesurer le bien-fondé de l’utilisation des variables qui spécifient la localisation géographique, et notamment, la localisation dans l’un ou l’autre des pays de la zone d’étude ou encore l’accessibilité des pôles de différents niveaux (Chapitre 7).

1.1.1 Test systématique : influence de la distance et de la pondération

Le test systématique est réalisé dans le cadre d’un apprentissage effectué sur la totalité du