P RINCIPE DU M ACHINE L EARNING - Un couplage : les arbres de décision Le Chapitre précédent a

Un couplage : les arbres de décision Le Chapitre précédent a mis en lumière les atouts que présente l’utilisation d’un automate

1. P RINCIPE DU M ACHINE L EARNING

En passant d’une géographie descriptive à une géographique quantitative, les géographes ont dû s’approprier de nouvelles méthodes issues des statistiques ou des sciences informatiques. La science des données est justement un domaine qui allie statistique et informatique, et qui permet d’analyser des processus spatiaux pour lesquels il existe une quantité croissante de données (Tufféry, 2017). Au sein de ce domaine, l’apprentissage automatique est l’une des méthodes d’analyse utilisable.

L’apprentissage automatique se base sur « l’étude de méthodes de calculs pour l’amélioration des performances [d’apprentissage] à travers la mécanisation de l’acquisition de connaissances/informations d’après l’expérience » (Langley & Simon, 1995). L’objectif de la démarche est l’analyse automatique de larges jeux de données. L’importance de ce champ de recherche, issu de l’intelligence artificielle33_{, s’est accrue à partir des années 1950}

(Quinlan, 1986). A. Turing illustre pour la première fois le concept d’intelligence artificiel grâce au développement de sa « machine universelle » (Turing, 1936), suivi par W. McCulloch et W. Pitts qui développèrent, eux, le premier réseau de neurones artificiels en 1943 (McCulloch & Pitts, 1943). Les machines « intelligentes » sont pilotées par des algorithmes. L’apprentissage automatique permet d’analyser des bases de données empiriques pour en extraire des logiques ou tendances générales. Il s’agit de ce que l’on nomme l’exploration de données ou Data Mining34_{. L’extraction de connaissances par} l’analyse algorithmique peut dès lors être effectuée sur des jeux de données spatiales ou non, qualitatives comme quantitatives.

D’après S. Trufféry, les méthodes de Data Mining peuvent être regroupées en deux familles majeures : les méthodes descriptives et les méthodes prédictives. Les premières servent à réduire, résumer, synthétiser les données, sans variable à expliquer. Les secondes ont pour but de comprendre les données, l’évolution d’un comportement, non plus seulement en fonction de variables explicatives mais aussi selon une variable à expliquer, plus spécifiquement examinée dans l’évolution de son influence (Tufféry, 2017). Les principales méthodes de Data Mining utilisées actuellement en sciences sociales sont présentées dans la suite de cette sous-section.

33_{Le terme « intelligence artificielle » ou l’abréviation IA (eng. Artificial Intelligence, AI) a été utilisé pour la}

première fois lors de la conférence de Dartmouth (1956). Il est défini pat M. Minsky lors de cette conférence comme « la construction de programmes informatiques qui s’adonnent à des tâches qui sont, pour l’instant, accomplies de façon plus satisfaisante par des êtres humains car elles demandent des processus mentaux de haut niveau tels que : l’apprentissage perceptuel, l’organisation de la mémoire et le raisonnement critique »(Minsky, 1965).

34_{Processus consistant à trouver des tendances générales utiles à l’analyse ou l’interprétation d’un large}

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

157 1.1. Principes généraux

Plusieurs techniques d’apprentissages ont été développées pour analyser un jeu de données et en extraire une information utile à un questionnement spécifique. Quelle que soit la technique sélectionnée, certaines caractéristiques principales similaires et grandes étapes communes permettent d’achever un apprentissage. Nous présentons ici ces caractéristiques en nous appuyant sur notre cas d’étude.

Le présent apprentissage est réalisé sur le jeu de données élaboré précédemment (Chapitre 3). Ce dernier est composé d’individus caractérisés par des variables. Ici, les individus sont les cellules de notre AC. Les variables qui les caractérisent sont l’état initial d’occupation du sol en 1990, puis en 2006, l’occupation du sol des cellules composant le voisinage de l’individu, et la localisation géographique (Figure 4. 10). La question de la taille du voisinage sera traitée ultérieurement (Chapitre 6).

Le jeu de données peut être composé de variables qualitatives (indice de pays, occupation du sol en 1990, etc.), quantitatives discrètes (proportion des types de sols du voisinage, etc.) ou quantitatives continues (accessibilité). Si le jeu de données présente des lacunes (données manquantes), des méthodes permettant de combler ces lacunes sont généralement appliquées (interpolations, etc.). La méthode d’apprentissage utilisée dépendra donc des types de données composant le jeu initial (qualitatives, quantitatives, discrètes ou continues).

Une variable dite « à expliquer » (ou encore « cible », « réponse », « dépendante », « endogène ») doit être définie dans les paramètres de l’apprentissage. Son rôle est d’indiquer à l’algorithme la cible de l’analyse. Par exemple, la variable cible de cette recherche est celle qui informe de l’existence ou de l’absence d’une transition urbaine, l’objectif étant de définir les critères favorables à cette transition. La prédiction s’effectue généralement dans le but de caractériser l’appartenance à deux classes distinctes, répondant à la question de l’analyse par « oui » ou « non ». Ici, la prédiction permet de caractériser l’appartenance à la classe « ayant été urbanisée entre 1990 et 2006 » ou non.

Sur la base de cette phase d’apprentissage, le modèle créé permettra d’établir, en fonction des variables explicatives (ou encore « indépendante », « de contrôle », « exogène ») qui auront été observées durant ladite phase, l’appartenance d’un individu (cellule) à la classe analysée : urbaine ou non urbaine. Grâce à cette phase d’apprentissage, le modèle peut ainsi aider à prédire des transitions, et les vérifier d’après les données observées (cette phase de « test » est abordée ci-dessous). Le modèle issu de l’apprentissage pourra donc fournir un résultat sous forme de probabilités ou de résultats absolus.

En résumé, le choix de la méthode d’apprentissage se base, entre autres, sur la variable à expliquer puis sur les variables explicatives de cette dernière.

Chapitre 5 – Un couplage : les arbres de décision

158

Les différentes phases dans l’élaboration du modèle

L’élaboration du modèle s’effectue en trois phases : 1- L’apprentissage

2- Le test 3- L’application

L’apprentissage est réalisé sur les individus dont le comportement est connu au regard de la question posée. Dans le cas d’espèce, l’apprentissage est réalisé sur une variable qualitative booléenne (binaire, « oui » / « non ») spécifiant si la cellule a effectué une transition urbaine entre 1990 et 2006. Dans un premier temps, le jeu de données initiales est partitionné en deux sous-ensembles :

- « Entraînement » : Il permet à l’algorithme d’effectuer l’apprentissage et de créer les règles appropriées

- « Test » : il permet de tester le jeu ne comportant que des données « vierges », non incluses dans la phase d’apprentissage (unsee data).

Le pourcentage que représente chaque sous-ensemble est laissé à la discrétion du modélisateur. Les valeurs retrouvées dans la littérature présentent souvent un ratio entraînement/test de l’ordre de 70/30. 70% du jeu de données est utilisé pour l’apprentissage, les 30% restant pour tester le modèle créé. Chaque sous-ensemble est échantillonné aléatoirement, tout en conservant un caractère représentatif du jeu total (proportion de transitions, de type d’occupation du sol, etc.). La partition est effectuée pour permettre la validation du modèle. En effet, son efficacité ne peut pas être objectivement testée sur les données ayant permis son élaboration. Le « biais d’optimisme » est ainsi évité (Tufféry, 2017). Le rôle du jeu test est de permettre l’évaluation de l’erreur du modèle, non biaisée, en utilisant seulement les données isolées au départ (non utilisée à l’élaboration du modèle). Ainsi, le modèle retenu est le plus performant pour la prédiction des transitions urbaines dans un jeu de données n’ayant pas servi à la phase d’apprentissage.

Critères d’évaluation du modèle

Plusieurs modèles peuvent être obtenus à partir d’un même jeu de données en fonction du paramétrage de l’algorithme d’apprentissage. L’évaluation de sa performance dépend des objectifs de modélisation. Ils peuvent, par exemple, nécessiter l’élaboration d’un modèle dont la prédiction est extrêmement précise, aux dépens d’un caractère éventuellement moins complexe, ou inversement. Pour ce faire, le modélisateur peut jouer sur le paramétrage. S. Tufféry (2017) identifie ainsi 7 critères pour évaluer la performance d’un modèle :

1- La précision

Le nombre d’individus mal classés par l’algorithme au regard de la question posée, permet de définir un taux d’erreur. Par exemple, une cellule urbanisée d’après les résultats issus de la simulation du modèle mais non urbanisée d’après les données observées constitue une erreur. Dans l’idéal, ce taux doit être minimum. Différents indicateurs permettent de mesurer

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

159

la précision, suivant la méthode d’apprentissage appliquée. Par exemple, lors de l’utilisation d’une méthode de classement, la courbe ROC35_{ou l’indice de Gini}36_{peuvent être envisagés.}

La précision d’une régression peut, elle, être évaluée grâce au R² ou à l’erreur quadratique moyenne.

2- La robustesse

La robustesse traduit le détachement existant entre la réussite du modèle créé et l’échantillon utilisé. En d’autres termes, le modèle ne doit pas être sensible à la fluctuation aléatoire d’une variable. Il doit être capable d’atteindre une certaine performance quand l’application concerne des variables ayant évolué dans le temps. Cette stabilité pourra être testée lors de la construction du modèle, si le modélisateur dispose de données diachroniques par exemple. Le modèle sera d’autant plus performant s’il s’appuie sur des variables suffisamment stables et présentes d’une période à l’autre.

3- La concision

La parcimonie peut être un critère privilégié. Des règles simples et peu nombreuses seront d’autant plus faciles à interpréter, et plus enclines à la généralisation si l’utilisation du modèle est étendue à une autre population d’individus. La concision peut être un facteur de robustesse quand elle n’est pas privilégiée aux dépens de la précision.

4- Des résultats explicites

Les règles sont considérées comme explicites quand elles sont accessibles et compréhensibles. La compréhension directe est un facteur important au regard de la communication autour des résultats. Elle facilitera aussi l’intégration des règles dans un logiciel si tel est l’objectif.

5- La diversité des types de données prises en charge

Ce point peut favoriser l’utilisation d’une méthode. Certaines méthodes sont exclusivement dédiées à un type particulier de données (exclusivement quantitatives continues par exemple), quand d’autres au contraire permettent un traitement de données mixtes. La prise en charge des données concerne également celle des données manquantes ou fortement corrélées, ce qui peut revêtir un caractère discriminant quant au choix de la méthode d’apprentissage.

6- La rapidité du calcul

Le temps d’apprentissage peut être limitant notamment dans le cadre de l’élaboration de scénarios participatifs en temps réel. Dans ce cadre, le modèle doit être modulable rapidement pour prendre en compte de nouvelles caractéristiques ou encore adapter un scénario en cours de réflexion. Ce point impose la création du modèle et l’exportation des résultats de simulation dans un laps de temps réduit (durée d’une réunion, journée d’étude). Or, les résultats de certains modèles sont obtenus après plusieurs jours de simulation.

7- Les possibilités de paramétrage

35_{La courbe ROC (Receiver Operating System) est utilisé « pour décrire un test qui prédit la présence ou}

l’absence d’un trait binaire » (Wang et al., 2019), pour une présentation approfondie voir (Krzanowski et al., 2009; Pepe, 2003; Zhou et al., 2009)

36_{L’indice de GINI permet de mesurer l’impureté d’une classe au regard de l’objectif de classification. L'indice}

de Gini peut également être considéré comme « le taux d'erreur attendu si le libellé de la classe est choisi de manière aléatoire dans la distribution de la classe au niveau du nœud » (Brown & Myles, 2009).

Chapitre 5 – Un couplage : les arbres de décision

160

La richesse du paramétrage permet au modèle d’être flexible et de pouvoir s’adapter à divers contextes. Lors de l’application sur la zone d’étude plusieurs pistes auraient pu être envisagées : la production d’un modèle possédant un nombre très limité de règles simples, ou au contraire la production d’un modèle plus performant en termes de prédictions mais qui nécessite des règles plus longues et plus précises. C’est à travers le paramétrage d’apprentissage que ces deux objectifs peuvent être atteints.

L’importance des critères de performance variera suivant l’objectif de modélisation. L’équilibre de leur ajustement confère à l’exercice sa délicatesse, puisque l’augmentation de la performance de l’un d’entre eux risque de se faire aux dépens d’un autre critère de la liste. La section 1.3 revient plus précisément sur la configuration sélectionnée dans le cadre de ce travail après la présentation de la méthode (section 1.2).

Le réglage des divers paramètres doit parfois prendre en compte le phénomène de sur- apprentissage pouvant affecter la performance de certains types d’algorithmes. Ce phénomène est d’autant plus important lors de l’étude d’un processus peu représenté dans les données d’entrée. C’est notamment le cas du processus d’urbanisation de la zone d’étude du présent travail. Ce point fait l’objet de la sous-section suivante.

1.2. Phénomène exceptionnel et « sur-apprentissage »

Deux points majeurs doivent retenir l’attention du modélisateur lors de l’utilisation d’algorithmes d’apprentissage automatique. Le premier concerne un apprentissage basé sur un jeu de données déséquilibré et dont les prédictions intéressantes ne portent que sur une classe faiblement représentée au regard du nombre total d’individus. Le second concerne le sur-apprentissage, lequel affecte la propension à la généralisation du modèle en lui conférant un caractère descriptif ponctuel excessivement précis. Cet écueil dévalue alors la performance du modèle en tant que processus dégageant des tendances de transition.

Phénomène exceptionnel

La capacité d’une machine à apprendre d’un phénomène en fonction de données fournies dépend en partie de la composition du jeu de données, et notamment de l’équilibre existant dans la proportion des classes à prédire37. Le Chapitre 3 soulignait le caractère exceptionnel du phénomène d’urbanisation, lequel comprend un nombre restreint d’individus appartenant à la classe « urbanisé entre 1990 et 2006 ».

L’efficacité d’un modèle peut être évaluée dans sa globalité de façon binaire, par sa capacité à prédire correctement l’appartenance d’un individu : ce dernier est correctement classé ou ne l’est pas. Dans le cas de l’urbanisation, une cellule urbanisée (individu) dans les données

37_{La recherche d’équilibre peut amener une correction visant à tendre vers une proportion de 50/50 entre la}

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

161

observées l’est également dans les données simulées. Elle est alors correctement classée. Dans le cas contraire, la prédiction est fausse.

À ce titre, l’apprentissage d’un processus exceptionnel est plus délicat à paramétrer (Haixiang et al., 2017; López et al., 2013). En effet, sans spécifier l’important de la prédiction d’une classe en particulier, l’algorithme se satisfera de sa capacité de prédiction globale. Ainsi, dans le cas des classes déséquilibrées, le modèle pourra être performant sur prédiction de la classe la plus importante et pauvre dans la prédiction de la classe la moins importante, tout en étant performant dans la globalité des prédictions. Dans le cadre de ce travail, la classe des transitions urbaines est faiblement représentée, au regard du non- changement (0,05% de la zone d’étude). L’absence de prise en compte du déséquilibre a pour conséquence directe la création d’un modèle capable de prédire le phénomène de non- changement, puisqu’il est de toute façon majoritaire, au lieu du phénomène d’urbanisation. Pour illustrer nos propos, considérons les proportions de chaque classe sur notre zone d’étude. Les cellules présentant un changement d’état entre 1990 et 2006 représentent 0,55 % des individus par conséquent les cellules ne présentant aucune évolution, représentent, elles, 99,45%. L’hypothèse menant à la construction d’un modèle nul suggèrerait de ne rien faire évoluer sur la zone d’étude. Ce modèle nul serait néanmoins efficace à 99,45% dans la justesse de ses prédictions, puisque l’erreur ne concernerait que les cellules ayant changé d’état, soit 0,55%. Le modèle serait étonnamment extrêmement efficace dans la globalité de ses prédictions, mais incapable de prédire le phénomène étudié dans ce projet.

D. Cieslak (2008) précise que le problème de l’apprentissage sur des jeux de données dont les classes sont déséquilibrées est un problème persistant lors de la mobilisation d’outils d’apprentissage automatique, notamment dans le cas des arbres de décision. Trois alternatives, entres autres, peuvent être envisagées pour pallier le déséquilibre (Haibo & Garcia, 2009).

- Un ré-échantillonnage différent

Cette méthode consiste à modifier l’échantillonnage d’apprentissage pour favoriser la classe auparavant sous-estimée.

- Pénaliser le modèle

Lorsque l’erreur de prédiction concerne la classe sous-représentée, elle sera artificiellement considérée dans les paramètres du modèle comme plus importante.

- Utiliser d’autres indicateurs de performance

La performance d’un modèle peut être évaluée suivant différentes modalités. Un seuil à atteindre peut-être prédéfini par exemple dans le cadre d’une analyse ROC.

L’apprentissage automatique du processus d’urbanisation sur la zone d’étude nécessite la prise en compte du caractère exceptionnel de ce phénomène. Cependant, la mise en place des mesures nécessaires ne doit pas s’effectuer aux dépens de la qualité de l’apprentissage, laquelle peut être dégradée par le « sur-apprentissage ».

Chapitre 5 – Un couplage : les arbres de décision

162

Sur-apprentissage

Certains algorithmes d’apprentissage automatique sont sensibles au phénomène de sur- apprentissage. Ce phénomène est lié à la difficulté de généralisation rencontrée lors de l’élaboration de modèles présentant une certaine complexité. La Figure 5. 1 illustre le phénomène en question :

Figure 5. 1 : Sous- et sur-apprentissage d'un modèle de classement (d’après Bousquet dans Tufféry 2017)

Le modèle A, excessivement simple, ne sera pas en capacité de saisir les subtilités de la distribution, et présentera un fort biais de prédiction. Le modèle C, trop complexe, ne sera au contraire pas capable de généraliser le phénomène observé. Le modèle B, ou le « bon modèle », pour S.Tufféry, se trouve dans un juste milieu, dont la localisation est toujours dépendante des besoins en termes de modélisation. La Figure 5. 2 propose une image du « juste équilibre » en question, à travers la projection du taux d’erreur lié au modèle créé. À mesure de l’augmentation de la complexité du modèle, le taux d’erreur diminue (repère A). Les prédictions du modèle sur les données d’apprentissage et celles obtenues sur les données test convergent vers une diminution du taux d’erreur induisant une « bonne généralisation » (repère B). L’augmentation de la complexité au-delà de ce repère permet d’obtenir un modèle d’autant plus précis sur les prédictions lors de l’apprentissage mais dont le taux d’erreur, qui se manifeste sur les données test croît en raison de l’augmentation de la spécificité du modèle créé. Le taux d’erreur alors important induit une mauvaise généralisation (repère C).

PARTIE 2 – MODÉLISER LE DÉVELOPPEMENT URBAIN EN ZONE FRONTALIÈRE

163

Figure 5. 2 Taux d'erreur en fonction de la complexité du modèle (Tufféry, 2017)

Le problème du sur-apprentissage peut apparaître lors de l’exploitation d’un échantillon trop minime au regard du nombre de paramètres contenus dans le modèle. D’autres sources de sur-apprentissage sont aussi à considérer : la présence d’une variable explicative fondamentalement corrélée dans sa nature à celle dont on cherche l’explication, ou l’attribution d’un poids excessif lors du recours à une pondération des variables explicatives. Le dernier cas à mentionner, relevant plus d’un biais général que celui du sur-apprentissage tel qu’on l’imagine intuitivement, est celui de l’apprentissage réalisé sur un jeu de données erronées ou biaisées à l’acquisition. Dans ce cas, l’apprentissage ne sera pas correct non plus.

Si plusieurs cas de figure peuvent mener à la réalisation d’un modèle sujet au « sur apprentissage », des solutions permettent de l’éviter. Outre la vérification ou l’ajustement des différents paramètres au regard des sources de « sur-apprentissage » (nombre de variables, diversité de l’échantillon, etc.), le test du modèle sur un échantillon vierge, c’est- à-dire qui n’as pas servi à la création du modèle lors de l’apprentissage, est la méthode de vérification principale attestant de l’efficacité du modèle sur un « nouveau » jeu de données. Ceci permet d’éclairer la marche à suivre lors de l’utilisation d’algorithmes d’apprentissage pour créer des règles issues de l’analyse d’un jeu de données. Les règles issues de l’analyse traduisent les comportements relatifs à la question d’intérêt. Nous pouvons voir ici, comme dans la démarche de modélisation initiée par une sélection arbitraire des données, le caractère subjectif, intrinsèquement lié à la problématique recherchée, de la forme du modèle et de ses résultats. Ainsi, les choix d’ajustement des critères privilégiant l’un ou l’autre des paramètres influenceront les résultats et la vision exprimée. L’ajustement des paramètres variera aussi en fonction de la méthode et de l’algorithme utilisé.

Les principales méthodes décrites dans la littérature et liées à l’élaboration de modèle traitant notamment de l’occupation du sol sont présentées dans la sous-section suivante.

Dans le document Apport de l’apprentissage automatique pour la modélisation et l’analyse des changements d’occupation du sol (Page 163-174)