• Aucun résultat trouvé

Questions ouvertes

4. Méthodologies de la connaissance incertaine sur la ville

4.2 L’apport des probabilités bayésiennes

L’approche bayésienne ouvre des nouvelles perspectives à l’emploi des probabilités

Au fil de mes recherches plus méthodologiques, pratiquement depuis mes travaux de thèse, je me suis tout particulièrement engagé dans l’adaptation des modélisations probabilistes bayésiennes aux besoins de connaissance de la géographie urbaine.

L’approche bayésienne a renouvelé la modélisation statistique depuis la moitié du XXe siècle (Jaynes 1968, Box et Tiao 1973, Jaynes 2003, Bolstad 2007) et a ensuite fondé un certain nombre d’algorithmes de machine learning en intelligence artificielle à partir des années 80 et 90. De façon générale, Drouet (2016) fait état du succès croissant que les méthodes bayésiennes ont dans différents domaines : en économie, dans l’étude du cerveau, dans les sciences médicales, dans les sciences juridiques, en épistémologie dans le domaine de l’aide à la décision en contexte d’incertitude. En ce qui concerne la géographie, Withers (2002), mais déjà Harvey (1969), ont montré les présupposés épistémologiques et l’intérêt pratique d’une géographie bayésienne. Withers, en particulier, reprend les travaux de Raftery (1995a) pour une approche bayésienne à la sélection de modèles en sciences sociales. Comme Drouet (2016) le résume bien, l’approche bayésienne est en train de devenir une nouvelle norme de conduite du raisonnement scientifique.

En reprenant Drouet (2016) l’édifice du bayésianisme aujourd’hui repose sur trois étages portant, respectivement, sur les croyances des agents rationnels à un moment donné, sur la dynamique des croyances et sur le raisonnement scientifique.

En ce qui concerne le premier point (les croyances des agents rationnels considérées de manière synchronique), le bayésianisme assume que les croyances de tout sujet relativement à un évènement sont des évaluations graduées et que, pour être rationnelles, elles doivent être des probabilités. Pour rappel, les probabilités sont des quantités non négatives, comprises entre 0 et 1, que l’on peut attribuer à des phénomènes élémentaires disjoints au sein d’un univers des possibles, et pour

150

lesquelles la somme sur cet ensemble est égale à 1 (axiome de Kolmogorov). L’absence d’incertitude serait alors caractérisée par des croyances égales à 1 (phénomène certain) ou 0 (phénomène impossible), toutes les autres connaissances étant affectées par des degrés différents d’incertitude. Cette proposition élargit considérablement les applications (et les interprétations) possibles des probabilités : ces dernières ne fournissent pas seulement le modèle théorique de référence pour le comportement asymptotique des fréquences de phénomènes structurellement stables (probabilités fréquentielles) mais également le modèle pour des degrés de croyance d’agents rationnels en contexte d’incertitude.

Le raisonnement bayésien

Le second étage de l’édifice bayésien porte sur la manière dont un agent rationnel doit revoir ses croyances à la lumière d’une nouvelle connaissance. La révision des croyances est celle du conditionnement bayésien, qui utilise le théorème de Bayes. Imaginons que la connaissance du phénomène A soit incertaine : on peut alors affecter un degré de croyance a priori P(Ai) à chaque issue

possible Ai du phénomène A (ces issues sont des évènements mutuellement exclusifs). Si l’on vient à connaitre un second phénomène B avec certitude, et, en considérant que B est lié à A, l’on connait la vraisemblance de B pour chaque Ai, c’est-à-dire la probabilité d’observer B lorsque Ai est vrai, P(B|Ai),

alors la probabilité a posteriori de chaque Ai, en connaissant B est donnée par : 𝑝(𝐴𝑖| 𝐵) =𝑝(𝐵|𝐴𝑖)𝑝(𝐴𝑖)

𝑝(𝐵) = 𝑝(𝐵|𝐴𝑖)𝑝(𝐴𝑖)

∑ 𝑝(𝐵|𝐴𝑖 𝑖)𝑝(𝐴𝑖) (4.1)

La probabilité de l’évidence p(B) dans le conditionnement de Bayes est une simple constante de normalisation qui peut être calculée grâce au théorème de la probabilité globale.

En assouplissant le contexte de connaissance, on pourrait supposer que tant la connaissance du phénomène A que celle du phénomène B soient affectées d’incertitude. On attribue alors des degrés de croyance aux différentes observations possibles de B. Dans ce cas le théorème de Bayes (4.1) est remplacé par la règle de Jeffrey (Shafer 1981) :

𝑞(𝐴𝑖 | 𝐵) = ∑ 𝑞𝑗 𝑗𝑝(𝐴𝑖 | 𝐵𝑗) (4.2)

Où les croyances qj sont attribuées aux Bj, différentes valeurs possibles de B, et chaque p(Ai|Bj)

est calculé selon (4.1). Cette modélisation bayésienne est une première opérationnalisation des croyances révisables identifiées par MacFarlane (2013) comme étant caractéristiques du raisonnement humain (voir Section 1.2).

Le troisième étage de l’édifice bayésien porte sur la généralisation du raisonnement de l’agent rationnel à une classe particulière d’agents rationnels pris dans leur ensemble : les membres de la communauté scientifique. Dans son ouvrage posthume, Jaynes (2003) développe plus particulièrement l’apport de l’approche bayésienne au raisonnement scientifique. Pour la communauté scientifique, des classes particulières d’énoncés peuvent prendre le rôle de A et de B dans les formules du conditionnement bayésien. Les hypothèses scientifiques alternatives occupent la place des Ai et les évidences empiriques la place de B (théorème de Bayes) ou, plus rarement, des Bj

(règle de Jeffrey). Cela revient à dire que les hypothèses scientifiques peuvent faire l’objet de croyances graduées et que leur évaluation rationnelle consiste à appliquer un conditionnement bayésien à la lumière de toutes les informations pertinentes disponibles. Sont ainsi jetées les bases d’une épistémologie bayésienne, fondée sur une évaluation probabiliste bayésienne des hypothèses scientifiques.

151

Les apports de l’approche bayésienne peuvent être mieux saisis dans la comparaison avec l’approche plus classique des probabilités fréquentielles comme fondement de la modélisation statistique de phénomènes observés. L’approche fréquentielle nécessite ainsi de choisir implicitement une distribution de probabilité sous-tendant le modèle statistique. Des tests de significativité sont communément employés pour valider ce modèle. En réalité ces derniers ne peuvent qu’écarter avec un seuil d’erreur donné l’hypothèse alternative, correspondant normalement à l’absence de modèle où à la loi de probabilité possédant une paramétrisation banale. Les hypothèses du modélisateur restent ainsi implicites et non discutées dans le processus de modélisation et le test de significativité ne nous renseigne pas directement sur la plausibilité du modèle par rapport à d’autres modèles alternatifs, mais seulement sur la non plausibilité de l’absence de modèle.

Les probabilités bayésiennes permettent d’intégrer explicitement les hypothèses du modélisateur, sous la forme d’un ou plusieurs modèles auxquels sont attribués des degrés de croyance a priori. Dans certains contextes, on peut faire l’hypothèse que le bon modèle appartient à une certaine famille de modèles. On intègre ensuite le contenu informationnel porté par les données (les évidences empiriques du conditionnement bayésien) et on arbitre entre les différents modèles ou on optimise les paramètres de la famille de modèles pour obtenir le modèle le plus vraisemblable au sein de cette famille. Dans les deux démarches on rend le processus de modélisation plus explicite, on intègre les pré-connaissances du modélisateur en les caractérisant par des degrés de croyance et on ne sort pas un modèle validé (il ne l’est jamais, même pas dans l’approche fréquentielle) mais un modèle pour lequel le degré de croyance a été révisé et/ou pour lequel les paramètres ont été optimisés pour rendre compte de l’évidence empirique. Le raisonnement prend ici clairement une tournure plus abductive.

Le raisonnement bayésien au secours du « small data »

Comme déjà remarqué de façon générale sur les questions d’incertitude (Section 1.4), l’application des méthodes bayésiennes en géographie a d’abord concerné la modélisation des incertitudes des données géographiques, avec une attention particulière aux spécificités de l’information géographique, notamment à sa spatialité. Les implications d’une épistémologie bayésienne, soulevées par Harvey (1969) et Raftery (1995a, 1995b) ont trouvé relativement peu d’écho.

En ce qui concerne mes travaux, j’ai particulièrement contribué au développement d’approches bayésiennes à l’analyse de l’organisation urbaine et métropolitaine, en m’attaquant à tour de rôle à la fouille de données (notamment en matière de relation forme/fonctionnement), à la formalisation de connaissances expertes incertaines, à l’exploration de futurs possibles/plausibles et à la recherche de régularités, conscient du fait que les situations archétypiques n’existent qu’en relation à d’autres situations plus hybrides et émargeant aux archétypes avec incertitude. Les approches inductives de fouille de données ont particulièrement montré l’intérêt d’intégrer des pré-connaissances théoriques « faibles » au sein de démarches data-driven, ce qui constitue pour moi un acquis important dans la perspective d’exploiter des données massives (big data) dans la recherche urbaine. En même temps, la formalisation des connaissances expertes et le retour d’expérience de cas d’études, suggèrent de ne pas délaisser la démarche bien plus classique du small data (pas ici dans le sens marketing proposée par Lindstrom 2016), tout en l’informant du caractère incertain de nos connaissances. Contrairement à un certain air du temps, les situations de small data continuent à être très fréquentes dans la recherche scientifique. L’approche bayésienne peut aider à formaliser ces contextes de connaissance incertaine.

C’est précisément une recherche en contexte de small data que je souhaite présenter en premier, pour son lien direct avec l’épistémologie bayésienne que je viens de présenter. Le contexte du small

152

data est celui où le chercheur formule une multitude d’hypothèses théoriques mais ne peut les

confronter qu’à un nombre limité de cas d’études bien formalisés. Comment alors monter en généralité dans nos connaissances ? Comment formaliser l’incertitude de ces connaissances ? Comment tirer profit de toute nouvelle connaissance ?

Incertitudes, pluralité de modèles et small data pour les effets des politiques de densification urbaine

Dans Fusco et Tettamanzi (2017) j’ai décliné ces questions au domaine très spécifique de l’évaluation des politiques de densification qui sont actuellement prônées en France et en Europe pour contrecarrer l’étalement urbain dans un but plus général de durabilité urbaine.

Les professionnels de l’aménagement et les décideurs publics considèrent que parvenir à un développement urbain durable soit essentiellement une question de suivi d’indicateurs, de prise de décision et d’implémentation de politiques dans un contexte de théorie scientifiques bien établies et de connaissances certaines sur la ville. Au contraire, comprendre, mesurer et gérer la durabilité

urbaine sont des tâches beaucoup plus complexes et l’incertitude est omniprésente dans le type de connaissance que nous avons sur la ville supposée durable. La durabilité urbaine est en effet une

question multidimensionnelle (avec des enjeux économiques, environnementaux, sociaux et urbanistiques), dans laquelle nous devons évaluer des fonctionnements observables par rapport à un état normatif futur auquel nous souhaitons les rapprocher, et cela dans l’hypothèse que les politiques implémentées puissent parvenir à cet objectif. Clairement, ces politiques interagissent avec les dynamiques spontanées des acteurs urbains, dynamiques qui sont appréhendées de façon approximative et pour lesquelles différentes hypothèses peuvent être formulées quant ’à leur interaction avec les politiques implémentées. Cela revient au fait que les villes sont des systèmes complexes auto-organisés, dont nous avons une connaissance partielle, incomplète, parfois contradictoire (quand différents points de vue sont pris en compte). Encore plus, lorsqu’il est question du développement futur de la ville, différents scénarios devraient être pris en compte, question qui sera ultérieurement développée dans le Chapitre 5.

La recherche ici présentée s’est focalisée sur les possibles effets des politiques visant à réduire l’étalement urbain, un enjeu crucial pour la ville durable. Laisser la ville s’étendre à faible densité et selon des schémas de forte spécialisation fonctionnelle (espaces résidentiels pavillonnaires accompagnés de quelques concentrations commerciale, artisanale ou tertiaire) produit des conséquences directes (surconsommation de sols agricoles et naturels) et indirectes (mobilité accrue, dépendance automobile, émissions de gaz à effet de serre, besoin de nouvelles infrastructures routières particulièrement couteuses et/ou forts niveaux de congestion routière) qui mettent à mal les objectifs du développement durable urbain. L’interaction spatiale entre la ville constituée et ses espaces périurbains joue également un rôle important. Camagni et al. (1998) parlent de dilemme social entre la ville et le périurbain : les ménages souhaitent bénéficier des économies d’agglomérations permises par la concentration urbaine (opportunités d’emploi, services, etc.) mais essayent individuellement d’éviter les déséconomies d’agglomération de la vie dans la ville dense (congestion, faible qualité environnementale). En déménageant dans le périurbain, ils obtiennent des meilleures aménités environnementales tout en étant capables de bénéficier des services de la ville, grâce à une mobilité automobile accrue. Mais, ainsi faisant, ils augmentent la congestion et la pollution de la ville, dégradant la qualité de vie de ses habitants et induisant d’autres ménages à déménager dans le périurbain. Des stratégies de densification, à la fois dans la ville-centre et dans le périurbain, ont ainsi été proposées (European Commission 1996, Calthorpe et Fulton 2001, Duany et al. 2000, Calthorpe

153

2011) pour limiter et possiblement arrêter l’étalement urbain. Mais ces stratégies partent d’hypothèses relativement fortes sur les impacts et l’acceptabilité sociale de la densification. En réalité, on peut identifier des hypothèses alternatives et contradictoires dans une riche littérature sur la capacité des politiques d’aménagement urbain à arrêter l’étalement urbain par des mesures de densification (Breheny 1997, Fouchier et Merlin 1994, Charmes 2010, PUCA 2014). En Amérique du Nord, Gordon et Richardson (1996, 1997) ont mis en question à la foi la faisabilité et le bien fondé des politiques visant à contrecarrer l’étalement urbain, voyant la périurbanisation comme l’allocation la plus efficace des sols, produite par les marchés dans le respect des préférences des ménages. En Europe, le consensus est plus ample sur les dangers de permettre un étalement incontrôlé dans des contextes urbains beaucoup plus contraints. Les conséquences négatives sur les centres-villes traditionnels (souvent observés en Amérique du Nord) sont également perçues comme inacceptables pour les villes européennes, compte tenu des valeurs économique, patrimonial et symbolique des centralités traditionnelles.

Mais même au sein de ce consensus, des hypothèses différentes peuvent sous-tendre des modèles différents de l’interaction entre croissance démographique, congestion, relation ville/périurbain, politiques de densification, perception des populations et étalement urbain. Ces hypothèses reflètent les croyances des scientifiques et des décideurs dans les issues les plus plausibles des tendances observées de l’étalement urbain dans les villes européennes et dans la capacité des politiques de densification à avoir un réel impact sur ces tendances. Je pense que le géographe modélisateur souhaitant accompagner la formulation des politiques urbaines devrait intégrer et non pas ignorer cette multiplicité de modèles possibles. Je suis en cela le principe des explications multiples déjà formulé par Epicure : si plusieurs théories peuvent s’accorder aux phénomènes observés, retiens-les toutes.

Dans Fusco et Tettamanzi (2017) j’ai ainsi proposé deux modèles alternatifs, extrêmement simplifiés des relations pouvant exister entre les politiques de densification et l’étalement urbain. Ces modèles reflètent deux visions particulièrement saillantes du débat sur la densification urbaine en Europe, et plus particulièrement en France. Le premier modèle est relativement neutre sur les impacts directs de la densification sur les perceptions des habitants et considère que la densification peut produire des effets indirects positifs dans une gestion plus rationnelle des sols, et dans la qualité de vie en ville et dans le périurbain, lorsqu’elle est accompagnée d’autres mesures de requalification des espaces publics et de développement de TCSP (transports en commun en site propre). Le développement des emplois dans le périurbain est en revanche évalué négativement, car il affaiblit les centralités traditionnelles et risque d’accélérer à terme l’étalement urbain. Ce modèle correspond au point de vue majoritaire des urbanistes en Europe et aux recommandations officielles tant du gouvernement français que de la Commission Européenne (European Commission 1996).

Le second modèle assume un rôle positif du développement des emplois périurbains dans la réduction de la congestion urbaine, une vision partagée par des nombreux plans d’urbanisme en France et en Europe, même si successivement remise en question par Wiel (1999). Surtout, le second modèle considère que la densification sera perçue négativement par la majorité des habitants et risque d’aggraver les problèmes de congestion, surtout dans l’absence de politiques alternatives de transport. Globalement, ce modèle est plus pessimiste sur la capacité de l’aménagement urbain à arrêter l’étalement urbain et suggère des objectifs plus limités de réduction de la croissance périurbaine.

Des nombreuses incertitudes affectent chaque modèle : les phénomènes étudiés sont représentés par des indicateurs synthétiques, les connaissances sur les relations causales entre ces variables dans

154

chaque modèle sont à leur tour incertaines, les mêmes causes peuvent parfois produire des effets différents compte tenu des simplifications introduites dans les modèles (rôle joué par des phénomènes non modélisés), certaines variables sont non directement observables (perceptions des habitants), etc. J’ai ainsi choisi d’implémenter les deux modèles selon le formalisme des réseaux bayésiens (voir section suivante). Pour l’instant on retiendra que les réseaux bayésiens organisent les connaissances expertes sous-tendant les deux modèles par un système de relations probabilistes. Le point principal développé dans cette recherche n’est cependant pas le modèle probabiliste en soi, mais le fait que deux différents modèles probabilistes coexistent et que ces deux modèles ne devraient pas être considérés comme les seuls modèles explicatifs possibles de l’étalement urbain. Un expert dans un contexte d’aide à la décision pour l’aménagement urbain pourrait être plus ou moins confiant dans chacun de ces deux modèles, mais devrait encore laisser la place à un certain scepticisme sur la capacité de chacun de ces deux modèles à appréhender correctement les phénomènes étudiés. On devrait ainsi accorder une certaine plausibilité au fait que les deux modèles échouent à expliquer la relation entre politiques de densification et étalement urbain et qu’un troisième modèle, encore inconnu, ou même qu’aucun modèle, ne puisse lier l’étalement urbain aux tendances sociodémographiques, aux préférences des ménages et aux politiques d’urbanisme.

Raftery (1995a, 1995b) a déjà proposé une approche bayésienne à la sélection de modèles dans les sciences sociales. Le cœur de cette approche revient à identifier le meilleur modèle entre deux modèles alternatifs (M1 et M2), en connaissance d’une évidence empirique E, par le conditionnement bayésien des croyances a priori dans les deux modèles (p(M1), p(M2)). En utilisant le théorème de Bayes, on peut évaluer a posteriori les deux modèles en tenant compte de l’évidence :

𝑝 (𝑀1 | 𝐸)

𝑝 (𝑀2 | 𝐸)

=

𝑝 (𝐸 | 𝑀1)

𝑝 (𝐸 |𝑀2) 𝑝 (𝑀1)

𝑝 (𝑀2) (4.3)

Le premier terme du côté droit de l’équation est le facteur de Bayes, défini comme le rapport entre les vraisemblances de l’évidence empirique relatives à chacun des deux modèles. Dans les approches bayésiennes souhaitant optimiser chaque modèle par rapport à l’évidence, on considère normalement l’espace des paramètres de chaque modèle et les vraisemblances doivent alors être calculées comme l’intégral des valeurs sur tout l’espace des paramètre (un problème souvent non calculable pour la plupart des modèles, nécessitant des solutions approximées). Ici nous considérons les paramètres des modèles comme étant fixes et reflétant la connaissance fournie par deux groupes d’experts. Dans ce cas, les vraisemblances peuvent être obtenues par simple propagation des croyances dans les deux réseaux bayésiens. En même temps, comme anticipé, notre cadre de discernement pour les modèles possibles est plus riche :

Modèles = {M1, M2, …, Autre}

Où Mi sont les modèles possibles considérés et Autre représente toute autre modèle possible pas encore formulé. Le modélisateur peut avoir des croyances a priori sur ces options possibles (inclue l’option Autre) et peut calculer les vraisemblances des modèles disponibles. En revanche, il ne peut pas calculer la vraisemblance p(E|Autre), qui lui est nécessaire pour effectuer la révision des croyances par conditionnement bayésien. Nous avons ainsi proposé une approche pour attribuer une vraisemblance à l’option Autre en suivant les principes suivants :

1. p(E|Autre) = 0 si au moins un des modèles explicatifs formulés Mi est complètement plausible (pour au moins un i, vraisemblance Mi = 1) ;

2. p(E|Autre) = 1 si aucun des modèles explicatifs formulés n’est minimalement plausible (pour tous les i, vraisemblance Mi = 0) ;

155

3. p(E|Autre) doit croitre au fur et à mesure que la vraisemblance des modèles explicatifs formulés diminue.

Ces principes correspondent à la quête humaine d’explications pour les phénomènes observés, en considération de la connaissance explicative couramment acceptée et de sa capacité à rendre compte des nouveaux phénomènes. Si, entre plusieurs modèles couramment acceptés, au moins un d’entre eux fournit une explication plausible des phénomènes nouvellement observés, on ne ressent pas de besoin particulier de nouveaux modèles et la nouvelle évidence empirique est utilisée pour arbitrer entre les modèles disponibles, suivant l’approche bayésienne de Raftery (1995a). La plausibilité d’un nouveau modèle, qui reste à déterminer, est élevée quand un nouveau phénomène ne peut pas être plausiblement expliqué par aucun des modèles disponibles. L’histoire de la science montre souvent ces dynamiques internes.

Dans Fusco et Tettamanzi (2017) nous avons également donné des implémentations précises à cette heuristique d’attribution de vraisemblance en utilisant des fonctions linéaires, sub-linéaires et