• Aucun résultat trouvé

Comme nous l’avons vu dans la partie sur la présentation de l’algorithme CHAID, des critères d’arrêts et de segmentation définissent la forme de l’arbre obtenu.

Concernant le nombre minimum d’observations par groupe, dans le cadre d’un modèle de prévision de la demande en déplacements celui-ci doit être suffisant pour éviter de surreprésenter des comportements très spécifiques qui auraient pu être identifié dans l’EDGT. En effet, l’objectif est d’avoir une variété de comportements de mobilité assez large, ce qui est garanti par la prise en compte de 66 profils de mobilité différents (les 65 profils explicités précisément représentant plus de 80% des profils de mobilité identifiés lors de l’EDGT), sans toutefois intégrer des cas particuliers difficiles à appréhender. Si aucune limite de taille n’est imposée dans la construction d’un arbre de segmentation, celui se rapproche trop des données d’entrée, ce phénomène s’appelle le sur-apprentissage.

Deux techniques existent pour limiter ce sur-apprentissage : le poste élagage et pré élagage. L’algorithme CHAID, dans son fonctionnement, intègre un pré élagage avec la variable alpha 4. En effet, à chaque étape de création d’un nouveau nœud, la p-value de la variable la plus explicative est comparée à alpha 4 afin de déterminer si la variable est assez explicative pour devenir un nouveau nœud. La donnée alpha 4 réduit ainsi grandement la profondeur des arbres si sa valeur est faible. Cette technique ne traite cependant qu’à un niveau local pour chaque nœud et ne prend pas du tout en compte la taille globale de l’arbre.

Le pré élagage consiste à réduire la taille de l’arbre de segmentation après construction de celui-ci. Notamment en regroupant les groupes terminaux jugés trop proches en termes de comportements de mobilité (distance vectorielle intergroupes trop faible).

De plus, la définition d’un nombre d’observations minimum dans les groupes terminaux permet de garantir une représentativité suffisante de groupes de mobilité créés, malgré la pertinence des nœuds nouvellement créés.

Dans le cadre du modèle de Montpellier, une limite à 100 observations a été définie correspondant à 0,8% de la population totale des enquêtés de l’EDGT.

Deux tests avec une limite à 50 et 300 observations par groupes de mobilité ont été effectués en gardant les autres paramètres d’entrées fixes et les mêmes catégorisations de variables. Les résultats sont présentés dans le tableau ci-dessous :

TFE E. LOUBOUTIN Août 2017

Page 54 CODE Distance Distance pondérée Nombre de groupes de mobilité Effectif minimum 100 3.08 2.71 40 Effectif minimum 300 2.66 2.43 22 Effectif minimum 50 3.1 2.75 46

On observe une diminution de près de la moitié du nombre de groupes de mobilité en augmentant le seuil d’effectif minimum à 300 observations. La précision des groupes, caractérisée par la distance du khi2, diminue également fortement. La diminution du seuil d’effectif à 50 observations fait augmenter légèrement la distance du khi2 de l’arbre résultant. Mais le risque est ici de former un arbre trop conforme aux observations de l’EDGT et alors de surreprésenter certains comportements de mobilité particuliers. En effet le plus petit groupe présente 58 individus soient 0.4% des individus enquêtés lors de l’EDGT. Un seuil d’effectif minimum de 100 observations semble donc optimal pour une telle étude. L’utilisation de l’algorithme CHAID est plutôt adaptée à la segmentation des groupes de mobilité. Elle a notamment l’avantage par rapport à d’autres méthodes (la méthode CART notamment) de ne pas traiter la segmentation de manière binaire. En effet, l’introduction du paramètre alpha 2 permet de regrouper les catégories d’une même variable produisant des résultats similaires en termes d’explication des profils de mobilité. Ce traitement limite alors la création de nœuds intermédiaires peu utiles dans la segmentation.

Cette méthode présente néanmoins deux inconvénients majeurs :

Un inconvénient vu dans ce paragraphe, concernant la taille optimale de l’arbre de

segmentation qui doit être trouvée à tâtons en testant diverses combinaisons de critères d’arrêts de l’arbre, et si besoin en procédant à un travail de post élagage plutôt subjectif.

Un inconvénient lié à la construction séquentielle de l’arbre : aucun lien causal n’est

intégré dans l’algorithme. Les variables sont traitées séparément et lorsqu’une variable est traitée il n’est plus possible de la réutiliser par la suite. Cela peut être problématique dans le cas d’un modèle de génération où les données d’entrées sont des statistiques sur les ménages, les individus et les comportements de mobilité, qui sont toutes liées entre elles de multiples façons. Cependant la complexité de ces liens reste assez difficile à modéliser dans une étape de génération.

En conclusion, la segmentation par arbre à l’aide de l’algorithme CHAID permet d’obtenir des résultats statistiques assez précis. Cependant, on peut questionner la méthode sur le choix des catégorisations de variables parmi les nombreuses que l’on peut créer pour chaque

variable. Mais surtout la méthode de choix de la combinaison la plus adéquate a des limites sur plusieurs points.

Tout d’abord, un test pour chaque combinaison possible est un travail fastidieux à réaliser. Le choix a été fait ici de procéder au fur et à mesure en déterminant pour chaque variable la meilleure catégorisation en gardant les autres catégorisations de variables fixes. Cette technique semble être efficace mais ne permet pas de savoir si une combinaison de catégorisations jugée moins pertinente n’aurait pas donné un meilleur résultat.

De plus, le choix de la distance du khi2 comme critère principal pour arbitrer sur la qualité des arbres est aussi discutable. En effet, la segmentation en elle-même regroupe des fois des catégories de façon peu réaliste. Ainsi, dans certains groupes finaux les densités de localisation du domicile <37km² et >1500 km² sont regroupées entre elle. Ce regroupement sous-entend que ces deux caractéristiques de localisation conditionnent de la même manière les comportements de mobilité. Ces densités correspondent aux densités des communes dans lesquelles sont situées les zones fines des domiciles des individus de l’EDGT, cette variable est donc assez précise.

L’exemple du test de MENAGE1 et MENAGE2 pose aussi question, En effet, dans MENAGE2 les catégories « couple avec enfants » et « seul avec enfants » sont scindées en 2 selon s’il y a au moins un enfant de moins de 11 ans dans le ménage. La décomposition de la catégorie des 11-14 ans diffère énormément entre ces 2 catégorisations : aucune segmentation pour MENAGE2 et une segmentation selon la composition du ménage (« couple avec enfants » d’un côté et « seul avec enfants de l’autre) pour MENAGE1. Une segmentation selon le type de ménage avec un premier regroupement « couple avec enfants de moins de 11 ans » et « couple avec enfants de plus de 11 ans » et un second regroupement « seul avec enfants de moins de 11 ans » et « seul avec enfants de plus de 11 ans » aurait semblé plus logique. Cependant, cette méthode de segmentation par l’algorithme CHAID permet de combiner efficacement de nombreuses variables de segmentation existante. Il convient donc de combiner plusieurs vérifications pour obtenir des arbres pertinents d’un point de vue statistique mais également réalistes.

L’algorithme CHAID a également l’avantage de permettre le regroupement ou non de catégories et donc de réaliser une segmentation non binaire contrairement à l’algorithme CART (ce dernier partitionne les données séquentiellement mais seulement de manière binaire).

TFE E. LOUBOUTIN Août 2017

Page 56

CONCLUSION

Ce présent rapport a eu pour but de présenter chacune des étapes de la génération par micro-simulation à travers des exemples concrets d’application sur le modèle multimodal de prévision des déplacements du grand territoire Montpelliérain. Cette étude a permis de comparer les éléments méthodologiques de cette méthode par rapport à des modèle plus classique. Le principal avantages mis en évidence dans cette étude concerne la prise en compte des chaînes de déplacements dans la description des comportements de mobilité. Cela apporte des informations plus précises sur l’articulation des différents déplacements des individus. De plus la méthode utilisée dans le modèle de prévision de la demande de Montpellier intègre les différentes chaînes de déplacements que les individus réalisent dans une journée contrairement au modèle VISUM qui ne prend en compte qu’une chaîne par individu.

Un autre avantage mis en évidence dans cette étude, concerne la simplification des chaînes de déplacements. Dans la méthode présentée dans ce rapport, les chaînes sont raccourcies mais non modifiée. Ainsi, aucun coefficient de redressement n’est utilisé pour compenser des surreprésentations de chaînes de déplacements contrairement à la méthode suivie dans le module VISUM. Cependant une simplification est tout de même opérée dans le modèle de Montpellier pour pouvoir modéliser les chaînes en limitant les temps de calculs.

La constitution des groupes de mobilité par arbre de segmentation a pour avantage majeur de créer les groupes de manières statistiques en se basant sur les données d’enquêtes ménages déplacements. L’algorithme CHAID permet également de déterminer les combinaisons de variables explicatives les plus optimales pour définir les groupes de mobilité. Cependant, quelques limites ont également été mises en évidence concernant tout d’abord la prise en compte séquentielle des variables dans l’algorithme. Les variables sont testées une fois pour un groupe et ne sont pas réutilisée dans la suite de la branche. Le travail de test des différentes catégories est fastidieux et ne permet pas de tester toutes les combinaisons de catégories possibles. De même, les critères d’arrêts de l’algorithme dépendent de l’étude mais un compromis doit être trouvé entre la précision et la cohérence des arbres. Différents tests sont alors à effectuer pour trouver l’arbre optimal. Enfin, des regroupements qui semblent aberrants sont quelques fois opérés par l’algorithme et une vigilance doit donc être accordée à la définition des groupes et les résultats doivent être mis en relation avec les connaissances sur le territoire.

Le choix a été fait dans ce rapport de traiter la comparaison des méthodes de génération en se basant sur leur méthodologie. En effet, l’évaluation de l’efficacité de différentes méthodes de génération est délicate à réaliser car leurs résultats sont difficilement comparables et il n’y a pas de « bonnes réponses » dans un modèle de prévision de la demande en déplacements. Le tout est d’arriver à prendre en compte des données d’entrée

les plus précises possibles afin d’obtenir des résultats riches en informations sur les comportements de mobilité.

Ce rapport traite de sujets précis sur la génération par micro-simulation et de nombreux approfondissements peuvent être envisagés dans une optique de continuité du travail effectué ici.

Notamment, différentes méthodes de comparaisons des arbres de segmentation pourraient être testées afin de déterminer celle qui pourrait être la plus adaptée à ce genre de projet. Un travail de recherche sur d’autres calculs de distance mais également un travail d’application pratique pourrait donc être réalisés.

Des recherches pourraient également être envisagées pour connaître les raisons des regroupements aberrants de catégories lors de la constitution des groupes de mobilité, notamment en testant des catégorisations plus précises sur les variables concernées. Ce travail peut cependant être fastidieux car de nombreux tests seraient à réaliser a priori. Une étude concernant les impacts du tirage aléatoire simple opéré en dernière étape de la génération par micro-simulation pour attribuer les comportements de mobilité aux individus de la population synthétique, serait un approfondissement intéressant. En effet, ce tirage au sort a vraisemblablement des impacts sur les résultats de la génération par micro- simulation. Une étude de la variance pourrait alors éclairer sur les biais éventuels induit par cette méthode.

BIBLIOGRAPHIE

BONNEL Patrick & CABRERA DELGADO Jorge, Forecasting capabilities of a micro-simulation

method for trip generation, 2014

CABRERA DELGADO Jorge, Quelle prise en compte des dynamiques urbaines dans la

prévision de la demande de transport ? Economies et finances. Université Lumière - Lyon II, 2013. Français.

Explain, Mémoire technique de réponse à appel d’offres pour le marché de développement d’un outil de modélisation multimodale des mobilités pour le grand territoire Montpelliérain, Novembre 2016.

Explain, Notes internes sur le projet de modèle multimodal du grand territoire Montpelliérain GITTON François, Comportements de mobilité et simulation de déplacements sur

l’agglomération lyonnaise, François GITTON, 2006

MVA, Mise à jour du modèle multimodal des déplacements du Sud Loire- Rapport

méthodologique, 2012

ANNEXES

TFE E. LOUBOUTIN Août 2017

Page 60 Annexe 2 : Heures de pointe identifiées dans le modèle multimodal du grand territoire Montpelliérain

Annexe 3 : Description de l’arbre de segmentation final

5-10 ANS

Model formula :

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party : [1] root

| [2] LOC_DENS <37, 450<x<1500: 10 (n = 190, err = 67.9%) | [3] LOC_DENS >1500: 10 (n = 438, err = 74.4%)

| [4] LOC_DENS in 37<x<450: 10 (n = 356, err = 72.5%)

Number of inner nodes: 1 Number of terminal nodes: 3

11-14 ANS Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] COMPMEN in COUPLE AVEC ENFANTS

| | [3] STATUT in ETUDIANTSMOINS14ANS: 5 (n = 368, err = 63.9%) | | [4] STATUT in ETUDIANTSPLUS14ANS: 5 (n = 122, err = 68.9%) | [5] COMPMEN in SEUL AVEC ENFANTS: 5 (n = 200, err = 65.0%)

Number of inner nodes: 2 Number of terminal nodes: 3

15-17 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] LOC_DENS <37, >1500: 5 (n = 211, err = 74.4%)

| [3] LOC_DENS in 37<x<450, 450<x<1500: 5 (n = 286, err = 63.6%)

Number of inner nodes: 1 Number of terminal nodes: 2

18-24 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] STATUT in ACTIFS: 3 (n = 285, err = 82.1%)

| [3] STATUT in AU FOYER, AUTRES, RETRAITES: 1 (n = 191, err = 82.2%) | [4] STATUT in ETUDIANTSPLUS14ANS

| | [5] COMPMEN in CELIBATAIRE: 66 (n = 464, err = 65.5%)

| | [6] COMPMEN in COUPLE AVEC ENFANTS, COUPLE SANS ENFANTS, MENAGE DE 2 ADULTES ET PLUS, SEUL AVEC ENFANTS

| | | [7] LOC_DENS <37, >1500: 66 (n = 321, err = 76.0%)

| | | [8] LOC_DENS in 37<x<450, 450<x<1500: 66 (n = 170, err = 77.1%)

Number of inner nodes: 3 Number of terminal nodes: 5

25-39 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] STATUT in ACTIFS

| | [3] COMPMEN in CELIBATAIRE, MENAGE DE 2 ADULTES ET PLUS | | | [4] MOTO in COMPET, NON: 2 (n = 118, err = 83.1%) | | | [5] MOTO in OUI: 2 (n = 286, err = 68.5%)

| | [6] COMPMEN in COUPLE AVEC ENFANTS, SEUL AVEC ENFANTS | | | [7] SEXE in FEMME: 66 (n = 500, err = 71.2%) | | | [8] SEXE in HOMME: 2 (n = 431, err = 70.5%)

| | [9] COMPMEN in COUPLE SANS ENFANTS: 2 (n = 324, err = 77.2%) | [10] STATUT in AU FOYER: 66 (n = 180, err = 55.0%)

| [11] STATUT in AUTRES

| | [12] COMPMEN in CELIBATAIRE, COUPLE SANS ENFANTS, MENAGE DE 2 ADULT ES ET PLUS: 66 (n = 212, err = 78.3%)

| | [13] COMPMEN in COUPLE AVEC ENFANTS, SEUL AVEC ENFANTS: 66 (n = 160 , err = 53.1%)

| [14] STATUT in ETUDIANTSPLUS14ANS: 66 (n = 129, err = 76.0%)

Number of inner nodes: 5 Number of terminal nodes: 9

TFE E. LOUBOUTIN Août 2017

Page 62

40-49 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] COMPMEN in CELIBATAIRE, MENAGE DE 2 ADULTES ET PLUS: 66 (n = 391, e rr = 83.4%)

| [3] COMPMEN in COUPLE AVEC ENFANTS, SEUL AVEC ENFANTS | | [4] MOTO in 2, NON, OUI

| | | [5] STATUT in ACTIFS: 2 (n = 924, err = 68.6%)

| | | [6] STATUT in AU FOYER, AUTRES, ETUDIANTSPLUS14ANS, RETRAITES: 66 (n = 137, err = 56.9%)

| | [7] MOTO in COMPET: 66 (n = 200, err = 67.5%)

| [8] COMPMEN in COUPLE SANS ENFANTS: 3 (n = 190, err = 80.0%)

Number of inner nodes: 3 Number of terminal nodes: 5

50-59 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] STATUT in ACTIFS

| | [3] COMPMEN in CELIBATAIRE, COUPLE SANS ENFANTS, MENAGE DE 2 ADULTE S ET PLUS, SEUL AVEC ENFANTS: 2 (n = 1026, err = 77.4%)

| | [4] COMPMEN in COUPLE AVEC ENFANTS: 2 (n = 260, err = 71.2%) | [5] STATUT in AU FOYER, AUTRES, RETRAITES

| | [6] COMPMEN in CELIBATAIRE: 1 (n = 130, err = 85.4%)

| | [7] COMPMEN in COUPLE AVEC ENFANTS, COUPLE SANS ENFANTS, MENAGE DE 2 ADULTES ET PLUS, SEUL AVEC ENFANTS: 66 (n = 313, err = 78.9%)

Number of inner nodes: 3 Number of terminal nodes: 4

60-69 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] STATUT in ACTIFS: 2 (n = 257, err = 80.5%) | [3] STATUT in AU FOYER, AUTRES, RETRAITES

| | [4] COMPMEN in CELIBATAIRE: 66 (n = 385, err = 82.3%)

| | [5] COMPMEN in COUPLE AVEC ENFANTS, MENAGE DE 2 ADULTES ET PLUS, SE UL AVEC ENFANTS: 66 (n = 184, err = 78.8%)

| | [6] COMPMEN in COUPLE SANS ENFANTS

| | | [7] LOC_DENS <37, 37<x<450, 450<x<1500: 66 (n = 801, err = 81.8 %)

| | | [8] LOC_DENS >1500: 66 (n = 278, err = 84.5%)

Number of inner nodes: 3 Number of terminal nodes: 5

70-79 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] SEXE in FEMME: 1 (n = 621, err = 78.4%) | [3] SEXE in HOMME: 66 (n = 522, err = 79.5%)

Number of inner nodes: 1 Number of terminal nodes: 2

+80 ANS

Model formula:

PROFIL ~ SEXE + STATUT + COMPMEN + LOC_DENS + MOTO

Fitted party: [1] root

| [2] SEXE in FEMME: 1 (n = 458, err = 55.5%) | [3] SEXE in HOMME: 1 (n = 287, err = 73.2%)

Number of inner nodes: 1 Number of terminal nodes: 2

Documents relatifs