• Aucun résultat trouvé

CHAPITRE 3 DESCRIPTION DES DONNÉES ET MÉTHODOLOGIE

3.2 Méthodologie générale

Les fluctuations observées précédemment au niveau collectif sont induites par des variations individuelles : les usagers qui utilisent le transport en commun pour leurs déplacements domicile- travail ont tendance à moins se déplacer en été et pendant la fin de semaine car, pendant ces périodes-là, ils sont moins soumis à des contraintes de travail et donc moins captifs du réseau. Ces usagers, grands utilisateurs du transport en commun, sont les plus représentés dans les Figure 3.1 et Figure 3.2. Cependant, cette agrégation cache des singularités : d’autres types de comportements existent, mais ne sont pas visibles dans les profils collectifs car plus minoritaires. La courbe d’utilisation du transport en commun de ces usagers pourra suivre une autre évolution que celles observées précédemment, mais leur mobilité bien qu’atypique n’en sera pas moins régulière dans le temps (et/ou dans l’espace). L’objectif de ce mémoire est donc de mettre en évidence, mais aussi de quantifier toutes ces variations au niveau individuel.

Une définition de la variabilité individuelle (ou de la régularité individuelle, utilisée comme antonyme dans ce mémoire) doit tout d’abord être clarifiée et fixée pour toute la suite de cette recherche. Deux types de variabilité sont à dissocier. D’une part, la variabilité interpersonnelle est définie par les variations entre les individus. Cette première variabilité permet de distinguer différents types de mobilités (dont la traditionnelle dynamique domicile-travail). Ainsi, le comportement des usagers est dit variable au niveau interpersonnel dans le sens où leur utilisation du transport n’a pas les mêmes caractéristiques temporelles et spatiales d’un individu à l’autre. D’autre part, la variabilité intrapersonnelle est déterminée pour chaque individu par les variations de son comportement. Un usager est dit régulier au niveau intrapersonnel si son utilisation du transport en commun est uniforme dans le temps et dans l’espace. Un utilisateur régulier sera donc enclin à emprunter les mêmes stations et les mêmes lignes du réseau aux mêmes moments (mêmes jours, mêmes plages horaires), avec une fréquence et des durées d’activité relativement constantes. À l’inverse, un usager est dit variable ou irrégulier au niveau intrapersonnel si aucune tendance ou préférence ne peut être discernée dans son comportement, le rendant assez imprévisible.

Pour analyser et mesurer cette variabilité individuelle, une démarche en plusieurs étapes a été développée. Le cheminement et la structure de la méthodologie proposée ainsi que les dépendances entre les différences étapes qui la composent sont illustrés sur le schéma méthodologique de la Figure 3.3 suivante.

Cette méthodologie est basée sur plusieurs techniques d’exploration de données qui, combinées, fournissent des prototypes complets d’analyse de la variabilité. Toutes les étapes de cette méthodologie sont introduites ci-après puis elles seront précisées dans la suite de ce mémoire. La taille de la base de données de cartes à puce sur laquelle s’appuie cette recherche est un des principaux défis du projet. L’apprentissage de différents logiciels de gestion de données comme SQL et R est inéluctable afin de pouvoir manipuler des données aussi massives. De plus, une première étape de prétraitement est exécutée pour réduire la dimension des données à analyser. Les validations sont ainsi transformées en déplacements, puis la mobilité de chaque usager est résumée pour l’année au complet et pour chaque semaine de l’année. Deux types de vecteurs sont donc construits : des vecteurs « cartes-année » et des vecteurs « cartes-semaine ». Ces vecteurs servent ensuite à évaluer la variabilité d’utilisation du transport en commun sur deux niveaux temporels. Tout d’abord, une analyse préliminaire des données est réalisée. En particulier, une segmentation tarifaire des cartes est établie pour montrer des différences de comportements selon les titres de transport utilisés. Plusieurs graphiques sont tracés pour mettre en évidence différents types de variations individuelles et des indicateurs, calculés pour chaque groupe de titres, sont définis pour quantifier les observations faites à partir de ces graphiques. Des tests statistiques sont également appliqués pour prouver le pouvoir explicatif des indicateurs proposés. Néanmoins, les limitations des tests classiques dues à la taille de l’échantillon étudié conduisent à l’utilisation d’une notion statistique particulière : la taille d’effet, plus connue sous le nom d’effect size en anglais.

La variabilité interpersonnelle est étudiée à partir des vecteurs « cartes-année ». Une typologie d’usagers (en réalité, de cartes) est créée en appliquant l’algorithme des K-moyennes. Cette typologie permet de déceler des différences entre les usagers en fonction de leur utilisation du transport en commun sur toute l’année 2016. Une première segmentation est faite pour tous les usagers confondus afin de permettre à la STM de mieux connaître l’ensemble de sa clientèle. Les grands types de comportements annuels observés sur le réseau de la STM sont ainsi exposés. Une deuxième typologie est ensuite effectuée sur les utilisateurs d’abonnements annuels seulement pour montrer qu’il existe des différences même parmi ce groupe d’usagers très fréquents et réguliers. Parmi ces usagers, seuls ceux avec une amplitude de 12 mois sont sélectionnés, c’est-à-dire ceux qui se sont déplacés au moins une fois en janvier et une fois en décembre, de manière à considérer uniquement les cartes présentes sur le réseau toute l’année. En outre, des indicateurs décrivant

l’utilisation individuelle moyenne du transport en commun sont calculés pour analyser les caractéristiques des groupes obtenus et introduire la dimension spatiale. Les indicateurs de variabilité précédemment évalués par titre de transport sont également estimés dans chaque groupe. Enfin, des tests sont appliqués pour confirmer les différences observées entre les groupes (statistiques intergroupes) et des coefficients de variations sont calculés pour mesurer la variabilité de chaque indicateur à l’intérieur de chaque groupe (statistiques intragroupes).

De même, la variabilité intrapersonnelle est analysée à partir des vecteurs « cartes-semaine ». Une typologie de semaines est produite et la régularité intrapersonnelle des usagers est mesurée par la répétition des mêmes types de semaines dans leur comportement au cours de l’année. Ainsi, un usager est considéré comme régulier au niveau intrapersonnel si sa mobilité se ressemble d’une semaine à l’autre. Cette typologie est faite seulement pour les utilisateurs d’abonnements annuels avec une amplitude de 12 mois, car la taille de la base de données « cartes-semaine » est bien plus élevée que celles des « cartes-année ». De plus, des indicateurs sont définis pour mesurer la variabilité intrapersonnelle moyenne à l’intérieur des groupes d’usagers obtenus précédemment et des statistiques sont calculées pour évaluer la variabilité inter et intragroupes de chaque indicateur. Finalement, des séquences individuelles sont analysées dans le but de prendre en compte le caractère séquentiel et ordonné des déplacements des usagers. À partir de la typologie de semaines précédemment obtenue, une séquence de semaines types est construite pour chaque carte. Une matrice de dissimilarité entre toutes les séquences est ensuite calculée à l’aide d’une distance de Hamming pondérée (élaborée à partir d’une matrice de distances euclidiennes évaluées entre les types de semaines). Un échantillonnage est néanmoins nécessaire, car le calcul de cette matrice de distance est très exigeant en termes de mémoire et de temps. L’application d’un algorithme de segmentation hiérarchique agglomératif permet ensuite de créer une typologie de séquences, à comparer avec la typologie d’usagers produite précédemment. Encore une fois dans un souci de quantification, d’autres indicateurs sont présentés pour mesurer la variabilité d’utilisation du transport à commun à partir d’une séquence de comportements hebdomadaires.