• Aucun résultat trouvé

CHAPITRE 2 REVUE DE LITTÉRATURE

2.5 Segmentation des usagers du transport en commun

La segmentation d’une population en plusieurs sous-ensembles d’individus peut également être un moyen de mesurer la variabilité interpersonnelle. En effet, elle permet de révéler des différences entre les individus et de les synthétiser en un nombre limité de groupes de comportements typiques. Dans le cas du transport en commun, la segmentation des usagers peut aider les opérateurs à mieux connaître leurs clients. Elle permet notamment d’identifier et de caractériser différents segments du marché, chaque segment étant associé à des besoins spécifiques. De nos jours, l’évolution de la société rend ce genre d’études particulièrement d’actualités. En effet, alors que le service est généralement adapté pour des travailleurs réguliers se déplaçant 5 jours par semaine en heures de pointe, d’autres types de comportements apparaissent. De plus en plus de personnes travaillent seulement 4 jours de la semaine ou à distance quelques jours par semaine. Par ailleurs, on constate un nombre croissant d’immigrants et de touristes, usagers associés à des comportements souvent atypiques et irréguliers (Ghaemi et al., 2017).

La segmentation (ou clustering en anglais) est une technique d’apprentissage non supervisé qui consiste à diviser des individus (ou des objets) en plusieurs groupes distincts. Les individus d’un même groupe partagent un comportement similaire entre eux, mais différent de celui des individus des autres groupes. Cette notion de similarité dépend de la métrique utilisée. De plus, différents algorithmes de segmentation peuvent être appliqués. Dans la littérature scientifique du transport, on retrouve notamment des algorithmes de partitionnement, basés sur l’optimisation d’un critère, comme celui des K-moyennes (Zhao et al., 2014), des algorithmes hiérarchiques basés sur une structure hiérarchique agglomérative ou divisive (Agard et al., 2006), des algorithmes basés sur des modèles statistiques comme les modèles de mélanges gaussiens (Briand et al., 2017), des algorithmes basés sur la densité comme le DBSCAN (Kieu et al., 2014), et des algorithmes plus récents comme les réseaux de neurones (Ma et al., 2013). La plupart de ces algorithmes sont expliqués et illustrés dans la revue de littérature proposée par Jain et al. (1999).

Cette section du mémoire ne cherche pas à reproduire une des multiples revues d’algorithmes déjà proposées dans la littérature ; elle s’intéresse surtout à l’implémentation de ces algorithmes. En effet, il existe différentes façons de décrire les comportements des utilisateurs pour pouvoir ensuite les segmenter. Les résultats obtenus dépendront bien sûr de cette description et du choix des paramètres qui seront étudiés. Même si des typologies d’usagers peuvent être faites pour tous les

modes de transport, cette section se concentre surtout sur des méthodes appliquées dans le cadre de l’utilisation du transport en commun. Beaucoup des travaux recensés ci-après s’appuient d’ailleurs sur des données de cartes à puce. Trois méthodes principales sont discernées : les usagers sont souvent segmentés en fonction des caractéristiques de leur mobilité, de leurs séquences de déplacements ou d’activités, ou directement à partir de la régularité de leurs déplacements.

2.5.1 En fonction des caractéristiques de leur mobilité

Premièrement, une typologie d’usagers peut être réalisée en se basant sur les caractéristiques de leur utilisation du transport en commun. La méthode la plus traditionnelle pour décrire cette utilisation consiste à construire un vecteur d’indicateurs pour chaque usager avant d’appliquer un algorithme de segmentation. Plusieurs exemples de cette méthode sont énoncés dans la revue de la thèse d’Ortega-Tong (2013). L'auteur lui-même définit, pour chacun des utilisateurs de la carte à puce Oyster de Londres, un vecteur de 20 variables rapportant la fréquence de leurs déplacements, leurs attributs temporels et spatiaux, la durée de leurs activités, leurs caractéristiques sociodémographiques et leurs choix modaux. D’autres auteurs comme De Oña et al. (2016) ou Machado et al. (2018) intègrent également des variables reflétant l’opinion des individus et leur perception de la qualité du service du transport en commun. Ces informations subjectives, collectées à partir d’une enquête de satisfaction, sont ajoutées à d’autres variables sur les habitudes de déplacement et les alternatives de transport, ainsi qu’à des informations socioéconomiques. Ces indicateurs peuvent être calculés comme un total ou une moyenne pour toute la période d’étude (Ortega-Tong, 2013), mais aussi être agrégés à différents intervalles de temps. En effet, à l’aide de données longitudinales comme les données de cartes à puce, il est possible de représenter l’utilisation du transport en commun par des séries temporelles. La définition de telles séries a été donnée précédemment dans la section 2.4.2. Dans un contexte de transport, ces séries permettent de rapporter les caractéristiques de la mobilité de chaque utilisateur dans une séquence temporelle de valeurs. Par exemple, l’utilisation du transport en commun peut être décrite à différents intervalles de temps plus ou moins longs en discrétisant le nombre ou la présence de validations de cartes à puce dans des profils hebdomadaires (Agard et al., 2006; El Mahrsi et al., 2014) ou journaliers (Morency et al., 2007). Les vecteurs ainsi obtenus sont ensuite utilisés comme données d’entrée dans un algorithme de segmentation pour mettre en évidence différents types de comportements. Au lieu de considérer des périodes temporelles indépendantes, Zhao et al. (2014)

représentent les activités des usagers sur des périodes de trois heures superposées par intervalle d’une heure (exemple : 8h00 -10h59, 9h00-11h59, etc.), ceci pour pouvoir inclure toute la durée d’un même déplacement dans la même période de temps. Les auteurs segmentent ensuite les usagers au niveau temporel en s’appuyant sur deux indicateurs (le nombre de jours d’activité et le nombre d’heures d’activité), et au niveau spatial en regardant la fréquence de leurs déplacements sur chaque paire Origine-Destination. Le croisement de ces deux types de regroupements montre que les usagers réguliers au niveau temporel le sont aussi au niveau spatial.

Ces méthodes de description de la mobilité, basées sur l’agrégation d’attributs de déplacements dans un vecteur, sont généralement utilisées avec des métriques scalaires (exemple : la distance euclidienne). Ces métriques servent en effet à mesurer la similarité (ou la dissimilarité) entre les usagers afin de pouvoir ensuite appliquer un algorithme de segmentation. Cependant, de nombreux auteurs soulignent les limitations de ces approches sensibles aux unités utilisées et qui, dans le cas de séries temporelles, sont incapables de rendre compte de la progression temporelle des événements (He et al., 2018). C’est pourquoi certains auteurs préfèrent des méthodes non basées sur une distance, mais sur des modèles. Briand et al. (2017) utilisent notamment un modèle génératif à 2 niveaux fondé sur des mélanges de Gaussiennes pour représenter le temps de manière continue plutôt que de le décomposer en valeurs discrètes. De même, De Oña et al. (2016) ou Machado et al. (2018) choisissent d’appliquer une méthode d’analyse de classes latentes (LCA ou

Latent class analysis) afin de ne pas avoir à normaliser leurs variables, action qui aurait impacté

les résultats de leur segmentation. D’autres auteurs ont développé des méthodes innovantes pour calculer une distance qui permet de mieux capturer les similarités entre les usagers. Par exemple, Agard et al. (2013) présentent une métrique qui considère la position relative des éléments de chaque vecteur (dans leur cas, la position des « 1 » dans chaque vecteur binaire de 24h utilisé pour caractériser chaque usager). L’utilisation du transport en commun de chaque usager est alors résumée par trois coordonnées polaires. Ghaemi et al. (2017) adoptent une méthode similaire en calculant une distance à partir de la projection des comportements temporels sur un demi-cercle.

2.5.2 En fonction de leurs séquences de déplacements ou d’activités

Les segmentations traditionnelles, basées sur l’agrégation scalaire des caractéristiques de la mobilité imposée par la discrétisation du temps, sont largement critiquées dans la littérature. Elles sont souvent jugées non satisfaisantes, car elles expliquent seulement une faible part de la

variabilité observée à l’intérieur des groupes formés (Schlich, 2003). En effet, elles ignorent des informations essentielles qui concernent l’organisation et l’ordre dans lesquels les déplacements ou les activités se déroulent (Goulet-Langlois et al., 2016). Ces informations peuvent être retranscrites à l’aide d’une séquence d’événements, construite pour chaque usager à la place du vecteur d’attributs binaires ou scalaires utilisé dans les méthodes traditionnelles. De plus, ces séquences représentent plus justement les comportements humains qui, selon Hägerstrand (1970), peuvent être vus comme des séquences d’actions interdépendantes et non permutables dans le temps et dans l’espace. Elles sont donc plus appropriées lorsqu’on veut segmenter des usagers en fonction de leur comportement. Ainsi, les distances et méthodes discutées dans la section 2.4.2 pour mesurer la variabilité interpersonnelle à partir de séquences peuvent aussi être exploitées dans une perspective de segmentation.

À partir des résultats d’une enquête longitudinale recueillis sur un échantillon de 361 personnes, Schlich (2003) oppose une méthode de segmentation traditionnelle à une segmentation basée sur la comparaison de programmes quotidiens. Dans le deuxième cas, il emploie une méthode d’alignement multidimensionnelle avec des séquences de déplacements caractérisés par quatre attributs : le motif, le mode, la distance et l’heure de départ, puis il applique un algorithme hiérarchique de Ward de minimisation de la variance. Ses résultats montrent que, comparés à ceux de la segmentation traditionnelle, les groupes obtenus avec la méthode d’alignement des séquences contiennent des informations supplémentaires non corrélées avec les caractéristiques sociodémographiques des personnes. De même, Saneinejad et Roorda (2009) segmentent 282 individus en neuf groupes à partir de leur séquence d’activités hebdomadaires habituelles. Pour cela, ils utilisent le logiciel Clustal, qui exécute une méthode d’alignement multidimensionnelle pour calculer un score de similarité entre des séquences associant un motif et un lieu d’activités à chaque intervalle de 15 minutes des 5 jours de la semaine. La segmentation de ces séquences hebdomadaires est ensuite réalisée à l’aide d’un algorithme itératif de jointure par voisin (iterative

neighbour-joining algorithm).

À partir de données plus massives comme les données cartes à puce, l’enjeu du temps de calcul limite les possibilités d’application de ces méthodes. Néanmoins, Goulet-Langlois et al. (2016) réussissent à segmenter 33 026 utilisateurs de cartes à puce grâce à leur procédure. Celle-ci consiste à représenter chaque passager par une séquence d’activités s’étendant sur 4 semaines avant d’appliquer une méthode de réduction de la dimension. Les auteurs obtiennent ainsi huit variables

par usager, sur lesquelles ils appliquent ensuite un algorithme des K-moyennes. De plus, Joh et Timmermans (2011) ont trouvé une approche heuristique pour appliquer les méthodes d’alignement à des données massives dans un contexte de segmentation : après avoir identifié des combinaisons courantes de sous-séquences, cette méthode recommande de choisir des groupes représentatifs dans un sous-ensemble de séquences tirées au hasard puis de procéder par adhésion additive, c’est-à-dire de déterminer le groupe des séquences restantes grâce à un arbre de décision.

2.5.3 En fonction de leur régularité de déplacement

Le plus souvent, une typologie d’usagers est d’abord créée puis la régularité des comportements est étudiée dans chaque groupe séparément du processus de classification. Cependant, des auteurs procèdent parfois en sens inverse, c’est-à-dire qu’ils segmentent les usagers en fonction de la régularité de leurs déplacements. Cette régularité doit donc être mesurée au préalable à l’échelle individuelle avant d’appliquer un algorithme de segmentation.

Pour cela, certains auteurs construisent des indicateurs pour quantifier la variabilité ou la régularité des comportements puis ils segmentent les usagers à partir de ces indicateurs. Ortega-Tong (2013) inclut notamment des indicateurs de variabilité spatiale comme le nombre de stations origines différentes pour plusieurs types de jours dans ses variables de segmentation. Ma et al. (2013) s’appuient également sur quatre indicateurs décrivant la régularité de chaque usager: le nombre de jours actifs (fréquence de l'usager), le nombre d'heures de départ similaires pour le premier embarquement de la journée, le nombre de séquences de lignes similaires et le nombre de séquences d'arrêts similaires. Ils utilisent ensuite l’algorithme des K-moyennes ++ et la théorie des ensembles approximatifs (rough set theory) pour segmenter les usagers en cinq niveaux de régularité, qualifiée de très élevée, élevée, moyenne, basse ou très basse.

De leur côté, Kieu et al. (2014) divisent les usagers du réseau de Brisbane, Australie, en quatre groupes : les réguliers au niveau spatial, les réguliers au niveau temporel, les réguliers aux niveaux spatial et temporel et les non réguliers. Les auteurs commencent par mesurer la régularité spatiale et temporelle de chaque passager en appliquant l’algorithme DBSCAN pour déterminer des ensembles de paires Origine-Destination régulières et d’heures habituelles pour chaque passager. Ils placent ensuite les usagers dans les quatre groupes susmentionnés à partir de règles définies a priori, en fonction de la proportion de leurs déplacements qui sont faits à des heures habituelles ou sur des paires Origine-Destination régulières.

CHAPITRE 3

DESCRIPTION DES DONNÉES ET MÉTHODOLOGIE