• Aucun résultat trouvé

CHAPITRE 8 CONCLUSION ET RECOMMANDATIONS

8.3 Limites

Toutefois, les travaux réalisés dans le cadre de ce mémoire comportent quelques limitations. Celles-ci sont principalement liées aux données utilisées et à la méthodologie proposée.

8.3.1 Limites relatives aux données utilisées

La première limitation de cette catégorie est fondamentale et provient de la nature même des données : dans cette analyse prétendue de la variabilité « individuelle » de l’utilisation du transport en commun, des cartes et non des individus sont étudiées (même si les deux ont parfois été confondus dans ce mémoire par abus de langage). En effet, dans le système de la STM, une carte peut être utilisée par plusieurs usagers si elle est prêtée et un même usager peut également utiliser

plusieurs cartes s’il perd ou renouvelle sa carte durant l’année. Cette différence d’objet d’analyse a notamment généré quelques problèmes dans les segmentations réalisées précédemment, un même usager ayant possédé deux cartes pendant l’année pouvant se retrouver dans deux groupes distincts. Les étudiants ont par exemple été réunis dans le même groupe du fait de leur renouvellement obligatoire en septembre : cet événement ponctuel a participé à leur regroupement peut-être même plus que la similarité de leur comportement.

Par ailleurs, les données de cartes à puce exploitées dans ce projet ne sont pas sans défauts. Des anomalies liées à des dysfonctionnements du système ou à des erreurs de manipulation humaines peuvent s’être introduites dans les données. Quelques-unes des sources de problèmes possibles ont été répertoriées dans le premier chapitre de ce mémoire. De même, le projet pilote d’embarquement par toutes les portes initié par la STM en 2016 a entraîné une perte d’informations pour les validations de bus, impactant ainsi la répartition des déplacements de chaque usager par mode, et les arrêts d’embarquement du bus n’ont pas pu être géolocalisés ni utilisés dans les calculs d’entropie spatiale car l’information est manquante dans les données OPUS. En outre, comme aucun filtre n’a été appliqué en amont pour pouvoir analyser de manière exhaustive tous les types de comportements, de nombreuses valeurs aberrantes sont présentes dans les données. Ces usagers extrêmes ont notamment pu fausser les résultats des indicateurs appliqués, ceux-ci étant pour la plupart calculés comme une moyenne. Les grands coefficients de variation rapportés à l’intérieur de certains groupes dans les typologies précédemment produites ont parfois signalé ce problème. Les valeurs moyennes obtenues n’étaient donc pas toujours représentatives de l’ensemble des membres du groupe.

La méthode de prétraitement des données mise en œuvre au début du projet n’est pas non plus parfaite. Les validations ont notamment été transformées en déplacements à partir d’une logique tarifaire et non à partir d’une logique de mobilité : de « fausses correspondances » peuvent ainsi avoir été créées. En effet, les usagers de la STM sont capables de maîtriser et de contourner les règles d’affaires du système OPUS. À titre d’exemple, la même ligne de bus ne pouvant pas être empruntée deux fois dans le même déplacement, certains usagers (détenteurs de passages et non de titres à durée) utiliseront un autre trajet et donc une autre ligne de bus pour faire leur déplacement retour. Si elles sont réalisées dans un délai de 120 minutes, les deux validations faites à bord des deux lignes de bus seront considérées comme un même déplacement alors que deux déplacements ont en fait été effectués : un déplacement aller et un déplacement retour. En outre, la section 4.1.4

du mémoire de Giraud (2016) prouve que le calcul des déplacements est très sensible au seuil temporel tarifaire appliqué (ici, 120 minutes).

8.3.2 Limites méthodologiques

La méthodologie proposée comporte également quelques imperfections. Tout d’abord, les combinaisons de cartes définies dans la section 4.2 ne sont pas toutes très pertinentes. En effet, il était difficile de tirer des conclusions pour les combinaisons regroupant des utilisateurs ayant plus de diversité dans l'achat de leurs titres de transport (utilisation de plus d’un seul type de produit ou de tarif). Ces groupes étant composés d’usagers très diversifiés, allant de l’utilisateur de billet unitaire à l’utilisateur d’abonnement annuel, ils présentaient des similitudes avec de nombreuses autres combinaisons. Des analyses supplémentaires devraient donc être entreprises pour explorer ces groupes plus en détail. Cet approfondissement permettrait également de mieux comprendre les raisons qui poussent ces usagers à changer souvent de titre de transport.

De plus, les indicateurs développés se sont révélés très dépendants de la fréquence d’utilisation des usagers. Ainsi, une plus grande variabilité temporelle et spatiale a souvent été rapportée pour les groupes ayant une forte intensité d’utilisation du transport en commun. Cette tendance était notamment flagrante pour l’indicateur d’entropie : les usagers les plus occasionnels cumulant un plus grand nombre de probabilités nulles (probabilité de valider sa carte à une certaine station), leur entropie individuelle moyenne était nettement diminuée et leur faible intensité d’utilisation du transport en commun impactait ainsi l’évaluation de leur régularité. Cette dépendance a rendu difficile la comparaison des groupes d’usagers avec des niveaux d’utilisation différents, par exemple la comparaison entre les utilisateurs d’abonnements et les utilisateurs de carnets. Une normalisation des indicateurs serait donc nécessaire pour s’affranchir de cette fréquence. Par ailleurs, les indices de taille d’effet calculés pour vérifier statistiquement ces indicateurs ont peut- être mal été traduits, leur interprétation étant basée sur un critère arbitraire et non adapté au contexte du transport.

Enfin, la principale faiblesse des premières segmentations réalisées (première typologie d’usagers et typologie de semaines) est liée à l’application de la distance euclidienne pour mesurer les dissimilarités entre les usagers. Les inconvénients de cette distance peuvent notamment être mis en évidence en redécomposant les plus gros groupes de la typologie de tous les usagers de la STM (typologie de la section 5.2). Les résultats de ces nouvelles segmentations sont brièvement donnés

en ANNEXE H. Ils montrent que des profils mensuels très différents voire complètement opposés ont parfois été réunis dans un même groupe. C’est particulièrement le cas pour les groupes C1 et C2. De même, les usagers des sous-groupes de C6 sont actifs à différentes périodes de l’année et leur somme seulement est présente toute l’année sur le réseau. Cette faille est due au calcul de la distance euclidienne qui, en sommant les différences au carré de toutes les proportions de déplacements par mois, a masqué la position de chacun de ces mois dans le vecteur. La méthode des K-moyennes et en particulier l’application de la distance euclidienne sont donc peu adaptées à des séries chronologiques, ce qui confirme les critiques rapportées dans la revue de littérature. En outre, cette distance est également sensible aux unités utilisées et donc à la méthode de normalisation des vecteurs « cartes-année » et « cartes-semaine ».

De même, dans la typologie de séquences, la distance euclidienne a été utilisée pour évaluer les dissimilarités entre les types de semaines (Tableau 6.3) et l’ordre des jours de la semaine n’a donc pas été considéré. Des distances entre certains types de comportements hebdomadaires ont peut- être ainsi été sur ou sous-évaluées. Ces valeurs ont impacté le calcul de la distance de Hamming pondérée et donc ensuite la segmentation basée sur cette distance. Une deuxième limitation peut être relevée pour cette typologie de séquences : celle-ci concerne sa forte dépendance à la définition choisie pour la variabilité intrapersonnelle. En effet, cette variabilité a été examinée ici en fonction d’un cycle hebdomadaire, mais il a été rappelé par des auteurs cités dans la revue de littérature que la régularité des comportements ne suivait pas nécessairement un cycle préfini.