• Aucun résultat trouvé

CHAPITRE 5 CONCLUSION ET RECOMMANDATIONS

5.1 Synthèse des travaux

Dans un premier temps, une revue de littérature a été réalisée, permettant de montrer les composantes nécessaires à l’élaboration des méthodes et l’état des recherches menées à ce jour. On y retrouve une première étude cherchant à définir le domaine d’applicabilité que représente l’exploitation des cartes à puce. Par cela, de nombreux auteurs montrent l’énorme potentiel de cette technologie notamment dans la compréhension des comportements humains. Définissant une volonté de s’intéresser à l’étude des comportements hebdomadaires à l’échelle individuelle, cette revue présente également les méthodes existantes associées à la résolution de la problématique. Concernant les méthodes de segmentation, les caractéristiques nécessaires au choix du bon algorithme sont clairement définies. Différents processus usuels de fouille de données massives sont ensuite présentés, choisissant ainsi le mieux adapté aux vues de ces précédentes exigences. Dans le but de répondre au premier sous objectif, il a donc été choisi de continuer avec la méthode des k-moyennes, jugé plus efficace et simple à mettre en œuvre. On a introduit l’intérêt et la possibilité d’étudier l’évolution comportementale des individus à travers le temps, idée vers laquelle se tourne le deuxième sous objectif. Prévoir la demande constitue l’aboutissement de l’analyse du planificateur. Ainsi, diverses méthodes de prévisions usuelles en transport sont présentées et comparées dans le but de répondre au troisième sous objectif.

Dans un second temps, la méthodologie a présenté chronologiquement l’ensemble des étapes nécessaires à une analyse comportementale d’usagers, avec l’optique de répondre à ces trois sous objectifs. On y retrouve l’importation et la manipulation des données, deux étapes indispensables dans la transformation des informations « brutes » en des vecteurs exploitables par les algorithmes de segmentation. Deux méthodes de regroupement sont ensuite proposées : le premier processus, plus traditionnel applique une segmentation des k-moyennes sur l’ensemble des vecteurs comportement, permettant ainsi de repérer les habitudes des usagers sur l’ensemble de la durée de la période d’étude. Le second processus part des résultats précédents et applique, de manière incrémentale et chronologique, des segmentations k-moyennes sur chacune des semaines de l’étude. Cette dernière théorie devrait proposer des résultats de comportements évoluant dans le temps. La méthodologie présente ensuite une méthode d’analyse des résultats des segmentations à partir d’indicateurs. On y retrouve des indicateurs de qualité évaluant la fidélité de l’estimation et un indicateur de stabilité montrant la régularité de chaque individu. Finalement, cette partie se conclut par les explications mathématiques des principes de prévision par lissage exponentiel et les indicateurs d’évaluation de ces prévisions.

Finalement, il a été question d’expérimenter ces méthodologies sur un système de transport réel, les données de cartes à puce issues de l’utilisation du réseau exploité par la STO. De manière analogue deux études sont réalisées ici en lien avec les deux méthodes de segmentations proposées :

D’un côté, il s’agissait d’appliquer la méthode classique sur l’ensemble des trois années de transactions fournies par la STO. Les 35,4 millions de transactions sont filtrés et convertis-en 1,3 million de vecteurs comportements par l’algorithme de manipulation de données. Un nombre de six groupes est fixé à partir de la méthode du dendrogramme permettant le traitement de l’ensemble des vecteurs comportements simultanément par le processus de segmentation. On définit donc six habitudes différentes de comportement chez les adultes réguliers, dans lesquels on vient retrouver en grande partie les travailleurs réguliers. L’analyse montre une forte influence des semaines comprenant des jours fériés sur les résultats, générant ainsi un bilan global légèrement biaisé.

D’un autre côté, il s’agissait d’appliquer la méthode expérimentale sur l’ensemble des trois années de transactions fournies par la STO. Les résultats de la méthode classique servent à l’initialisation du processus de segmentation incrémental. On définit six habitudes différentes de comportements qui évoluent au fil du temps. La méthode expérimentale consistant en soit en un échantillonnage temporel optimisé, permet de traiter en moyenne 8000 vecteurs comportements par semaine. Une véritable contribution est mise en lumière puisque d’après la littérature, le processus des k- moyennes est plus efficace sur petites volumétries, c’est pourquoi, en divisant le volume des données par 159, on obtient des résultats de meilleure qualité. L’analyse montre une plus faible influence des semaines à congé et permet l’étude de l’évolution des groupes.

Les segmentations k-moyennes fournissent deux types de résultats : les centres des groupes qui représentent les habitudes moyennes des habitants de ce groupe et les tailles de populations associées. Désignant toutes deux des séries temporelles non-stationnaires avec présence de saisonnalité, on a comparé l’application de deux méthodes de prévision par lissage exponentiel. La forme additive étant la plus fidèle (erreurs de 10 à 30% suivant la population des groupes), il en ressort que la saisonnalité ne semble pas dépendre de la tendance.

Ce projet de recherche a permis de montrer que l’analyse comportementale de moyenne volumétrie (35,4 millions de transactions) peut se faire dans des temps très courts (30 à 40 secondes). En opposition, c’est la création des vecteurs comportements qui est très longue (15 heures de traitement pour l’ensemble des données). Sur ce point, l’aspect incrémental de la méthode expérimentale permet de contourner ce problème puisqu’il ne s’agit que d’interpréter les semaines une à une. La manipulation des données hebdomadaires ne prendrait plus que 6 minutes par semaine, un résultat très faible à la vue de la masse de données engagée.

Pour terminer dans la continuité des travaux présentés lors de la revue de littérature, ce travail démontre le potentiel considérable relatif à l’exploitation des données de cartes à puce et l’intérêt certain pour les sociétés de transports collectifs d’adopter cette technologie.