• Aucun résultat trouvé

CHAPITRE 2 REVUE DE LITTÉRATURE

2.4 Mesure de la variabilité individuelle des comportements de mobilité

2.4.2 Comparaison de séquences

La variabilité des comportements de mobilité peut aussi être mesurée par la comparaison de séquences individuelles d’événements activités-déplacements (activity-travel events). Ces séquences, construites pour chaque individu, sont généralement des suites ordonnées d’activités, de lieux ou d’autres attributs de déplacements comme le mode emprunté. Elles contiennent des informations structurelles et séquentielles, c’est-à-dire que la valeur de chaque élément, mais aussi la position de cette valeur sont disponibles. Autrement dit, elles permettent d’étudier la nature, mais aussi l’ordre et l’organisation des activités ou déplacements réalisés par l’usager.

L’analyse de telles séquences est souvent faite à l’aide de la méthode d’alignement des séquences (SAM ou Sequential Alignment Method). Cette méthode calcule la dissimilarité ou distance, appelée la distance Levenshtein, entre deux séquences de caractères en termes de nombre minimal d’opérations (délétion, insertion ou substitution) nécessaires pour égaliser les deux séquences. Wilson (1998) a été le premier à l’appliquer dans un contexte de mobilité. Dans l’article

correspondant, il décrit plusieurs méthodes d’alignement (globale, locale, par matrice de points, multiple) et plusieurs manières de construire la séquence d’activités d'une même personne : il suggère une séquence courte (liste des activités) ou une séquence longue (activités par intervalle de 5 minutes). À l’aide du logiciel CLUSTAL, il compare d’une part les séquences journalières d’activités d’une même personne pour étudier sa variabilité intrapersonnelle, d’autre part les séquences de différentes personnes entre elles pour examiner la variabilité interpersonnelle. Moiseeva et al. (2014) utilisent la même méthode d’alignement appliquée cette fois à deux types de séquences hebdomadaires : une séquence d’activités et une séquence de lieux. Ils estiment également les deux types de variabilité individuelle : la variabilité intrapersonnelle en comparant les huit semaines enquêtées d'un même usager, et la variabilité interpersonnelle en considérant toutes les semaines de tous les usagers. Ils analysent ensuite l'évolution de ces deux types de variations dans le temps pour des nouveaux-arrivants.

De plus, une méthode d’alignement multidimensionnelle a été développée par Joh et al. (2002) pour considérer les différents attributs des événements activités-déplacements. Les séquences comparées sont alors des séquences à plusieurs dimensions. Par exemple, Xianyu et al. (2017) mettent en pratique cette méthode pour mesurer le degré de dissimilarité intrapersonnelle entre les séquences journalières de chaque individu. Les auteurs choisissent d’étudier deux attributs de mobilité (motif d'activité et mode de déplacement), mais ils évoquent d’autres dimensions possibles, notamment spatiale (lieu d’activité) et temporelle (durées d’activité ou de déplacement discrétisées). Ils soulignent que cette dernière dimension n’est pas facile à intégrer, car elle dépend grandement des intervalles de temps choisis; en particulier, de longs intervalles vont entraîner une sous-évaluation des activités courtes. Toutefois, ces méthodes d’alignement nécessitent une grande puissance informatique (Wilson, 1998). Pour réduire le fardeau du temps de calcul, Joh et Timmermans (2011) proposent la recherche de sous-séquences partagées.

Par ailleurs, d’autres types de distances existent pour mesurer la dissimilarité entre deux séquences de caractères. Phithakkitnukoon et al. (2010) utilisent par exemple la distance de Hamming, égale au nombre de positions où les caractères sont différents, pour comparer des séquences d’activités parmi et entre plusieurs groupes de travailleurs.

Une autre façon d’inclure le caractère séquentiel des événements activités-déplacements est de calculer un taux d’entropie comme cela a été fait par Goulet-Langlois et al. (2017). En effet, ce

taux garde en mémoire les événements précédents et quantifie leurs dépendances. Pour argumenter leurs propos, les auteurs confrontent ensuite cet indice à une entropie classique qui mesure seulement la diversité et la répétitivité des événements. Leurs résultats confirment que la fréquence, mais aussi l’ordre des événements sont essentiels pour traiter la question de la variabilité des comportements. Dans un autre article (Goulet-Langlois et al., 2016), les mêmes auteurs proposent une méthode innovante pour déduire des comportements types à partir de séquences. À chaque usager ils associent une séquence continue d’aires d’activités sur quatre semaines, ensuite discrétisée et binarisée dans une matrice multidimensionnelle. À l’aide d’une analyse en composantes principales (PCA), ils réduisent les dimensions de cette matrice et projettent chaque séquence sur les composantes principales les plus importantes pour obtenir un plus petit nombre de variables par usager. Une simple distance euclidienne peut alors être calculée pour comparer les séquences initiales.

Outre des séquences de caractères, des séquences de valeurs quantitatives peuvent être intéressantes à analyser dans un contexte de mobilité. Lorsque la variable étudiée est continue, l’analyste doit choisir des intervalles de temps discrets pour rapporter les quantités mesurées dans une séquence (Wilson, 1998). Ces séquences discrètes sont aussi appelées séries temporelles, définies comme la suite de valeurs numériques obtenues par des mesures séquentielles au cours du temps. Esling et Agon (2012) fournissent une revue de littérature des différents types d’analyses qui peuvent être faites et des méthodes qui peuvent être appliquées sur ces séquences. En particulier, ils recensent différentes mesures de similarité. La déformation temporelle dynamique (DTW ou Dynamic Time Warping) est un algorithme populaire qui en fait partie. Contrairement aux méthodes d’alignement, cette technique ne ramène pas les séquences comparées à la même longueur avec des suppressions-insertions, car un seul élément d’une séquence peut être associé à plusieurs éléments d’une autre séquence et inversement. Ces principes d’expansion et de compression sont expliqués et discutés par Kruskal et Liberman (1983). He et al. (2018) illustrent cette technique dans un cas concret du transport en utilisant des données de cartes à puce. Les auteurs construisent un série temporelle binaire de validations pour chaque carte et calculent ensuite la distance entre les séquences produites à l’aide de deux métriques : la distance de corrélation croisée (CDD ou cross-correlation distance) et la distance de déformation temporelle dynamique (DTW ou Dynamic Time Warping distance).