• Aucun résultat trouvé

Chapitre 1 : Des données pour répondre aux changements de paradigme des

1.3 Élargir l'éventail des données pour répondre aux nouvelles questions

1.3.2 Le couplage de données

Le panorama sur les données des grandes institutions et de celles issues du big data fait ressortir que chacune des sources de données à ses avantages et inconvénients.

Les données du big data permettent de disposer d'une masse de données importantes et donc de représenter l'accessibilité d'un territoire. Les localisations sont précises quand le matériel est bien opérationnel. Mais nous ne disposons pas de l'ensemble des éléments de connaissances dont le changement de paradigme des politiques de transport a besoin. Les données de téléphonie mobile (GSM, GPS, Wi-Fi) ont l'avantage d'informer assez précisément sur les localisations. Une information sur les itinéraires peut être effectué à partir de traitement sur les données que constituent ces traces de téléphonie mobile. Toutefois, on ne dispose pas d'information sur les motifs, les profils socio-économiques et les modes de transport. Les données de billéttiques informent, quant à elles, sur les modes de transports, les heures et certains points de passage des déplacements. En revanche, nous ne connaissons pas les points de départs et d'arrivées des déplacements, ni les motifs, ni les profils socio- économiques. Plus précisément, il est possible de retracer les individus sur une période de temps assez longues pour identifier les individus, mais cela pose des problèmes de confidentialité. Et tout en ne respectant pas les contraintes d'anonymat, la représentativité statistique n'est pas assurée38.

La littérature présentée lors du panorama des données de mobilité (Y. Asakura et E. Hato, Google, El Mashri, Tamblay et al, Devillaine et al.) montre des exemples pour reconstituer des informations et notamment des éléments attributaires des déplacements à partir de connaissances externes sur les réseaux de voiries ou les lignes de transport public. Pour tendre vers une description plus fine de la mobilité dans un territoire nous proposons de suivre cette voie et de coupler différentes sources de données. Des données concernant les déplacements, mais aussi des données sur les déterminants locaux de la mobilité, sur les

caractéristiques de la population, de l'offre et des infrastructures de transport et de l'emploi peuvent être mobilisées. Il nous paraît important et dans la logique du Grenelle de prendre comme base un référentiel socio-économique, car on a besoin de comprendre les logiques des comportements. L'autre approche fondée sur une base de données de déplacements enrichie par des données socio-économiques paraît moins opérantes, en raison notamment du biais statistique introduit par la possession et l'utilisation d'un téléphone mobile. Les deux sources de données renseignant sur les profils socio-économiques que nous envisageons de mobiliser sont les EMD et le recensement.

Une première option consiste à extrapoler les Enquêtes Ménages-Déplacements. Celles-ci avaient pour vocation de produire un ensemble complet de données. Mais le taux d'échantillonnage et les fréquences d'actualisations sont faibles. La précision des descriptions est trop peu précise et limitée aux jours de semaine hors vacances. Les besoins de connaissance soulevés par le Grenelle de l'Environnement doivent s'appuyer sur un dispositif plus précis constitué à partir de bases de données assises sur des échantillons de grandes tailles. L'extrapolation d'EMD consiste à produire par la modélisation une base de données de déplacements pour l'ensemble de la population. La chaîne de modélisation à quatre étapes (génération, distribution, choix modal, affectation) réalise cette opération. Les deux premières étapes consistent à produire une matrice de déplacement en extrapolant les données EMD à l'aide du recensement et/ou d'autres sources de données. Toutefois, la chaîne de modélisation est critiquable. Le modèle à quatre étapes ne tient pas compte des enchaînements d'activités, et la congruence des activités des ménages n'est pas considérée. Il vise surtout à obtenir une représentation des flux sur le réseau en période de pointe (Bonnel, 200) (Ortuzar, 2011). Or les objectifs du Grenelle sont plus ambitieux.

Une autre modélisation empruntée par le modèle Mobisim consiste à utiliser les EMD pour définir des schémas d'activité, déterminer leur fréquence et les affecter à une population synthétique de ménages, construite à partir du recensement, pour simuler leur mobilité (Antony et Vuidel, 2010).

Néanmoins, le manque de précision des EMD, dû au faible taux d’échantillonnage, affecte aussi la représentativité des schémas d'activité selon les zones. Il est difficile de coupler directement les données des EMD à une autre source de données car les supports de l'information géographique ne sont pas identiques (problème de non-alignement des

supports39).

Remarquons que même lorsqu'on donne un rôle central aux EMD, le recensement joue un rôle de référentiel qui, à notre avis, peut être développé. Le fichier sur les mobilités professionnelles domicile-travail à une meilleure fréquence d'actualisation et un taux d’échantillonnage bien plus élevé que les EMD. Toutefois cette source de données ne décrit qu'un seul motif (déplacement domicile-travail) et ne donne aucune précision sur les trajets et les horaires des déplacements. Il paraît alors pertinent d'envisager une stratégie d'enrichissement du recensement par d'autres sources.

Par exemple la carte des antennes-relais de GSM (illustrations 10 et 11), peut permettre d'associer les traces passant par ces antennes aux communes ou aux IRIS. L'analyse temporelle des traces permet en effet de découvrir avec une bonne probabilité l'antenne-relais du lieu de résidence. Dès lors nous pouvons augmenter les éléments de connaissance en couplant les données GSM avec les données du recensement. L'opération consiste à attribuer pour chaque antenne-relais des traces partant de ces antennes aux effectifs du recensement décomptés au lieu de résidence par le support communal. Ce travail de transfert de données d'un support à un autre est ce que nous pouvons appeler un problème de changement de support (COSP40). Pour répondre au non-alignement des supports, il faut transférer les

données sur un support plus fin, puis ré-agréger vers le support dont on souhaite disposer de l'information.

Effectivement, les supports des antennes relais (les polygones de voronoï des illustrations 10 et 11) et des données du recensement sont différents. Pourtant toutes les possibilités de couplage de ces bases de données dépendent de la possibilité d'accorder les supports géographiques par des méthodes appropriées ne dégradant pas l'information. Afin de faciliter les opérations de couplage il est donc proposé dans cette thèse d'affiner les localisations

du fichier des mobilités professionnelles du recensement. Le traitement de données du

fichier MOBPRO proposé ici a pour objet de répondre aux besoins d'analyses descriptives de la mobilité et à servir potentiellement de données primaires dans les traitements post-enquêtes permettant de couvrir d'autres formes de mobilité que celle issue du motif domicile-travail.

39 - « In any one study, several different types of data may be collected at differing scales and

resolutions, at different spatial locations, and in different dimensions. Many statistical issues are associated with combining such data for modeling and inference. » (Extrait du résumé du livre de

Gotway et al. (2002)

40 En effet, le passage d'une information de deux supports parfaitement alignés revient à transférer l'information entre deux supports identiques.

1.3.3 Comment produire des couples origines-destinations