• Aucun résultat trouvé

L'agrégation des données d'enquêtes à faible taux d'échantillonnage pour

Chapitre 2 : Les fonctionnalités des supports d'enquêtes

2.2.2 L'agrégation des données d'enquêtes à faible taux d'échantillonnage pour

Certes, ce n'est pas l'échelle individuelle qui intéresse les politiques d'aménagement. Toutefois il est souhaité observer les territoires, aussi petits soient-ils. Ce qui amène à traiter de l'effectif d'échantillon au sein de petits territoires (aires géographiques restreintes). Plus l'échantillon est petit moins il est possible d'observer une significativité dans les tests statistiques. Il faut alors de grandes zones pour disposer de plus d'observations mais plus sujette à être non homogène et donc à ne pas révéler des relations statistiques. Suivant le niveau d'agrégation et donc de la taille d'échantillon il est plus ou moins possible d'étudier des relations statistiques. Des éléments de la littérature démontrent qu'avec les EMD il faut un niveau d'agrégation parfois assez élevés.

Le rapport d'étape de Raux (1996) est édifiant. Les auteurs analysent les évolutions des temps de déplacements des usagers des transports en commun de Lyon entre l'EMD de 1976 et celle de 1995. Bien qu'en 20 ans de considérable développements urbain ont été faits il est difficile d'en observer les effets sur les différents zones du territoire lyonnais. Une grande critique est donc faite sur la taille des échantillons des EMD's de Lyon qui présente pourtant un effectif important comparativement à la plupart des agglomérations françaises. Bonnel présente cette critique.

« Les auteurs montrent que la précision sur les temps de déplacements déclarés par les enquêtés en transports collectifs entre zones pour un découpage en 5 zones de l’agglomération (sur le périmètre de l’enquête 1976) ne permet de mettre en évidence une évolution que pour 6 flux sur les 25 alors que la différence globale est assez importante (37 minutes en 1976 avec une précision de 2 %, et 32 minutes en moyenne en 1996 avec une précision de 2 %). Le gain de temps en transports collectifs est pourtant probablement général sur l’ensemble de l’agglomération, compte tenu de l’amélioration du système des transports collectifs au cours de ces 20 années. On peut ainsi observer une diminution quasi systématique des temps de parcours en transports collectifs pour chacune des origines- destinations, mais ces différences ne sont pas statistiquement significatives. Ce constat résulte d’intervalles de confiance trop larges pour chacune des enquêtes (supérieurs à 10 % pour 18 des 25 flux en 1976 et pour 14 des 25 flux en 1995). Il faut ainsi des écarts d’au

moins 25 % pour la moitié des flux pour que les résultats soient statistiquement significatifs au seuil de confiance de 5 %. Le découpage n’est pourtant pas particulièrement fin. On imagine aisément qu’avec un découpage légèrement plus fin, il n’y a plus aucun flux pour lequel le résultat puisse être significatif.

Pour des calculs de pourcentage, la précision est également bien souvent insuffisante. Ainsi lorsqu’il s’agit de calculer un pourcentage à partir d’un échantillon de 100 observations (Raux et al., 1996), le demi-intervalle de confiance est de 10 % pour un pourcentage de 50 %, soit un intervalle [40 % - 60 %]. Même avec un échantillon de 1.000 observations le demi-intervalle est encore de 3 %, toujours pour une proportion de 50 %. L’un des objectifs de l’enquête ménages déplacements est de pouvoir mesurer l’incidence d’une modification importante de l’offre de transports collectifs. Prenons l’exemple de la mesure de l’incidence de la création d’un axe lourd de transports collectifs en site propre. La part de marché des transports collectifs (sur l’ensemble voiture + transports collectifs) est fréquemment de l’ordre de 20 %. Si le nombre de déplacements enquêtée est de l’ordre de 1.000 unités, l’intervalle de confiance (avec une précision de 5 %) est [17,5 % - 22,5 %]. Même avec 10.000 déplacements (soit de l’ordre de 2.000 ménages enquêtés), l’intervalle de confiance est encore de [19,2 % - 20,8 %]. Les intervalles des deux enquêtes s’additionnant, il faut donc que la part de marché des transports collectifs augmente de 5 % (soit 25 %) si l’on a 1.000 déplacements, et de 1,5 % (soit 21,5 %) si l’on a 10.000 déplacements. Lorsque l’on connaît la modération de la croissance de la part de marché des transports collectifs (par exemple à Lyon, sur le périmètre 1976, la part de marché des transports collectifs (sur l’ensemble voiture + transports collectifs) est de 22 % en 1976, 24 % en 1985 et de 21 % en 1995), la probabilité est forte pour que les écarts ne puissent être au mieux que mesurés sur l’ensemble de l’agglomération. En revanche, toute segmentation qu’elle porte sur des découpages géographiques ou des caractéristiques socio-économiques conduira probablement à des résultats statistiquement non significatifs.

Un accroissement de la taille de l’échantillon permettrait de mieux répondre à certains objectifs assignés à l’enquête ménages déplacements. » (Bonnel, 2001, p.129)

Pour l’Île-de-France, rappelons que l'EGT de 2010 regroupe en moyenne près de 430 observations par secteur de tirage. Nous sommes loin des 2 000 ménages nécessaire pour étudier statistiquement une zone. L'utilisation des données d'enquêtes probabilistes avec de petits échantillons en tant que données descriptives doit se faire en agrégeant les observations

sur des grands territoires afin de disposer d'échantillon suffisant et d'une répartition homogène. Les EMD ne permettent alors d'étudier que les comportements à l'échelle de l'ensemble des zones de tirage. Il ne peut pas être fait d'analyses statistiques à l'intérieur ou même entre plusieurs zones. A l'échelle de la zone d'étude, les moyennes régionales sont représentatives et les relations statistiques peuvent éventuellement être significatives. Nous comprenons désormais pourquoi le Certu invite à agréger les observations.

Les EMD apportent néanmoins des informations très riches sur la description des comportements de mobilité, elles décrivent l'ensemble des motifs de déplacements avec des informations sur la temporalité des déplacements (heures de départs et d'arrivées). La chaîne de modélisation à quatre étapes permet d'enrichir les EMD (Certu, 2003). Les EMD ayant un faible taux d'échantillonnage les méthodes de modélisation de trafic extrapolent les échantillons à l'aide des données du recensement et des données de comptage des gestionnaires des infrastructures de transport. L'avantage de ces méthodes est de pouvoir traiter de plusieurs motifs de mobilité et d'en donner une photographie d'un jour moyen d'enquête. Nous nous inspirons de cette méthodologie pour répondre au besoin en données exprimé par le changement de paradigme des politiques de transport. Comme la thèse se concentre sur les données de mobilité domicile-travail nous pouvons alors ne pas utiliser les données EMD. Les données du recensement sont beaucoup moins détaillées mais ont un plus grand nombre d'observations qui leur donne une potentialité pour contrôler l'enrichissement d'autres jeux de données, ce qui n'empêche pas d'être enrichi par ailleurs. Au premier chapitre nous avons posé l'idée de disposer d'une base de couplage représentative statistiquement de la population sur un support permettant le couplage de données issues de différentes sources. La diffusion de données sur un support régulier avec un référentiel géographique commun est la voie indiquée par la directive INSPIRE. Nous suivons cette voie en proposant de produire et diffuser les données de mobilité du recensement sur le support INSPIRE de 1km. Ce chapitre termine donc par présenter les méthodes de collecte du recensement rénové de population. Nous orientons la description du recensement en mettant en avant le concept de poids de sondage des enquêtes. Ce sont des outils renseignant sur le niveau de représentativité statistique : la relation entre tailles des échantillons par zone de tirage et résolutions des supports irréguliers.

2.3 Les supports spatiaux et l’échantillonnage du