• Aucun résultat trouvé

Chapitre 3 : Clonage et ventilations spatiales sous contraintes d'observations

3.1 Le clonage des observations du recensement

La méthode de désagrégation spatiale des données du recensement utilise une étape de clonage. Cette opération consiste à augmenter artificiellement le nombre d'observations d'une enquête pour avoir plus d'individus statistiques à ventiler. Le clonage a pour but d'améliorer l'adéquation entre les profils disponibles dans l'échantillon et ceux des données de contrôle. L'espace occupé par les données de contrôle sera mieux rempli qu'avec un petit nombre d'observations.

Bien que l'opération de clonage ne crée pas de nouveaux profils, l'augmentation artificielle d'observations par clonage peut s'apparenter aux méthodes de génération de populations synthétiques. Cette construction vise à respecter le lien entre les localisations spatiales, les profils socio-économiques et les modes de transport utilisés pour aller travailler, de manière à obtenir des données cohérentes et statistiquement représentatives. De plus, nous devons disposer de descriptions socio-économiques riches pour effectuer des correspondances avec les données de contrôle présentées par la suite. La construction d'une population synthétique, par clonage des observations d'enquêtes selon leur poids de sondage, permet de recouvrir l'espace informé par les données de contrôle.

Prenons le cas d'un couple de zones dans le support source dans laquelle nous voulons localiser les observations au lieu de résidence mais dont l’effectif d’observations est inférieur au nombre de bâtiments cibles découpant plus finement les zones résidentielles sources (cela peut être des bâtiments mais aussi des zones). Par exemple, nous avons trois observations de déplacements dans une zone source et quatre bâtiments cibles à l'intérieur de la zone source. Nous ne pouvons pas distribuer ces trois observations dans les quatre bâtiments cibles. Afin de disposer d’unités dans chaque bâtiment la méthode de désagrégation doit produire des unités dites alors artificielles. La création de ces unités passe par l’utilisation des poids statistiques. Dans notre exemple, disons que chacune des trois observations ont au début un poids de 4. Il faut créer une quatrième observation, nous pouvons diviser la somme des poids de sondage des observations du couple de zone source par l’effectif d'observation. Mais dans ce cas il faut construire les données attributaires pour la nouvelle observation. Nous proposons plus simplement de cloner une observation du couple de zone pris au hasard. Cette étape est conceptuelle. Nous supposons qu'une observation représente autant d'individus que son poids de sondage l'indique. Une

observation est alors constituée de plusieurs clones. Et pour couvrir l'ensemble de l'espace des données de contrôle nous séparons dans certains cas les clones des observations. Dans notre exemple, deux observations auront un poids de 4 et deux autres auront un poids de 2 et auront les mêmes données attributaires. Cette opération consiste simplement à reconstituer des d'individus statistiques identiques (c'est-à-dire possédant exactement le même profil socio-économique) à partir d'une même observation et de son poids de sondage. Nous pouvons bien entendu créer autant d’unités d’observations artificielles que souhaité.

La critique que l'on peut porter à cette approche est que l'on ne construit pas de nouvelles destinations (communes de travail) pour les observations clonées ni même de nouveaux profils socio-économiques et modes de transport. Ce fait peut être gênant avec un échantillon trop petit qui ne contient pas la totalité des profils des données de contrôle.

Il existe pourtant des méthodes permettant de construire de nouvelles localisations et profils socio-économiques à partir d'un échantillon. Nous avons déjà présenté les étapes de modélisation de trafic pour ce qui concerne les variables de localisations. Pour la construction de profils socio-économiques plusieurs méthodes peuvent être utilisées : les méthodes d'Iterative Proportional Fitting (IPF) sont utilisées dans la littérature de création de populations synthétiques (Deming et Stephan, 1940) (Beckman, 1996). D'autres méthodes peuvent être utilisées, par exemple nous pouvons construire des matrices de similarité (et/ou de dissimilarité) (Duncan et Duncan, 1955) afin de comparer les partitions (Hubert et Arabie 1985), puis nous pouvons appliquer des méthodes de ré-échantillonnage (Efron et Tibshirani, 1994) pour produire de nouvelles partitions les plus similaires possibles mais pas de trop. Mais ces méthodes s’appuient sur des effectifs totaux à respecter. Ces effectifs totaux sont dans bien des cas les données du recensement. En travaillant directement avec les données du recensement rénové les effectifs totaux des profils des individus doivent être considérés avec prudence (chapitre 2.3.1). C'est pourquoi nous choisissons de ne pas appliquer les méthodes de création de nouveaux profils socio-économiques dans le cadre de cette thèse. Il est supposé que la taille initiale de l'échantillon enquêté dans MOBPRO est suffisamment grand (au quart dans les petites communes et au deux cinquièmes dans les grandes) pour offrir des observations de l'ensemble des situations les moins exceptionnelles. Plus l'effectif d'observation est grand plus nous nous approchons de l'ensemble des modalités des variables de localisations et socio-économiques des zones de tirage. Avec un grand effectif, il est supposé que les modalités sont assez représentatives. Nous prenons le parti qu'il n'est pas

nécessaire ici de créer de nouvelles modalités de variables socio-économiques, ni même de nouvelles communes de travail. De plus, les méthodes de générations synthétiques s'appuient sur des marges totales à respecter. Pour appliquer ces méthodes il faut de toute manière multiplier les nombres d'observations par leur poids de sondage. L'opération de clonage est une étape préalable à la création de nouveaux profils socio-économiques. Nous pourrons éventuellement explorer cette voie ultérieurement.

L’augmentation artificielle des observations d'enquêtes se fait donc simplement en considérant que les observations représentent autant d'individus que leur poids de sondage l'indique. Et, lors de la ventilation des observations statistiques dans l'espace des communes, nous pouvons soit séparer dès le départ les clones des observations statistiques, soit nous pouvons les laisser agrégées. Pour ne pas faire d'hypothèses de construction trop fortes nous suivons la deuxième proposition: nous allons laisser les clones groupés le plus possible. C'est-à-dire nous allons leur affecter, autant que faire se peut, les mêmes localisations résidentielles et d'emplois. De cette manière, au lieu de créer autant de lignes (d'observations) dans les fichiers numériques qu'un poids de sondage l'indique, nous maintenons groupés les observations que nous ne souhaitons pas dissocier. Ajoutons que de cette façon les temps de calculs sont plus courts et la mémoire vive nécessaire moins importante. Dans certains cas nous sommes toutefois amenés à séparer des clones car sans cela nous ne respecterions pas les effectifs de population indiqué par les données de contrôle. L'opération revient donc, dans ces cas, à modifier marginalement les poids de sondage. La séparation de clones intervient dans les étapes de ventilation spatiale sous contraintes (chapitre 4.2).