• Aucun résultat trouvé

Chapitre 2 : Les fonctionnalités des supports d'enquêtes

2.3 Les supports spatiaux et l’échantillonnage du recensement rénové de la

2.3.3 La précision du recensement

Comme le recensement rénové de population est une enquête par sondage, sa précision est dépendante du processus d'échantillonnage que nous venons de décrire.

Le recensement général de la population permettait de connaître l'effectif total de population. Pour mesurer la précision du recensement général, on tire au sort des sous-échantillons afin de mesurer l'écart à l'effectif de la population totale. Cette opération de tirage au sort de sous- échantillons puis de mesure de l'écart à l'effectif total est répétée de très nombreuses fois. L'écart moyen à cet effectif total est ce que l'Insee appelle un coefficient de variation.

Pour le recensement de la population rénové, le même principe est adopté, à la différence que nous ne connaissons pas avec certitude l'effectif global. Les écarts sont donc comparés à la moyenne des autres écarts62 (dans le processus la moyenne est mise à jour à chaque tirage).

Enfin à l'aide des coefficients de variation un intervalle de confiance à 95 % peut être calculé, c'est-à-dire un intervalle dans lequel la vraie valeur (inconnue) aura 95 % de chance de se trouver. Cet intervalle de confiance caractérise ce que l'Insee nomme la précision.

[ valeur du RP x (1 - 2CV) ; valeur du RP x (1 + 2CV) ]6364

Toutefois cette mesure est effectuée pour l'effectif global de la population. La précision doit être calculée pour les autres variables socio-économiques si nous voulons être assurés de la validité d'une exploitation socio-économique du recensement, comme par exemple le nombre d'actifs ou d'agriculteurs parmi la population totale. Il faut alors tenir compte de l'imprécision sur l'effectif de la modalité à étudier (le numérateur) et de celle sur l'effectif total de

62 Nous remarquons que le recensement général étant quasi-exhaustif l'effectif total était en fait un effectif moyen à l'instar des résultats du recensement rénové.

63 Insee. La précision des résultats du recensement [en ligne] (Consultée le 14/06/2016)

<http://www.insee.fr/fr/ppp/bases-de-donnees/recensement/resultats/doc/pdf/fiche-precision.pdf> 64 Remarquons que l'intervalle de confiance à 95 % utilise le quantile 0,975 de la loi normale, soit

population estimée (le dénominateur). Chaque variable socio-économique de l'exploitation complémentaire possède ainsi sa propre précision. En effet, le tirage au sort des échantillons s'appuyant sur les adresses alors les poids de sondage sont relatifs aux effectifs totaux de ménages habitant les adresses enquêtées et non pas à une modalité socio-économique particulière. Ainsi la somme d'une variable socio-économique quelconque n'est pas connue, elle est supposée être égale à la somme des poids de sondage. Comme l'indique l'Insee, cette supposition est cohérente en cas d'homogénéité de la sous-population dans la population totale (Insee. La précision des résultats du recensement65). Par exemple, si nous souhaitons

connaître la proportion de cadres dans la population totale il faut tenir compte de l'imprécision de la population totale et du nombre de cadres. La méthode de calcul de l'imprécision consiste à sommer les deux coefficients de variation (Insee, la précision des résultats du recensement,p.3).

Il est supposé que les deux coefficients sont indépendants. La documentation précise : « ce calcul ne tient pas compte de la corrélation entre le numérateur et le dénominateur ; si on en tenait compte, la précision serait en réalité meilleure. » Plus exactement cette hypothèse d'indépendance est moins gênante lorsque nous effectuons les calculs sur la population totale. Mais dans notre projet de descente d'échelle nous devons nous interroger sur les spécificités locales. Localement la situation d'homogénéité est bien plus rare. Il est bien plus exceptionnel de trouver des petites zones dont la structure de la population est similaire à celle de la population totale. Dès lors à partir de quel effectif de population pouvons-nous mesurer la précision ?La documentation précise qu'il n'est pas judicieux d'opérer avec des effectifs de moins de 2 000 habitants, c'est-à-dire à l'intérieur des IRIS et des très petites communes. Toutefois la documentation est assez lacunaire sur ce point. Pour évaluer de la précision des petites communes, la documentation de l’Insee indique que, pour un effectif de 10 000 habitants, l’écart-type vaut 200, la précision est de 2 % et l’intervalle de confiance à 95 % de plus ou moins 400. (Insee. la précision des résultats du recensement. p.4). La documentation précise à la suite de cette exemple que ce calcul permet d'expliquer pourquoi les résultats tirés de l’exploitation complémentaire ne sont pas utilisés pour les zones de moins de 2 000 habitants. Les bases téléchargeables contiennent les résultats pour toutes les communes mais

65 Insee. La précision des résultats du recensement [en ligne] (Consultée le 10/04/2016 <http://www.insee.fr/fr/ppp/bases-de-donnees/recensement/resultats/doc/pdf/fiche-precision.pdf>

à seule fin de permettre des agrégations sur des zones d’au moins 2 000 habitants. Les informations pourront être utilisées avec un niveau de détail d’autant plus grand qu’elles concernent une zone plus peuplée.

En conclusion de cette présentation des supports utilisées par les méthodes de collecte des données du recensement de la population, le support de base de tirage est le support IRIS-2000 servant à équilibrer les groupes de rotations des adresses à enquêter chaque année. Le support de localisation est un support ponctuel composé des adresses postales. De cette manière les alignements aux autres supports est possible (alignement au support IRIS). Enfin, les supports d'analyses diffusées par l'Insee est le support IRIS pour les communes de 10 000 habitants et plus et le support communal pour les communes de moins de 10 000 habitants. Par commodité nous parlons de support IRIS-Communes.

La grande taille de l'échantillon du recensement est conçu pour apporter une bonne précision pour des unités de 2 000 habitants et plus. Il nous faut alors faire attention aux communes de moins de 10 000 habitants surtout lorsque on utilise les données de l'exploitation complémentaire renseignant seulement sur un quart de la population de ces communes. L'utilisation de MOBPRO est donc sous-optimal mais ce problème de sous-échantillonnage peut être contourné par l'utilisation des données confidentielles. Le processus que nous allons appliquer à l’Île-de-France (chapitre 4) pourrait donc être utilisé dans un cadre plus précis. Pour les grandes communes le sondage peut créer des problèmes dans les carreaux peu peuplés, il faut alors espérer une homogénéité sociale suffisante.

Dans notre processus de désagrégation nous avons fait le choix de produire un jeu de donnée sur un carroyage de 1 km, qui parfois contiendra moins de 2 000 habitants ou actifs occupés au km². Ainsi selon la documentation, ces zones de moins de 2 000 habitants seront potentiellement moins précises. C'est pour améliorer la précision du tirage du recensement que nous allons utiliser des données de contrôle permettant de répartir spatialement les observations. Par exemple, la sous populations des actifs appartenant à la catégorie des cadres, devra être localisée en s'appuyant sur des données de contrôle prenant en compte les spécificités de cette catégorie.

Conclusion du chapitre 2

En analysant les diverses fonctions des supports spatiaux utilisées dans la méthodologie de construction d'enquête nous nous sommes aperçu que le besoin en données provient en partie du fait que les supports de production des données ne sont pas initialement construits pour répondre à tous les besoins des analyses. Ils doivent d'abord respecter des contraintes de représentativité. Et si le taux d'échantillonnage est faible nous sommes contraints de préserver le support de tirage pour effectuer des analyses. Nous ne pouvons que ré-agréger sur un autre support d'analyse qu'à condition qu'il soit aligné sur le support de tirage et plus grossier que le support de diffusion. Nous perdons donc en précision géographique.

L'analyse de la chaîne de production et d'analyse des données a ainsi révélé un antagonisme entre les fonctions de production et d'analyses des données. Les utilisateurs souhaitent des données représentatives selon les critères qu'ils souhaitent étudier. Les producteurs de données doivent construire à l'avance des jeux de données répondant aux questions des utilisateurs. Ils doivent construire des données représentatives en fonction des demandes. L'antagonisme entre les deux fonctions de ces supports provient du fait qu'un support construit pour étudier un objet d'étude ne peut pas être utilisé pour étudier un autre phénomène.

Pour concilier les divers besoins d'analyse et les étapes de production de données sans passer par la création d'autres enquêtes, les limites administratives jouaient un rôle d'intermédiaires (supports des IRIS-Communes). Avec les objectifs du Grenelle nous ne pouvons plus nous satisfaire de ces bornes à respecter. Nous devons disposer de supports d'analyse plus fins ou permettant d'étudier des territoires à cheval sur les limites administratives.

L'objectif est aujourd’hui de produire des données les plus neutres possibles vis-à-vis des compétences politiques pour laisser le soin aux utilisateurs de créer eux-mêmes leurs supports d'analyse et faciliter les comparaisons internationales. Pour produire ces données neutres, les observations sont regroupées dans des mailles régulières (carreaux). Cette maille doit répondre à des impératifs de construction pour être aux normes INSPIRE et doit être suffisamment fine pour permettre d'analyser des localisations infra-communales. L'Insee a commencé la diffusion de données de population au carreau en regroupant des informations

issues des fichiers fiscaux localisés à l'adresse et en procédant à des méthodes de brouillage de l'information pour respecter la règle de l'anonymat. Plusieurs maillages sont utilisées, nous retenons un de 200m et un second de 1km de résolution. Nous proposons de continuer dans cette voie, en produisant des indicateurs de demande de mobilité sur le support carroyé de 1km. Plusieurs sources de données et méthodes permettent potentiellement d'effectuer ce travail. Les EMD et la chaîne de modélisation à quatre étapes ont été présentées. Les EMD ayant un faible taux d'échantillonnage les méthodes de modélisation de trafic extrapolent les échantillons à l'aide des données du recensement et des données de comptage. L'avantage de ces méthodes est de traiter de plusieurs motifs de mobilité et d'en donner une photographie d'un jour moyen d'enquête, mais leur désagrégation spatiale ferait selon nous trop d'hypothèse mal contrôlées.

Les sources de données internes à l'Insee peuvent également être utilisées. Nous choisissons de poursuivre une autre voie, en reprenant certains souhaits exprimés par le CNIS (Cuillier, 2009, p.37) la désagrégation des données du recensement au carreau INSPIRE de 1km va permettre de disposer de l'ensemble des variables du recensement sur le carroyage INSPIRE de 1km. De plus, la méthodologie de désagrégation proposée peut être vue comme un moyen d'anonymiser les données sur des carreaux contenant de faibles effectifs.

Pour effectuer ce travail de descente d'échelle du support communal au support carroyé de 1km nous devons disposer d'effectifs d'enquêtés importants et d'une bonne description des profils socio-économiques pour ventiler les observations dans tout l'espace géographique en s'appuyant sur des correspondances avec des données de contrôle. Le chapitre suivant présente la méthodologie permettant de ventiler sous contrainte les données du recensement.