Questionner les données agrégées - Résultat des élections présidentielles de 2012 à Port-de-Bou

Résultat des élections présidentielles de 2012 à Port-de-Bouc

A. Questionner les données agrégées

La science politique dispose de deux ressources majeures lui permettant de disposer de données quantitatives. Le sondage est le moyen le moins couteux et le plus utilisé tant par les médias que par le monde de l’entreprise pour disposer de données statistiques sur des individus. Cette méthode, malgré les résultats qu’elle permet d’obtenir, souffre néanmoins de nombreux défauts. Pour cette raison, de nombreux chercheurs privilégient les données agrégées issues du recensement effectué par l’INSEE. De telles données constituent un précieux matériau statistique portant sur l’ensemble de la population française.

Les sondages

Les sondages, exemples parfaits des données déclaratives, sont aujourd’hui la principale source de données quantitatives en France. Plusieurs instituts privés se sont spécialisés dans l’administration et la vente des études qui en sont les produits. Ils répondent à des commandes toujours plus nombreuses de la part de journaux, de partis, d’hommes politiques, voire des services de l’État. Aujourd’hui omniprésents dans les sociétés démocratiques occidentales, les prédictions qu’ils produisent sont toujours plus lointaines. Des sondages portant sur les élections présidentielles de 2017 étaient en effet déjà réalisés en 2014, c’est-à-dire 3 ans avant l’échéance électorale en question.

La pertinence d’un sondage varie selon plusieurs critères. La taille de l’échantillon est certainement le plus important pour mesurer de la qualité d’un sondage. L’utilisation de sondages portant sur des panels de plus en plus restreints est courante, car ils sont façon la moins couteuse de produire une enquête. Pourtant, plus le panel est resserré (surtout lors de questions spécifiques) plus la marge d’erreur est importante.

La façon de constituer cet échantillon est également capitale. En général, l’échantillon concerne les personnes de plus de 18 ans. Les sondés sont sélectionnés par la méthode des quotas afin de satisfaire une volonté de représentativité socio-économique de la population française. Néanmoins, on remarquera que cette méthode de quotas n’est en général pas spatiale. Surtout, malgré cette volonté de représentativité, ce sont toujours certaines catégories de personnes qui sont volontaires pour répondre au sondage, ce qui implique un sondage qui ne sera jamais représentatif de la population française. Les sondeurs ont ainsi recours à des redressements afin de faire coller la population de leur échantillon avec la population française. Ces redressements sont particulièrement importants lorsqu’il s’agit d’étudier le vote Front national, considéré comme tabou et donc, sous-déclaré.

Enfin, la façon dont sont posées les questions est également un biais inhérent au sondage car les questions peuvent être tournées de différentes façons. Les candidats proposés, la formulation des questions, leur ordre, sont toute une série de facteurs qui peuvent faire du sondage une arme politique orientée vers la satisfaction du commanditaire. L’article de Jeannine Richard-Zappela qui prend l’exemple des sondages sur l’euthanasie est en ce sens révélateur des manipulations dont peuvent faire l’objet les sondés (Richard-Zappela, 1990, pp.60-75). Les sondages réalisés dans le monde universitaire sont eux réputés plus fiables que ceux issus de commandes politiques ou d’enquêtes de satisfactions clients.

Dans le cadre de notre travail, nous avons fait le choix de ne pas utiliser cette méthode pour des raisons tant méthodologiques que techniques. Il nous aurait en effet été impossible d’administrer nous-mêmes des questionnaires à une échelle suffisante sur nos terrains d’enquêtes. La distance entre ces deux terrains nous empêchait par ailleurs d’administrer simultanément ces derniers dans chaque ville dans le cadre d’une échéance électorale. Nous avons donc préféré, par souci de pertinence, l’utilisation de données agrégées et la réalisation d’entretiens semi-directifs.

Les données issues des recensements

Les résultats issus des recensements sont également régulièrement utilisés dans les études électorales. Ces données sont des plus utiles car elles permettent d’étudier toute la population recensable française et autorisent surtout des études spatiales portant sur différents phénomènes. Contrairement aux sondages, recourir aux données du recensement implique de travailler sur des corrélations et non sur des liens réels entre un comportement politique et une position sociale. En effet, si dans le sondage, la personne déclarant voter pour un candidat indique également son emploi, ce n’est pas le cas lors du recensement. Le travail se fait donc sur des liens supposés entre des groupes d’électeurs et des groupes de personnes d’une catégorie sociale spécifique. Cette mise en garde rappelée, il appartient au chercheur de s’interroger sur l’évolution de l’utilisation des données agrégées dans la sociologie électorale.

Des PCSde moins en moins présentesࣟ? (42)

Emmanuel Pierru et Alexis Spire se posaient en 2008 la question suivante : «ௗPourquoi est-il devenu si difficest-ile de trouver des statistiques rendant compte des évolutions de la société française selon les différents groupes sociaux qui la composentௗ?ௗ» (Pierru, Spire, 2008, p.457). On assiste en effet depuis les années 1990 à la fin de l’omniprésence des catégories socioprofessionnelles dans les études électorales. Cet indicateur a été remplacé par d’autres portants sur les diplômes ou le revenu. Plusieurs raisons à ce remplacement.

Premièrement, comme le soulignent les deux auteurs précédents, a eu lieu au sein de l’INSEE et de l’ENSAE un remplacement de méthodes (et d’individus). Les anciennes méthodes inspirées du travail de Bourdieu et portant sur des études volontiers sociologiques ont progressivement été remplacées par des études basées sur des modèles économétriques importés du monde anglo-saxon. Ainsi, «ௗDurant les années 1990, les modèles fondés sur les techniques économétriques, qui étaient restés précédemment l’apanage de jeunes administrateurs sortant de l’ENSAE, deviennent le paradigme dominant dans l’ensemble de l’institution.ௗ» (Ibid, p.470) Ces modèles, s’adaptant très bien aux nouveaux outils informatiques mis en place au sein de l’institut, se sont durablement imposés et, comme le soulignent les auteurs, ont remplacé les enseignements de sociologie au sein de l’ENSAE. Les modèles économétriques se satisfont peu d’un indicateur aussi complexe que les CSP et lui préfèreront des indicateurs de richesse ou de diplôme. Deuxièmement, la baisse constatée de l’indice d’Alford s’est accompagnée en France d’une remise en cause de l’utilisation de la CSP comme variable principale permettant de prédire le vote. En effet, l’utilisation du premier niveau de cette variable devient dans les années 1990 et 2000 moins pertinente contrairement aux variables de diplômes pour étudier des votes nouveaux comme le vote MODEM ou Front national.

Nous pensons néanmoins qu’il ne faut pas enterrer l’indicateur de catégorie sociale qu’est la PCS pour deux raisons. D’une part, le vote FN répond malgré tout assez bien à la catégorisation INSEE en 8 positions. D’autre part, si le premier niveau d’analyse INSEE n’est aujourd’hui pas aussi satisfaisant que dans les années 1970 et 1980, le deuxième niveau en 42 positions permet quant à lui d’étudier finement des corrélations entre des positions sociales et des comportements de vote43. Le niveau à 42 positions est néanmoins problématique dès lors qu’il est étudié à l’échelle fine des IRIS ou des bureaux de vote, c’est-à-dire dans des espaces où le nombre de personnes de chaque catégorie devient très faible et soumet le chercheur à de nombreux risques d’artefacts ou autres erreurs liés à ces chiffres réduits.

42 Professions et catégories socioprofessionnelles, évolution de la fameuse CSP de l’INSEE. Néanmoins, beaucoup de chercheurs (et nous-mêmes) continuent à utiliser le terme de CSP, entré dans le langage courant.

43 Ainsi, dans l’étude de la fondation Jean Jaurès, les auteurs démontrent que si un quartier semble voter Front national c’est avant tout par la présence d’une gendarmerie et donc d’une population très spécifique sur le territoire de ce bureau de vote. Ce lien qui serait noyé dans le premier niveau des CSP devient visible dès lors que l’on zoome sur une classification en 42 positions. (Fourquet, Lebourg, Manternach, 2014).

Rappeler les marges d’erreur fournies par l’INSEE

S’il peut paraitre évident d’utiliser les recensements de l’INSEE, il ne faut pas oublier que ces données sont soumises à des marges d’erreur liées à la méthode de collecte de données utilisées (INSEE, 2017). La précision de ces données est de 95 à 97 % selon la taille des échantillons et des communes en question, mais peut parfois descendre à 90 %. Les données issues de ces travaux demeurent de fait de très bons indicateurs. Néanmoins, le chercheur doit avoir conscience de leurs imprécisions relatives, notamment sur les très petits échantillons. Il est donc utile de consulter les articles de l’INSEE à ce propos (Ibid).

Quelques définitions statistiques

Tout travail statistique sur des êtres humains n’est que travail de corrélation et d’induction. Dès lors que nous travaillons sur de grandes masses d’individus, nous éliminons un grand nombre d’attributs ou d’expériences qui ont pu influencer leur choix de vote. De ce fait, plutôt que des identifications personnelles ce sont des indicateurs qui nous permettent de mesurer les relations entre différents faits sociaux. Ceux-ci vont de la simple corrélation à la régression en passant par des modèles multi-niveaux. Certains indicateurs permettent de vérifier la force d’une relation entre deux variables (la significativité), d’autres permettent de déterminer le caractère explicatif d’une régression (le coefficient de corrélation multiple).

Le coefficient de corrélation permet de montrer un lien statistique entre deux variables. Il varie de -1 à + 1. Une valeur négative induit un lien statistique négatif c’est-à-dire que l’augmentation d’une variable implique la baisse de la seconde.

La significativité d’un résultat permet de mesurer la justesse d’une relation statistique (au sens, «ௗreprésentatif de la populationௗ»). Techniquement, la valeur p représente l’indice de fiabilité du résultat. Plus la valeur p est élevée, moins la relation observée entre les variables dans l’échantillon est un indicateur fiable pour la relation. Plus précisément, la valeur p représente la probabilité d’erreur associée à l’acceptation du résultat observé comme correct (valide), c’est-à-dire comme «ௗreprésentatif de la populationௗ». Par exemple, une valeur p de 0,10 (c’est-à-dire 1/10) indique qu’il existe une probabilité de 10 % que la relation entre les variables soit due au hasard (coïncidence). Ainsi, en supposant qu’il n’existe pas de relation entre ces variables dans la population, et en supposant que la même expérience est répétée plusieurs fois de suite, nous pouvons nous attendre à ce qu’environ toutes les dix expériences, nous en trouvions une dans laquelle la relation entre les variables soit égale ou supérieure. Dans de nombreux domaines de recherche, une valeur p de 0,05 est considérée selon l’usage comme une «ௗlimite acceptableௗ» d’erreur (Statsoft, 2017).

L’intensité de la relation entre deux prédicteurs ou plus (variables indépendantes ou X) et la variable dépendante (Y) s’exprime par le coefficient de corrélation R, qui est la racine carrée du R². R peut prendre des valeurs comprises entre 0 et 1. Pour interpréter le sens de la relation entre des variables, il faut examiner le signe (plus ou moins) des coefficients B. Si un coefficient B est positif, la relation entre cette variable et la variable dépendante est positive (quand la variable

indépendante augmente, la variable dépendante augmente également)ௗ; si le coefficient B est négatif, la relation sera négative (par exemple plus un commun compte de cadres, moins le vote FN est important). Naturellement, si le coefficient B est égal à 0, il n’y aura aucune relation entre les variables (Ibid).

Dans le document Les deux corps du Front national : Étude contextualisée du vote Front national dans quatre communes ouvrières du Pas-de-Calais et des Bouches-du-Rhône (Page 72-76)