Les erreurs d'échantillonnage - L'estimation du volume des infractions

5. L'estimation du volume des infractions

5.1. Les erreurs d'échantillonnage

Les "erreurs d'échantillonnage" recouvrent l'ensemble des contraintes ou incidents qui

altèrent le caractère représentatif de l'échantillon. Dans les enquêtes par quotas par exemple,

elles tiennent surtout aux difficultés que rencontrent les enquêteurs pour identifier sur le

terrain et interroger certaines sous-populations particulièrement peu nombreuses, ou difficiles

d'accès

. Dans les enquêtes sur échantillon aléatoire, pour lesquelles les personnes ou les

ménages à interroger sont identifiés a priori(soit nommément, soit par leur adresse postale),

les sources de distorsion de l'échantillon sont surtout liées aux absences et aux refus de

répondre ; bien que moins graves dans leurs conséquences sur la représentativité de

l'échantillon, elles imposent néanmoins un redressement de celui-ci avant tout traitement

statistique.

5.1.1. Le redressement de l'échantillon

Pour redresser l'échantillon en le "calant" sur la dernière enquête Emploi, L'INSEE a

calculé des "poids" différentiels pour chaque ménage et chaque individu. Rappelons qu'un

ménage ou un individu pèse d'autant plus lourd dans l'échantillon redressé que la catégorie à

laquelle il appartient est moins représentée dans l'échantillon avant redressement. La moyenne

1Dans les enquêtes par quotas, les consignes données aux enquêteurs pour sélectionner les personnes à interroger stipulent combien de répondants doivent être des hommes et combien des femmes, combien doivent se situer dans telle ou telle tranche d'âge, et combien doivent exercer telle profession (quotas simples) ; mais en aucun cas elles ne précisent combien de femmes de tel âge exerçant telle profession doivent être interrogées (quotas croisés), car cela rendrait le travail de l'enquêteur quasiment impossible. C'est pourquoi, lors même que les quotas imposés ont été strictement respectés par les enquêteurs, un échantillon par quotas doit toujours être "redressé", afin de le rendre plus conforme à la population visée, en corrigeant simultanément la sur-représentation des sous-populations d'accès facile et la sous sur-représentation des sous-populations rares dans l'échantillon ainsi obtenu.

de ces poids est évidemment égale à 1. La distribution des coefficients de pondération autour

de cette moyenne est nécessairement asymétrique : les poids affectés aux ménages ou aux

individus "sur-représentés" dans l'échantillon ne peuvent varier que d'un peu plus de zéro (ε) à

un

. En outre pour les comparer facilement aux poids des ménages ou des individus

sous-représentés, il est commode de les écrire sous la forme d'une fraction : par exemple, s'il faut

dans l'échantillon deux fois plus d'une sous-population donnée, on lui affectera naturellement

un poids de 2 ; par contre, si l'on a deux fois trop d'une autre sous-population, le poids qui lui

sera affecté sera de 1 / 2 = 0,5.

Pour les ménages, la plus petite valeur du coefficient de redressement est de 0,6712

(= 1 / 1,4899), et la plus grande 5,5921. En réalité, les poids élevés correspondent à un très

petit nombre de situations aberrantes (1,0 % des ménages). En effet, l'écart type de la

distribution des poids des ménages étant σ= 0,3393, on observe que 98,9 % des poids ne

s'écartent de la moyenne que d'un σ au maximum (ils sont compris dans l'intervalle [1 -σ ,

1 +σ]). D'autre part, 52,2 % des ménages ont un poids inférieur ou égal à 1 (tableau 2).

On peut faire des remarques du même ordre pour les poids individuels. L'étendue des

variations est toutefois plus grande ici que pour les ménages : la plus petite valeur des poids

individuels est de 0,6515 (= 1 / 1,5349), et la plus grande 7,2378. Seulement 92,5 % des

individus ne s'écartent de la moyenne que d'un écart type au plus (σ= 0,4343). L'asymétrie de

la distribution est également plus marquée chez les individus : 2,2 % sont fortement

sous-représentés dans l'échantillon, et ont un poids supérieur à 1 + 2σ (tableau 2), tandis que

54,6 % ont un poids inférieur ou égal à 1.

Ménages Individus

Poids Proportion Poids Proportion

1 - 2σ 1 - 1σ 0,2014 0,6007 0,0 % 0,1414 0,5757 0,0 %

1 - 1σ 1 0,6008 1,0000 52,2 % 0,5758 1,0000 54,6 %

1 1 + 1σ 1,0001 1,3993 46,7 % 1,0001 1,4343 37,9 %

1 + 1σ 1 + 2σ 1,3994 1,7986 0,1 % 1,4344 1,8686 5,3 %

1 + 2σ max 1,7987 5,5921 1,0 % 1,8687 7,2378 2,2 %

Tableau 2. Distribution des coefficients de redressement de l'échantillon.

Les ménages sous-représentés (coefficient de redressement > 1σ) se caractérisent par

leur difficulté d'accès : 51,7 % habitent dans une commune rurale (contre 26,3 % de

1Dans le cas d'un échantillon aléatoire, la nécessité de redresser l'échantillon est due aux seules personnes qui n'ont pu être jointes par les enquêteurs, ou qui ont refusé de répondre à l'enquête. Strictement parlant, il ne peut donc y avoir de sous-population sur-représentée dans un échantillon aléatoire (contrairement à ce qui se passe dans les échantillons par quotas). Comme les sous-populations difficiles à joindre ou réticentes à l'enquête doivent être affectées d'un poids d'autant plus lourd que le taux d'absences ou de refus est plus élevé, l'asymétrie de la distribution des poids est due à ces coefficients sensiblement supérieurs à l'unité, qui peuvent prendre occasionnellement des valeurs relativement élevées. Les poids inférieurs à l'unité affectés aux sous-populations convenablement représentées dans l'échantillon ne servent qu'à compenser les distorsions introduites par les pondérations élevées (de manière à ce que la moyenne des poids soit finalement égale à 1) ; il est donc naturel que dans un échantillon aléatoire les poids inférieurs à un s'écartent peu de la moyenne, accentuant ainsi l'asymétrie de la distribution.

l'ensemble), 38,3 % vivent dans une zone de maisons individuelles dispersées hors

agglomération (contre 28,9 %), et 40,0 % ne comptent qu'une seule personne par ménage

(contre 26,7 %). Les individus sous-représentés ne se distinguent des autres individus de

l'échantillon que par les caractéristiques du ménage auquel ils sont rattachés ; en d'autres

termes, ils n'affichent pas de différences significatives avec le reste de l'échantillon en ce qui

concerne les caractéristiques personnelles telles que le sexe, l'âge, le statut professionnel, etc.

5.1.2. Les limites de confiance des pourcentages

Lorsqu'un échantillon est tout à fait représentatif de la population d'où il a été extrait, il

est aisé de calculer les "limites de confiance" d'une estimation, c'est à dire les bornes

supérieure et inférieure entre lesquelles doit vraisemblablement se trouver le nombre cherché

(celui que l'on aurait obtenu en interrogeant la totalité des ménages ou des individus). Les

valeurs comprises entre les limites de confiance constituent l'"intervalle d'acceptation", ou

"intervalle de confiance" de la valeur cherchée ; l'étendue de cet intervalle dépend de trois

paramètres :

1) La taille de l'échantillon. Plus l'échantillon est important, plus l'estimation est précise

(plus l'écart entre les bornes supérieure et inférieure est petit).

2) La proportion correspondant au nombre cherché (rapporté à l'ensemble des

répondants). À taille d'échantillon égale, la précision sera plus grande pour des proportions

proches des extrêmes (comme par exemple 10 %, ou 90 %) que pour des proportions voisines

de 50 %.

3) Le risque d'erreur que l'on accepte de courir. Ce risque est exprimé par le "seuil de

confiance". Dans les sciences sociales, on adopte généralement un seuil égal à P = 0,05, ce

qui signifie que l'on court en moyenne le risque de se tromper dans 5 % des cas

. Dans les

sciences expérimentales, on choisit généralement des seuils plus petits (P = 0,01, voire moins

lorsque l'enjeu de l'expérience est grand, touchant par exemple aux problèmes de santé

publique). En contrepartie d'un risque de se tromper moindre, on accepte alors un écart plus

important entre les bornes supérieure et inférieure de l'estimation.

Le tableau ci-dessous donne un aperçu des intervalles de confiance (au seuil de

P = 0,05) en fonction de la proportion estimée et de la taille de l'échantillon. En toute rigueur,

ces bornes ne peuvent être calculées que si l'échantillon considéré est un échantillon aléatoire.

Dans le cas d'un échantillon par quotas (procédure le plus fréquemment utilisée par les

instituts de sondage privés), le calcul des intervalles de confiance n'aurait pas été possible ; en

pratique, on considère généralement que dans ce cas l'écart doit être sensiblement plus grand

que dans le cas d'un échantillon aléatoire (la précision est moindre).

Dans cette enquête, si par exemple 25 % des ménages ont donné une certaine réponse,

on en induira que, dans l'ensemble de la population, la proportion cherchée se situe entre

23,86 % et 26,14 %. Si une réponse est donnée par 25 % des individus, la proportion cherchée

se situerait alors entre 24,18 % et 25,82 % : la précision est ici meilleure, car le nombre

d'individus ayant répondu est plus élevé que celui des ménages. Bien entendu, ces inférences

ne se vérifieraient que dans 95 % des cas en moyenne.

Proportion estimée

Taille de

l'échantillon _{5 %} _{25 %} _{50 %} _{75 %} _{95 %}

1 000 3,65 % - 6,35 % 23,32 % - 27,68 % 46,90 % - 53,10 % 73,32 % - 77,68 % 93,65 % - 96,35 %

5 555 4,43 % - 5,57 % 23,86 % - 26,14 % 48,69 % - 51,31 % 73,86 % - 76,14 % 94,43 % - 95,57 %

10 611 4,59 % - 5,41 % 24,18 % - 25,82 % 49,05 % - 50,95 % 74,18 % - 75,82 % 94,59 % - 95,41 %

Tableau 3. Intervalles de confiance au seuil de P = 0,05,

selon la proportion estimée et la taille de l'échantillon.

5.1.3. Les limites de confiance des dénombrements d'infractions

Même si les principes généraux du calcul des erreurs d'échantillonnage restent les

mêmes, le problème se pose dans des termes légèrement différents en ce qui concerne les

dénombrements d'infractions. En effet, outre le nombre des victimes et celui des ménages (ou

des individus) interrogés, il faut également prendre en compte le nombre de victimations (d'un

type donné) déclarées par chacun des ménages (ou des individus). Pour un même nombre

global de victimations en effet, la précision de l'estimation sera meilleure si les nombres

fournis par les ménages (ou les individus) diffèrent peu les uns des autres ; elle sera moins

bonne s'il existe de grandes disparités dans les nombres de victimation par individu ou par

ménage (la dispersion des distributions correspondantes étant plus grande). C'est pourquoi le

mode de calcul que nous avons adopté s'inspire du calcul de l'intervalle de confiance de la

moyenne plutôt que celui des limites de confiance d'une fréquence

.

Le calcul des limites de confiance du nombre d'infractions se fait en deux étapes. La

première étape est le calcul des limites de confiance du nombre de victimations déclarées,

basée (selon la nature de l'infraction) sur le nombre des ménages ou sur celui des personnes

qui ont répondu à l'enquête. La seconde étape consiste à multiplier les bornes de cet intervalle

par le coefficient d'extrapolation utilisé pour les estimations.

Pour illustrer la première étape, le tableau 4 présente les données qui nous sont

nécessaires pour calculer les limites de confiance du nombre extrapolé de cambriolages de

résidences principales (tels que les rapportent les personnes interrogées). Ces données nous

permettent de calculer la somme des carrés des écarts à la moyenne du nombre de

cambriolages sur l'échantillon brut (S = 466,902) et sur l'échantillon redressé (S' = 486,925).

Ces valeurs sont assez proches l'une de l'autre ; on notera cependant que le redressement de

l'échantillon a pour conséquence un accroissement de la dispersion de la distribution du

nombre de cambriolages par ménage (et donc de l'intervalle de confiance correspondant). Par

précaution, c'est donc cette seconde valeur que nous utiliserons pour calculer l'erreur probable

au seuil de P = 0,05, soitE= 1,96 × 486,925 = 43,250.

En acceptant un risque d'erreur de 5 % en moyenne, on peut affirmer que, selon les

déclarations des personnes interrogées, le nombre de cambriolages de résidences principales

dans la population est égal au moins à : 306,759 - 43,250 = 263,509, et au plus à : 306,759

1Comme la taille de l'échantillon des ménages (eta fortioricelle de l'échantillon des individus) est assez grande, on obtient une bonne estimation de l'erreur type sur le nombre des victimations en prenant simplement la racine carrée de la somme des carrés des écarts à la moyenne (on trouvera la justification de cette procédure de calcul dans l'annexe 1).

+ 43,250 = 350,009. Si le raisonnement devait s'arrêter à ce constat, on arrondirait

évidemment ces nombres respectivement à 263 et à 351 ; mais il est nécessaire de conserver

la précision de ces résultats pour les calculs d'extrapolation ultérieurs.

Échantillon brut Échantillon redressé

Nombre de

cambriolages par

ménage ^{Nombre de}_réponses _cambriolages^{Nombre de} ^{Nombre de}_réponses _cambriolages^{Nombre de}

0 5 310 0 5 306,898 0,000

1 207 207 208,257 208,257

2 29 58 29,717 59,434

3 6 18 6,404 19,212

4 2 8 2,484 9,936

8 1 8 1,240 9,920

Total 5555 299 5555,000 306,759

Tableau 4. Nombre de cambriolages de résidences principales

selon les déclarations des ménages.

Dans le document Mesurer la délinquance à partir du témoignage des victimes (Page 63-67)