5. L'estimation du volume des infractions
5.1. Les erreurs d'échantillonnage
Les "erreurs d'échantillonnage" recouvrent l'ensemble des contraintes ou incidents qui
altèrent le caractère représentatif de l'échantillon. Dans les enquêtes par quotas par exemple,
elles tiennent surtout aux difficultés que rencontrent les enquêteurs pour identifier sur le
terrain et interroger certaines sous-populations particulièrement peu nombreuses, ou difficiles
d'accès
1. Dans les enquêtes sur échantillon aléatoire, pour lesquelles les personnes ou les
ménages à interroger sont identifiés a priori(soit nommément, soit par leur adresse postale),
les sources de distorsion de l'échantillon sont surtout liées aux absences et aux refus de
répondre ; bien que moins graves dans leurs conséquences sur la représentativité de
l'échantillon, elles imposent néanmoins un redressement de celui-ci avant tout traitement
statistique.
5.1.1. Le redressement de l'échantillon
Pour redresser l'échantillon en le "calant" sur la dernière enquête Emploi, L'INSEE a
calculé des "poids" différentiels pour chaque ménage et chaque individu. Rappelons qu'un
ménage ou un individu pèse d'autant plus lourd dans l'échantillon redressé que la catégorie à
laquelle il appartient est moins représentée dans l'échantillon avant redressement. La moyenne
1Dans les enquêtes par quotas, les consignes données aux enquêteurs pour sélectionner les personnes à interroger stipulent combien de répondants doivent être des hommes et combien des femmes, combien doivent se situer dans telle ou telle tranche d'âge, et combien doivent exercer telle profession (quotas simples) ; mais en aucun cas elles ne précisent combien de femmes de tel âge exerçant telle profession doivent être interrogées (quotas croisés), car cela rendrait le travail de l'enquêteur quasiment impossible. C'est pourquoi, lors même que les quotas imposés ont été strictement respectés par les enquêteurs, un échantillon par quotas doit toujours être "redressé", afin de le rendre plus conforme à la population visée, en corrigeant simultanément la sur-représentation des sous-populations d'accès facile et la sous sur-représentation des sous-populations rares dans l'échantillon ainsi obtenu.
de ces poids est évidemment égale à 1. La distribution des coefficients de pondération autour
de cette moyenne est nécessairement asymétrique : les poids affectés aux ménages ou aux
individus "sur-représentés" dans l'échantillon ne peuvent varier que d'un peu plus de zéro (ε) à
un
1. En outre pour les comparer facilement aux poids des ménages ou des individus
sous-représentés, il est commode de les écrire sous la forme d'une fraction : par exemple, s'il faut
dans l'échantillon deux fois plus d'une sous-population donnée, on lui affectera naturellement
un poids de 2 ; par contre, si l'on a deux fois trop d'une autre sous-population, le poids qui lui
sera affecté sera de 1 / 2 = 0,5.
Pour les ménages, la plus petite valeur du coefficient de redressement est de 0,6712
(= 1 / 1,4899), et la plus grande 5,5921. En réalité, les poids élevés correspondent à un très
petit nombre de situations aberrantes (1,0 % des ménages). En effet, l'écart type de la
distribution des poids des ménages étant σ= 0,3393, on observe que 98,9 % des poids ne
s'écartent de la moyenne que d'un σ au maximum (ils sont compris dans l'intervalle [1 -σ ,
1 +σ]). D'autre part, 52,2 % des ménages ont un poids inférieur ou égal à 1 (tableau 2).
On peut faire des remarques du même ordre pour les poids individuels. L'étendue des
variations est toutefois plus grande ici que pour les ménages : la plus petite valeur des poids
individuels est de 0,6515 (= 1 / 1,5349), et la plus grande 7,2378. Seulement 92,5 % des
individus ne s'écartent de la moyenne que d'un écart type au plus (σ= 0,4343). L'asymétrie de
la distribution est également plus marquée chez les individus : 2,2 % sont fortement
sous-représentés dans l'échantillon, et ont un poids supérieur à 1 + 2σ (tableau 2), tandis que
54,6 % ont un poids inférieur ou égal à 1.
Ménages Individus
Poids Proportion Poids Proportion
1 - 2σ 1 - 1σ 0,2014 0,6007 0,0 % 0,1414 0,5757 0,0 %
1 - 1σ 1 0,6008 1,0000 52,2 % 0,5758 1,0000 54,6 %
1 1 + 1σ 1,0001 1,3993 46,7 % 1,0001 1,4343 37,9 %
1 + 1σ 1 + 2σ 1,3994 1,7986 0,1 % 1,4344 1,8686 5,3 %
1 + 2σ max 1,7987 5,5921 1,0 % 1,8687 7,2378 2,2 %
Tableau 2. Distribution des coefficients de redressement de l'échantillon.
Les ménages sous-représentés (coefficient de redressement > 1σ) se caractérisent par
leur difficulté d'accès : 51,7 % habitent dans une commune rurale (contre 26,3 % de
1Dans le cas d'un échantillon aléatoire, la nécessité de redresser l'échantillon est due aux seules personnes qui n'ont pu être jointes par les enquêteurs, ou qui ont refusé de répondre à l'enquête. Strictement parlant, il ne peut donc y avoir de sous-population sur-représentée dans un échantillon aléatoire (contrairement à ce qui se passe dans les échantillons par quotas). Comme les sous-populations difficiles à joindre ou réticentes à l'enquête doivent être affectées d'un poids d'autant plus lourd que le taux d'absences ou de refus est plus élevé, l'asymétrie de la distribution des poids est due à ces coefficients sensiblement supérieurs à l'unité, qui peuvent prendre occasionnellement des valeurs relativement élevées. Les poids inférieurs à l'unité affectés aux sous-populations convenablement représentées dans l'échantillon ne servent qu'à compenser les distorsions introduites par les pondérations élevées (de manière à ce que la moyenne des poids soit finalement égale à 1) ; il est donc naturel que dans un échantillon aléatoire les poids inférieurs à un s'écartent peu de la moyenne, accentuant ainsi l'asymétrie de la distribution.
l'ensemble), 38,3 % vivent dans une zone de maisons individuelles dispersées hors
agglomération (contre 28,9 %), et 40,0 % ne comptent qu'une seule personne par ménage
(contre 26,7 %). Les individus sous-représentés ne se distinguent des autres individus de
l'échantillon que par les caractéristiques du ménage auquel ils sont rattachés ; en d'autres
termes, ils n'affichent pas de différences significatives avec le reste de l'échantillon en ce qui
concerne les caractéristiques personnelles telles que le sexe, l'âge, le statut professionnel, etc.
5.1.2. Les limites de confiance des pourcentages
Lorsqu'un échantillon est tout à fait représentatif de la population d'où il a été extrait, il
est aisé de calculer les "limites de confiance" d'une estimation, c'est à dire les bornes
supérieure et inférieure entre lesquelles doit vraisemblablement se trouver le nombre cherché
(celui que l'on aurait obtenu en interrogeant la totalité des ménages ou des individus). Les
valeurs comprises entre les limites de confiance constituent l'"intervalle d'acceptation", ou
"intervalle de confiance" de la valeur cherchée ; l'étendue de cet intervalle dépend de trois
paramètres :
1) La taille de l'échantillon. Plus l'échantillon est important, plus l'estimation est précise
(plus l'écart entre les bornes supérieure et inférieure est petit).
2) La proportion correspondant au nombre cherché (rapporté à l'ensemble des
répondants). À taille d'échantillon égale, la précision sera plus grande pour des proportions
proches des extrêmes (comme par exemple 10 %, ou 90 %) que pour des proportions voisines
de 50 %.
3) Le risque d'erreur que l'on accepte de courir. Ce risque est exprimé par le "seuil de
confiance". Dans les sciences sociales, on adopte généralement un seuil égal à P = 0,05, ce
qui signifie que l'on court en moyenne le risque de se tromper dans 5 % des cas
1. Dans les
sciences expérimentales, on choisit généralement des seuils plus petits (P = 0,01, voire moins
lorsque l'enjeu de l'expérience est grand, touchant par exemple aux problèmes de santé
publique). En contrepartie d'un risque de se tromper moindre, on accepte alors un écart plus
important entre les bornes supérieure et inférieure de l'estimation.
Le tableau ci-dessous donne un aperçu des intervalles de confiance (au seuil de
P = 0,05) en fonction de la proportion estimée et de la taille de l'échantillon. En toute rigueur,
ces bornes ne peuvent être calculées que si l'échantillon considéré est un échantillon aléatoire.
Dans le cas d'un échantillon par quotas (procédure le plus fréquemment utilisée par les
instituts de sondage privés), le calcul des intervalles de confiance n'aurait pas été possible ; en
pratique, on considère généralement que dans ce cas l'écart doit être sensiblement plus grand
que dans le cas d'un échantillon aléatoire (la précision est moindre).
Dans cette enquête, si par exemple 25 % des ménages ont donné une certaine réponse,
on en induira que, dans l'ensemble de la population, la proportion cherchée se situe entre
23,86 % et 26,14 %. Si une réponse est donnée par 25 % des individus, la proportion cherchée
se situerait alors entre 24,18 % et 25,82 % : la précision est ici meilleure, car le nombre
d'individus ayant répondu est plus élevé que celui des ménages. Bien entendu, ces inférences
ne se vérifieraient que dans 95 % des cas en moyenne.
Proportion estimée
Taille de
l'échantillon 5 % 25 % 50 % 75 % 95 %
1 000 3,65 % - 6,35 % 23,32 % - 27,68 % 46,90 % - 53,10 % 73,32 % - 77,68 % 93,65 % - 96,35 %
5 555 4,43 % - 5,57 % 23,86 % - 26,14 % 48,69 % - 51,31 % 73,86 % - 76,14 % 94,43 % - 95,57 %
10 611 4,59 % - 5,41 % 24,18 % - 25,82 % 49,05 % - 50,95 % 74,18 % - 75,82 % 94,59 % - 95,41 %
Tableau 3. Intervalles de confiance au seuil de P = 0,05,
selon la proportion estimée et la taille de l'échantillon.
5.1.3. Les limites de confiance des dénombrements d'infractions
Même si les principes généraux du calcul des erreurs d'échantillonnage restent les
mêmes, le problème se pose dans des termes légèrement différents en ce qui concerne les
dénombrements d'infractions. En effet, outre le nombre des victimes et celui des ménages (ou
des individus) interrogés, il faut également prendre en compte le nombre de victimations (d'un
type donné) déclarées par chacun des ménages (ou des individus). Pour un même nombre
global de victimations en effet, la précision de l'estimation sera meilleure si les nombres
fournis par les ménages (ou les individus) diffèrent peu les uns des autres ; elle sera moins
bonne s'il existe de grandes disparités dans les nombres de victimation par individu ou par
ménage (la dispersion des distributions correspondantes étant plus grande). C'est pourquoi le
mode de calcul que nous avons adopté s'inspire du calcul de l'intervalle de confiance de la
moyenne plutôt que celui des limites de confiance d'une fréquence
1.
Le calcul des limites de confiance du nombre d'infractions se fait en deux étapes. La
première étape est le calcul des limites de confiance du nombre de victimations déclarées,
basée (selon la nature de l'infraction) sur le nombre des ménages ou sur celui des personnes
qui ont répondu à l'enquête. La seconde étape consiste à multiplier les bornes de cet intervalle
par le coefficient d'extrapolation utilisé pour les estimations.
Pour illustrer la première étape, le tableau 4 présente les données qui nous sont
nécessaires pour calculer les limites de confiance du nombre extrapolé de cambriolages de
résidences principales (tels que les rapportent les personnes interrogées). Ces données nous
permettent de calculer la somme des carrés des écarts à la moyenne du nombre de
cambriolages sur l'échantillon brut (S = 466,902) et sur l'échantillon redressé (S' = 486,925).
Ces valeurs sont assez proches l'une de l'autre ; on notera cependant que le redressement de
l'échantillon a pour conséquence un accroissement de la dispersion de la distribution du
nombre de cambriolages par ménage (et donc de l'intervalle de confiance correspondant). Par
précaution, c'est donc cette seconde valeur que nous utiliserons pour calculer l'erreur probable
au seuil de P = 0,05, soitE= 1,96 × 486,925 = 43,250.
En acceptant un risque d'erreur de 5 % en moyenne, on peut affirmer que, selon les
déclarations des personnes interrogées, le nombre de cambriolages de résidences principales
dans la population est égal au moins à : 306,759 - 43,250 = 263,509, et au plus à : 306,759
1Comme la taille de l'échantillon des ménages (eta fortioricelle de l'échantillon des individus) est assez grande, on obtient une bonne estimation de l'erreur type sur le nombre des victimations en prenant simplement la racine carrée de la somme des carrés des écarts à la moyenne (on trouvera la justification de cette procédure de calcul dans l'annexe 1).