R EVUE DE STATISTIQUE APPLIQUÉE
P. T HIONET
Quelques points se rapportant aux calculs de variance des sondages
Revue de statistique appliquée, tome 13, n
o4 (1965), p. 45-50
<
http://www.numdam.org/item?id=RSA_1965__13_4_45_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
45
QUELQUES POINTS
SE RAPPORTANT AUX CALCULS DE VARIANCE DES SONDAGES (1)
P. THIONET
Professeur
àla Faculté des Sciences de
Poitiers1 - INTRODUCTION
Par calculs de variance on entend les
procédés
parlesquels
onévalue
l’importance
des erreursd’échantillonnage
en utilisant les seules données échantillon. Le but essentiel d’unsondage
est d’obtenir les esti- mations de certainesgrandeurs (économiques, démographiques, etc),
etle calcul des variances de ces estimations ne saurait être une fin en
soi. Aussi le
plus
souvent, au moins enFrance,
ces calculs sont-ils trèsapproximatifs ;
on ne les fait d’ailleurs que pour unepart
assez limitée desgrandeurs
estimées sur échantillon(et
on a bien raison dene pas s’attarder
lorsqu’il s’agit d’appliquer
des formulesinextricables).
Pourtant il n’est pas sans intérêt d’obtenir
(par
calcul devariance)
des indications sur les erreurs affectant les estimations et
imputables
au fait
qu’on dispose
d’un échantillon de données au lieu de collecter la totalité des informations. Souvent ces erreursd’échantillonnage
sont no-tablement moins
grandes
que les erreurs dues aux méthodes de relevéou
d’enregistrement ;
cequi permettrait
de chercher dans une réduction de la taille des échantillons et une amélioration destechniques
d’obser-vation une meilleure utilisation des ressources
disponibles.
On doit
déplorer qu’un
calcul de variance exécutable à peu de frais soitomis ;
mais il estfréquent
que des calculs de variance omis soientimpossibles
ou encore semblentlongs,
difficiles et(pour
toutdire)
oné- reux ; ils n’intéressent finalementqu’un
nombre assez restreint despé- cialistes,
alors que, pour le mêmeprix,
des tabulationsplus
détailléeset entrecroisées
peuventfournir
des informations intéressant unpublic
bienplus large (même
si ces informations se trouvent en fait erronées parcequ’entachées
d’énormes erreursd’échantillonnage).
Il
pourrait
se fairequ’on
évitât des calculs de variance, de peurqu’ils
ne révélassent des erreursd’échantillonnage
tellementgrandes
que le
sondage
les concernant cesserait d’intéresser les personnestrop scrupuleuses.
Une attitudeégalement
condamnable consisterait à effectuer des calculs de variance"tranquillisants",
en faisant toutes lesapproxi-
---
(1) Notre attention a été attirée sur quelques points de la théorie des sondages à l’oc-
casion d’une réunion d’experts Statisticiens des Nations-Unies à Genève (1.12 juillet 1963). La présente note est le début d’une série d’articles sur ce sujet. Que M.
Loftus, Directeur du Bureau de Statistique de l’O.N.U. trouve ici l’expression
de notre gratitude.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N ·4
46
mations par défaut. Il n’est d’ailleurs pas
toujours possible
de faire(à défaut
de véritable calcul devariance)
le calcul de deux limites(supé-
rieure et
inférieure)
d’unevariance,
ces limites restant(disons)
dans lerapport
de 1 à 2 ; ce seraitpourtant
une solution réaliste.2 - INSUFFISANCES DE PROCEDES ACTUELS
Les
procédés
actuels de calcul de variance laissent subsister des lacunes. D’unepart
le calcul de variance d’un sondagesystématique
enest au stade de
l’exploration (alors
que lesondage systématique
est leplus
utilisé desprocédés
desondage).
Il en est de même dusondage
enfrappe et de ce
qui s’y
rattache.En second lieu le calcul de variance est souvent anormalement
grossier
et on nepeut
avoirqu’une
idée très vague d’une variancequand
on connait son estimation.
Enfin certaines méthodes
(théoriquement intéressantes)
conduisentparfois
à des estimationsnégatives
de variancespositives,
et de ce faitsont inutilisables.
Nous ne sommes hélas pas en mesure de faire face ici à tous ces
problèmes,
mais il convient d’enprendre
conscience.3 - UN CAS DE CALCUL DE VARIANCE TROP GROSSIER
Soit un échantillon s de
grande
taille comme c’est le cas habituel-lement dans les
sondages ;
il sert à estimerX (moyenne
de lapopula-
tion
U) par x (moyennes échantillon),
et aussi à estimer la variance V.x.Celle-ci a une
expression théorique,
fonction deparamètres
de U.Si l’on estime les
paramètres
de ’U à l’aidede S et qu’on porte
ces estimations dans
v,
on obtient une estimation V devx.
Si l’on a puemployer
une fonction linéaire et des estimations sans biais des para-mètres,
on arrive à une estimation V sans biais. On n’est pas à l’abri d’une estimation finalenégative
V ; etpourtant
cette méthode de calcul pas à pas est relativementprécise.
Une méthode
beaucoup plus rapide
consiste à faire une dichotomiede
l’échantillon s et à en tirer 2estimations indépendantes tel
etx2
deX,
alors onpeut toujours
estimervx
sans biais parIl est clair
que V
ne serajamais négatif ;
mais ons’expose
enrevanche à ce que cet estimateur soit aberrant.
Comme l’échantillon est
grand, x1 x2 fi
ont des distributions(pra- tiquement)
deLaplace-Gauss ; x1
etx2 sont
2 valeursindépendantes
d’unecertaine variable de
Laplace-Gauss.
On sait que(x1 - x2)2/2
est esti-mation sans biais de la variance 62 de cette variable.
Enfin,
on aRevue de St,-tistique Appliquée. 1965 - Vol. XIII - N 4
47
On sait aussi que
(x1 - x2)2/2
est un 03B42X2
à 1degré
de liberté :car
(x1 - x2)
est une variable deLaplace
Gauss de variance203C32.
Par suite cette estimation a 10 chances sur 100 d’être
supérieure
à
2, 7
fois02.
et 30 chances sur 100 d’être inférieure à
0,
15 fois62 .
et même 20 chances sur 100 d’être inférieure à
0,
06 fois(2).
Probabilité
(v0,46 vx) =
50%
Probabilité
(v > 1,64 vx) =
20%
C’est ce que nous considérons comme un calcul de variance sans
portée pratique,
parce que l’estimation de la variance a toutes chances d’être aberrante.Un
procédé
meilleur consiste à scinder l’échantillon s disons en10 sous-échantillons de taille encore raisonnablement
grande
et à calculerun o2
X2
avec 9degrés
de liberté. Alors l’estimation de 02 n’aplus
que : 10 chances sur 100 d’être inférieureà 2
03C324 chances sur 100 d’être
supérieure
à203C32.
Un tel calcul de variance
présenterait
donc un réel intérêtpratique .
Mais le cas où il est
praticable
sont évidemment moins étendus que ceux où lepremier procédé s’applique,
encorequ’on
doive dans le cas leplus général
renoncer à l’un et à l’autre. Comme des erreurs ont pu être commises à cesujet,
il convient de s’étendre un peu.4 - CONDITIONS DANS
LESQUELLES
DES PROCEDESS’APPLIQUENT -
OU NES’APPLIQUENT
PASPersonne ne saurait
imaginer
que, l’échantillon s étantreprésenté
par 3 000 cartes
perforées,
les estimationsx1
etX2
s’obtiennent respec- tivement sur les càrtes n° 1 à 1500 d’unepart,
n° 1501 à 3000 d’autrepart ;
il va de soi que les 2 lotspeuvent représenter
l’un le nord et l’autre le midi de laFrance,
et non pas l’un et l’autre la totalité de la France. En revanche onpourrait
croire que,si Xl est la
moyennedes T
figurant
sur les cartes dont le numéro estimpair
etX2
celle descartes de numéros
pairs,
on se trouve dans les conditionsprévues
par le calcul.Or,
ce n’est pas engénéral
correct.Si l’échantillon a été tiré au sort à 1 seul
degré,
même avec stra-tifications
(fractions
desondage égales
dans lesstrates)
et si les cartesd’une même strate
portent
des numérosconsécutifs,
latechnique "pair- impair"
est valable(en négligeant
l’erreur due aux stratesreprésentées
Revue de Statistique Appliquée, 1965 - Vol. XIII - N ’4
48
par un nombre impai r de
cartes).
Si lesstrates
ont des fractions sondéesdifférentes, donc
despoids
différents dansx,
il suffit de conserver cespoids
dansx1
etx2.
En revanche si l’échantillon est
prélevé
defaçon systématique (=
enprogression arithmétique)
ou encore s’ilprovient
detirages
au sort àplusieurs
degrés,
leprocédé
est incorrect.En effet
(comme
on vient de le voirau § 3)
le calcul suppose covariance(x1, tr2) =
0autrement dit :
corrélation
(x1, x2) =
0a)
Six1
etX2
sont les moyennes de 2 échantillonssystématiques
avec la fraction sondée
f/2,
iln’y
a aucune raison pour quecov (x1x2) =
0.Et même si les 2 sous-échantillons ne sont pas
systématiques,
ils nousrenseigneront
sur l’échantillon s(systématique)
et non sur lapopula-
tion U
b)
De même si s est tiré à 2degrés
et siIfl
etx2 sont
cal-culés chacun sur
(disons)
la moitié desménages-échantillons
dechaque commune-échantillon,
il est clair que(x1 - x2)2 ne peut
nous informersur la variance
vx
mais seulement sur la variance entreménages
à 1 inté- rieur des communes échantillon. Si ondécompose vx
comme d’habitude en :(x1 - x2)2 ne
nous informe que sur la varianceinterne Vi
et non sur lavariance
externe ve.
Si nous
disposons
toutefois de 2 communes(u ps)-échantillon
par strate, onpeut
constituer les 2 sous-échantillons de ces strates avecles
ménages
des communes différentes.Bref,
onpeut
alorsprocéder
àune dichotomie de l’échantillon telle
qu’on
ait : corrélation(x1, x2) =
0.Mais il va de soi que la scission de s en
(disons)
10sous-échantillons, procurant x1 x2 ... x10, grâce
à 10 communes tirées dechaque strate ,
n’est pas réaliste :On ne va pas construire un
plan
desondage comprenant
des strates aussigrandes
et aussi peunombreuses,
avec pour seul motif la recherche d’un calcul d’erreur facile.Ce
qu’on
feraitpeut-être (et
avec de bonnesraisons),
c’est un re-groupement
aposteriori
de stratescomparables,
defaçon
à constituerartificiellement
10 sous-échantillons. Parexemple
on trouverait bien dans l’échantillon effectivement soumis àl’enquête
10 communes ruralesde
l’Ouest,
10petites
villes del’Est,
etc... Mais les nombres de mé- nages sondés dans chacune des 10 unitésprimaires
ainsirapprochées
ne coincideraient pas, ce
qui
sera la cause de difficultéssupplémentaires .
5 - CALCUL INCORRECT UTILISABLE
10
Quand
on évalue la variance par laformule 03A31(xi - x)2/9 = V
onobtient donc un résultat
qui pêche
par défaut : ilnéglige
les variationsqui
existent d’une commune àl’autre,
dans la même strate.Toutefois ,
ilpeut
très bien se faire que(au
moins pour lesenquêtes françaises)
Revue de Statistique Appliquée. 1965 - Vol. XIII - N ·4
49
ces variations soient
beaucoup
moinsimportantes
que celles existant entreménages (ou personnes)
de la même commune. C’est même d’autantplus
vraisemblable que les strates sont
plus
nombreuses ethomogènes,
lescommunes étant stratifiées suivant la
région,
lataille,
le caractère ruralou la nature de l’industrie dominante. Mais ce sera
plus probablement
le cas pour telle variable étudiée que pour telle autre.
Ainsi,
onpeut
très bien concevoir que le calculde Vo
fournissedes indications utiles
(sous
réservequ’on
n’oublie pas l’existence du terme omis dansvx).
6 - EFFET COMBINE DES STRATES ET DES DEGRES DE SONDAGE
Lorsqu’on
tire un échantillon trèsstratifié,
-à 1degré
dans lesstrates constitués dans les
grandes
villes et à 2degrés
dans les autresstrates
(comme
c’est le cas enFrance)- ,
on n’estjamais obligé
de seplacer
dans uneposition
aussi mauvaise que celledu § 3.
Supposons qu’on
ait 2 communes par strate dans les strates A B C ... On connait les nombres deménages
par strate, de sortequ’on
calcule une estimation de la formeoù
a P
Y ... sont les coefficients connus, eta b c ...
des moyennes-échantillon (par ménage).
Une dichotomie des communes fournita1b1cl
...et
a2b2c2 ... séparément,
d’où :si les
couples
d’écarts(al - a2)
et(bl - b2)
, etc... sont bien indé-pendants,
c’est-à-dire si ladésignation
des communes-échantillon a bien été faite danschaque
strate partirages
au sort(avec remise).
On a alors
quelque
intérêt à estimer la variance en se servant deau lieu de
al
eta2
étant 2 valeurs d’une variable deLaplace
Gaussd’écart-type
6a , a2(a1 - a2)2
est 2 a26â
a fois unX2
à 1degré
deliberté ;
w n’est pas unX2 (1),
sauf dans le casparticulier
où03B103C3a = 03B203C3b = 03B303C3c = ...
Dans cecas seulement on
peut
dire quew (a2 G; + 03B22 03C32b
+03B32 03C32c )-1
a autant de de-grés
de libertéqu’il
y a de strates.Pour une
"grande région",
l’I.N.S.E.E. constitue habituellementune dizaine de strates ; nous sommes donc dans le cas d’une estimation raisonnablement bonne de la variance.
----
(1) L’identification entre les fonctions génératrices de moments
(1 - 2 t 03BB2
)-1/2.
(1 - 2t 03BC2 )-1/2
et (1 - 2 t03C12)-1
est impossible si 03BB2~ 03BC2.
Revue de Statistique Appliquée, 1965 - Vol. XIII - N ’4
50
Dans le cas
général,
ilparaît
raisonnable de penserqu’il
en estencore de même, mais cela mériterait
réflexion(1).
Une difficulté
supplémentaire apparaît
à mesure que lesai Si -ci
...sont calculés avec des échantillons
trop petits
pourqu’on
ait le droit deles confondre avec des variables de
Laplace Gauss ;
alors les(a1 - a2)2
et
analogues
ne sontplus proportionnels
à desX2 .
Enfin,
on doit observer que, bien queai bi ci
... soient évaluéssur
l’échantillon,
cequ’on
estime au moyen deoj/4
est exactementvx (on
n’isole pas une variance interne et une varianceexterne).
On obtien-drait à peu de choses
près 03C9 = (x1 - x2)2
si onprenait
soin de tirer ausort le
signe
+ ou - à associerà 1 al - a21, à |b1 - b2| (
etc, autrement dit si l’on tirait bien au sortlaquelle
des 2 communes dechaque strate
recevra le numéro 1
(plutôt
que le numéro2)
dans le calcul deXl - X2 , (et
si les strates sontnombreuses).
7 - RESUME
On a
indiqué
desprocédés
en vue de se faire(à
peu defrais)
une idée suffisammentprécise
del’ampleur
des erreursd’échantillonnage
des
sondages
courants en France,---
(1) Il existe une littérature considérable sur la distribution des mélanges de
X2,
mais elle présente trop rarement un caractère pratique.Revue de Statistique Appliquée. 1965 - Vol. XIII - N ’4