R EVUE DE STATISTIQUE APPLIQUÉE
P. T HIONET
Sur l’estimation de variance dans le cas d’échantillonnage systématique
Revue de statistique appliquée, tome 13, n
o4 (1965), p. 51-60
<
http://www.numdam.org/item?id=RSA_1965__13_4_51_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
51
SUR L’ESTIMATION DE VARIANCE
DANS LE CAS D’ÉCHANTILLONNAGE SYSTÉMATIQUE
P. THIONET
Professeur
àla Faculté des
Sciencesde
Poitiers1 - INTRODUCTION
On sait que l’estimation de’ la variance
d’échantillonnage
n’est paspossible
en touterigueur
avec un échantillonsystématique [1].
Observons que l’estimation de la variance
d’échantillonnage
cons-titue une information dont l’utilité est excessivement variable suivant la nature de
l’enquête
et de ses utilisateurs. Poussant les choses à l’ex-trême,
cette information aura unprix
infini aux yeux duspécialiste
dessondages,
mais n’en auraplus
aucun pour bien des lecteurs des résul- tats del’Enquête.
En France la
majorité
des utilisateurs s’estimeradéjà
assez satis-faite si on lui fournit sur la
précision
dusondage
une informationapproxi-
mative. On se contenteparfois
de calculer(et publier)
laprécision qu’au-
rait eu le
sondage
s’il avait été obtenu partirage
au sort des unités-échan- tillons(à
lafaçon
des boules d’uneurne),
-bienqu’on
aitemployé
en fait unautre
procédé
pour l’obtenir.Lorsqu’on
estplus exigeant,
on calcule etpublie
la variance d’unsondage
stratifié àn/2
strates dont on aurait tiréau sort 2 unités par strate, en faisant comme si ces unités étaient 2 unités consécutives de l’échantillon
systématique.
On admetgénérale-
ment que
pareil
calculmajore
la varianceréelle,
mais modérément.Un autre
procédé
pourra consister à introduire dans la formule correcte de variancequelque
évaluationexogène
de la corrélation intra- classe.Tous ces
procédés
ont leursmérites,
le but cherché étant moins de connaître les variancesd’échantillonnage
que d’avoir une idée des ordres degrandeur qu’elles peuvent
atteindre en mettant les choses aupire.
2 -
QUELQUES
TRAVAUX RECENTSNous nous intéresserons à deux essais récents
(de
Gautschi[2]
et deZinger [3])
destinés à fournir une solutionthéorique
satisfaisante au pro- blèmequi
vient d’êtreévoqué.
Nous devrons éviter d’ailleurs de confondre deux
questions
bien distinctes :Comment,
avec un échantillonsystématique :
- estimer la variance de
population cr 2 ?
- estimer la variance du
sondage systématique vxs?
Revue de Statistique Appliquée. 1965 - Vol. XIII - N .4
a)
Méthode des sous-échantillonssystématiques :
Divers auteurs
(dont
en dernier lieuGautschi)
ont réalisé ces es-timations avec des sous-échantillons
systématiques
de même taille ré- sultant detirages
aléatoiresindépendants.
C’est direqu’on
renonce à l’échantillonsystématique
banal.Au minimum on
prend
2sous-échantillons ;
la variance est alors estimée avec un seuldegré
deliberté,
c’est-à-diremédiocrement,
tandisque la
qualité
de l’estimation initiale estlégèrement altérée ;
mais ilapparaît qu’on
auraitplus
àperdre qu’à
gagner àaugmenter
le nombrede sous-échantillons.
Le seul critère
employé
dans cesétudes,
pourapprécier
laqualité
de
l’estimation,
semble être la varianced’échantillonnage
pour une taille donnée de l’échantillon. Cettefaçon
de faire ne nousparait
pas satis- faisante.En
effet,
lesondage systématique
estemployé
par tous les pra- ticiens parcequ’il
est trèscommode,
cequ’on peut
traduire ainsi :parce
qu’il
t estéconomique ;
nous devons donc admettre que k
sous-échantillons,
chacun de taillen/k,
ont un coût
supérieur
à un échantillon de taille n, l’excédent de coût étantune fonction
(croissante)
de k dont la forme ne nous est pas connue.Il conviendrait finalement de se demander si l’information de
plus
en
plus précise
obtenue sur les variances02
etVXs
compense ou non cet accroissement du coûtd’enquête
associé à unelégère perte
deprécision
sur
Xg (un gonflement
devxs).
Un telproblème
nepeut guère
se traiterque par le biais d’une courbe d’indifférence traduisant les utilités que
nous attachons
respectivement
à mieux connaître soitX
soitvxs.
b)
Méthode de l’échantillon additionnel nonsystématique :
M. A.
Zinger (de
l’Université deMontréal)
aimaginé
unprocédé
nouveau d’estimation de la
variance,
enajoutant
à l’échantillonsysté- matique
un toutpetit
échantillon nonsystématique (au
minimum une unitéde
sondage supplémentaire).
Le coût additionnel est infime mais onpeut
l’évaluer. On aura donc à mettre en balance(avant
deprendre
la déci-sion de suivre M.
Zinger) :
- le coût de cette donnée
supplémentaire (et
même le coût des calculs d’erreurs s’ils sontnotables),
- contre l’utilité
qu’on
attribue à la connaissance de la va-riance.
L’étude de M.
Zinger
a étéprésentée
au Séminaire de l’I. S. U. P. en 1963 et son résumé a étépublié
dans la Revue deStatistique Appliquée [3].
Son idée pour sortir de
l’impasse
actuelleparaît
très intéressante.Malheureusement l’estimation des variances est apparue comme étant d’assez médiocre
qualité,
vuqu’il
lui arrive d’êtrenégative.
Comme il
s’agit
d’une estimation sans distorsion(non biaisée),
il estclair que les écarts par excès doivent être aussi
grands
en moyenne que les écarts pardéfaut,
etquand
elle n’est pasnégative
l’estimation estpeut-être beaucoup trop grande.
53
3 - DESCRIPTION DE NOUVELLESNous allons maintenant décrire deux méthodes
voisines, qui
res- semblent l’une à la méthode de M.Gautschi,
l’autre à la méthode de M.Zinger.
Nous en ferons ensuite la théorie.a’)
Méthode de l’échantillonsystématique complété
d’un échantillonen grappes.
Supposons
lapopulation disposée
suivant les cases d’un tableau à doubleentrée,
de telle sortequ’une ligne
du tableau constitue un échan- tillonsystématique,
alorsqu’une
colonne du tableau en constitue unegrappe.
Nous admettrons que l’une deslignes
et l’une des colonnes sont tirées au sort par deuxtirages indépendants.
Ces deux échantillons sont soumis àl’enquête.
Pour que cette
technique présente
un intérêtpratique,
il convient de supposer le tableaubeaucoup plus large
quehaut,
donc l’échantillonen grappe
beaucoup plus petit
que l’échantillonsystématique.
Enoutre,
un tel échantillon en grappe de h éléments dont
(h - 1)
nefigurent
pas dans l’échantillonsystématique,
est enpratique beaucoup
moins coûteuxque
(h - 1)
éléments tirés au sort par destirages indépendants :
c’estdu moins ce
qu’on
supposera.On est donc en
possession
de deux estimations de la moyenne X dutableau,
à savoirXg (moyenne
de lacolonne)
et Xs(moyenne
de laligne),
estimations l’une et l’autre sans biais etindépendantes
entreelles ;
toutefoisXg
est(selon
toutevraisemblance) beaucoup
moinspré-
cise que
xs.
Onpeut
à la fois les combiner linéairement pour constituer l’estimateur sans biais"le meilleur"
deX,
et en déduire une estimationde la variance de la forme
K(xs - Xg)2,
estimation médiocre mais sûre- mentpositive.
En
effet,
on a :Soit
Vs
etVg
les estimateurs sans biais que nous désironspour vxs
et’0 Tcg,
on devra donc avoir :Dès
lors,
si l’onadopte
pourX
l’estimateur(xs
+xg)/2 = X,
on a :donc : estimateur sans biais
de vx = (xs - xg)2/4.
Si l’on
adopte
l’estimateur linéaireplus général 03B1xs+(1 - 03B1) Xg
=x,
on voit aisément
(et
c’est bienconnu)
que le meilleurcouple
a, 1 -a(c’est-
à-dire celui
qui
rend Viminimum)
estproportionnel
aux inverses des variances.D’où l’estimateur :
Revue de Statistique Appliquée. 1965 - Vol. XIII - N ’4
et sa variance :
Posons :
il vient
estimation de : donc
estimation de :
Bien entendu cette estimation est médiocre car elle a le même défaut que celle de
Gautschi ;
en revanche on notera que pour P =0,
33 =( 1 - P) / 2,
on a encore :P(1-P)=2/9
au lieu de1/4 - 2/8
Pour P =
0, 2 = (1 - P)/4,
on a encore03C1(1 - P) = 0, 16
au lieu de0, 25.
On n’a donc
guère
de raisons de descendrebeaucoup
en dessousde
(- xg)2/4 ;
mais onrisque
d’énormes fluctuations(en revanche)
surla
différence( Xs - Xgl proprement
dite.b’)
Méthode de l’échantillonsystématique complété
par unpetit
sous-échantillonsystématique.
Considérons
toujours
lapopulation disposée
suivant un tableau àdouble
entrée ;
maisplaçons-nous
dans le cas où ce tableau est beau-coup
plus
haut quelarge.
L’échantillon en grappe du cas(a)
coûteraitplus
cher que l’échantillonsystématique
et il faut y renoncer(puisqu’il
fournit par
hypothèse
une estimation médiocre deX).
Onpourrait
secontenter d’en extraire un
petit
échantillon au hasard : mais onperd
ainsi
l’avantage
du faible coût dusondage
en grappe. Nous supposeronsplutôt
que l’échantillonsystématique
formant uneligne
du tableau estcomplété
par un échantillon(aussi
réduit quepossible)
d’une secondeligne
du même tableau. Le coût additionneld’enquête
et le coût du cal-cal de variance doivent être mis en balance avec l’information
(très
mé-diocre et éventuellement
négative) qu’on peut
ainsi obtenir sur les va- riances.4 - THEORIE DE L’ANALYSE DE VARIANCE
(RAPPEL)
Soit
cl
la variance des moyennes deligne
du tableau à double entrée(de
hlignes
et ncolonnes) ;
soit6i
la moyenne des variances des éléments dechaque ligne
du tableau. La variance 62 des éléments du tableau est liée à62
et03C32
par :e i
55
La variance
d’échantillonnage VXs
n’est autre que0; ;
tandis que la va- riance des éléments de l’échantillon(constitué
par laligne a)
estoa2
,avec :
ainsi
cY,, 2
est estimateur sans biais de5 - ETUDE D’UN TABLEAU
(2
x2) (Méthode a’)
Pour commencer, supposons n = h = 2. On tire
au sort 1
ligne
et 1 colonne. On se trouve donc dans l’un des 4 cas dont les schémas sontfigurés
ici :
On veut estimer
Cy 2 (variance
des 4éléments)
et02
variance entrelignes. Rappelons l’expression
de03C32, 03C32i
et(y e - 2
Estimation de
62 .
Les données fournissanttoujours
3 des 6 carrés.Pour estimer
1603C32
onmultipliera
par 2 la somme des 3 carrés connus.Estimation de
6i :
on connaîttoujours
l’un des 2 carrésqui composent
803C32i.
Il suffira de lemultiplier
par 2 pour estimer803C32i.
Estimation de
6é .
par différence : est6é -
est03C32 -
est03C32i.
On obtientles estimations de
6é qui
suivent :Ainsi l’estimation de
6é
par différence estnégative
dans les cassuivants :
Revue de Statistique Appliquée. 1965 - Vol. XIII - N .4
Schéma
(1)
b a’ a ou a a’ b Schéma(2)
a b’ b ou b b’ a Schéma(3)
a’ b b’ ou b’ b a’Schéma
(4)
a’ a b’ ou b’ a a’Pourtant
l’espérance mathématique
de cet estimateur est bien po- sitive :Changement
d’estimateur.Au lieu d’estimer la moyenne
X
du tableau par la moyenne de laligne
échantillon(ou
de la colonneéchantillon), procédons
comme suit :soit x l’estimateur de
X,
estimons x -X
dans les 4 caspossibles :
Schéma :
d’où :
Dans chacun des 4 cas, on
dispose
soit de(a - b’) 2
soit de(b - a)2
et parconséquent
on sait écrire une estimationtoujours positive
de vx.Autre
façon de
retrouver x.Introduisons la variance à l’intérieur des
colonnes, symétrique
dela variance à l’intérieur des
lignes :
avec
Posons
avec
Autrement dit :
avec
57
et par
symétrie
d’oùAinsi la moyenne de l’estimation de X par les
lignes
et de cellepar les colonnes
a pour variance
expression
trouvéeplus
haut.Conclusion :
- Avec 1
ligne
échantillon on ne sait pas estimer la varianceCy e 2
de la moyenne de
ligne.
- Si on y
ajoute
1 élément horsligne,
on sait estimerCy2 e
, maison aura souvent une estimation
négative.
- Si on
procède
à l’estimation de la moyennegénérale,
à l’aide de laligne
échantillon et de l’élémentsupplémentaire,
on sait estimer la variance de cette estimation par unestatistique toujours positive.
6 - THEORIE DE LA METHODE
(a’)
AVEC UN TABLEAU h x n COMME POPULATIONL’estimateur :
a pour variance
et nous proposons d’estimer
séparément VXs
etVXg
sur échantillon.Nous ferons usage de la formule
Y, , désignant
la doublesommation 03A303A3
étendue à tous lescouples (a, b)
a
b,
c’est-à-dire que(ab)
et(ba)
nefigurent
pas simultanément dans l’énumération. Enconséquence,
revenant au tableaurectangulaire,
on an2 h2 cr2 =
Somme de n h(n h - 1)/2
différences carréesn2 h C2 =
Somme de n h(n - 1)/2
différences carrées entre termes de la mêmeligne
n
h2 03C3’2i =
Somme den h (h - 1)/2
différences carrées entre termes de la même colonneRevue de Statistique Appliquée. 1965 - Vol. XIII - N ’4
Enfin,
les différences carrées entre termes nefigurant
ni dans la mêmeligne
ni dans la mêmecolonne, sont
au nombre de :Soit
Y2
leur moyenne. Divisant parn2 h2 ,
il vient ainsi :Cependant l’analyse
de varianceclassique
donneEstimons sur l’échantillon
0; par
la variance03C32s
de l’échantillon sys-tématique ; cri 12
parCY, 2
variance de l’échantillon en grappe ;y2
parc 2
,moyenne des
(n - 1) (h - 1)
écarts carrés entre termes distincts des deux échantillons.Posons enfin
(n - 1) (h - 1)/n
h =À ;
; il vient : estimation sans biais deEn
général
h et n seront assezgrands
pourqu’on puisse
se con-tenter des estimations suivantes
(dont
le biais est de l’ordre deh
1 etn- 1) :
estimation de
Cr 2 = c2/2
On voit que les estimations de
VXs
etVXs
sontexposées
à devenirnégatives.
Conditions dans
lesquelles
les estimations sontnégatives.
Supposons
les0; et 03C32g constants,
alors queC 2varie. Quand
aura-t-on
c2 petit ? Imaginons
pour cela que les termes de la colonne échantillon soient fixes mais que ceux de laligne
échantillon subissent tous la même variation t(bien
entendu nousnégligeons
le terme situé au croisementdes
ligne
et colonneéchantillons).
Le termec2 était
de la forme :et
(Zjk - t)
est substitué àZjk.
D’autrepart
on a :59
(zjk désigne
la différence entre leterme j
de la colonne et le terme k de laligne échantillon).
Ainsi
(en
confondant n etn- 1,
h et h-1) C2 - 26i
estremplacé
par :
Ce trinôme a des racines si
C’est donc bien
(comme
onpouvait
leprévoir)
un écart excessif entre les moyennes des 2 échantillons(systématique
et engrappe), écart
dû àun hasard
malheureux, qui peut
provoquer des estimationsnégatives
pourVXg
ouvxs.
Remarque :
Onpeut
songer à ne tirerqu’un
échantillon de la grappe colonne au lieu de laprendre
en totalité. Tout le calculsubsiste,
à con- dition de modifier l’estimation c2 dey2
et d’estimer6g
pars2g.
Maison est ainsi conduit
(pour
lagrappe)
à unsondage
à 2degrés.
On saitque celui-ci
augmente
la varianced’échantillonnage ;
et il faudraitajouter
un terme correctif à
VXg.
En outre, on accroît vraisemblablement lesrisques
d’aboutir à des estimations de variancenégatives.
7 - THEORIE DE LA METHODE
(b’ )
AVEC UN TABLEAU h x nSupposons
que, dans la méthode deGautschi,
on ait tiré 2lignes j j’ du
tableau(tirages indépendants)
maisqu’on
n’ait conservéqu’un
sous échantillon dela ligne j’.
Si l’on combine encoreXg
et7cl.,
linéairement pour estimerX,
il devient nécessaired’ajouter
à la variance vx un termecorrespondant
à unsondage
à 2degrés.
Nous écartons ce pro- cédé etn’envisageons
que l’estimateurxs
et savariance vxs,
de sorteque le sous-échantillon extrait de la
ligne j’
n’intervient que pour esti-mer la variance et est
supposé
de très faible taille. Nous nous trouvons ainsi dans un cas voisin de celui étudié parZinger. Quand
on suppo-sera ce sous-échantillon réduit à un seul
élément,
notreproblème
sera
également
leproblème
de ZINGER leplus
réduit(mais
non leplus simple).
Analyse
de Variance :avec
VXs = (Y 2 ;
estimation sans biais de03C32i = os = 02 (j).
Estimation directe de
03C32e :
Ce termedésigne
la variance des moyennes deligne,
autrement dit on a :Cette somme aurait
h(h - 1)/2
termes si leslignes-échantillons
étaientconnues
complètement ;
on aurait donc :estimation sans biais de
Revue de Statistique Appliquée. 1965 - Vol. XIII - N .4
Mais
Xj
est seul connu ; etxj,
est estimé sans biais(sur échantillon) à 03B6 :
Ce dernier terme est la variance
(intérieure)
de laligne j’ ;
et on aNous pouvons estimer
03C32j,
sur l’échantillon de laligne j’
si celui-cicomprend
au moins 2 éléments. S’il est réduit à 1 élément(et
mêmeautrement,
s’il est trèspetit)
ilpeut paraître
sensé d’estimer03C32j,
par03C32(j)
c’est-à-dire6s .
Condition pour avoir une estimation
négative
de6
On voit que le
risque
estgrand
d’avoirsoit
que 03B6 (sur
laligne j’)
s’écarte peu de la moyenne de laligne j ,
soit que
03C32(j’) soit
estimée avec malchance. Il suffit de songer à la pro- babilitéqu’on
ait :1
désignant
un élément de laligne j.
en revanche l’estimation de
Résumé :
On examine comment estimer les variances
d’échantillonnage quand
l’échantillon
systématique
estcomplété
soit d’un échantillon en grappedual,
soit d’un sous échantillon du mêmesondage systématique.
On re-cherche notamment dans
quelles
conditionspeuvent surgir
des estimationsnégatives
de variance.REFERENCES
[1]
MADOW(W. G)
et MADOW(L. H) -
On thetheory
ofsystematic samply
Annals of Math. Stat. 15
(1944)
p. 1-24.[2]
GAUTSCHI(Werner) -
Some remarks onsystematic sampling
Annals of Math. Stat. 28(1957)
p. 385-394.[3]
ZINGER(A) -
Estimations de variance avec échantillonsystématique.
Revue de