R EVUE DE STATISTIQUE APPLIQUÉE
W. E DWARDS D EMING
Mise en pratique de l’échantillonnage à l’échelon national dans une enquête sur les consommateurs
Revue de statistique appliquée, tome 10, n
o1 (1962), p. 79-85
<
http://www.numdam.org/item?id=RSA_1962__10_1_79_0>
© Société française de statistique, 1962, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
79
MISE EN PRATIQUE DE L’ÉCHANTILLONNAGE
A L’ÉCHELON NATIONAL
DANS UNE ENQUÊTE SUR LES CONSOMMATEURS (1) W. Edwards DEMING
-
Conseil
enEnquêtes Statistiques
BUT PROPOSE -
Le but du
présent
article est d’illustrer le calcul del’écart-type
desvariations
d’échantillonnage
et de la variable selon leprincipe
de l’échantil-lonnage répété. L’exemple
est tiré d’unéchantillonnage
nationals’intégrant
à une
enquête
sur lespréférences
des consommateurs.Qu’est-ce
quel’échantillonnage probabiliste ?
Jeprofite
de cette occa-sion pour commencer par énumérer
quelques
utilisations del’échantillonnage probabiliste
au sein d’uneorganisation spécialisée
dans les études sur les consommateurs :a)
Nouvellefaçon
satisfaisante de poser unproblème,
et de leformuler en des termes riches de sens
(modèle statistique),
afinqu’une enquête statistique
fournisse desrenseignements
utiles à unprix
raisonnable .b) Spécification
etpréparation
d’un cadre convenant à un échan-tillonnage (liste
desrégions,
des firmescommerciales,
des gens, des articlesou d’autres
entités ;
limites detempérature,
deconcentration,
devitesse, etc. ).
c) Spécification
du processus du choix d’un nombre d’unitésd’échantillonnage
convenant àl’enquête (de façon
invariable avec des nombresau
hasard ; parfois
avecstratification, parfois
avec deséchantillonnages complexes
etpossibilité
defractionnement).
Les processusd’échantillonnage comportent
desrègles prévoyant
des visitessupplémentaires
chez les absents de lapremière
ou dessuivantes).
d)
La formule ou le processus d’établissement desestimations ,
selon le processus de sélection. Leproblème
central de latechnique
del’échantillonnage
est la manière deprocéder
à la sélection et à l’estimation pour recueillir le maximum d’information parrapport
auprix
de revient uni- taire sansqu’aucune
restriction soitimposée.
e)
La formule ou le processus de formation desécarts-types,
afin de mesurer la marge d’incertitude
qui
découle des variations de la matière recueillie et de celles du rendement desenquêteurs,
desemployés chargés
de coder et d’établir les cartesperforées,
etc.---
(1) Communication présentée au séminaire sur les applications industrielles de la Statis-
tique - Paris, 4 et 5 septembre 1961.
Revue de Statistique Appliquée. 1962 - Vol. X - N 1
80
f)
Pland’enregistrement
des résultats et de contrôlestatistique .
- pour aider à
superviser
le travail et à détecter lesirrégularités
de résultats à l’extérieur et dans les bureaux,
- pour détecter et évaluer les erreurs
indépendantes
de l’échan-tillonnage,
enparticulier
les fautespersistantes
dans le travail desenquê-
teurs, des
employés chargés
de coder et deperforer
les cartes ou autres .g) Interprétation
des résultats àl’usage
des non-statisticiens.h) Analyse
des résultats des contrôlesstatistiques,
desfrais,
etdes
composantes
de la variance à l’intérieur des zones et entreelles,
ainsi que d’unenquêteur
à un autre, en vue :- d’améliorer le
plan d’échantillonnage
pour lesenquêtes
à veniret de
parvenir
à une meilleurerépartition
des ressources,- d’améliorer la sélection des
enquêteurs,
leur entraînement et leursurveillance,
- d’améliorer le travail de
codage
et de contrôle.Il
peut
sembler évidentd’après
la liste ci-dessus quel’échantillonnage probabiliste
ne consiste passimplement
à choisir des unités d’interview oud’essai. Bien
plus
quecelà,
c’est la mise enpratique
continue du calcul desprobabilités
en vue deparvenir
à l’amélioration du travail extérieur et de bureau et à une utilisationoptimale
des ressources auprofit
du but central défini auparagraphe
d. ci-dessus.Certains
qualifieraient
cette activité de rechercheopérationnelle,
d’ana-lyse
dessystèmes
ouquelque
chosed’approchant,
mais pour un statisticienl’échantillonnage probabiliste
dontj’ai
tracé ci-dessus lesgrandes lignes
estseulement une bonne
pratique
desstatistiques
et constitue sbn activitédepuis
de nombreuses années.
L’échantillonnage probabiliste n’engendre
pas deproblèmes
et ne lesinfluence pas. C’est
l’application
detechniques statistiques
selon lesprincipes
énoncés
plus haut,
au service de laconception,
de lafabrication,
de la miseen valeur d’un
produit
sur lemarché,
de sa distribution et d’autres activités humaines.QUELQUES
DEFINITIONS -La
population, objet
d’une étudestatistique,
est l’ensemble des per- sonnes, des firmes ou de lamatière,
descirconstances,
desconcentrations ,
desmodèles,
desclasses,
etc., ausujet desquels
on veut tirer des conclu- sions ou que l’on veutinfluencer, qu’ils
soient accessibles ou non. La popu- lation sera clairement définie si leproblème
estsoigneusement posé.
Prenonspar
exemple
toutes les firmesqui fabriquent
unproduit donné,
ouqui
sontsusceptibles
del’acheter ;
ou toutes lesménagères,
tous lesécoliers,
toute la matière ou toutes lespièces
contenues dans unlot,
ou couvertes par un contrat ou unespécification.
Lapopulation peut
consister en certains docu-ments intérieurs d’une
société,
le but de l’étude étant d’estimer lerapport
découlant de certaines transactions.
La définition de la
population
n’est passtatistique ;
elle a sonorigine
dans la connaissance du
sujet grâce auquel
onpressent
l’existence d’un pro- blème et l’on se fait une idée de lafaçon
de l’aborder. Lapopulation
seraitla même dans
n’importe quel problème,
que l’on ait ou non l’intention de faireappel
àl’échantillonnage.
Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
81
Intervient alors la décision concernant le
cadre, qui
faitpartie
dumodèle
statistique.
Le"cadre"
a été décrit pour lapremière
fois parStephan(l).
Le cadre est un ensemble de matièresphysiques appelées
unitésd’échantillonnage (pièces
constitutives,statistiques
de recensement, cartesgéographiques, listes,
annuaires,documentation)
nouspermettant
de mettrela main sur les éléments de la
population,
un à un. Pour être utile, le cadredoit
englober
une zône suffisante et une gamme assez étendue de conditions.Aucun
plan
desondage
nepeut
surmonter les insuffisances du cadre. La déductionstatistique
effectuée selon la théorieprobabiliste
ne couvre que le cadre donné et les conditionsdépendant
duprincipe d’échantillonnage.
Lesgénéralisations
à d’autresvilles,
à d’autresclimats,
conditions ou classes quen’englobe
pas le cadre etqui
nedépendent
pas duprincipe
d’échantillon- nage demandent à êtrejugées subjectivement
et noninterprétées
selon lathéorie
statistique. Ainsi,
si nous faisons l’essai d’unproduit
au moyen d’uneenquête
menée de lafaçon
laplus experte qui
soit àChicago,
aucune théoriestatistique
nepermettra
degénéraliser
les résultats pour y inclure Denver . Ceci nepeut
êtreaccompli qu’à
force dejugement subjectif n’engegeant
que laresponsabilité
de son auteur.Un
multiple
convenable del’écart-type permet
d’évaluerl’ampleur
del’incertitude
possible
des résultatspouvant
raisonnablement êtreimputée
àl’échantillonnage
et aux erreurs variables d’exécution.Le but du contrôle
statistique
est d’évaluer toute erreur d’exécutionpersistante ayant
pu seproduire.
Dans un
échantillonnage probabiliste soigneusement appliqué,
nous nelaissons donc pas subsister de doute concernant les incertitudes
pouvant
résulter de la sélection
répétée
et de lafaçon
deprocéder,
ainsi que de fautes d’exécution.Un contrôle
statistique
consiste à examiner à nouveau unepetite
fractionde
l’échantillonnage principal, depuis
le livre contenant les nombres au hasardjusqu’au codage
et à laperforation
enpassant
par le travail extérieur. Le but du contrôlestatistique
est de détecter et de mesurer l’effet de toute omissionpersistante,
ou de la surestimation ousous-estimation
den’importe quelle caractéristique.
Le but du contrôlestatistique
n’est pas decorriger l’échantillonnage principal,
mais de fournir lesrenseignements qui permet-
tront d’en
interpréter
les résultats.Il est
important
de serappeler
que lesfaiblesses
introduites dans uneétude par la faute d’un cadre
incomplet,
ou par un défaut dans lafaçon
deprocéder
aux essais ou dans latechnique
desquestions
ou de la manièred’enquêter
ne constituent pas des erreursd’échantillonnage,
pasplus
d’ailleursque si
l’enquête portait
sur l’ensemble de lapopulation.
Les faiblesses incor-porées
sonttoujours là, qu’il s’agisse d’échantillonnage
ou depopulation
totale. Elles nepeuvent
être décelées et minimiséesqu’en
fonction d’une meilleure connaissance de la matièred’étude,
éventuellementépaulée
par descomparaisons
de fait entre deux ouplusieurs
méthodes d’essai(dans lesquelles
une théorie
statistique
duplan peut
être d’ungrand secours).
(1) Frederick F. Stephan dans "Practical Problems of sampling
procédure.Amer.
Soc.Rev. Vol. 1 - 1936 - p. 569-580. Il n’a pas introduit le terme de "frame" (cadre), mais il mentionne explicitement ce concept.
Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
82
Maintenant,
la divisionlogique
de laresponsabilité
devient claire. Le contenu duquestionnaire,
la méthode d’essai oud’enquête,
lecodage ;
et fina-lement,
après
terminaison del’enquête,
lagénéralisation
des résultats au-delà du cadre et des conditions nedépendant
pas du processusd’échantillonnage ,
ressortent de la
responsabilité
desexperts
connaissant la matière à étudier . Par contre, leplan probabiliste
d’unéchantillonnage
ou d’uneexpérience
etles déductions
objectives qui
sontpossibles
avec la théorieprobabiliste
sontla
responsabilité
du statisticien. Les mesures àprendre,
tenantcompte
ounon des résultats d’une
étude, dépendent
de la direction. Enqualité
de sta-tisticien, j’estime
que les résultatsstatistiques
etl’analyse
se défendent eux-mêmes, et
je
ne fais pas de recommandations ausujet
d’une décisionqu’il appartient
à la direction deprendre.
UN SIMPLE EXEMPLE DE CALCUL SUR UN ECHANTILLONNAGE REPETE
L’échantillonnage
est utilisé de bien desfaçons
dans les recherchesportant
sur les consommateurs. Cet article ne fournitqu’un exemple,
maisil serait
possible
de décrire bien d’autres modesd’application,
comme celuides échantillons
superposés
destinés à comparer lespréférences
concernantla contenance, la taille et le
style
del’amballage,
leprix,
legoût,
les traitscaractéristiques (comme
lepouvoir d’achat)
des lecteurs desmagazines,
ladégustation
des nourritures et boissonspermettant
de comparer à des témoins l’influence de lapublicité
et bien d’autres choses. Le résultat d’un échantil-lonnage
necomportant
pasd’écart-type
est d’une utilité limitée. Heureu- sement, il estpossible,
par larépétition
d’unplan d’échantillonnage,
deréduire à la
simple arithmétique
le calcul d’unécart-type.
A la
base,
larépétition
scinde un échantillon en deux ouplusieurs
par- tiesindépendantes (2).
L’échantillon est l’ensemble desparties,
et le but dela
répétition
est :- de faciliter le calcul de
l’écart-type
etégalement
de toute erreursystématique
due à la formule s’il en existe une,- de faciliter la détection des fautes
d’exécution,
surlesquelles
nous reviendrons.
L’exemple
queje
donne ici est tiré d’uneenquête
à l’échelle nationale exécutée selon unplan
àrépétition.
Cetexemple
vise à démontrer lasimpli-
cité de calcul de
l’écart-type lorsque
leplan
estrépété.
Lesymbole
xrepré-
sente la
réponse oui,
et lesymbole
y les unités d’habitation. En se basantsur les
habitations,
onpeut
se servir des chiffres du Recensement dans l’estimation parrapport
au nombre total des femmesqui
auraientrépondu
ouià la
question
du formulaire.L’ampleur
del’enquête
dont est tirél’exemple
étaitlimitée, puisqu’elle
ne
comportait
que 1 200 interviews environ. Le nombre de domiciles unitaires del’enquête (y =
YI + y2 - 1 961 autableau)
n’est pas celui desinterviews ,
mais le nombre d’unités d’habitation dans les 400fragments
de zones choisispour l’échantillon. L’univers était celui des
ménagères,
et laquestion
étaitcelle-ci :
"Faites-vous
vous-même le fondant àglacer
vosgâteaux ?".
---
(1)
P.C. Mahalanobis - "Onlarge-scale sample-surveys" -
Phil. Trans. de la Royal Sta- tisticalSociety -
vol. 231 B - 1944 - p. 329-451 ; "Recent Experiments in statisticalsampling"
(J.Royal
StatisticalSociety,
vol. cix, 1946 - p. 325-48 ; D. B. Lahiri "Onthe National
Sample Survey" Sankhyà
vol. 14 - p. 264-316.Revue de Statistique Appliquée. 1962 - Vol. X - N 1
83
Quelques
habitations n’abritaient pas de maîtresse de maison àlaquelle
laquestion puisse
êtreposée ;
deplus,
il y atoujours
uneproportion
d’absencede
réponse ;
il s’ensuit que le nombre y serasupérieur
à x.Les 400
fragments
de zones n’ont pas été utilisés comme un échantil-lon,
mais comme le total de deux échantillonsindépendants
dénommés sous-échantillon 1 et sous-échantillon
2,
chacuncomportant
environ 200fragments
de zone. Les
transcriptions
font ressortir les deux sous-échantillons 1 et 2 . Lessymboles NE, NC,
etc. en têtereprésentent
desrégions
de RecensementNord-est, Nord-centre,
Sud et Ouest. Laplan d’échantillonnage,
ycompris
les formules, se trouvent au
chapitre
11 de monouvrage(l).
Le coefficient de variation calculé ici tient
compte
du rendement variable desenquêteurs,
etégalement
de la variance entreenquêteurs
étant donné que l’on n’a pasessayé
dans le casprésent
derépartir enquêteurs
et sous-échantillons selon un
plan orthogonal
pour évaluerséparément
la variance entre lesenquêteurs (paragraphe suivant).
En d’autres termes,l’acart-type
calculé ici mesure la totalité de la variabilité
indépendamment
de sur ou desous-estimations
persistantes qui (comme
on l’a vuplus haut)
nepeuvent
êtremesurées que par un minutieux contrôle
statistique.
Les résultats démontrent que p = 0, 40 est une estimation de la propor- tion de femmes
qui préfèrent préparer
elles-mêmes le fondant àglacer
leursgâteaux
chezelles,
etque a = 0,01
estl’écart-type
de cette estimation(ou, plutôt, l’écart-type
duprocédé d’échantillonnage ayant
donnép).
Le nombre dedegrés
de liberté dans cette estimation del’écart-type
estlégèrement
infé-rieur à 8 parce que les variances
apportées
par les différentesrégions géo- graphiques
ne sont paségales(2).
La limite de confiance
supérieure
à 1%,
pour laproportion estimée ,
basée sur 7
degrés
deliberté,
est0,40 plus
3écarts-types,
soit0,43.
Lalimite de confiance inférieure à 1
%
serait de0, 40
moins 3écarts-types,
soit0, 37.
Les limites de confiancesupérieure
et inférieure à 1%
de laproportion
estimée sont donc
0, 43
et0,37.
L’écart
type
de toute err’eurcaractéristique
mesurée parl’enquête peut
être calculé de la même manière.
Habituellement,
on ne calcule que lesécarts-types d’importance capitale,
telles que le nombre total d’unités d’habi- tation aux Etats-Unis(aux
fins decomparaison),
le nombre total d’acheteurs d’unproduit,
lapart
du marché que l’on a, celle d’un concurrentprincipal,
et éventuellement
quelques
autrescaractéristiques.
A ce propos,je
peuxajouter
que l’estimation du nombre total d’unités d’habitations auxEtats-Unis , d’après
laprésente enquête,
est ressortie inférieure à 2%
au chiffre duRecensement,
soit environ 1écart-type
en moins. Il estpossible
d’inter-préter
cette différence et sonécart-type
comme la preuve d’unepossible
insuffisance
d’échantillonnage
dans lesfragments
de zones de peud’impor-
tance.
---
(1) W.E. Deming - Sample
design
in business research - J. Wiley - 1960.(2) On peut estimer le nombre de
degrés
de liberté d’après une formule donnée par F.E..Satterthwaite : "An approximate distribution of estimates of variance
components" -
Biometrics, Vol. 2 - 1946 - p. 110-114. La formule de Satterthwaite est représentée dans
l’appendice
au chapitre 11 du libre cité en haut de page.Revue de Statistique Appliquée. 1962 - Vol. X - N· 1
84 AUTRES AVANTAGES DE LA REPETITION
La
répétition
de l’échantillonprésente
d’autresavantages
que le calcul immédiat del’écart-type.
Ilpermet
d’évaluer presque instantanément lebiais,
s’il existe, de la fonctionayant
servi à formuler l’estimation.Un autre
avantage
de larépétition,
noté enpremier
parMahalanobis ,
et dont
j’ai
constaté lagrande utilité,
est que l’onpeut prévoir
l’échantillon de sorte que les sous -échantillons soient traités àl’extérieur,
lors de la codification et même lors de laperforation
et de la tabulation par des groupesd’employés
distincts. Les sous-échantillons se concurrencent alors mutuel- lement. De gros désaccords entre eux(pouvant
être mis en évidence par un test designification) peuvent indiquer
une erreur d’exécution à déceler et àcorriger.
Une telle utilisation des sous-échantillons neremplace
pas les autres contrôlesstatistiques,
mais elle est trèsutile, particulièrement
dansla détection de
grossières
fautesd’exécution,
et pour mesurer les variances entre lesenquêteurs.
Inversement,
onpeut interpréter
unécart-type trop
faible dans cesconditions
(dont l’exemple
est illustréplus haut)
comme un défaut de preuve(a),
de fautesd’exécution,
et(b)
de grosses différences entre lesenquêteurs.
CALCUL D’UN ECART-TYPE DANS LE CAS D’UN PLAN A REPETITION -
x
représente
le nombre de femmesayant répondu
oui à laquestion
"Faites-vous
vous-même le fondant àglacer
vosgâteaux,
ou achetez-vous unmélange ? "
y
représente
le nombre d’unités d’habitation. Les indices 1 et 2 se rap-portent
aux deux sous-échantillons.p
représente
une estimation de laproportion
des femmesqui répondraient
oui si
l’enquête
couvrait 100%
desfoyers.
Op représente
l’estimation del’écart-type
de p.NE, NC,
S et Wreprésentent
les 4régions
du Recensement : Nord- est,Nord-centre,
Sued et Ouest.Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1
85
Estimation finale pour les
U. S. A. ,
p = 0, 40 ;écart-type
0,01.Revue de Statistique Appliquée. 1962 - Vol. X - N’ 1