R EVUE DE STATISTIQUE APPLIQUÉE
P. T HIONET
La méthode des sondages
Revue de statistique appliquée, tome 9, n
o1 (1961), p. 7-52
<http://www.numdam.org/item?id=RSA_1961__9_1_7_0>
© Société française de statistique, 1961, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
7
LA MÉTHODE DES SONDAGES
par
P. THIONET
Administrateur
àl’Institut National de la Statistique
et
des Études Économiques
SOMMAIRE l
NE’l’HODES
EMPIRIQUES
ET XET80DES PROBABILI STES I - LesKéthodes lmptrtques
II - Les
méthodes
Probabtltstes.II
ETUDE
THIORIQUE
DES PRINCIPALES NB’l’RODES DE SONDAGE I - Le Processus desondage
au hasardélémentatre
II - Les Processus de
sondage systémattque
e t desondage
engrappes
II a - Le Processus desondage systématique
II b - Le Processus de
sondage
pargrappes
III- Le Processus desondage stratifié
IV - Le Processus de
sondage à plusteurs degrés
V - Le Processus de
sondage à plusteurs phases
YI - Formules d’esttmatton
fatsant
tnteruentr destnformattons
sup-plémentatres
VII-
Emplot
tndustrtel desméthodes
desondage
aux l’l’A’l’S-UNIS.Le
problème général qui
se pose est l’ étude sur échantillon d’une"popu-
lation"
ou"univers",
c’est-à-dire d’un"ensemble".
Parexemple,
il est trèsimportant
d’avoir desrenseignements
sur l’attitude dupublic
àl’égard
decertains
produits;
disons de savoirpourquoi
lepublic
n’achète pas une cer- taine marque de crème à raser; mais il est clairqu’on
ne va pasinterroger
tout le
monde,
on se limitera à un échantillonqui
doit avoir le mérited’être
"représentatif",
c’est-à-dire de fournir desrenseignements
peu déforméssur l’attitude
générale.
Quand
nousparlons d’étude
d’unepopulation,
d’unensemble,
nous pen- sons àquelque
chosequi
a un sen smathématique précis.
Les éléments decette
population présentent
des caractères X et nous voulons estimer la valeur moyennex
de ce scaractères.
Enparticulier,
s’ils’agit
de caractèresqua-
litatifs à 2alternatives,
X devient une variable(attachée
àchaque élément) égale
à 1 ou0,
suivant que l’élémentprésente
ou non le caractère enquestion,
et
x
est laproportion
d’élémentsprésentant
lecaractère.
Revue de Statistique Appliquée. 1961 - Vol. IX - Pl 1
8
Ainsi,
on se proposed’estimer,
parexemple, quelle
est laproportion
des hommes de ce pays
qui
n’achètent pas cette crème à raser etqui
nel’ont
jamais essayée.
En
réalité,
onpeut
se proposer deporter
parsondage,
c’est-à-dire suréchantillon des
jugements plus compliqués qu’une simple estimation;
on exami-nera
ci-après
lesprincipales
méthodes desondage.
PREMIÈRE
PARTIEMÉTHODES EMPIRIQUES
ETMÉTHODES PROBABILISTES
Nous
distinguerons parmi
les méthodes desondage
deuxgrands
groupes:les Méthodes
empiriques
et les Méthodesprobabilistes.
I - LES METHODES
EMPIRIQUES
Il
s’agit
des méthodes où"le
Calcul desProbabilités"
n’a pas à inter- venir. Pour avoir un échantillonvalable,
onpart
de cette idéequ’il
faut lecomposer
en choisissant au mieux les élémentsqui
y seront inclus. Onpeut,
par
exemple,
choisir des"éléments moyens" (conformes
à une certaine notion intuitive de lamoyenne)
ou encore des éléments faciles à soumettre à l’étude.Voici une forme très
perfectionnée
de ces méthodes :La Méthode des
quota
C’est la méthode en usage dans la
plupart
des institutsd’opinion publique
ou d’études de marchés : supposons
qu’on
veuille constituer un échantillon d’hommes de 18 ans etplus, réparti
de manièrereprésentative
dans l’Ouestde la
France, région
où l’on se propose de chercher à vendre un certainproduit.
On commence par se procurer les résultats du dernier recensement de
population
concernant lesdépartements
de l’Ouest.(Ces
résultats sontpubliés
par les services officiels de
Statistique,
mais soit faute decrédits,
soit délais depublication,
il y aparfois
certainsrenseignements qui
ne sont paspubliés
etqui
sontpourtant disponibles,
c’est-à-dire nonconfidentiels;
il y a lieu de consulter les servicescompétents).
Onconnaît
ainsi larépartition
deces hommes suivant
l’âge,
laprofession,
le groupe de communes de résidence(grandes villes, petites villes,
communesrurales, etc. ).
Supposons
alorsqu’on
veuilleenquêter auprès
d’une personne sur 3000;
. par
exemple,
les hommes de 18 ans etplus
habitant l’Ouest de la France seront au nombre de 3 millions et on se proposera d’eninterroger
1 000.(Indiquons
enpassant
que 1 000 estpetit
comme effectif de l’échantillon si l’on veut obtenir des résultatsprécis;
mais que 1 000 estdéjà grand
sil’on considère les frais
d’enquête
que celareprésente :
il faut que l’étude de marché soitpayante).
Dans ces
conditions,
on divise par 3 000 tous les nombresfigurant
dans les tableaux
statistiques
dont ondispose
pour l’ensemble desdéparte-
ments de
l’Ouest;
et on obtient(en
arrondissant àl’unité)
cequ’on appelle
lacomposition théorique
de l’échantillon.Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
9
Par
ailleurs,
on doitdisposer d’enquêteurs
habitant dans des communesde toutes tailles disséminées dans la
région Ouest;
ce sont soit les corres-pondants
de la firme d’études demarchés,
soit lesagents
du service com-mercial de la firme
qui organise
pour son proprecompte
l’étude de marché.Supposons qu’on dispose
ainsi d’unecinquantaine
depoints d’enquête.
On va alors
répartir
entre cespoints
l’échantillon de 1 000 personnes, de manière àrespecter
autant quepossible
lacomposition
de l’échantillonthéorique.
Puis on adresse à chacun descinquante enquêteurs (corres- pondants
ouagents commerciaux)
une fiche de travail et unjeu
de 20 ou 30que stionnaire s.
La fiche de travail
porte
lacomposition
dupetit
échantillon que l’en-quêteur
doit"interviewer".
Parexemple (si l’enquêteur
est M.DURAND) :
M.
DURAND,
à X ....(commune
de 4 000habitants)
Interrogez
18 hommes(dans
votre commune ou auxalentours)
dont 18 à 30 ans 5 cultivateurs 4
31 à 45 ans 5 ouvriers 7
46 à 60 ans 4
employés
3+ de 60 ans 4
commerçants
218
io aut r e s autre s 201320132013 218
Le
questionnaire porte, impriméés,une
série dequestions
quel’enquê-
teur doit poser à
l’enquêté
au cours del’interview;
lesréponses
recueillies sont notées enregard.
Telle est la méthode laplus
courante. Onprescrit,
en
général,
àl’enquêteur
de poser lesquestions
tellesqu’elles
sontimpri- mées ;
unelégère
déformation desquestions
ou unchangement
dans l’ordre desquestions peut entraîner
une variation desréponses,
surtout en cequi
concerne les
questions d’opinion.
Mais avec desenquêteurs
très évolués etqui apprennent
bien leque stionnaire
comme un acteurapprend
sontexte,
onpeut
faireenquêter
les mains dans lespoches
etmême
sans que les en-quêtés
s’enaperçoivent;
ce n’est pas le casgénéral.
Ici il convient d’ouvrir une
parenthèse :
dans le casqui
nous occupe , lesenquêteurs
ont une autreprofession;
et le métierd’enquêteur
est unmétier
d’.Mj2oint;
ilsposent
tout naturellement leursquestions
aux gensqu’ils
rencontrent au cours de leur activité
professionnelle
normale. C’est bien entendu le cas d’ungaragiste dépositaire
deCitroën, qui
pose aux gens venant faire laver ouréparer
leurvoiture,
desquestions qu’on peut
d’ailleurs luiprescrire
de ne poserqu’à
desautomobilistes;
mais ce sera aussi bien lecas pour un
enquêteur qui
est à la fois clerc de notaire dans unpetit bourg
rural et un
enquêteur
d’un institutd’opinion publique.
On devine ainsi que le choix desenquêteurs peut
avoir éventuellement une influence déformante surl’échantillon.
Finalement
chaque enquêteur
retourne(par
laposte)
au servicecentral,
les
questionnaires dûment remplis;
et on lesdépouille
pour en tirer les sta-tistiques
intére ssante s :proportions
ou moyennes.Inconvénients de cette méthode
La méthode n’a pas de
justification théorique
etpeut
manifestement conduire à des erreurs graves(si,
parexemple,
tous lesenquêteurs
sont recrutés dans lemême milieu);
enoutre,
elle nécessitel’emploi
de statisti- quesqui,
enFrance,
font souvent défaut dèsqu’on
sort desrenseignements
Revue de Statistique Appliquée, 1961 - Vol. IX - N 1
10
classiques. (Par exemple,
enFrance,
on n’a aucunestatistique
sur les res-sources réelles des
ménages).
Avantages
de cette méthodeEn
pratique,
ceuxqui
utilisent la méthode s’en disentsatisfaits;
car, souvent on aime mieux avoir desrenseignements imprécis
que pas de don- nées chiffrées du tout. Enoutre,
il y a tellement de causes d’erreur etd’imprécision
dans lesenquêtes
sur lesopinions
ou lecomportement
des gens que les erreursd’échantillonnage
n’ont pas besoin d’être réduites au minimum.Un sage
principe
veut même que l’ons’arrange
pour que les erreurs des diverses sources soient du même ordre degrandeur ; dépenser
del’argent
pour avoir des erreurs
d’échantillonnage
2 ou 3 foisplus petites
que les er-reurs d’observation n’est pas faire preuve d’une attitude bien réaliste.
Ouvrons ici deux
parenthèses :
a)
Les erreurs d’observation ou de mesure. Si l’on demande àquelqu’un quelle
est la marque de son savon dentifrice etqu’il réponde
"Gibbs",
il est trèspossible qu’il
fournisse cetteréponse
parce que c’est lepremier
nomqu’il
lui vient àl’esprit :
alorsqu’il emploie
en réalité unemarque peu connue
(même
delui).
Si l’on demande à un homme :
"Achèteriez-vous
un rasoirélectrique
s’il ne coûtait que 3 000 frs
?"
etqu’il réponde
OUI(les
marques concur- rentes coûtant au moins 4 000frs)
il est trèspossible
que finalement il n’en achète pas à 3 000 frs parcequ’il
auraappris
dansl’intervalle,
par unami,
que le rasoirélectrique
n’était pas aussi commodequ’on
lesupposait.
Ainsi,
les résultats que fournissent les études de marchés nepeuvent
pas être
précis.
Ceci ne veut pas dire que ces études soient inutiles. Bienau
contraire,
il n’est pas douteuxqu’en
France elles soientinsuffisamment
pratiquées.
Un industriel achètera facilement de nouvellesmachines,
de nou-veaux
brevets,
embauchera un nouvelingénieur
et desouvriers,
pourproduire
finalement un article
qui
nerépondra
pas du tout auxgoûts
dupublic. Il
dé-pensera ensuite des sommes énormes en frais de
publicité
pour essayerd’imposer
cet article. Cettefaçon
de faire est irrationnelle.b)
Lesbudgets d’enquête.
Un obstacle aux études de marchés estprécisément
leur coût. Il semblequ’en France, actuellement, les
industriels soient peudisposés
àdépenser,
parexemple, quelques
millions pour une étude de marchépréalable
à un investissement dequelques
centaines de millions.Quant
aux institutsd’opinion publique, -
s’ils sontautonomes,
cequi
est nécessaire pourenquêter objectivement, -
ilsmanquent
de ressour-ces financières : en France les résultats de leurs
enquêtes
ne sontqu’assez exceptionnellement
achetés par la Presse(comme
cela se fait auxEtats-Unis).
Dans les deux cas, on a donc
généralement
intérêt(tant qu’une préci-
sion
quelconque
n’est pas demandée pour lesrésultats)
àemployer
lesméthodes
empiriques
desondage.
Les méthodesprobabilistes
ne souffrentpas la médiocrité des moyens;
et,
parexemple,
un échantillon tiré au hasard de 10 personnes abeaucoup
moins de chances d’êtrereprésentatif qu’un
échantillon choisi à cette fin.
Les méthodes que nous avons
appelées empiriques sont,
pour cetteraison, appelées
de choix raisonné par leurspartisans;
les méthodes pro- babilistes étantappelées
alors : méthodes de choix au hasard. ces nomssont tendancieux car ils semblent
impliquer
lasuprématie
de la raison sur lehasard;
il estplus objectif
de dire que les méthodesempiriques comportent
la
pratique
du choix à dessein ou choix intentionné et que les méthodes pro- babilistescomportent
letirage
au sort de l’échantillon.Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
11
Nous ne nous occuperons
plus
dans cequi
suit des méthodesempiri-
ques, estimant
qu’il
y alieu,
icisurtout,
de faire connaître etcomprendre
les méthodes
probabilistes.
II - LES METHODES PROBABILISTES
On se propose donc
d’appliquer
le calcul desprobabilités
auproblème
de l’étude des
propriétés
d’un ensemble au moyen d’un échantillon.Pour
cela,
il faut que l’échantillonprovienne
d’untirage
au sort oud’un
système
detirages
au sort. L’ensemble à étudier doitpouvoir
être as-similé à des boules dans une urne
(schéma classique
deBernoulli)
ou à toutautre
système plus compliqué
maisreposant
sur les mêmesconceptions.
Il faut
qu’on
soit en mesure de définir les"boules"
et ensuite de les tirer au sort. Onparlera
désormais non de"boules"
maisd’"unités
de son-da e :
ondésigne
ainsi une entitéqu’on
doitpouvoir
définir et tirer au sort.Considérons,
parexemple,
un tas de charbon. On veut en tirer un échantillon valable pour étudier son calibre ou sa teneur en cendres. Comment faire ?(le
charbon renferme despierres;
les gros morceaux ont une tendance à des- cendreplus
que lespetits).
Il est
impossible d’adopter
le morceau de charbon comme unité de son-dage,
carqui dit "TIRAGE"
au sort dit :possibilité
d’attribuer à l’avance àchaque
unité desondage
un certain numéro d’ordre et de retrouver dans lamasse les unités
auxquelles
les"numéros gagnants" (à
une loteriequelcon- que)
avaient été affectés.Mais
imaginons qu’on transporte depuis
la mine le charbon dans leswagonnets
d’unpetit téléférique;
considérons l’unité desondage
constituée par le contenu d’unwagonnet.
Onpeut
numéroter ceux-ci et décider de soumettre àl’enquête
le contenu deswagonnets ri 4,
25 et47 ;
au moment où lewagonnet
se
vide,
ons’arrangera
pour que ceux-ci se vident sur laplateforme
d’uncamion et non sur le tas de
charbon;
et on aura ainsi obtenu l’échantillon auhasard
qu’on
voulait.Vous devez vous demander comment on arrive à tirer des échantillons des
populations
humaines. Onpourrait disposer
d’unrépertoire complet
detous les habitants du pays : par
exemple,
ce serait le cas si tout le monde étaitassujetti
à la SécuritéSociale,
avait un numéro d’identification de la S. S. etfigurait
au fichier de celle-ci. Mais ce n’est pas du tout le cas en France(ou même
le fichier de la S. S. est difficilementutilisable).
En réa-lité,
onadopte plutôt
comme unité desondage
leména2’e"
c’est-à-dire les personnes habitant le mêmelogement.
Eneffet,
ilest,
engénéral, possible
d’avoir un
répertoire (plus
ou moins bond’ailleurs)
deslogements (par exemple,
le fisc enpossède un).
Onpourrait
aussi se servir d’unrépertoire
des immeubles et considérer que tous les habitants de l’immeuble constituent
une unité de
sondage,
etc. Telleest,
en gros, la méthodequi
convient à uneadministration d’Etat pour
procéder
à desenquêtes;
elle ne conviendrait pas , bienentendu,
à un serviceprivé.
On ne s’étendra pasdavantage
sur cettequestion.
On va, à
présent,
passer en revue lesprincipales
méthodesprobabi- listes.
On les étudiera ensuite dupoint
de vue des calculs. Ondistinguera :
1)
Lesondage
partirage
au sort élémentaire.2)
Lesondage systématique.
3)
Lesondage
en grappes.Revue de Statistiaue Appliquée. 1961 - Vol. IX - N 1
12 4)
Lesondage
stratifié.5)
Lesondage
àplusieurs degrés.
6)
Lesondage
àplusieurs phases.
7) L’emploi
d’une formule d’estimation utilisant desrenseigne-
ments
supplémentaires.
1/
Lesondage par _tirage
ausort
élémentaireConsidérons un bateau
chargé
de sacs de sucre. Ondécharge
la car-gaison ;
et leproblème
se pose, tant pour les douaniers que pour la firmequi
achète lacargaison,
de connaître lepoids
exact de cette dernière. Engénéral,
on pose successivement chacun des sacs sur labascule,
au fur età mesure
qu’ils
sortent dubateau;
on note lepoids
et on fait l’addition.Toutefois, compte
tenu de laprécision
de ceprocédé,
il estpossible
de secontenter de peser un échantillon de ces sacs et
d’extrapoler,
en admettant que c’est lepoids
moyen de tous les sacs.Donnons aux sacs un numéro d’ordre i =
1, 2,
..., 1i,
..., m au furet à mesure
qu’on
lesdébarque.
Soit x; lepoids
du sacri i,
lepoids
moyen de l’ensemble des m sacs est :Désignons
par S la somme despoids
des x sacs échantillons ; lepoids
moyen de ceux-ci
(au
nombre den)
est X = SX’ .
On estime x à l’aide de X(et}: Xi
à l’aide demX).
nPour effectuer le
tirage
ausort,
il faut tirer au sort à l’avance nnombres
compris
entre 1 et m. Au lieu d’utiliserchaque
fois undispositif
tel que les
sphères
de la LoterieNationale,
on se sert d’une Table de nombres aléatoires établie une fois pour toutes.Les tables de nombres aléatoires
("cf.
randomnumbers") - I1
existe actuelle-ment,
à notreconnaissance,
par ordre d’ancienneté :1)
Les tables deTippett (Tract
forComputers n°15, Cambridge),
formées de nombres de 4
chiffres,
établiesplutôt
en vue desapplications
industrielles.2)
Les tables de Fisher et Yates(1938)
formées de nombres de 2chiffres,
en vue desapplications
de lastatistique
àl’agriculture,
la bio-logie,
etc.3)
Les tables de Kendall etBabington Smith (Tract
forComputers n024 - 1938)
formées de nombres de 5 chiffres.4)
Tables de Burke Horton(U.S.A., 1949)
formées de nombres de 5 chiffres.5)
Tables de la"Rand Corporation" (U.S.A., 1955)
200 000 grou- pes de nombres de 5 chiffres.Si les tables de
Tippett
sont formées de nombres relevés dans les recensementsanglais,
et celles de Fisher et Yates à l’aide des 15ème à 19ème décimales d’une table delogarithmes, les
Tables de Kendallsont,
en
revanche,
obtenues par véritablestirages
au hasard. Une machinespéciale
était construite à cet effet: on fait tourner une roue sur
laquelle
sont ins-Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
13
crits les chiffres de 0 à
9;
unelampe
au néon illumine ledisque
à interval- lesirréguliers
et un observateur lit alors le chiffreplacé
en face d’un index.Mieux vaudrait
photographier
cenombre,
carl’expérience
a montré que cer- tains observateurs commettaientsystématiquement
des erreurs de lecture d’un chiffre pourl’autre;
mais on a pu éliminer ces observateurs àl’expérience .
On forme un nombre de la Table avec des chiffres tirés ainsi
indépen-
damment les uns des autres. Nombres de
Tippett,
de Yates ou deKendall,
cesnombres n’ont rien
d’ "aléatoire ",
cequi
est aléatoire c’est l’ordre danslequel
ils se trouventplacés
sur la Table(l’ordre
danslequel
on les a ob-tenus).
Comme lestirages
sontnombreux,
le hasard fait que certaines co- lonnes des Tables offrent des rencontresqu’on
croirait assez rares. Parexemple,
dans la dernière colonne du tableau XXIII deTippett,
on trouvesuccessivement :
Donc,
sur 10 nombres entre 0.000 et 9. 999pris
auhasard,
8 sont inférieursà 5.000. L’utilisation d’une telle Table donnera des
mécomptes. Aussi,
pourses propres
Tables,
Kendall a-t-ilindiqué
les zones dont il déconseillaitl’emploi
au lecteur travaillant sur unpetit
échantillon. Il est clair que pour des centaines ou des milliers de nombres se suivant sur lesTables,
le hasardne
peut
fournir depareilles
rencontres.Remarque - Pourquoi
n’utilise-t-on pas les annuairestéléphoniques
pour composer une tablede
nombres aléatoires ?Kendall a
pensé
effectivement à cette ressource; et ilindique qu’elle
a dû être écartée
(en 1938)
parce que les chiffres 5 et 9 entrent bienplus
ra-rement que les autres dans les numéros de
téléphone anglais (on peut
con- fondre à l’oreillefive
etnine,
ce serait là une des raisons de cephéno- mène ).
Emploi
de ces Tables - Soit unecargaison
de 3 . 42 5 sacs de sucre. On vautiliser la Table II de
Tippett (ci-jointe)
pour tirer au sort un échantillon de 15 de ces sacs. Onpart
del’angle supérieur gauche,
parexemple,
on litles nombres de 4 chiffres et on ne retient que ceux inférieurs à
3.426, jusqu’à
cequ’on
ait trouvé 15.1.254; 3.262;
0.126;2.372; 0.357 ; 2.510; 1.658; 1.319; 1.983; 0.330;
1.614;2.096;
0.511; 0.524; 3.311.Reste à mettre ces nombres dans l’ordre croissant :
0.126; 0.330; 0.357; 0.511; 0.524; 1.254; 1.319;
1.614;1.658; 1.983; 2.096;
2.372;
2.510;3.262;
3.311.Conclusion -
On arrêtera au passage etpèsera
les 15 sacs dont les numéros sont ces 15 nombres.Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
Tableau II
Nombres aléatoires de
Tippett
1254 2858 7358 4024 3684 8485 2617 5488 5443 4911 0922 7134
4798
1311 8701 22103262 2322
4112
9877 4776 4512 1746 25937809 0297 8956 2158 7780 0753 1252 7181 6862 4194 3596 5072 4473 3099 0729 4950 9179 3814 9153 2127 6745 9646 8105 3133 5317 0986 0633 6480 4834 8710 8829 8572 0126 4777 8034 9217 2128 2232 5039 8637 2372 7774 9446 7178 8403 3971 0899 5274 0357 5276 3999 0261 9255 5780 5728 0032 7855 9707 5259 4263 9878 4918 0987 9118 2510 ’4254 1543 0224 0112 6523 8667 4707 6639 1913 3120 9149 6145 5895 0726 3883 6769 1435 9107 4762 9902 3764 7388 2729 4527 8000 8648 3366 7945 4847 4317 9636 5699 9883 2456 0893 4132 6668 0799 6137 4160 1445 2887 0724 1294 8988 1527 1467 4506 2474 3590 5308 7640 7128 1023 2418 4645 0613 9846 4458 5666 7671 1184 2328 6686 3544 9828 9187 0506 6473 5356 8940 6503 0329 7899 8211 0852 8066 5706 1940 1658 4288 1856 5319 3512 8981 7468 3836 1319 1204 3344 8886 3846 6777 1700 0323 5030 4027 2077 9812 8645 3290 7191 6152 7866 2029 5156 2003 2940 0237 7670 2852 1983 8992 1017 7263 7699 4151 8132 7271 9944 0845 7468 3936 8002 0857 5784 4480 0330 9913 4990 7790 6932 0871 1988 9881 9903 7914 4138 6826 0230 1337 7413 8840 1614 7862 9500 4109 1037 2978 6075 0971 2096 1164 3788 6257 0632 0693 2263 5290 0511 0229 5951 6808 1409 7624 4903 4692
0524 4056 9140 6371 2099 8290 3611 6501
7381 7386 6568 1568 4160 0429 3488 3741 3311 3733 7882 6985 7874 7264 4587 9591 6874 2534 7485 9596 9086 2701 4967 1588 8987 3121 3628 0372 1059 6339 8973 4218 9205 2358 0393 3196 1612 8397 4390 0187 9749 7893 7076 9791 1530 8127 4474 1895 2183 2109 2874 5733 1567 7764 4939 9919 6926 3085 2079 3330 4432 9524 0327 9640 3373 3567 0371 5932 3923 7250 8578 5869 9771 5542 4715 5527
3763
3167 3679 4399 9353 5576 5474 0190 7274 6993 3920 7272 5761 6301 3558 6205 3012 6195 8461 2046Revue de Statistiaue Aonlinmpp 1961 - V,... 1 IY - "" 1
15
Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
2/
Lesondage systématique
Avec un peu de bon sens, on aurait
plutôt imaginé
de peser 15 sacsdont les rangs sont en
progression arithmétique,
parexemple,
de raison 228(car
3.425 = 228 x 15 +5) -
parexemple : 100;
100 +228;
100 +684;
etc.Première
question -
Est-ce bien unprocédé probabiliste ?
Nous verronsque
oui,
pourvu que le ler nombre de laprogression
soitdésigné
au hasard.Seconde
question -
Est-ce un bonprocédé ?
Celadépend.
Apriori
il estintéressant,
car les nombres aléatoirespeuvent être,
eux,répartis
defaçon
trèsirrégulière.
C’est ainsi que, sur les 15 nombres tirés ci-dessus dans la Table deTippett,
il ne s’en trouve aucun entre 524 et1.254, -
ni entre 2.510 et3.262 ;
aucontraire,
on a trouvé 511 et524;
1.614 et1.658;
1.893 et 2.096. Laprogression arithmétique
estrégulière.
Ceci serait surtout un
avantage
si les sacs sortaient du bateau dans l’ordre despoids
croissants(ou décroissants).
Avec un échantillonsystéma- tique
de 15 sacs, on serait assuré d’en avoir 5petits,
5 moyens, et 5 gros . Laprécision
dusondage
en serait certainement améliorée. S’ils sortent dansun ordre
quelconque
on nepeut
affirmerqu’il
en soit ainsi.En
revanche,
cetterégularité
serait certainement défectueuse si lespoids
des sacs(dans
l’ordre où ils seprésentent)
offraient des fluctuationspériodiques,
dont lapériode
soit voisine de 228 sacs ou d’une fraction de 228 sacs; suivant lepremier
sacretenu,
onpourrait
alors n’avoir que des gros sacs dansl’échantillon,
ou, aucontraire,
n’en avoir que despetits.
En
résumé,
laqualité
d’unsondage systématique dépend
de l’ordre danslequel
les unités desondage
sont numérotées. Si cet ordre est auhasard,
on démontre que le
sondage systématique
est tout à faitéquivalent
à unsondage
au hasard.3/
Lesondage
en grappesOn a
déjà
vu unexemple
de"grappe" :
lewagonnet
dutéléférique
étaitune
"grappe"
de morceaux de charbon. Autreexemple :
des bottes de con-serves
(jus
defruits)
sont livrées en caisses de12;
la caisse est une"grappe"
de 12
boîtes.
Problème - A -t-on
intérêt
àadopter
comme unité desondage
la grappe ou l’élémentcomposant
lagrappe ?
Pour lecharbon,
iln’y
avait pas de pro- blème. Mais pour les conserves, onpeut
hésiter entre la caisse et laboîte.
En
général,
si l’on veut vérifier laqualité
d’un wagon dejus
de fruitsen
prélevant
un échantillon de 12boîtes,
il serabeaucoup plus simple
de n’ouvrirqu’une
caisse et les 12boîtes
de cette caisse; mais il est évidentqu’on
a un échantillon meilleur enprélevant
12 boîtes auhasard,
dut-onouvrir pour cela 12 caisses différentes.
Il existe
cependant quelques
cas où c’est exactement le contraire.16
4/
Lesondage
stratifiéSupposons qu’une
usinereçoive
du charbon deplusieurs prix
et deplu-
sieurs fournisseurs distincts et
veuille
évaluer lepouvoir calorifique
de cecharbon. Il est clair
qu’on
a intérêt àprocéder
à despetits sondages sé-
parés
etindépendants
danschaque catégorie
de charbon livré parchaque
four-nisseur
(en prélevant
aubes.oin
des fractions de l’ensemble différentes suivant leprix
et lefournisseur);
et ceci bienqu’on
ne désire pasconnaître
les dif- férences entre les charbons des diversesorigines, simplement
parcequ’on
a le droit de penser que les livraisons d’un
prix
et d’un fournisseur donné sontplus homogènes
entre elles que si l’onmélange
lescatégories.
Chaque catégorie (même prix,
mêmefournisseur)
constitue cequ’on appelle
une strate.5/
Lesondage à plusieurs degrés
Revenons à notre wagon contenant des
caisses, chaque
caisse renfer-mant 12 articles. On va
appeler
les caisses :"unités
du lerdegré" -
lesarticles :
"unités
du 2èmedegré".
Tirer un échantillon de
caisses, puis
dans ces caisses un échantillon d’articles constitue untirage
à 2degrés (ler degré
=tirage
descaisses).
On
peut,
bienentendu,
faire lestirages
à 3degrés, 4 degrés,
...6)
Lesondage
àplusieurs phases
Il
s’agit
dequelque
chose de tout à fait différent(encore qu’il
existedes cas limites où la distinction est
difficile).
Revenons aux boîtes dejus
de fruits.
Supposons
que le contrôleporte,
d’unepart,
sur lepoids
brut(emballage compris),
d’autrepart,
sur laqualité
et lepoids
net. Le pre- mier contrôle se fait parsimple pesée
et on a intérêt à y consacrer ungrand échantillon;
le second contrôleentraîne
l’ouverture et laperte
deboîtes,
on le limite à un
petit
échantillon. Dans ces conditions lesondage
à 2pha-
ses consiste à tirer un
grand
échantillon de boîtes que l’onpèse, puis (parmi elles)
un"sous-échantillon"
de boîtes que l’on ouvre.7/ L’emploi
d’une formule d’estimation utilisant desrenseignements supplémentaires
.
Considérons,
parexemple,
lacargaison
de sacs de sucre dont il adéjà
étéquestion;
mais supposons que lepoids
dechaque
sac soitindiqué,
soit par une
étiquette,
soit sur un étatrécapitulatif
avec un numéro d’ordrereporté
sur le sac.On
connaît
ainsi que lepoids
total déclaré de lacargaison.
Mais ce
poids
déclaré n’est pas forcément exact; et s’il l’était audépart,
l’humidité a puvarier,
ou bien on a pu vider enpartie
les sacs encours de route.
On
procède
donc à lapesée
d’un échantillon de sacs au moment de laréception.
On va relever pour cet échantillon à la fois lepoids
déclaré etle
poids
actuel réel.Soit y, le
poids
déclaréet x,
lepoids
actuel réel du sacri i.
Onpeut
estimer le
poids
actuelréel L x
de lacargaison
entière par :On comparera cette formule à celle valable
quand
iln’y
a pas depoids
déclaré
Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
17
Dans
un cas, on aextrapolé simplement
par le nombre de sacs; dans l’autre on arecours,
pourl’extrapolation,
aupoids
déclaré.Une méthode
plus
savante consiste àporter
sur ungraphique
lespoints (x, y,)
des sacséchantillons,
àajuster
sur cespoints
une droite derégres-
sion et à estimer
(r. XI)
à l’aide de la formule derégression
de cette droite.CONCLUSION
Les
procédés probabilistes
dont ondispose
sont en somme assez minces .Il est nécessaire de les combiner avec habileté pour aboutir à des
plans
desondage pratiques,
à la fois suffisammentsimples
et suffisammentprécis .
Néanmoins on arrive vite à des situations
compliquées.
A titre
d’exemple,
donnonsquelques
indications sur la méthode de lapesée géométrique,
méthodeemployée
couramment pour évaluer surpied (et acheter)
une récolte de betteraves sucrières. Onconnaît
lasuperficie
A enhectares,
ares et centiares duchamp
dont on achète la récolte(voir
le ca-dastre) ;
on veut donc évaluer le rendement. Pour cela on évalue lepoids
moyen P d’une betterave et le nombre moyen N de betteraves par hectare.
La récolte est A P N .
N et P sont évalués par une
opération complexe :
Pour
N,
c’est unsondage
à 2degrés :
lerdegré;
échantillon delignes (les
betteraves sontplantées
enlignes);
2èmedegré :
un échantillon dechaînées (avec
unechaîne d’arpenteur
de 20mètres)
sur ceslignes.
Oncompte
les betteraves sur leschaînées-échantillons.
Pour
P,
c’est unsondage
à 3degrés :
1 er e t 2 èmedegrés = idem;
3ème
degré
= on détermine unpetit
échantillon de betteraves(par exemple,
1 sur
5)
parchatnée-échantillon.
Au total les formulesmathématiques
vala-bles seraient très
compliquées.
Cette
opération complexe
est aussi une sorte desondage
à 2phases;
la 1ère
phase
consistant àdésigner
etcompter
ungrand
échantillon de bet-teraves,
et la 2èmephase comportant
ladésignation
etl’arrachage
d’unsous-échantillon de ces betteraves.
L’opération
conduit finalement à arracher et peser une centaine de bet- teraves àl’hectare,
sur unchamp qui peut
encompter
40 ou 80 000 àl’hectare;
c’est unsondage
avec une fraction desondage
de l’ordre de 1 à 2 pour mille.Revue de Statistique Appliquée. 1961 - Vol. IX L- N 1
18 DEUXIÈME
PARTIEÉTUDE THÉORIQUE DES PRINCIPALES MÉTHODES D E SONDAGE
Quand
on traite desapplications
de lastatistique
àl’Industrie,
onadmet,
engénéral, qu’on
a affaire à un échantillon depièces
tirées auhasard
(d’un
univers infinimentgrand)
par destirages indépendants.
On nese
préoccupe guère
du processus parlequel
les éléments constituant l’échan- tillon ont étéobtenus;
carlorsque
ce processus n’est pasl’équivalent
à destirages
de boules dans une urne deBernoulli,
les formulesmathématiques qu’on emploie
couramment ne sontplus
valables.I - LE PROCESSUS DE SONDAGE AU HASARD ELEMENTAIRE
Les
tirages
d’échantillon ont lieu dans des ensembles d’éléments ennombre fini
(et
non pas des universinfinis);
de cefait,
les éléments(ou
unités de
sondage)
ne sont pas tirésindépendamment
les uns des autres.Soit i =
1, 2,
..., m, un numéro d’ordre(ou indice)
affecté à toutesles unités de
sondage
de l’ensemble - soit X un caractère étudiéprenant
lesvaleurs :
de moyenne
x = 03A3X1 m. Supposons qu’on
se propose d’estimer x à l’aide de :moyenne calculée sur un échantillon de n éléments tirés au hasard par la méthode
élémentaire,
maissans
remettre les boules dansl’urne; (la
lettreS
désigne
la sommation étendue àl’échantillon) :
cequ’on appelle
untirage
exhaustif.On sait que, dans le cas de
tirages
de Bernoulli(où
l’on remet la boule dans l’urneaprès chaque tirage)
on a(a
étantl’écart-type
desx,) :
Calculons ces deux
quantités
dans nos nouvelleshypothèses.
Ilvient(1)
(1)
Rappelons,
1 en effet, que l’espérance mathématiqueE( )
est un opérateur linéaire, 1 c’est-à-dire queE(A
+ B) =E(A)
+ E(B); etE(kA) =
kE(A).
Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
19
Pour calculer
V (X ),
on va donner une méthode de calculd’aspect
com-pliqué,
maisqui présente l’avantage
des’appliquer
à ungrand
nombre d’au-tres
problèmes.
Considérons des variables aléatoires
A 1; A 2"
1..., Am, égales
à 1 ou à 0.A, =
1 si l’unité i faitpartie
del’échantillon; A,
= 0 dans le cas contraire.On a :
puisque
lestirages
sont tels quechaque
unité ait mêmeprobabilité
d’êtretirée que les autres. Donc :
Nous aurons
besoin,
enoutre,
deECAIAJ)
pouri ~ j.
La
probabilité
queA lA j
soitégal
à 1 serait(2)2
si les ntirages
étaient
indépendants;
mais comme onprocède
partirages exhaustifs,
on a :Revenons au calcul de
V(X) :
Remarquons
queA2i = A, (0
ou1);
donc :Introduisons les 2
premiers
moments des x,Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
20
en les
combinant,
il vient :Portons dans
E(X2).
On constate que le terme enX2
se réduit à-X-2.
d’où
Ce résultat est satisfaisant pour
l’esprit,
car :1)
Si n =1,
il vient :V(X) = Cy2 (tirage
d’une seuleunité) 2)
Si n = m, il vient :V(X) =
0Quand l’échantillon grandit
aupoint
de recouvrir tout l’ensemblesondé,
il est clair que
X = x et,
parconséquent,
que X n’estplus aléatoire;
il est donc normal que sa variance soit nulle.3)
Si m estbeaucoup plus grand
que n, il vient :de sorte que le cas des
tirages
bernoulliens est unepremière approximation
du cas des
sondages
exhaustifs. Parexemple,
si m est de l’ordre du mil- lion et n de l’ordre de la centaine ou dumillier,
onpeut parfaitement
seplacer
dans le cas de Bernoulli.Quand
onprocède
commeBernoulli,
ons’expose à tirer
2 fois ouplus
la même
boule;
de sortequ’il
est clair que l’estimation X est moinsprécise
que si l’on
s’arrange
pouravoir,
à coupsûr,
n valeurs x, différentes dans l’échantillon. Estimation moinsprécise correspond
à varianceplus grande.
En pratique : si n = 1
on a(en
confondant m et m -1) :
on ne
peut plus
dire que le terme correctif(: = m - n m -1)
soitnégligeable.
Estimation de
x
à l’aide desondages
au hasard élémentaireOn
rappelle
que laprécision
d’une telle estimation secaractérise
par l’inverse de la variance :Revue de Statistique Appliquée. 1961 - Vol. IX - N 1
21
et
qu’on
compare 2 estimations différentes en formant lequotient
des inver-ses des variances
(quotient appelé
efficacité oueffici
En se
plaçant
dans le cas degrands échantillons,
où l’onpeut
admettreque :
suit une loi
normale,
proposons-nous d’estimer x avec une erreurrelative
de
2%,
parexemple, qui
n’ait que 5 chances sur 100d’être dépassée.
-
Compte
tenu de la loinormale,
ceci conduit à écrire :comme on ne
connaît
pas nix,
ni a, on utilisera leursestimations,
soit :ce
qui
conduitpratiquement
àceci
suppose que l’onait,
apriori,
une idée de l’ordre degrandeur
de s etde
X,
sinon cette formulepermettra
decorriger
l’effectif utilisé afin d’ob- tenir laprécision
cherchée.Dans le cas où l’on veut estimer la
fréquence
p des individusqui
pos- sèdent un caractèredonné,
par lafréquence
f observée dansl’échantillon, l’approximation
de la loi binomiale par la loinormale,
valable si n estgrand
et p nontrop petit,
parexemple
sinp(l - p)
>20,
on obtiendraitavec les mêmes
exigences,
la condition :soit
pratiquement :
qui
ne pourra être utilisée que si on connaît l’ordre degrandeur
de p.Si dans ce cas, on
s’imposait
une erreurabsolue
de0, 02
avec uneprobabilité 0,05
de n’être pasdépassée
dans l’estimation de p, on obtiendrait la conditionRevue de Statistique Appliquée. 1961 - Vol. IX - N 1