R EVUE DE STATISTIQUE APPLIQUÉE
J. D ESABIE
Méthodes empiriques d’echantillonnage
Revue de statistique appliquée, tome 11, n
o1 (1963), p. 5-24
<http://www.numdam.org/item?id=RSA_1963__11_1_5_0>
© Société française de statistique, 1963, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
5
MÉTHODES EMPIRIQUES D’ECHANTILLONNAGE
J, DESABIE
Administrateur
àl’Institut National de la Statistique
et
des Études Économiques
I - SONDAGES PAR
"CHOIX RAISONNE"
Parmi les
procédés qui
viennent àl’esprit lorsqu’on
se propose de re-présenter
un ensemble par un échantillon des unitésqui
leconstituent,
leplus naturel,
et debeaucoup,
consiste à construire un échantillonqui
ressembleà la
population
dont il estissu, qui
ensoit,
au sens courant du mot : re-présentatif.
La
désignation
de l’échantillon résultera d’un choix"raisonné"
d’où lenom de la méthode
("puposive Sampling"
enanglais(*».
Plusieurs
techniques procèdent
de cette idée. Nousparlerons
de deuxd’entre
elles, d’importance
fortinégale :
la méthode desunités-types
et laméthode des
quota.
I.I - La méthodes des
unités-types
I.I.I -
Principe
Cette méthode repose sur l’idée que les différentes variables attachées à un individu n’étant pas
indépendantes
entreelles,
un individuqui
se situedans la moyenne de la
population
pour un certain nombre de caractères im-portants
seraégalement
peu différent de la moyenne de lapopulation
en cequi
concerne les autres caractères.La méthode consiste donc à diviser la
population
en un certain nombre de sous-ensembles relativementhomogènes
et àreprésenter
chacun de cessous-ensembles par une
"unité-type".
Le choix des
unités-types peut
êtreplus
ou moinssystématisé :
On
peut :
(*) Nous préférons parler de
"sondages
par choix raisonné" plutôt que de"sondages
re-présentatifs",
comme il est dit quelquefois, l’adjectif représentatif étantemployé
avec plusieurs sens différents en théorie dessondages.
Il est d’ailleurs particulièrementmalheureux d’opposer
"représentatif"
à "aléatoire" puisqu’en toute rigueur, la dési- gnation par tirage au sort est la seule qui assure le caractère représentatif de l’échan- tillon.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
6
a)
se fier entièrement aujugement
du statisticien ou d’unexpert consulté,
oub)
retenir un certain nombre de variablesimportantes,
calculerles valeurs moyennes par unité pour chacune de ces variables et choisir une
unité pour
laquelle
les valeurs de la variable s’écartent peu des valeurs moyennes. Cette deuxième méthode n’est pas nécessairement la meilleure. IlElle
comporte,
elleaussi,
une fortepart
d’arbitraire : choix des variablescontrôlées, importance
relative attachée à chacune d’entreelles ;
eneffet,
il se
peut
fort bienqu’aucune
unité ne satisfasse aux conditions énoncéesplus haut ;
il faudra alors rechercher l’unité laplus "proche"
dupoint
moyen -ce
qui
est un très délicatproblème statistique.
c)
enpratique,
onadoptera
une méthode intermédiaire.Les unités d’une
sous-population homogène
étantgénéralement
peu nom- breuses(cf. conclusion),
on établira une fiche pour chacuned’elles ;
surcette
fiche,
on notera les valeurs des variables essentielles etquelques
autresrenseignements ; l’unité-type
sera choisie de manière assezempirique.
Exemple :
les"cantons-type"
de l’I. N. S. E. E.En
1942,
onprocéda -
sous la Direction de l’I. N. S. E. E. - à un décou- page de la France en 600régions agricoles
environ.Dans
chaque région agricole - supposée homogène
par définition - futdésigné
un"canton-type".
L’idée étaitintéressante, puisqu’elle permettait
d’établir les
statistiques agricoles
courantes pour l’ensemble de la France -et
parrégion,
tout en réduisant le coût de collecte dans lerapport
de 5 à 1(il
y a en tout environ 3 000 cantons enFrance).
Malheureusement cette
expérience n’ayant
pas étépoussée
àfond,
iln’est pas
possible
d’en tirer toutl’enseignement qu’elle
aurait pucomporter .
Il semble toutefois que lesexperts agricoles régionaux
aient assezfréquem-
ment
cédé’à
la tentationd’"accentuer
lesconstrastes" -
endésignant
dans unerégion
boisée un canton encoreplus boisé ;
dans unerégion
viticole un can-ton encore
plus
viticole.1.1.2 -
Avantages
et inconvénients de la méthodeLa méthode des
unités-type comporte
unepart
d’arbitraire que rien nesaurait
éliminer ;
le choix d’uneunité-type parfaite impliquerait
une connais-sance
parfaite
de lapopulation
et d’ailleurs l’existence d’uneunité-type
par- faite n’est pas du tout certaine : .4 uncanton-type peut
être trèsreprésenta-
tif de sa
région
en cequi
concerne larépartition
du sol entre les cultures et être tout-à-fait aberrant en cequi
concerne les modes de faire-valoir pra-tiqués,
lesengrais utilisés ;
croire le contraire serait admettre un déter-minisme
desplus grossiers.
La méthode doit donc être
employée
avec une extrêmeprudence ou
par des personnesayant
une connaissanceapprofondie
de lapopulation étudiée ;
le choix des
unités-type
doit êtrerepensé
avantchaque
étude.Ces réserves étant
faites,
la méthode desunités-type
estsusceptible
de rendre de
grands
serviceslorsque,
nedisposant
pas de moyens matérielsimportants,
on désire néanmoins obtenir desrenseignements
pour des sous- groupes relativementpetits
de lapopulation.
La méthodeoffre,
eneffet,
desRevue de Statistique Appliquée. 1963 - Vol. XI - N* I
7
avantages
certainslorsque
lesextrapolations
doivent être réalisées à par- tir d’un échantillon de très faibleeffectif(’-).
L’exemple
donnéplus
haut est, à cetégard,
très instructif. Les sta-tistiques agricoles
doivent êtrepubliées
avec un détailgéographique
assezgrand -
ceci est une nécessité absolue. Il Il n’est pas douteux que pour cha-cune des 600
régions agricoles,
les estimations fournies par lecanton-type
ont moins de chance de s’écarter fortement de la vérité que les estimations
qui
auraient pu être fournies par un échantillon aléatoire d’un seul canton.Il n’en est pas moins vrai d’ailleurs
qu’un
échantillon aléatoire de 600 cantons(un
parrégion)
donnerait sans doute pour l’ensemble de la France de meilleures estimations que l’échantillon de 600cantons-types.
Cesdeux
propositions
ne sont nullementcontradictoires,
cequi
mérite d’être méditécomme illustration de la loi des
grands nombres,
fondement dessondages probabilistes : "l’erreur d’échantillonnage
d’unsondage probabiliste
tend verszéro
lorsqu’augmente
la taille del’échantillon" - propriété
que lessondages
aléatoires ne
partagent
avec aucun autre.1. 2 - La méthodes des
"quota".
1.2.1 -
Principe
de la méthodeLa méthode des
quota
repose sur laproposition
suivante :"les
diffé- rents caractères que l’onpeut
observer dans unepopulation
n’étant pas in-dépendants
entre eux, un échantillonidentique
à lapopulation
danslaquelle
il est
prélevé
en cequi
concerne la distributionstatistique
de certains carac-tères
importants
seraégalement
peu différent de lapopulation,
en cequi
concerne la distribution
statistique
des caractèresqui
ne sont pas contrô-lés".
La méthode
implique
donc une bonne connaissancestatistique
de la po-pulation
étudié -préalable
àl’enquête.
IlOn subdivise la
population
enclasses,
lesstatistiques
font connaîtrel’effectif de chacune d’entre elles. Ces
effectifs, multipliés
par le taux desondage,
donnent"les quota" qui
devront êtrerespectés ;
ainsi - prenonsl’exemple
d’une étude de lapopulation
des marseillaisâgés
de 16 ans ouplus -
le Recensement de 1954 donne larépartition
de cettepopulation
par sexe, classed’âge
et milieu social(d’après
laprofession
du chef de mé-nage).
L’effectif dechaque
classe - en milliers - est donné dans le tableau cidessous :En
supposant
que l’on désire un échantillon de 500 personnes environ(taux
desondage
f =1 /1 000),
le tableau ci-dessus donneégalement
les"quo-
ta"
dechaque
classe.Ces
quota
sontimposés
auxenquêteurs -
ainsi unenquêteur ayant
reçu 50questionnaires
àremplir
recevra le tableau de contrôle donnéci-dessous .
Le choix des individus-échantillons est - par ailleurs - laissé à l’ini- tiative desenquêteurs auxquels
onimpose cependans parfois quelques
res-trictions
supplémentaires : dispersion géographique,
interdiction d’interro-(*) Elle peut en particulier servir à désigner une ville pour y
procéder
à un essai dontles résultats seront extrapolés à une région.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
8
ger des personnes se connaissant entre elles ou connaissant
l’enquêteur ;
ouencore
d’interroger
lespassants
dans la rue.1.2112 - Mise en oeuvre des
principes
1.2.2.1 - Choix des variables de contrôle.
Pour mériter d’être retenue comme
"contrôle",
une variablequantita-
tive ou
qualitative
doitprésenter
simultanément lesavantages
suivants :1/
Sa distributionstatistique
dans lapopulation
est bien connue. Il2/
Son observation par lesenquêteurs
sur le terrain est facile et necomporte
pas de sérieuxrisques
d’erreurs.3/
Une corrélation étroite existe entre la variable contrôlée et la(ou les) variables(s)
étudiée(s).
Les deux
premières
conditions doivent êtreremplies
pourqu’il
soitpossible d’appliquer
laméthode ;
la troisième condition doit êtreremplie
pour que la méthode soitefficece.
Les contrôles
proposés
enexemple présentent
simultanément ces troisqualités -
il n’en serait pas de même du revenu parexemple (lequel
ne rem-plit
pas les conditions 1 et2) ;
ni descatégories
socialesA, B, C,
D - fré-(*) D’après la catégorie socio-professionnelle du chef de ménage.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
9
quemment
utilisées par les maisons d’études demarché,
mais dont on voitmal comment elles sont
définies,
et surlesquelles
il n’existe aucune statis-tique
officielle. IlCes conditions étant extrêmement
restrictives,
le choix des variables de contrôle est étroitement limité.Exemple :
pour un échantillon de personnes :Région -
habitat(d’après
lapopulation
de la commune derésidence).
IlSexe - age -
catégorie socio-professionnelle(*).
Pour un échantillon de
ménages :
Région -
habitat -catégorie socio-professionnelle
du chefde
ménage -
effectif duménage.
Pour un échantillon de
points
de vente :Région - catégorie
de commune - nature de l’activité-statutjuridique -
nombre de salariés. 0Ces mêmes caractères sont utilisés dans les
sondages
aléatoires stra- tifiés. IlBien
entendu,
la liste que nous avons donnée n’est en rien limitative . Pour certainesenquêtes,
il pourra être trèsimportant
dedistinguer
les mé-nages vivant dans un
logement neuf,
ou vivant enmeublé ; -
ou dont la femme travaille au dehors - on introduira comme contrôle les caractères correspon- dants. ..Presque toujours plusieurs
caractères sont simultanément retenus commecontrôles ;
on fera en sorte que les différents caractères contrôlés soient aussiindépendants
quepossible.
Ainsi,
on ne retiendra pas simultanément lacatégorie socio-profession- (t’
nelle individuelle et la
catégorie socio-professionnellt
du chef deménage -
ilexiste,
eneffet,
une étroite corrélation entre ces deux caractères.1.2.2.2 - Contrôles
marginaux
ou croisésOn se
reportera
utilement aux études sur la stratification.a - Contrôles
marginaux
ouindépendants
On contrôle la distribution de chacune des variables
séparément. Ainsi,
pour en revenir à notre
exemple
d’une étude sur lapopulation
marseillaiseadulte,
on contrôle les distributions suivant le sexe,l’âge,
le milieu socialindépendamment
les unes des autres. Ces distributions constituent les marges de la distribution à trois dimensions par sexe,âge
et milieu social.(*) Pour certaines enquêtes, on retiendra la catégorie socio-professionnelle individuelle de la personne interrogée, déterminée par la profession qu’elle exerce. Dans d’autres enquêtes, on retiendra la
catégorie
socio-professionnelle du chef de ménage. Dans le pre- mier cas, une femme au foyer sera classée inactive ; dans le second cas, elle sera classée d’après la profession de son mari.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
10 b - Contrôles
croisés
Pour
reprendre
le mêmeexemple,
il aurait été concevable de contrô- ler la distribution de l’échantillon suivant ces trois variablesconjointement.
On
fixerait,
parexemple,
lequota
des femmesâgées
de 25 à 44 ansapparte-
nant au milieu
"ouvrier".
Il serait nécessaire de
disposer
pour la ville de Marseille du tableaustatistique
à trois entrées : sexe xâge
x CSC2 x 4 x 5 = 40 cases
40 contrôles ou
quota
seraient doncimposés - chaque enquêteur
recevrait untableau de contrôle de la forme :
Cette solution -
théoriquement
meilleure - seraitimpraticable
souscette forme : elle
exigerait
notamment desstatistiques trop
détailléesgéné-
ralement non
disponibles
etimposerait
auxenquêteurs
des contrôlestrop
strictsqu’ils respecteraient
mal - voirplus
loin : p. 21 .En
pratique,
il seraitpossible
de retenir une solution intermédaire encontrôlant la distribution par sexe et
âge
d’unepart,
par sexe et milieu so-cial d’autre
part.
En notation
symbolique
S x(A
+C SC ) .
1.2.2.3 - Echantillons à
plusieurs degrés
Pour exposer le
principe
de laméthode,
nous avons volontairement choisil’exemple particulièrement simple
d’une étudeportant
sur une seule localité.En
pratique,
il n’en estgénéralement
pasainsi ;
le domaine d’étudesera la France entière ou une
région
etcomportera
de nombreuses locali- tésd’importance
trèsinégale.
En
pratique (et
ceci seraitégalement
vrai de la méthodealéatoire),
onprocède généralement
à unsondage
à deuxdegrés.
Ondésigne
un échantil-lon de
localités ;
dans leslocalités-échantillon,
un échantillon de personnes , deménages,
depoints
de vente,d’exploitations agricoles.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
11
Le choix des localités - échantillon est d’une
importance
considérable , Onrépartit
les 38 000 communes du territoirefrançais
en un certain nombre de"Strates",
une stratecomprenant
toutes les communes de mêmecatégorie appartenant
à une mêmerégion.
La
catégorie
de commune est définie par le nombre d’habitantsqui
y ont été recensés - voirci-dessous ; (les
communes situées dans la banlieue d’unegrande
ville constituant avec celle-ci uneagglomération
traitée commeune
unité).
Ainsi - en
adoptant
les classificationsI.N.S.E.E.(*)
onpourrait
dis-tinguer distinguer
dans chacune des huitgrandes régions sondages.
- les communes rurales
(population municipale agglomérée
auchef-lieu inférieure à 2 000
habitants)
- les
petites
villes : 2 à 10 000 habitants- les villes ou
agglomérations
de : 10 à 50 000 habitants- les villes ou
agglomérations
de : 50 à 100 000 habitantsdéfinissant ainsi 8 4 = 32
strates,
dans chacunedesquelles
ondésignerait
un échantillon à deux
degrés.
Chacune des 25
agglomérations
deplus
de 100 000 habitants serait in-corporée
d’office à l’échantillon etpourrait
donc être considérée comme cons-tituant une strate à elle seule. Il
Poussons un peu
plus
loin pour faireapparaltre
certainsproblèmes
in- téressants.Reprenons l’exemple
d’unsondage
sur lapopulation
adulte :(16
ans etplus)
mais étendu à l’ensemble de lapopulation française ;
le taux de
sondage adopté
seraplus
faible : f = 1 parexemple.
Dans le Midi méditerranéen :
région composée
desdépartements
sui-vants :
Hautes-Alpes, Basses-Alpes, Alpes-Maritimes, Var, Bouches-du-Rhône"
Vaucluse, Gard, Drôme, Ardècge, Hérault, Aude, Pyrénées-Orientales.
Les
agglomérations
deToulon, Marseille,
Nicequi comptent
chacuneplus
de 1000 000 habitants seront toutes trois retenues dans l’échantillon - lesquota
par sexe,âge,
milieu social seront calculés pour chacune d’elles - iln’y
a pas de difficultésspéciales. L’exemple
donnéplus
haut - pour Mar- seille -apparaît
maintenant comme unfragment
d’un ensemble. Pour obte-nir les
quota
de la ville deMarseille,
il suffit de diviser par 5 les nombres du tableau de la page 8 , les tableaux de contrôle remis auxenquêteurs
n’étant d’ailleurs pas modifiés.
Considérons maintenant la strate des villes ou
agglomérations
de 50 à100 000 habitants : il y en a
sept :
Aix-en-Provence, Avignon, Cannes, Nîmes, Montpellier, Béziers,
Per-pignan.
(*) Et en les simplifiant un peu.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
12
L’effectif de l’échantillon
qui
doitreprésenter
cessept
villes ouagglo-
mérations est
égal
au nombre de personnes de 16 ans ouplus
recensées dansces
sept
villes ouagglomérations multiplié
par le taux desondage 1
5 000 , soitapproximativement
80. Mais comment doit-on contrôler cet échantillon ? c’est ici que les difficultés commencent.En
effet, l’enquête
n’aura pas lieu dans chacune dessept villes,
maisseulement dans une,
deux, peut-être
trois d’entre elles - disons deux pour fixer les idées - les deux villes échantillonpourront
êtrechoisies( *)
ou dé-signées
par le sort. Poursimplifier,
nous admettronsqu’elles
sont tiréesau
sort,
en accordant à chacuned’elles,
une chance de sortieproportion-
nelle au nombre de personnes
âgées
de 16 ans ouplus qui l’habitent.
Il est alors correct de
répartir également
l’échantillon total entre les deux villes-échantillon - il y aura donc un échantillon de 40 personnes à dé-signer
dans chacune des deux villes-échantillon - nous supposerons que le sort adésigné
Cannes etMontpellier.
Comment établir les
quota
par sexe,âge,
milieu social ?1 ère méthode - On établit la
répartition
pour chacun des trois caractères de contrôlepour l’ensemble
dessept
villes réunies - chacun des échantillons de 40 étantréparti proportionnellement
à cetterépartition générale.
Ainsisi ,
au
total,
lessept
villescomptent
110 000 personnes(âgées
de 16 ans etplus) appartenant
au milieuouvrier,
dans chacune des deux villes-échantillon lequota
sera fixé pour ce groupe à :2 ème méthode - Les
quota
sont déterminésséparément
pour chacune des deux villes-échantillonproportionnellement
aux effectifs recensés dans cha-cune d’elles.
Ainsi, si 1
de lapopulation
adulteappartient
au milieu ouvrier 5à
Montpellier et 1 à
Cannes - lequota
des ouvriers sera1
x 40 àMontpel-
6 5
lier ; 1 X 40 à
b Cannes.Les deux méthodes ne conduisent pas à des résultats très différents en
ce
qui
concernent le sexe etl’âge ;
mais la différencepeut
ne pas être né-gligeable
en cequi
concerne le milieu social dont larépartition
varie assezfortement d’une ville à
l’autre,
mêmelorsqu’il s’agit
des villes d’une mêmestrate",
àpriori
pastrop
différentes les unes des autes.Chacune des deux méthodes
présente
desavantages
et desinconvénients ;
(*) Le choix s’apparentera alors beaucoup à la
désignation d’"unités-type".
Toutefois, on tiendra largement compte de la facilité d’accès.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
13
la seconde
méthode, d’application plus commode(*), s’éloigne
moins que lapremière
des conditions dusondage probabiliste -
mais nous nedisposons
pas
d’expérience permettant
d’assurerqu’elle
estpréférable. Naturellement,
on
imagine
facilement une méthode intermédiaire entre les méthodes 1 et 2 . On remarquera que même dans unegrande
ville constituant une strate à elleseule,
leproblème
se pose au niveau duquartier.
En
effet,
il y aurait 102 personnes àinterroger
àMarseille ;
le tra-vail
pourrait
fort bien êtreréparti
entre deuxenquêteurs
separtageant
laville par moitié.
Or,
il n’est paspossible
enpratique
d’établir desquota
différents(** )
pour chacune des deux moitiés de laville ;
de sorte que si l’onimpose
aux deuxenquêteurs
les mêmesquota,
chacune des deux moitiés se-ra
représentée
par un échantillon dont les contrôles sont valables pour l’en- semble de la ville et pour l’ensemble seulement.Ces difficultés se
poseraient
de manièreparticulièrement aigüe
en cequi
concerne les strates constituées par des communes rurales ou despetites
villes - les données
statistiques
faisanttoujours
défaut au niveau de la com- mune ou de la ville - il n’est donc paspossible d’appliquer
la méthode nu-méro 2. Certains
organismes - l’E.T.M.A.R.
enparticulier - procèdent
par
tirage
au sort à l’intérieur des communes rurales échantillon.1.2.2.4 - Considérations diverses sur la mise en oeuvre de la méthode des
quota
La méthode des
quota
estempirique.
Il
est,
pour cetteraison,
très difficile de la décrire en détail.Les conditions
optima d’application
de la méthode varient fortement enfonction de
l’implantation
du réseaud’enquêteurs.
1 /
Unepremière
distinction très nette doit être notamment entre :- les
organismes qui
utilisent un réseaud’enquêteurs
fixes - tra-vaillant au
voisinage
de leur domicile -l’implantation
du réseaud’enquêteurs impose
enpratique
le choix des localités-échantillon. Lesquota
seront éta-blis
séparément
pourchaque localité(***).
En notation
symbolique,
les contrôlesprennent
la forme :(Région
XCatégorie
decommune)
X(Sexe
+âge
+ milieusocial).
- les
organismes qui
utilisent desenquêteurs
itinérantspartant
de Paris
(ou
dequelques grandes villes)
et dontchaque enquêteur
couvre unelarge
fraction du territoire.(*) Il peut être difficile pour
l’enquêteur
opérant dans une ville de remplir le quota d’une classe relativement plus rare dans cette ville que dans la"Strate".
On remarquera que la méthode n° 1 favorise les individus aberrants(appartenant
à une classe peu repré-sentée dans la ville où ils résident) et défavorisent ceux qui se trouvent dans la situa- tion contraire.
(* *) Plus exactement on ne disposera généralement pas de statistiques permettant de le faire
en toute rigueur.
(***) Chaque
enquêteur
opérant, en principe, dans une seule localité, il est nécessaire d’éta- blir des quota pour chaque localité-échantillon.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
14
Les
enquêteurs opèrent généralement
enéquipe
de 4 ou 6dirigés
parun(e) moniteur(trice).
Il est alorspossible
d’établir desquota
pour une ré-gion
entière -ainsi,
pourreprendre l’exemple
donnéplus haut,
onimposera
à
l’équipe d’enquêteurs
le nombred’enquêtes
à réaliser sur le midi médi- terranéen. On luiimposera également
larépartition
desenquêtes
entre leslocalités :
102 à Marseille... Il 40 à
Montpellier...
40 à Cannes ... 0
par
ailleurs,
lesquota
par sexe,âge,
milieu social seront établis pour l’en- semble de larégion :
En notation
symbolique,
les contrôlesprennent
la forme :Région
X(Catégorie
de commune + sexe +âge
+ milieusocial).
Ce
type d’organisation - plus
coûteux(les
frais dedéplacements
sonttrès
élevés) -
laisse une trèsgrande
initiative au chefd’équipe ;
laqualité
de l’échantillon
dépendra
dans unelarge
mesure de lui. oDu
point
de vue de laqualité
del’échantillon,
nous ne pouvons accor- der nettement lapréférence
à l’un des deuxtypes d’organisation ;
le deu-xième est toutefois
plus souple
et laisse une liberté de manoeuvreplus grande,
1
- soit auresponsable
duplant
desondage :
s’il choisit de fixer desquota
par localité - cequ’il peut faire ;
- soit au chef de
l’équipe d’enquêteurs
en cascontraire.,
cequi
semble
préférable.
2 /
Nous avons vu par ailleurs que ladésignation
de l’échantillon se fai- sait en deuxtemps :
-
premier temps : désignation
delocalités-échantillon,
- deuxième
temps : désignation
d’individus échantillon dans les lo- calités échantillon.A chacun des deux
temps,
onpeut
utiliser le mode dedésignation
par choix àdessein,
le mode dedésignation
partirage
au sort. Il y a doncquatre
modes de
désignation possible :
Les modes de
désignation 1,
2 et 3 sont en fait utilisésparfois
concur-remment par le même
organisme - ainsi,
à notreconnaissance, l’E. T. M. A. R.
utilise les modes de
désignation
1 et 2 pour lescatégories urbaines,
et lemode de
désignation
3 pour les communes rurales.Revue de Statistique Appliquie. 1963 - Vol. XI - N 1
15
Le mode de
désignation
n° 4 doit évidemment être mis àpart puisqu’il s’agit
dutirage
aléatoire.3/
Bienentendu,
il estpossible d’adopter
des taux desondage
variablessuivant les
catégories d’individus.
IlAinsi,
dans uneenquête
surl’épargne,
onprendra
un taux desondage plus
élevé dans les classessupérieures.
Il Pour obtenir des résultats d’en-semble,
onadoptera
audépouillement
des coefficients depondération
inversesdes taux de
sondage.
4/ Il
est bond’ajouter
aux contrôlesstatistiques quelques
conditionssupplémentaires
que l’onimposera
auxenquêteurs :
sur ladispersion géo- graphique
desenquêtes,
sur les conditions de recrutement des personnes in-terrogées (ceci
est fondamental comme on le verraplus loin).
Sur le lieu de réalisation de l’interview(interdiction d’opérer
dans la rue, ou sur le lieude travail par
exemple)(*)
ets’agissant d’enquêteurs
fixes : interdiction de revenirtrop
souventinterroger
les mêmes personnes.Des
précautions
de cette nature sont certainement - bienqu’entièrement empiriques - beaucoup plus
efficaces que des raffinements sur la définition desquota. Lorsqu’on emploie
une méthodeempirique,
il faut êtreempirique jusqu’au
bout.1.2.3 -
Critique
de la méthode 1.2.3.1. -Avantages
a)
La méthode nerequiert
pas l’existence d’une"base
desondage"
énumérant sans omission ni
répétition
les individus constituant lapopulation.
Il
s’agit
là d’unavantage
tout à fait décisifqui impose l’emploi
de laméthode des
quota
dans denombreux
cas.b - Economie et
rapidité
Les
sondages
parquota
sont nettement moins coûteux que lessondages probabilistes.
Ceci sans mêmeparler
du coût de la constitution de la base desondage.
L’enquêteur
a un rendement environ deux foisplus
élevélorsqu’on
luipermet
de choisir les individus échantillon quelorsqu’on
luiimpose
de tra-vailler sur une liste d’adresses.
On
peut
estimer en grosqu’un sondage
aléatoire coûte en France 50%
de
plus qu’un sondage
parquota identique
par ailleurs.c -
Adaptation
aux échantillons de faibleseffectifs
La méthode
probabiliste
repose sur la loi desgrands
nombres.Lorsque
l’échantillon est - par nécessité -
petit,
la méthode desquota
estpréférable
à la méthode
aléatoire(* *) .
(*) On
pourra d’ailleurs imposer auxenquêteurs
un itinéraire comme dans la méthode"haphazard".
(**) Si toutefois on stratifie l’univers avant tirage au sort, la méthode aléatoire
reprend
l’avantage.Revue de Statistique Appliquie. 1963 - Vol. XI - N’ 1
16
d -
Adaptation
auxenquêtes comportant
de s érieuses diffi- cultés d’observationCeci est - à notre avis - le deuxième
avantage
essentiel de la méthode desquota.
Lorsque
lequestionnaire comporte
desquestions
trèsdélicates,
les er-reurs d’observation
peuvent l’emporter
et debeaucoup
sur les erreurs d’échan-tillonnage.
Peut-être seront-elles moindres sur des individus choisis parl’enquêteur.
Par
ailleurs,
le nombre élevé des refus tend alors à fairepartielle-
ment(.) perdre
à la méthode aléatoire sesavantages.
0I.2.3.2 - Inconvénients
a - Le défaut fondamental de la méthode est
qu’elle
reposesur une
pétition
deprincipe
A savoir que la distribution des variables de contrôle a,
b,
c ... dé-termine la distribution de la variable étudiée y. Il
Rien ne
permet
d’affirmer la véritégénérale
de ceprincipe
détermi-niste - l’on n’est
jamais
certain apriori
que les contrôles choisis assurent effectivement le caractèrereprésentatif
del’échantillon, compte
tenu de l’ob-jet
del’étude.
Pourprendre
unexemple
volontairementcaricatural,
il est certain quel’enquêteur opérant
à Marseillepeut parfaitement respecter
lesquota qui
lui sontimposés
tout en se contentantd’interroger
les personnesqui
attendent auxportes
des cinémas.Bien
entendu,
unsabotage
aussicatastrophique
serait facile à déceler et à éviter. Il n’en rest pas moins que leprincipe
surlequel
repose la mé- thode n’est pas fondé en théorie et ne se suffit pas à lui-même.A
posteriori,
enrevanche,
on pourra setranquilliser
si l’échantillon fournit avec une exactitude suffisante la distribution d’une variable non con-trôlée mais dont la distribution est connue par
ailleurs(*").
Nous venons de donner un
exemple
évidemmentcatastrophique,
nousn’y
reviendrons pas ;
signalons quelques risques
d’erreurs de même nature bien que moinsgrossières.
IlLes échantillons
désignés
parquota comprendront
à la campagne beau- couptrop
defoyers
situés àproximité
des voies de communication.En
général,
ilscomprendront trop
de personnes actives - connues -ayant
des relations -(voir
page22).
Un
danger
assezgrand
est le suivant - lesenquêteurs(ses)
travaillent(*) Partiellement mais non totalement comme on le
prétend
souvent à tort.(**)
Il nes’agira cependant
que d’uneprésomption
en faveur du caractère représentatif del’échantillon - pour en revenir à
l’exemple
donné plus haut la répartition de l’échan-tillon par état matrimonial ou niveau d’instruction pourra être à peu près satisfai-
sante. L’échantillon n’en sera pas moins très mauvais, surtout si l’on procède à une
étude sur les loisirs.
Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
17
tantôt sur
quota ;
tantôt sur listes - ils’agit généralement
alors de listesfournies par
l’entreprise
cliente del’organisme d’enquêtes.
Exemple :
liste d’abonnés - ou liste de personnesayant
fait livrer telobjet
à domicile -l’enquêteur(se) expérimenté
conserve ces listesqui
com-portent
d’utilesrenseignements
sur les personnesqui
yfigurent
et est tentéd’y puiser
à l’occasion desenquêtes
parquota.
Cecipeut
être très grave . Eneffet,
les personnesqui figurent
sur une de ces listes ont évidemmentquelque
chose en commun : toutes lisent lemagazine
x, ou font de laphoto
en couleurs. On va évidemment à une
catastrophe
sil’objet
de l’étude est lalecture,
laphoto
ou une activitécomplémentaire
ou concurrente de celles-là . Cesexemples
illustrentl’importance
touteparticulière
desprécautions
énumérées ci-dessus : alors que des
quota
très détaillés et très étudiés ne sont d’aucune efficacité pour éviter de telsdangers.
Aucontraire,
des con-trôles
trop rigides peuvent
conduire lesenquêteurs
à se procurer des listes pour trouver les individusprésentant
lescaractéristiques
recherchées :exemple :
homme de 45 à 64 ansappartenant
au milieuemployé
et résidantdans telle localité - et nous venons de voir le
danger
des listes.b - Difficulté d’obtenir des contrôles corrects
Les contrôles
imposés
àl’enquêteur
conduiront celui-ci à déformer l’échantillon si le recensement àpartir duquel
ont été calculés lesquota :
1/
est erroné2/
n’estplus
àjour
3/
est réalisé suivant desprincipes
de classification différents de ceuxadoptés
par lesenquêteurs.
Les deux
premiers points
sont évidents - le troisième estplus
délicat -éclairons-le par un
exemple :
sil’enquêteur
au cours dusondage
classe"ouvriers"
des individusqui
au recensement ont été classés"employés",
ilen résultera une
sous-représentation
desemployés (au
sens durecensement),
une
sur-représentation
des ouvriers(au
sens durecensement).
On le verra facilement sur un
exemple
fictif.Le recensement donne : 100 000 ouvriers 50 000
employés
d’où les
quota
20 pour les ouvriers - 10 pour lesemployés.
Au sens où l’entendent les
enquêteurs,
il y a : 110000ouvriers(*) (dont
20 serontinterrogés)
40000
employés (dont
10 serontinterrogés).
On remarquera que tout le mal
provient
de ce quel’enquêteur
neparle
pas le même
langage
que le serviceayant
assuré le recensement - peu im-(*) 10 000 personnes classées
"employés"
au recensement seraient classées "ouvriers" par l’enquêteur.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1
18
porte
de savoirqui
setrompe,
tout irait bien si par extraordinairel’enquê-
teur et le recensement commettaient les mêmes
erreurs(*).
Cette
critique
est moins grave que laprécédente ;
il n’en reste pas moins que l’on doit choisir comme contrôles des caractères faciles à obser- ver et pourlesquels
il existe de bonnesstatistiques
Ilc - La méthode des
quota
nepermet
pas d’évaluer lapré-
cision des estimations
Il est
impossible
de connaître les chancesqu’avait chaque
individud’ap- partenir
à l’échantillon(pour beaucoup d’individus,
ces chances sont sansdoute
nulles).
Dans cesconditions,
il estimpossible
de se fonder sur le cal-cul des
probabilités
pour affirmer parexemple : "qu’il
y a 95 chances sur100 pour que l’estimation soit
approchée
à moins de 10%".
En
effet,
la variabilité de l’estimation est inconnue et l’on n’estja-
mais sûr que l’estimation ne soit pas affectée d’une erreur
systématique.
Les
"calculs d’erreur"
réalisés par les utilisateurs de la méthode desquota
sont donc dénués de fondement - il y a d’ailleurs lieu de penserqu’ils
tendent à surestimer la
précision
des résultats. IlLa méthode des
quota
nepeut invoquer
d’autre autorité que celle del’expérience,
cequi
n’est pasnégligeable ;
un énoncélégitime
serait le sui- vant :"sur
dessujets qui
semblent être voisins et enemployant
des méthodesidentiques,
on aconstaté, lorsque
desrecoupements
étaientpossibles,
que l’on obtenait engénral
des résultatsapprochés
à moins de 10%".
d - Le contrôle des
enquêteurs
est difficileLorsqu’une enquêteur
travaille sur listesd’adresses,
il est facile de vé- rifierqu’il
se conforme àc’elles-ci ;
il estbeaucoup plus
difficile de contrô- ler dans le cadre d’uneenquête
parquota
la manière dontl’enquêteur
choi-sit les personnes
qu’il interroge - beaucoup d’organismes exigent
desenquê-
teurs
qu’ils
notent le nom et l’adresse des personnesinterrogées,
cequi
estune sage
précaution.
De toutemanière,
l’initiative laissée auxenquêteurs
dans le choix des personnes à
interroger
est une cause de variabilité nonnégligeable.
1.2.4 - Etude
expérimentale
de la méthode desquota
Les
sondages
parquota
sontl’objet
decritiques
violentes des théori-ciens ;
parailleurs,
leurimportance pratique
est considérable et ils sem-blent donner très
fréquemment
des résultats satisfaisants - de cefait,
ils méritent une étude attentive. IlUne
expérience
très intéressante a été réalisée enAngleterre
par la division des etudestechniques
de la"London
School ofEconomics"(**).
Cette
expérience
avait pourobjet
non seulement de comparer les ré- sultats dessondages
parquota
aux résultats dessondages
aléatoires(ou
des(*) Pour définir avec précision un contrôle correct, disons que les
enquêteurs,
s’ils re-commençaient
le recensement, devraient retrouver les chiffres qui ont servi de base aucalcul des quota.
(**)
Pour des résultats détaillés, voir J.R.S.S. - série A - volume CXVI - partie IV 1953.Revue de Statistique Appliquée. 1963 - Vol. XI - N’ 1