R EVUE DE STATISTIQUE APPLIQUÉE
P. T HIONET
Décisions à propos de sondages
Revue de statistique appliquée, tome 3, n
o4 (1955), p. 71-80
<
http://www.numdam.org/item?id=RSA_1955__3_4_71_0>
© Société française de statistique, 1955, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
DÉCISIONS A PROPOS DE SONDAGES
par
P. THIONET
Administrateur à l’Institut
National
de laStatistique
et des EtudesEconomiques Agrégé
deMathématiques
M. Thionet,
qui
professe à l’Ecoled’Application
de l’I.N.S.E.E. le cours de« Théorie et
pratique
dessondages »,
est un des raresspécialistes français
del’étude de ces
questions,
tant aupoint
de vue des recherches théoriques que de celui de la réalisation; domaine dans lequel il f aut concilier le souci de laprécision
à obtenir et la nécessité de tenircompte
duprix
de revient.Ce sont là deux
impératifs
presque inévitablement contradictoires.Dans
l’exposé ci-après, présenté
au séminaire de RechercheOpérationnelle
(1).M. Thionet a examiné la théorie des
enquêtes
par sondage, dupoint
de vue desdécisions à
prendre
par le statisticienplacé face
à cette double exigence.L’ensemble de ces décisions constitue le "Plan de
sondage".
Les décisionssont de deux ordres
(au moins) :
d’une
part
celles relatives à la structure de ceplan,
d’autre
part
celles concernant(pour
une structuredonnée)
le volume à donner à l’échantillon.Par
exemple,
le choix des strates, celui des unités desondage
relèvent desquestions
de structure Le choix des fractions desondage
dans telle ou telle stra- te relève desquestions
de volume.Il
n’y
aplus
de décision de structure dans les deux casextrêmes,
où il est décidé que le volume de l’échantillon sera nul(pas d’enquête
dutout),
ou bienqu’il
sera maximum(l’enquête
est, comme ondit,
exhautive oucomplète,
ouencore est un
recensement) .
En fonction de
quoi
sontprises
ces décisions ?Nous
n’ignorons
pasqu’il
existe des cas où l’onpourrait procéder
à une en-quête
parsondage
pour confirmer ou infirmer unehypothèse,
une théorie suscep- tibles d’avoird’importantes répercussions
financières .Par
exemple,
nous lisions récemment(2)
que des études récentes semblaient montrer que lesagriculteurs anglais
avaient tendance àgaspiller
les pommes de terre de semence, leprix
de revient moyen duquintal
de pommes de terre pour- rait,semble-t-il,
être réduit assez sensiblement si les semences étaient utili- séesplus parcimonieusement;
il en résulterait un moindre déficit de la balance descomptes
et une moindresurcharge
destransports
intérieurs.On voit
bien,
enpareil
cas, ce que l’économie de laGrande-Bretagne
a à ga- gner à une telleétude,
en admettant que lesentrepreneurs particuliers (quelque
cent
mille) qui produisent
des pommes de terre soient informés convenablement de ces résultats etprennent
correctement leurs décisions propres, enconséquen-
(1)
Séminaire de Recherche Opérationnelle de l’Institut de Statistique de l’Université de Paris. Exposé présenté le 8 Juin 1955.(2)
Etude à nous communiquée par le Dr YATES, de Rothamsted.ce - ce
qui
n’est pas du tout certain.Bref,
une étude comme celle-ci est une re- chercheopérationnelle typique,
mais à l’échelle d’une nation(et
en économie nonplanifiée).
Ce n’est d’ailleurs pas un pur
sondage;
c’est uneétude, qui comprend
en par- ticulier dessondages,
mais aussi, des calculs decomptabilité agricole
et desexpérimentations.
En tout cas onpeut
mettre en balance le coût(assuré)
de l’étude etle
gain (aléatoire)
à en attendre.Malheureusement nous n’avons
jamais
eu encore l’occasiond’organiser
uneenquête
parsondage
dont le but était aussi clairementexprimable
en unités moné- taires. Lesenquêtes
parsondage
sont actuellement destinées essentiellement à fournir desstatistiques,
c’est-à-dire des estimations de certainesgrandeurs, qu’on pourrait
autrement connaître en effectuant des recensements ou encore desenquêtes
exhaustives
(autrement
ditauprès
del’intégralité
d’une certainepopulation
quel’enquête
concerne,population
incluse comme on dit dans lechamp
del’enquête).
Ceci est d’ailleurs le c’as,
qu’il s’agisse d’enquêtes
officielles oud’enquêtes pri- vées,
destinées parl’exemple
à connaîtrequel "pourcentage"
dupublic exprime
telle
opinion
favorable àl’égard (disons)
d’une certaine marque de savon.L’enquête
parsondage apporte
certaines informations et riend’autre,
y com-pris
pour une étude de marché dont elle constituerapeut-être
la clé de voûte.En l’absence de ces
informations,
les décisions sontprises
tout demême,
mais lesrisques
d’erreur sontplus grands .
Il faut mettre enparallèle :
Absence des informations : aucun coût
d’enquête
Informations
partielles
: coût dusondage
Informations totales : coût d’une
enquête complète (recensement)
Et ce n’est pas une même personne
(ou
un mêmeorganisme) qui prend
les décisions etqui
effectuel’enquête :
les résultats dusondage
sont(généralement) publiés,
onignore qui
les utilisera etquel
usage en sera fait.Remarque : (juillet 1955)
Voici un autre
exemple
intéressant. On a choisi un échantillon de 5.000 Hol-landaises, qui
a été soumis à une série de mensurations. Ces données ont servi à la détermination de 14 tailles standard de vêtements de confection pour ungrand magasin
desPays-Bas, qui
économise de ce fait laplus grande partie
des fraisde
"retouchage"
tout en accroissant son chiffre de ventes . Ils’agit
donc d’une rechercheopérationnelle (sur
la coupe des vêtements deconfection), qui comprend
une
opération d’échantillonnage (laquelle
ne semble d’ailleurs pas avoir été menée suivant desprincipes
trèsorthodoxes).
Il estquestion
que la méthode soit étendue à l’ensemble des établissements de confection desPays-Bas;
il en résultera un bénéfice pour l’économienationale,
et sans doute aussi une crise grave pour la branche du vêtement sur mesure .Nous avons
l’impression qu’il
serait un peu abusif de mettre ce bénéfice - et cette crise - à l’actif de la seule méthode desondage employée .
Voici en fait le
problème
réelqui
se pose leplus
souvent au statisticien : On lui ouvre un créditdonné,
parexemple
de 5 millions defrancs; moyennant quoi
on lui demande de fournir les estimations les meilleurespossibles
sur un certainnombre de
points (estimations
faites sur unéchantillon,bien entendu). (a)
Parfois le
problème
estposé
en inversant les deux termesprécédents :
Ondemande de fournir des estimations avec une
précision
donnée(disons
unemarge
d’erreur de 2
%)
enprocédant
defaçon
àdépenser
le moinsd’argent possible (ce qui
revient souvent à dire : enopérant
avec leplus petit
échantillonpossible).
Si l’on
parvient
à définir alors deuxfonctions,
à savoir laprécision
f et lecoût g, on sera donc ramené à résoudre un
problème
d’extremum lié:(a)
Une personne dans l’auditoire a confirmé que tel était bien le problème qu’on posait le plus fréquemment aux organismes d’étude de marché.rendre f maximum pour g
donné,
ou rendre g maximum pour f
donné,
dans les deux cas écrire df +Xdg
= 0 .C’est comme cela que le
problème
esttraité, depuis
desannées,
dans toutela littérature sur les
sondages.
Nous verronsplus
loin cequ’il
faut en penser.PREMIÈRE
PARTIELA
THÉORIE CLASSIQUE
Pour commencer nous suivons donc les divers manuels existant actuellement:
de Yates,
Deming, Hansen-Hurwitz-Madow, Sukhatme,
Cochran; et les diverscours de
sondage professés
récemment. Voici comment onprocède.
1. -
LAPRÉCISION D’UN SONDAGE.
a)
On définit laprécision
dusondage
parrapport
à une variable xprivilégiée.
Presque toujours l’enquête
fournit simultanément des données concernant d’autres variables y. Parexemple
lesenquêteurs procèdent
à des"interviews",
au coursdesquelles
onremplit des "questionnaires" ;
àchaque question
duquestionnaire
(qui
encomprend
au moinsdix, peut-être
cent ou deuxcents) correspond
grossomodo une variable
étudiée.
On choisitparmi
celles-ci la variablepratiquement
laplus importante,
celle aveclaquelle
onprésume qu’un grand
nombre d’autres se-ront en corrélation
positive étroite .
Par
exemple,
pour unquestionnaire
concernant uneentreprise
industrielle oucommerciale,
le chiffre d’affairesjoue
un rôle essentiel; onprendra
xiégal
aumontant du chiffre d’affaires de
l’entreprise (i).
b)
On définit assez arbitrairement une mesure de laprécision :
On considèreun certain estimateur correct X du chiffre d’affaires total
E
xi àpartir
des donnéeséchantillon;
parexemple
si l’échantillon a été tiré au sort à la manière des boules d’une urne, on pourraprendre :
X=fSxi
: S =
symbolise
une sommation étendue à l’échantillon: f = fraction sondée
On
adopte
comme mesure de laprécision
dusondage
l’inverse de la variance de cet estimateur soit :1/ v (x)
Et ceci n’a de sens, bien
entendu,
que si X est une variable aléatoire connue, defaçon qu’on puisse expliciter l’expression
de V(X),
connaissant lafaçon
dontl’échantillon est tiré au sort et la forme même de l’estimateur X.
De
même,
tantqu’on
ne connait pas la manière dont l’échantillon estdésigné,
la notion d’estimateur correct n’a pas de sens, car "correct"
signifie
quel’espé-
rance
mathématique
de l’estimateur X n’est autre que laquantité
à estimer.Il. - LE
COUT D’UN SONDAGE.
On trouve dans les manuels des formules relativement
simplistes pour repré-
senter le
coût;
c’est cequ’on appelle
les "fonctions de coût" . Parexemple
onpeut
schématiser à l’extrême :Si l’on tire n, n, nh unités de
sondage
des strates N°1, 2, ..., h et si
le coût moyen par unité soumise àl’enquête
est c,c. ch , la
fonction de coût estC = c, n, +
c2 n2
+ , , , + ch nhA
l’opposé
onpeut multiplier
les conventions sur lescomposantes
ducoût.
Si l’on effectue un
sondage
à 2degrés,
le coûtcomprend :
- une
partie représentant
les frais pourtransporter
lesenquêteurs
d’uneunité
primaire
à l’autre(frais
detransport
+ heuresperdues),
- une
partie représentant
les fraisd’enquête
à l’extérieur de l’unitéprimaire
(frais
detransport
+ heuresperdues)
Les heures sont elles-mêmes
décomposées
en :temps
d’interviewtemps
morts ettemps
dedéplacement
à l’intérieur de l’unitéprimaire
etc ...
Chaque composante
du coût sera alors évaluéeempiriquement (d’après
lesdonnées concernant des
enquêtes antérieures,
parexemple).
111. - LA NOTION
DE PLAN DESONDAGE OPTIMUM.
On dira que le
plan
desondage
estoptimum :
-
lorsque,
pour un coûtdonné,
il conduit à l’estimation laplus précise;
- ou bien
lorsque,
pour uneprécision
donnée del’estimation,
il minimise le coût.Autrement dit : ou bien C = k
&
V minimumou bien C
minim um &
V = kDans le cas ou C et V
dépendent
deparamètres X fL
V , on est conduit à unproblème classique
d’extremumlié,
et à unsystème d’équations
Ouvrons une
parenthèse
sur la nature desparamètres qui
interviennent ici :1) 03BB , 03BC , 03BD
sont desparamètres
de "volume "qui
achèvent de définir leplan
de
sondage (par exemple
fractions desondage).
Lesystème d’équations (1)
nepermet
donc de définir unoptimum qu’à
l’intérieur d’unplan
desondage
donné.Par
exemple
on se donne ledécoupage
de lapopulation
en unités desondage,
classées en diverses strates. On se pose seulement la
question :
combien faut-ilprélever
d’unités échantillon dechaque
strate ?2)
La variance V(X)
renferme desparamètres
liés à la structure de la popu- lationsondée;
tels que :- les
écarts-types ,
à l’intérieur dechaque
strate, des variablesconsidérées,
- les coefficients de corrélation entre la variable x et une variable auxiliaire y
(sur laquelle
on aurait des informationssupplémentaires) .
3)
Le coût C renferme desparamètres divers,
tels que :coût moyen d’un
sondage
parquestionnaire,
dans une strate,prix
du km de chemin defer;
prix
moyen de la nuitd’hôtel;
nombre moyen de km à
parcourir
pour visiter une communeéchantillon.
Les
paramètres
detypes
2 et 3figurent implicitement
dans lesystème
d’é-quations (1),
donc dans les solutions trouvéespour 03BB 03BC 03BD ;
on ne pourraexpliciter
03BB
tA- V
que si l’onpossède déjà
des évaluation desparamètres
detypes
2 et3,
c’est-à-dire certains coûts unitaires, certains écartstypes,
etc...Choix
entreplusieurs
structures deplans
desondage.
Lorsqu’on
a à choisir, à coûtégal ,
entre diversplans
desondage,
il est bienclair que l’on retient celui
qui
donne laplus petite
variance.Par
exemple,
une certaine stratification des unités desondage permettra-t-
elle de réduire la variance de 10% ?
On aura intérêt à tirer l’échantillon à l’in- térieur des strates enquestion;
mais il est bien rarequ’une stratification,
unperfectionnement
nesupposent
pas un accroissement du coût depréparation
ou dedépouillement ,
dont il faut aussi tenircompte .
Comme on étudie
toujours plusieurs
variables xsimultanément,
telle stratifi- cation réduiraV(X1),
sera insensible sur V(X2),
accroîtra V(X3),
etc... et il faudra parexemple
sacrifier la variablex3
à x2jugée plus importante.
Enfin,
on n’a aucun moyen de trouver ainsi leplan
desondage
leplus précis parmi
tous ceux(de
structuresdifférentes) qui
demeurentpossibles
à coût cons-tant. Si l’on tient encore
compte
du fait que,lorsque l’enquête
estterminée,
ilest souvent
possible
d’en tirer des estimations de varianceplus
ou moins faible(grâce
à des "informationssupplémentaires")
on voit que leproblème
n’est passimple,
encorequ’il
s’énonce toutsimplement :
obtenir le maximum d’informa- tions(*)
pour un coût donné .*
Nous
allons,
dans une deuxièmepartie, indiquer quelques aménagements qu’il
convient(à
notreavis) d’apporter
actuellement à la théorieclassique.
DEUXIÈME
PARTIEAMÉNAGEMENTS DIVERS QU’IL
CONVIENTD’APPORTER
A LA
THÉORIE CLASSIQUE
1. - COUT MOYEN
OUCOUT MARGINAL ?
La théorie
classique présente
unaspect
assezprimaire -
elle n’est manifes- tement pas due à un économiste . Le statisticienqui prend
sa décision en fonctionde son seul coût total
(ou
coûtmoyen)
sembleignorer
le coûtmarginal.
Historiquement,
lepremier problème "classique"
doit avoir étéposé
parNeyman (Journ. Royal
Stat. Soc.1934)
defaçon
encoreplus simple, -
en ne dis-tinguant
pas un coût moyen différent pourchaque
strate . - On voulaitsimplement répartir
au mieux(problème
de l’"optimum allocation")
un échantillon d’ effectif total donné(n,
+ n2 + ... + nh =constante)
entre des strates(où
les unités étaient tirées au sort à lafaçon
des boules de l’urne deBernoulli).
En tous cas on suppose
toujours
quechaque problème
desondage
estindépen-
dant des autres; on
n’imagine jamais qu’on
confiel’enquête
à unorganisme spé- cialisé, ayant
des fraisgénéraux qu’il peut
avoir intérêt àalléger
en travaillantparfois
"àperte";
c’est-à-direqu’à
la fonction de coût des frais directs il convientd’ajouter
une fraction des fraisgénéraux -
mais une fractionélastique plutôt qu’une quote-part.
Que dire d’ailleurs du cas(qui
n’est pas tellementrare)
de 2enquêtes jumelées,
les frais dedéplacement
parexemple
servant à la fois aux2
enquêtes ?
Que devient alors la fonction de coût ?Si l’on passe du cas de
l’organisme spécialisé
à celui du service de statisti- que effectuant entre autres travaux desenquêtes
parsondage (à
titreaccessoire),
il devient encore
plus
difficile deparler
de "fonctioh de coût"(c’est
ce que nousreverrons à propos de
l’INSEE).
En tous les cas il est clair que c’est lecoût marginal (autrement
dit les fraisajoutés correspondant
à unsondage
deplus,
tâche minime à côté de la masse des autrestravaux) qui
devrait intervenir dans la théorie et non pas le coût total.Il. - CARACTÈRE ALÉATOIRE
DUCOÛT.
a - La théorie
développée
dans les manuels ne tient pascompte
du fait que, dans lesproblèmes pratiques,
le coût est un élément aléatoire.(*)Ce
qui, pour moi, est synonyme de : réduire le plus possible la variance de l’estima- teur X.Signalons
que Birnbaum etSirken (0),
dans un article de1950,
ont utilisédéjà
un coût aléatoireC,
avec, parexemple :
E
(C) =
359 dollarscr (C) = 8, 0
dollars.Il est certain que, si C est
aléatoire,
il convient de réviser la théorie. Parexemple,
au lieu de C = k onimposera
E (C) = k ,
pourV (X) min;
et c’est bien le
plus simple;
mais il y aura des cas ou il seraplus indiqué d’impo-
ser, par
exemple :
C ( k(avec
unequasi certitude).
Autrement dit : E
(C)
+ 3 cr(C)
= kb - Nous avons ainsi le moyen de traiter des
problèmes
nouveaux que la théorieclassique
laissait de côté . En voici unexemple
trèssimple :
Soit 2 strates
comprenant
m etm’unités,
dont on tire n et n’respectivement
à lafaçon
de Bernoulli. La théorieclassique
donneV
(X)
=m2 03C32 n’ + m’ 2--. :
avec l’estimateur X = mX
+ m’X’
C = c n + c’ n’ = co
: (X
etX’
étant les moyennes échantillons dans cha- questrate).
et
l’optimum
Or ce calcul ne tient pas
compte
du fait que(tirage
deBernoulli)
certainesunités de
sondage
sontprobablement
tiréesplusieurs fois,
tout en n’étant visitéesqu’une
seule fois parl’enquêteur.
Ainsic n + c’ n’
=Co
est le
plafond
ducoût,
non le coût lui-même(probablement
assez inférieur àc ).
Il est facile de voir que l’aléatoire C a pour
espérance mathématique :
On
peut
doncchanger
deproblème
et lier V(n,n’)
par une condition dutype
E (C) =
constantequi
conduit à un"optimum"
différent duprécédent.
III. - INDICATIONS SUR
UNEEXPÉRIENCE DE RECHERCHE PRATIQUE
DE
FONCTIONS
DECOÛT.
a - En France, pour
l’INSEE,
ces dernièresannées,
nous avonsessayé
deposer
logiquement
notreproblème
du choix duplan
desenquêtes
parsondage.
Pour cela il a été
procédé
non seulement à des calculs devariance,
mais aussi à des essais de détermination de nos fonctions de coût. La nature aléatoire du coûtnous a paru évidente. ..
A vrai
dire,
il fautdistinguer (pour
un office destatistique donné)
lesenquê-
tes de
type
courant,qui
se ressemblentbeaucoup
et pourlesquelles
onpeut
faire facilement uneprévision
assezprécise
du coût d’exécution par cetoffice,
et desenquêtes
detype occasionnel,pour lesquelles
on nepeut guère
faire despronostics
sérieux.(~)
Voir J. Am. Stat. Assoc. March 1950, p. 98-110, ou : Etude théorique n° 6 de l’INSEE, p. 137.Nous avions fait une série
d’enquêtes
assezcomparables
entre elles en1950
et 1951; etnous en avons tiré des
prévisions
de coût pour lessondages
des années1952,
1953 et début1954, sondages comparables
auxprécédents.
Laquestion
estétudiée en détail dans un article
qui
vaparaître
incessamment dans la Revue de l’Institut International deStatistique .
Il fallait d’abord tenir
compte
des variations incessantes des tarifs de chemin de fer et des taux de remboursement des frais de mission.En même
temps
nous devionsprocéder
à desaménagements
de nosplans d’enquête,
pour lesajuster
aux créditsdisponibles
pourchaque enquête
et ausside
façon
à nousrapprocher
del’emploi optimum
descrédits,
dont nous avionsconstaté être assez
éloignés
en 1950-51.3.b - Il est arrivé tout d’abord
ceci,
que la théorieclassique
nes’appliquait
pas du tout. Le coût du
sondage
secomposait
d’éléments absolumentdistincts,tels
que :
- frais de mission de
déplacement,
- frais de timbres
poste,
- traitements et salaires des
enquêteurs fonctionnaires,
- vacations des
enquêteurs
extérieurs .Ces frais sont
imputés
sur des créditsdistincts;
il estimpossible pratique-
ment de virer des crédits d’un
poste
à l’autre duBudget,
en vertu desrègles comptables
de l’administrationfrançaise, règles qui (vous
lesavez)
sontparticu-
lièrement odieuses.
Au lieu d’avoir une condition
unique
liant V(03BB 03BC 03BD),
à savoirc(03BB 03BC 03BD) = k
nous avions donc
plusieurs
conditions que nousappellerons
lesgoulots d’étrangle-
ment
Cl (X 03BC 03BD) = k1 (frais
de mission etdéplacement)
C2 (03BB 03BC 03BD) = k2 (enquêteurs extérieurs)
Et nous
avions,
en outre, des conditionsélastiques,
dutype :
C3 (03BB 03BC 03BD) k3 (heures
defonctionnaires)
qui
sont à vrai dire biencommodes, puisqu’elles
laissent une certainesouplesse
au
dispositif .
Voici à
quoi correspondait
parexemple
une telleinégalité.
Nouspouvions
accroître laprécision
del’échantillonnage,
réduire lespertes
detemps
des en-quêteurs,
etc... par certains "travaux en salle" avantenquête,
ou encore amé-liorer les résultats par certaines
complications
des travauxmécanographiques
dedépouillement.
Nouspouvions
encoreaugmenter
la fraction desondage
dans cer-taines
agglomérations, sièges
des directionsrégionales
et parconséquent
réduirela
part
des erreursd’échantillonnage correspondant
à certainesgrandes villes,
sans
dépenser
pour autant ni frais de mission oudéplacement
ni crédits pour en-quêteurs extérieurs.
Néanmoins,
nous nepouvions
pas aller très loin dans cettevoie,car
les son-dages
seraient vite entrés en concurrence avec les autres travaux en salle de l’INSEE et on nous auraitimposé
une limitek3
à ne pasdépasser.
3.c - Il est arrivé en outre que les
types
de fonction decoût,
en usage à l’é-tranger
etindiqués
dans lesmanuels,
nes’appliquèrent
pas du tout en France.Considérons par
exemple
les frais dedéplacement, exprimés
en kilomètresSNCF de 3° classe
(pour
éliminer les hausses detarif)
et assimilables par consé-quent
à la somme destrajets
parcourus par lesenquêteurs. D’après
une formule"classique",
cette distance seraitproportionnelle
à la racine carrée du nombre depoints d’enquête.
Quant à nous, il n’en était rien.Après
avoir éliminé les siè-ges des Directions
Régionales
et leurbanlieue,
nous avons constaté une certaineproportionnalité
avec le nombre depoints d’enquête
lui-même . Cequi
tendrait àfaire penser que, si l’on
augmente
lespoints d’enquête,
l’Administration met enmouvement un nombre croissant
d’enquêteurs.
En revanche on aconstaté,
d’uneenquête
àl’autre,
un abaissement lent mais trèsrégulier
du taux deproportion-
nalité(toutes
choseségales d’ailleurs),
comme si l’Administration faisait desprogrès
dans l’artd’organiser
des circuits et de faire visiter auxenquêteurs plus
de communes-échantillon pour le même nombre de kilomètres parcourus.Pour les frais de mission,
nous
avons euégalement
dessurprises (et
cettefois une tendance durable à leur
accroissement).
Mais nous n’insisterons pas da-vantage.
En
résumé,
il n’est pasquestion
de seplacer
exactement àl’optimum (en
ad-mettant
qu’on
sache le définir avecrigueur),
mais seulement de s’enapprocher,
en
espérant qu’on
negagnerait plus guère
deprécision
à aller au-delà.IV. -
LEPROBLÈME DE LA STRUCTURE OPTIMUM.
Nous venons de nous occuper surtout du terme C. Il y aurait aussi
beaucoup
àdire sur le terme V. La théorie
classique
nepermet
pas, nous l’avons vu, de re-chercher le
plan
desondage présentant
la structureoptimum .
A vrai dire nous sommes rarement maître
d’agir
dans un tel sens. Mais ilest des cas où l’action est
possible
et il est essentield’e,n prendre
conscience.Reprenons
parexemple
leproblème
de la"répartition optimum" (de
l’échan-tillon ou des
crédits)
entre deux strates. Ceproblème
suppose les 2 strates don- nées. Dans bien des cas, on resteparfaitement
libre de leschoisir,
autrement dit de se donner la frontièrequi
lesséparera.
Poursimplifier
onpeut
supposer que les éléments de lapopulation
sontdisposés
sur un axe(ce qui
supposedéjà
unchoix) :
on reste encore libre de choisir lepoint
limite entre les 2 strates .On
peut
donc chercher à se donner les strates conduisant à laplus
hautepré-
cision, ou au
plus
faiblecoût;
et cesproblèmes
sont du domaine de la recherche laplus
actuelle .De 1950 à 1952 Tore Dalenius leur a consacré 3 mémoires dans le
Journal
des Actuaires scandinaves(1);
et il est bien loin d’avoirépuisé
laquestion.
M. DESABIE a étendu
(en 1954)
le dernier résultat deDALENIUS,
relatif à 2 stratesseulement,
à unepopulation
de 2 k stratesLes frontières entre les k
couples
de strates sontfixes,
mais les frontièresentre les 2 strates de
chaque couple
sont mobiles; on les détermine defaçon
àréaliser
l’optimum,
c’est-à-dire laplus
faiblevariance,
les strates bis étant"enquêtées
à 100%" .
Pratiquement
les unités desondage
sont des établissements industriels etcommerciaux, chaque couple
de strates est un groupe d’activité(Travail
des mé-taux,
bâtiment,
constructionélectrique, etc...),
les strates bis sont formées des"gros"
établissements .Nous-mêmes avons eu à nous occuper
(1954,
Directiongénérale
desImpôts)
du
problème symétrique
duprécédent : obtenir,
pourchaque
grouped’activité,
des résultats
ayant
uneprécision déterminée, moyennant
un échantillon de volume convenable. Comment choisir la frontière entrepetits
etgrands
établissements pour réduire leplus possible
cet échantillon ? On avait besoin de résultats con-crets pour
plusieurs
centaines de cas; cequi
nous a conduit à une méthode trèsapprochée,
mais facile àappliquer.
Ce
problème
nous a conduits d’ailleurs àquelques
réflexions surlesquelles
nous allons terminer .
(1)
Tore Dalenius : The problem of optimum Stratification - Skandinavisk Aktuarietidskrift 1950, p. 203-213; 1951, p. 133-148(avec Margaret Gurney),
p. 61-70, 1952 -TROISIÈME
PARTIENous avions trouvé finalement que l’échantillon à
retenir,
pourobtenir,
avec coefficient de variation de 1%
l’estimation du chiffre d’affaires total dechaque
groupe d’activité
(y compris
les strates bis retenues entotalité) représentait 25%
de la
population
au total.En revanche en
acceptant
uneprécision moindre,
à savoir un coefficient de variation de 2%,
on trouvait au total un échantillonreprésentant
17%
de la popu- lation.Alors nous retrouvions un
problème
de décision àprendre,
dutype
de ceuxque nous avions voulu éviter au début du
présent exposé.
Valait-il mieux retenir 25%,
ou descendrejusqu’à
17% ?
Notre sentimentpersonnel
était que "lejeu
n’en valait pas la chandelle" . Il faut dire que nous avions alors le
point
de vue du technicien. Unsondage
est difficile àorganiser
matériellement et à faire exécuter correctement par lesagents
del’administration;
il ne faut pas croire que l’échan- tillon de 25%
se substituant à uneenquête
à 100%
va réduire des3/4
notrecharge
de travail; seulsquelques
ateliersmécanographiques (chiffrement, perfo- ration)
auront leur tâche réduite des3/4;
mais parexemple
on vacompliquer beaucoup
la tâche desagents chargés
de la collecte desrenseignements
dans desdocuments
fiscaux,
tâchequi
se limitaitjusqu’alors
à la transmission au centremécanographique
des liasses de déclarations des redevables des T.C.A.Pratiquement
les échantillons de 17%
ou 25% représenteront
pour l’admi- nistration des difficultés presqueégales.
Autant faire un effort et obtenir un coef- ficient de variation de 1%.
Ma réaction ne fut pas celle de notre
Inspecteur
des Finances,lequel
avait manifestement raison en nous demandant dedistinguer
entre :- les groupes d’activité de
l’Industrie,
pourlesquels
il est intéressant de chercher uneprécision
élevée parce que les données(chiffres
d’affairesfiscaux)
sont relativement bonnes;
- les groupes d’activité du commerce pour
lesquels
laprécision
était inutile, parce que les déclarations fiscales étaient notoirement inexactes.Nous souhaitons
qu’il
existe unjour prochain
une théoriemathématique qui puisse
nousguider
mieux dans le choix entre diversplans d’enquête,
donnant des résultats deplus
enplus précis
pour un coût deplus
enplus
élevé . Notrerègle empirique actuelle,
c’estd’essayer
d’avoir un coefficient de variation du même ordre degrandeur
que laprécision
des données .Si l’on admet que x est connu à K
% près
sanserreur
systématique,
les carrés du coefficient de va-riation V et de K
% s’ajoutent (1)lorsqu’on parle
de laprécision
aveclaquelle
est connue l’estimation X. Ensomme on a intérêt à ne pas
gaspiller
ses moyens à réduireV2 ,
tantqu’il
n’est paspossible
de réduireK2 (en
améliorant les données debase).
Dans le cas
présent,
ils’agissait
au contraired’erreurs
systématiques,
mais dontl’importance
esttrès mal connue et très variable d’un redevable à l’au- tre. Si l’on
corrige
les déclarations relatives aux Commerces alimentaires parexemple,
en lesmultipliant
toutes par 2 par lapensée,
onpeut parler
à nouveau d’erreurs accidentelles(et considérables).
REMARQUES.
I - La
précision
des donnéesjoue
même un rôle nonnégligeable
dans la com-paraison
entreenquête
parsondage
etenquête
exhaustive(recensement) .
Il
n’y
a pas decomparaison possible
entre laqualité
desrenseignements qu’on
recueille parsondage
avec desenquêteurs professionnels
bieninstruits,
(1)
Ne vaudrait-il pas mieux comparer K et 2 V, donc considérerK2 + 4 V2 ? ,
voire K2 + 9 V2 ?bien
contrôlés,
et celle desrenseignements
collectés par une arméehétérogène d’agents
recenseurs occasionnels.II -
L’exposé qui précède
est loin d’avoir fait le tour de tous lesproblèmes
de décisions concernant les
sondages.
Parexemple
unproblème important (que
Dalenius a affronté récemment en
Suède)
est de décider s’il vaut mieuxorganiser
un service
d’enquête
parsondage
sur la based’enquêteurs
peunombreux, emplo- yés
àtemps complet
et très mobiles ou au contraire sur la base de correspon- dants travaillant àtemps partiel
auvoisinage
de leur domicile . Bien entendu toutorganisme
desondage
a eu unjour
àprendre
cettedécision,
mais l’afait,guidé
par des considérations administratives ou humaines; il n’est pas sans intérêt
d’essayer
de poser rationnellement leproblème,
en fonction du coût et de lapré-
cision des résultats des
enquêtes .
BIBLIOGRAPHIE GÉNÉRALE
THIONET P. - La théorie des
sondages -
Institut National de laStatistique -
Paris
1953.
THIONET P. -
Application
dessondages
auxenquêtes statistiques -
Institut Natio- nal de laStatistique -
Paris 1953.YATES. - Méthodes de
sondages
pour recensements etenquêtes - (Traduction française) - Dunod,
Paris 1951.DEMING. - Some
theory
ofsampling - Wiley, New-York,
1950.HANSEN,
HURWIT Z and MADOW. -Sample Survey
methods andtheory - (2 vol.) Wiley, New-York,
1953.COCHRAN . -