R EVUE DE STATISTIQUE APPLIQUÉE
E. M ORICE
De quelques difficultés, pour les praticiens d’utiliser la documentation statistique
Revue de statistique appliquée, tome 15, n
o1 (1967), p. 71-81
<
http://www.numdam.org/item?id=RSA_1967__15_1_71_0>
© Société française de statistique, 1967, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti-
lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im-
pression systématique est constitutive d’une infraction pénale. Toute copie ou im-
pression de ce fichier doit contenir la présente mention de copyright.
71
DE QUELQUES DIFFICULTÉS, POUR LES PRATICIENS
D’UTILISER LA DOCUMENTATION STATISTIQUE
E. MORICE
Il y a
quelque vingt
années deuxprofesseurs
avaient étéchargés ,
à l’Institut de
Statistique
de l’Université deParis,
l’un d’unenseignement
des méthodes
statistiques
élémentaires(c’était
l’auteur de ceslignes),
l’autre d’un
enseignement
destatistique mathématique. Ayant
par ailleursune
occupation principale,
ils se rencontraient rarement, chacun ne con- naissant le cours de l’autre que par le contenu du programmequi
avaitété
préalablement fixé,
les coursrédigés
n’étant pas encorepubliés.
Vint le moment où un
tirage
ronéoté des deux cours futdisponible : je
constatai alors que nous utilisionsquelquefois
uneterminologie
et dessymboles
différents :j’en parlai
à moncollègue
et lui demandai s’il n’estimait pas utiled’homogénéiser
notreterminologie
et nos notations.Ce n’était certes pas chose difficile à
réaliser,
enprincipe,
carnous aurions pu aisément nous mettre
d’accord,
mais il y avait maintenant l’obstacle créé par les coursécrits,
utilisés par les étudiants suivant les cours oraux : la modification de l’un aurait dûlogiquement
entra3nerla correction de l’autre.
L’affaire en resta
là,
chacun se contentantd’indiquer l’emploi
pos- sible d’autres termes ou d’autressymboles
que ceuxqu’il
utilisait nor-malement.
D’ailleurs,
disait moncollègue,
un cours est destiné à être suivirégulièrement :
dès l’instant que termes etsymboles
ont étépréa-
lablement définis et que l’on continue à les
employer,
conformément à leurdéfinition,
peuimporte
le choixqui
a été fait. Deplus,
les étudiantsqui poursuivront
leurs études enstatistique,
auront à étudier d’autres auteursfrançais
etétrangers,
utilisantpeut-être
d’autres notations : il est bonqu’ils
sachent dès maintenantqu’ils
auront nécessairement à faireun effort
d’adaptation
et que faireappel
sur tel ou telpoint particulier
àl’ouvrage
de M. X nepeut
pas se réduire àappliquer
sanscomprendre
la formule N° Y de la page N° Z.Visant des
étudiants,
etcompte
tenu de laquasi impossibilité
denormaliser,
sur leplan international,
et même sur leplan national,
tousles
symboles
nécessaires àl’enseignement
et à la recherchestatistique
ce
point
de vuepeut
se défendre.Mais le
développement
del’emploi
des méthodesstatistiques
danstous les domaines
techniques, l’emploi,
par des techniciensqui
ne sontpas
toujours
desspécialistes
de l’étudestatistique,
detechniques
co-difiées de manière
systématique
oud’abaques
donnant parsimple
lecturela
réponse
à unequestion précise,
nécessitent que toutesprécautions
soient
prises
pour éviter des erreursd’interprétation qui,
sans con-séquence pratique
dans bien des cas,risquent
d’être graves dans certainscas
particuliers (interprétation
des résultats depetits échantillons).
A cet
égard
lespoints
suivants semblent mériter d’êtrepris
par- ticulièrement enconsidération ; notion
devariance,
fractiles(ou quantiles) ,
Revue de Statistique Appliquée, 1967 - Vol. XV - N’ 1
distribution cumulative
(ou
fonction derépartition)
et intervalles de con-fiance
(dans
le cas de variablesdiscrètes).
1 - NOTION DE VARIANCE
Pour le
probabiliste,
iln’y
a pas dedifficulté,
la variance d’une variable aléatoire X ou moment centré d’ordre 2 est définie comme l’es--pérance mathématique (ou
valeurmoyenne)
des carrés des écarts des valeurs de cette variable à sonespérance mathématique (ou
valeur mo-yenne)
la sommation étant étendue à tout le domaine de variation de X
Il
s’agit
d’unconcept théorique
défini àpartir
d’une loi deproba-
bilité et pour
lequel
on utilisegénéralement
l’un dessymboles 03B42 ou 03BC2.
Le statisticien doit relier ce
concept
formel à la réalitégénéralement représentée
par un nombre fini n d’observations constituant un échantil- lon d’unepopulation généralement finie, d’effectif
N à l’instant où l’ons’y intéresse,
mais que l’on considère leplus
souvent commereprésen-
tative d’une
population
P non finieengendrée
par le mêmemécanisme , opérant
dans les mêmesconditions,
ce mécanisme étant considéré commegénérateur
d’une certaine loi deprobabilité.
Ainsi par
exemple
un calculateurélectronique, programmé
pourproduire
des chiffres au hasard(loi
deprobabilité
pi =1/10,
i = 0,1...
9), produit
unepopulation
non finie de chiffres - s’il continue à fonctionner - dont une table constitue unepopulation
finie d’effectifN,
danslaquelle
on pourraprélever
des échantillons d’effectif n.Pratiquement
onpeut
engénéral
considérer cet échantillon commereprésentant -
pour l’informationcherchée,
lapopulation
N àlaquelle
ons’intéresse
(population mère),
celle-ci étant confondue avec lapopulation
P d’où au moins trois
concepts
liés à la variabilité dans cettepopulation.
a)
la variance dans lapopulation
ouplus
exactement la variance relative à la loi deprobabilité
àlaquelle
on estimepouvoir
rattachercette
population.
Cette variance estgénéralement
notéeCy 2.
b)
la variance effectivement constatée dans l’échantillon et définiecomme carré moyen des écarts à la moyenne x soit :
c)
l’estimation sans biais de la variance03C32 à partir
del’échantillon ,
soit :variable discrète
variable continue.
73
(Dans
le cas d’untirage
sansremise,
ce serait :C’est surtout à propos des
expressions (1)
et(2)
que se pose leproblème
des notations. Si les notationss:, 6’2,
s’2 ou a2 ou même 02sont utilisées par certains auteurs, pour
l’expression (1),
on constateque la notation
s2
estemployée
suivant les auteurs, tantôt pour l’ex-pression (1) (Indjoudjian, Kenney
andKeeping, Lloyd
andLipow, Deming,
Risser et
Traynard, ... )
maisplus souvent pour l’expression (2) (Bazowski , Calot, Chartier, Cochran,
Dixon andMasey,
Ehrenfeld andLittauer , Fourgeaud,
Fraser, Hansen Hurwitz andMadow, Morice, Owen,
E.Pearson, Tippet,
Wilks... ).
La notation s intervenant dans de nombreuses formules de tests couramment utilisés pour l’estimation et la
comparaison
de moyennes(test
t deStudent,
test deBehrens-Fisher,
test deWelch, ...),
et pour l’estimation et lacomparaison
de variances(test ’x2
test F deFisher ,
test de
Neyman
etPearson,
test deCochran ... ),
il estregrettable
que lepraticien,
nontoujours
bien familiarisé avec la littératurestatistique théorique, soit obligé,
avant d’utiliser telle ou telle formule derechercher ,
dansl’ouvrage auquel
ils’adresse,
lasignification
desymbole
s.Un effort de normalisation dans ce domaine semble
indispensable :
en attendant
qu’il
se réalise - s’il se réalise - il semble que l’onpuisse
demander aux auteurs
d’adjoindre
à leurs ouvrages unglossaire
des sym- boles utilisés avec une définition et une formulationprécises.
Le Secrétariat
français (AFNOR)
du ComitéTechnique
del’Orga-
nisation Internationale de normalisation
(Comité
ISOTC/69 :
Procédésstatistiques d’interprétation
des sériesd’observations)
a, enparticulier ,
lors de la dernière réunion internationale
(Paris,
Juin1966) proposé
de normaliser lesymbole
avec la définition
"Estimateur
de la variance03C32".
Cetteproposition
a étéadoptée
etfigurera
ultérieurement dans les recommandations I. S. 0.Remarque -
Dans leproblème qui
vient d’êtreenvisagé,
on anégligé
detenir
compte
de l’élément intermédiaire :population
réelle finie d’ef- fectif N, entre l’échantillon d’effectif n et lapopulation conceptuelle
P.Certains auteurs, en
particulier
desspécialistes
de la théorie dessondages, tirages
sansremise,
dans unepopulation
finie d’effectif N , considérée pourelle-même,
utilisent les notations suivantes :Revue de Statistique Appliquée, 1967 - Vol. XV - N’ 1
Xj(j = 1, 2,
...N)
étant un élémentquelconque
de lapopulation,
demoyenne
X
etxi(i -
1,2,
...n)
un élémentquelconque
de l’échantillon de moyenne x(voir
parexemple Hansen,
Hurwitz et Madow"Sample
survey Methods and
Theory).
Ces formules conduisent alors à
E[s2]=S2
Alors que dans les
tirages
avec remise on avaitE(s2) = o"
Le
rapport - N -
étant engénéral
très voisin del’unité,
cette distinction entreS2
et0-2 est,
leplus
souvent sans intérêtpratique.
2 - FRACTILES
(ou QUANTILES)
Pour une variable aléatoire continue
X,
le fractile xp est défini tantôt par :P = Pr
[X xp] (3)
tantôt par :
P =
Pr[X
>xp] (4) (les signes
et >pouvant évidemment,
dans ce cas, êtreremplacés
par ou , sans modifier la
signification.
La définition
(3) paraît
être laplus fréquemment
utilisée par les auteursd’ouvrages
destatistique théorique
ouappliquée (Cramer, Kendall, Hald, Brownlee,
Dixon andMasey,
Johnson andLeone, Calot,
Littauer andEhrenfeld,
Centre de Formation auxApplications
Industrielles de laStatistique - Paris).
Par contre des auteurs américains
(Mood)
etplus particulièrement
lesspécialistes
de la fiabilité(Epstein, Bazowski, Lloyd
andLipow)
ont,dans des ouvrages récents sur la
fiabilité,
utilisé des définitions dutype (4), qui
seprésente
comme la mise en formule de laterminologie
deR. A. Fisher :
"xp
is the upper Ppercentage point
of the X’distribution".
La traduction littérale de cette
terminologie
estparfois
utiliséepar des auteurs
français.
Ainsi on trouvera
l’expression ~2 = 5, 99
est le"point
5%
de ladistribution de
X 2pour
2degrés
deliberté,
c’est-à-dire :0, 05 = Pr( x2
>5, 99)
pour v = 2d.d.l.Les deux
points
de vue ci-dessuspeuvent
évidemment être envi-sagés,
mais il sembleplus logique d’adopter
la définition(1), qui
as-socie des variations de même sens pour P et
xp
etqui
a, deplus,
lemérite d’être d’accord avec la
terminologie
utilisée pour lesquartiles :
il n’est
jamais
venu à l’idée dequi
que ce soitd’appeler premier quartile
(un quart) ;
celuiqui
avait uneprobabilité
P =1/4
d’êtredépassé.
75
Dans le cas d’une variable
discrète,
il convient deplus,
pour resteren accord avec la définition
ci-après
de la fonctioncumulative,
d’uti- liser la définition(3)
modifiée sous la formequi
reste valable aussi bien pour une variable continue que pour une variablediscrète.
Dans ce cas la définition
(3)
n’a de sensprécis,
d’unpoint
de vue concret, que si xp est une des valeurspossibles
de la variable discrète:cette définition avec le
signe
est d’accord avec laprésentation
habi-tuelle des tables
(loi-s binomiale, Poisson) qui
donnent la valeur de P =Pr[X Xp]
en fonction des valeurspossibles
X = xp.En ce
qui
concerne les tablesstatistiques,
on retrouve l’inconvénientsignalé
ci-dessus : certaines tablesdonnent,
aussi bien pour une variable continueX,
la valeurxp
telle que l’on ait P =Pr(X xp),
parexemple :
HALD -
"Statistical
Tables andFormulas", Wiley (1952),
pour toutes les variablesqui
yfigurent ( u , t , X2 ,
F et2013 )
ROMIG - 50-100 Binomial
Tables, Wiley (1952),
pour la variable bino- mialeB(n , p)
pour 50 n 100.MOLINA - Poisson’s
exponential
limits. Van Nostrand(1947) (pour
laloi de
Poisson).
CENTRE DE FORMATION AUX APPLICATIONS INDUSTRIELLES DE LA
STATISTIQUE -
Pour les tables des lois :Normale,
Binomiale et de Poisson.- D’autres tables utilisent la
correspondance
entre P etxp,
définiepar P =
Pr(X > xp)
parexemple.
FISHER and YATES - Statistical tables for
biological, agricultural
andmedical
research,
Hafner(1953)
pour les variablesX2
et F.A. M. S. 8 - Tables of the binomial
probability
distribution. National Bureau of Standards(1947).
CENTRE DE FORMATION POUR LES VARIABLES
X2
ET F.Enfin pour des lois
symétriques,
parexemple
la loi de Student ,certaines tables associent à une valeur x de la
variable,
laprobabilité
que X soit extérieure à l’intervalle
(-
x , +x).
Evidemment, le choix a été fait en fonction de ce que les auteurs considéraient comme devant être
l’usage
leplus fréquent
de la table : iln’en résulte pas de sérieuses
difficultés,
mais unsimple
effort d’at- tention. Onpeut
se demandercependant
si uneprésentation
un peuplus homogène
nesimplifierait
pas le travail des utilisateursplus
ou moins"conditionnés"
parl’emploi
d’une certaine table etqui,
pour un pro- blèmeparticulier,
sont amenés à utiliser une table deprésentation
dif-férente.
Revue de Statistique Appliquée. 1967 - Vol. XV - N* 1
3 - DISTRIBUTION CUMULATIVE - FONCTION CUMULATIVE Là encore, on trouve le
plus généralement
la définitionaussi bien pour une variable discrète soit :
que pour une variable
continue,
mais divers auteursd’ouvrages
théo-riques
de Calcul desprobabilités (Chapelon, Calot, Fourgeaud, Girault)
utilisent la définition
générale
F(x) = Pr(X x) (7)
soit,
pour une variable discrète :Ces deux définitions
(6)
et(7), identiques
dans le cas d’une va-riable
continue, peuvent
devenir très différentes dans le cas d’une va-riable
discrète,
enparticulier
pour lespetites
valeurs de celle-ci.Ainsi,
pour une loi de Poisson de moyenneégale à 1,
on a :F(1)= 0,7358
définition(6)
F(1)= 0,3679
définition(7)
Il
paraît préférable
d’utiliser la définition(6) qui
est cellequi
cor-respond
à laprésentation
habituelle des tables de lois d’une variable dis- crètequi, généralement,
donnent laprobabilité
cumuléejusqu’à
ety1
compris la valeur x.
Pour ces
raisons,
le Secrétariatfrançais
du Comitétechnique ISO/TC. 69
del’Organisation
internationale denormalisation,
aproposé
lors de sa dernière réunion à
Paris,
Juin1966,
les définitions suivantes :- Fractile
xp,
défini dans tous les cas par :- Fonction de
répartition (ou
distributioncumulative)
définiedans tous les cas par :
Ces deux définitions sont d’ailleurs résumées en une seule par la relation
Bien que ces définitions aient été accueillies favorablement par la
grande majorité
des paysprésents
à la réunion ouayant
faitpart
de leursobservations sur l’ensemble du
projet
de normalisationprésenté
par le secrétariatfrançais,
le ComitéISO/TC.
69 a estiméqu’il n’y
avait paslieu,
pourl’instant,
de les inclure dans une norme internationale.77
(Peut-on ajouter,
en manifestantquelque regret,
d’une tellelenteur ,
que ce Comité
international, depuis
sapremière
réunion(Genève 1951)
n’a normalisé
qu’une
demi-douzaine desymboles qui,
àpart
celui relatif à l’ e stimateur de la variance s2 =n 1 - 1 (xi - x)2,
étaient ceuxqui
nedonnaient lieu dans les documents
existants,
à aucuneéquivoque
pour leurinterprétation).
4 - INTERVALLES DE CONFIANCE ET TESTS D’HYPOTHESE
Des
problèmes analogues
seposent,
concernant la définition de l’intervalle de confiance ou de l’intervalled’acceptation
d’unehypothèse
relativement au
paramètre
d’une loi deprobabilité
d’une variable discrète(loi binomiale,
loi dePoisson... ).
Considérons par
exemple
l’intervalle de confiance duparamètre
p d’une loibinomiale,
défini àpartir
d’un échantillon de n élémentsayant
donné lieu à l’observation de c d’entre euxpossédant
lapropriété
cor-respondante
à laproportion
p dans lapopulation.
Sil-a = 1 - al - 03B12 est le coefficient de confiance associé à un
intervalle
p’, p" (p’ p")
les limites de l’intervalle de confiance sont définies par laplupart
des auteurs par les conditionsCes relations sont d’ailleurs
simplement
la formulàtion de laquestion : quelles
sont les valeurs extrêmesp’
etp"
que l’onpeut
encore con-sidérer comme
compatibles
avec le résultat del’expérience,
auxrisques oc
1 et03B12 respectivement
associés aux limitesp"
etp’.
Cependant j’ai
rencontré récemment d’unepart
chez un auteuraméricain,
lesystème
de conditions :avec des
abaques
construits àpartir
de ces définitionset d’autre
part,
dans unegrande entreprise française
desabaques
cons-truits avec le
système
de conditionssystèmes qui
diffèrent par l’une ou l’autre des deux conditions du sys- tème(I) qui peut
s’écrire aussiRevue de Statistique Appliquée, 1967 - Vol. XV - N’ 1
Evidemment,
cesdivergences
n’ont aucuneimportance,
si dans le texte ou dans la noteexplicative
del’abaque,
on a bienprécisé quelle
était ladéfinition de l’intervalle de confiance
qui
avait étéadoptée.
Malheureusement les
abaques publiés
dans un ouvrage, dans un article ou utilisés dans un bureau neportent
que bien rarement de telles indications etrisquent
d’être utilisés avec unesignification
autre que cellequi
leur convient.Si n et c ne sont pas
petits,
l’erreurqui
résulte d’uneinterpré-
tation erronée est
pratiquement
sansimportance.
Pour n =
200,
c = 10 parexemple,
l’intervalle de confiance à0, 95
(al
= 03=0, 025), correspondant
aux 3systèmes précédents
est suivantla définition utilisée :
Mais il n’en va pas de même dans le cas de
petits
échantillons utilisés deplus
enplus fréquemment
pour des raisonsd’économie,
dans des es- saisdestructifs,
parexemple
essais de durée de vie dans les études de fiabilité.Ainsi pour n =
20,
c = 5, les trois définitionsprécédentes
don-neraient :
On
peut
remarquer quel’emploi
par certains techniciens de la définition(III)
n’estpeut
être pas sansrapport
avec les définitions habituellementadoptées
pour unplan d’échantillonnage simple (a, p1, 03B2, P2)
danslesquels
l’effectif n et le critère
d’acceptation
c sont définisthéoriquement
parA cet
égard,
il convient aussi de remarquer que n et c devant êtreentiers,
ces conditions nepeuvent
être satisfaites que d’une manière ap-proximative,
avec deux valeurs différant d’une unité pour c, les valeurs de nqui
leurcorrespondent
étant choisies de manière que lesrisques
réels a’ et
j3’ qui
en résultent soientsi c est
pris
par excès si c estpris
par défaut79
Il en résulte que certains tableaux de
plans
toutpréparés
à l’avancepour la commodité des utilisateurs en
correspondent
que d’assez loinaux indications
qu’ils
contiennentlorsque
n et c sontpetits.
Ainsi,
parexemple,
le document H. 108"Quality
Control and Re-liability Handbook" (Assistant Secretary
of DefenseU. S. A. ),
donne unesérie de
plans
pour des essais de durée de vie(essais
de duréepré-
fixée T sans
remplacement
desdéfaillants).
Cesplans
sont définis théo-riquement
par les conditions :l’acceptation ayant lieu,
si le nombre des défaillants est inférieur àr = c +
1,
avec desprobabilités respectives
1 - aou j3
si la durée de vie moyenne dans le lot estégale
à80
ou81 .
Le tableau donne divers
plans
en fonction de valeursparticulières
de
Si pour
a 0, 01, T/03B8o =1 20, e1feo = 2/3,
leplan proposé
n =
2275,
r = 136, donne bien lieu à desrisques
très voisins des valeursthéoriques
de aet 03B2,
on y trouve aussi desplans
avec de trèspetites
valeurs de n et r.
Par
exemple
pouroc 0,25, T/9. = 1/3, 03B81/03B8o = 1/10,
letableau propose le
plan
n =1,
r =1(c - 0).
Les
risques réels, correspondant
à ceplan
sont a’# 0, 28
et03B2’ # 0,04
au lieu de0, 2 5
et0, 2 5.
Or nullepart
le document H. 108 n’attire l’attention de l’utilisateur sur les variations desrisques
associés auxinformations en n et r données par ce tableau :
peut-être
a-t-onpensé
que le bon sens y suffirait :
Des remarques
analogues pourraient
être faites à propos d’autres tableauxpubliés
dans H. 108.5 - TESTS D’HYPOTHESES
Relativement à une distribution
binomiale,
parexemple,
le pro- blème se pose de la manière suivante : étant donné un échantillon de nobservations
pouvant
donner lieu à x éléments de lacatégorie (p), quel
est l’intervalle
(k’ , k")
tel que si onaccepte l’hypothèse
p =po lorsque k’
xk",
lerisque
derejeter
unehypothèse
vraie soit a = a’ +a"
(intervalle
bilatérald’acceptation).
Posé sous la forme
le
problème
estinsoluble,
k’ etk"
devant être entiers.Revue de Statistique Appliquée, 1967 - Vol. XV - N 1
Pour
chaque
limite on trouvera en réalité deux entiers consécutifs k’ et k’ + 1, d’unepart, k"
et k" - 1 d’autrepart
tels queet
l’égalité
desprobabilités
à a’ et a" étantpratiquement impossible
Un
problème d’approximation
se pose, c’est-à-dire unproblème
dechoix entre les 4 combinaisons
définies par les
inégalités
ci-dessus.Certains auteurs
indiquent
commerègle systématique
le choix de l’intervalle(k’ , k")
pourlequel
on aai a’, a" a",
donc unrisque
total
ai
+aï
a.Cette solution est non seulement celle pour
laquelle
lerisque
totalde
rejeter l’hypothèse
p = po - si elle est vraie - est auplus égal
àa, mais celle pour
laquelle
lesrisques
unilatéraux sont auplus égaux
aux valeurs
théoriques
fixées a’ eta".
Cetteexigence supplémentaire correspond-elle
vraiment aux soucis del’expérimentateur ? Si,
parexemple, ai
estbeaucoup plus petit
quea’,
alors quea2
> a’ est presqueégal
à a’.Un tel
problème
ne seposant pratiquement
avec des différencesappréciables
entre les diversessolutions,
quelorsque
n estpetit,
ilsemble donc que
chaque
casparticulier
doive être résolu en fonction des informations données par les tables danslesquelles
on trouvera tous les éléments du schéma ci-dessus.Exemple :
Test del’hypothèse
po =0,08
àpartir
d’un échantillon den = 50, au
risque
a =0, 05
+ 0,05 =0, 10.
On a le schéma
ci-après
81
qui
donne les résultats suivants :Des 4 solutions
ci-dessus,
trois donnent unrisque
total inférieur à la valeur fixée a = 0, 10 : lapremière
n’est pas nécessairement cellequi correspond
au mieux auxrisques
de la décisionprise, risques qui comprennent
aussi bien celuid’accepter
unehypothèse
fausse que de refuser unehypothèse
exacte(voir ci-après
les courbespuissance
dutest
correspondant
aux diverses solutions.Remarque -
Les mêmesproblèmes (intervalles
de confiance et testsd’hypothèse)
seposent
évidemment à propos de la loi de Poisson.Revue de Statistique Appliquée, 1967 - Vol XV - N’ 1