R EVUE DE STATISTIQUE APPLIQUÉE
E. M ORICE
Méthode d’analyse des observations par « tout ou rien »
Revue de statistique appliquée, tome 9, n
o3 (1961), p. 33-46
<
http://www.numdam.org/item?id=RSA_1961__9_3_33_0>
© Société française de statistique, 1961, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
33
MÉTHODE D’ANALYSE DES OBSERVATIONS PAR
"TOUT OU RIEN
"E. MORICE
Inspecteur Général
àl’Institut National de la Statistique
etdes Études Économiques
I - METHODE DES
"PROBITS" (Finney
etBliss) -
La méthode
d’analyse
des"probits",
étudiée à peuprès
simultanément par Bliss etFinney (1)
estappliquée
dans desproblèmes
dutype général
suivant
(problèmes
de"tout
ourien").
Les individus d’une
population
ouplus
exactement d’un échantillon den individus sont soumis à un certain stimulus
qui,
chez chacund’eux,
sui-vant la
dose,
provoque ou ne provoque pas la réaction àlaquelle
on s’inté-resse : l’individu meurt ou ne meurt pas, un détonateur
explose
oun’explose
pas.
Les observations faites dans
l’expérimentation
donnent lafréquence n
des individus de l’échantillon chez
lesquels
cette réaction a été observée.Cette
fréquence
est une estimation de lafréquence
p des individus chezlesquels
on noterait cette réaction dans lapopulation.
Ceci revient à admettre que si
xp
est la dosequi
provoque la réaction chez une fraction p de lapopulation,
cettefréquence
preprésente
la frac-tion de la
population
chezlaquelle
cette réactionpeut
êtreprovoquée
par une doseégale
ou inférieure àxp.
L’observation de p en fonction de
xp
donne donc une estimation parpoints
de la courbe derépartition
de p en fonction dexp, image plus
oumoins
précise
de la vraie courbe derépartition
dans lapopulation,
que l’on admet être une fonction monotone, continuep(x L
engénéral
croissante dans laplupart
desapplications.
(1)
Finney :
ProbitAnalysis :
A statistical treatment of theSigmoid Response
Curve.Cambridge University
Press,1947.
Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
34
La connaissance de l’effet du stimulus est donc caractérisée par celle de cette courbe de
répartition p(xp) qu’il s’agit d’ajuster
au mieux aux obser-vations
(x, fx).
Théoriquement,
leproblème
est donc unproblème classique d’ajuste-
ment
qui
neprésenterait
pas de difficultésparticulières
si l’ondisposait
d’un nombre suffisant d’observations.
Dans la
réalité,
ils’agit
souventd’expériences coûteuses,
destructives(mort
par effet d’unpoison, explosion
d’un détonateur en fonction d’un élé- ment d’action : hauteur dechute,
intensité d’uncourant... ).
L’allure du
diagramme
en escalier fourni par lesobservations,
fortimprécise
en raison dupetit
nombre desobservations,
de variations aléa- toires fortimportantes
suivant les individusobservés,
rend cetajustement
difficile.
On
peut légitimement
admettre apriori
que la courbe derépartition
cherchée est une courbe
sygmoide (courbe
enS)
admettant deuxasymptotes
horizontales : effet nul
(ou
effetcertain)
pour des valeurspetites (ou grandes)
de la variable x, avec, pour des raisons de
continuité,
un seulpoint
d’in-flexion,
c’est-à-dire une courbe derépartition
dutype
de cellequi
cor-respond
à une distribution continueunimodale,
ou de la forme d’une courbelogistique.
L’assimilation,
apriori,
à la courbe derépartition
d’une loi normalepeut
être assezarbitraire,
mais unchangement
de variable convenablepeut permettre d’essayer
de se ramener à cetype (par exemple
u =log x).
La méthode des
"probits"
est une solution de ceproblème,
basée surce
point
de vuequi
tientcompte
deslarges possibilités d’emploi
des tables de la loi normale.Notons,
enpassant qu’une
autre méthode basée surl’emploi
de lacourbe
logistique
a été étudiée par Fisher et Yates et Berkson.Si l’on
envisage
une relationlogistique :
comme
représentant approximativement
ladépendance
de p en fonction de x, soit encore :Berkson
(1944)
adéfini,
le"logit"
de p comme étant :ce
qui
conduit à l’étude d’unerégression
linéaire de Y en fonction de x.Le but de l’étude est d’estimer les
paramètres caractéristiques
de larépartition
des effets du stimulus selon la doseemployée,
parexemple
dedéterminer la
"dose
effectivemédiane",
c’est-à-dire cellequi
provoque la réaction en moyenne dans 50%
des cas.Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
35
Méthode desprobits.
L’emploi
de la méthode desprobits
suppose que la mesure de l’inten- sité x du stimulus est faite sur une échelle telle que les tolérances indivi- duellespuissent
être considérées comme normalementdistribuées, x
est doncune variable normale
(m, a)
àlaquelle correspond
une variable réduite.et afin d’éviter
pratiquement l’emploi
de nombresnégatifs,
un"probit" :
La
probabilité
P d’observer la réaction considérée sur un individu choisi au hasard sera :avec
Considérons une valeur x; du stimulus
(i = 1, 2,
...,k)
àlaquelle
sont soumis n; individus dont r; donnent lieu à la réaction
envisagée
etsoient :
Les valeurs
correspondantes y,
desprobits
seront les valeurs de Y données parl’équation (3)
pour P =p..
Les
points
de coordonnées(x; yi),
sil’hypothèse
de normalité est ac-ceptable, devraient,
aux fluctuations aléatoiresprès,
être situés sur la droite :Le
problème
fondamental est d’estimer m et 0" c’est donc unsimple problème
derégression
linéaireappliqué
à une droite deHenry,
mais danslequel
il faut tenircompte
du fait que les yi sontd’inégale précision.
Si donc on pose, de manière
générale :
pour
représenter
la droite cherchée et si ondésigne
parni03C9i
lepoids
attri-bué à une valeur
yi,
la méthodeclassique
des moindres carrés conduit àRevue de Statistique Appliquée. 1961 - Vol. IX - Pl* 3
36
avec
La variance
d’échantillonnage
dey,
étantapproximativement PQ nZ2,
avecLes
poids
utilisés seront :Les
probits
et lespoids dépendant
desobservations,
il est nécessaire d’em-ployer
une méthoded’itération qui
pourra être la suivante :1/
Des valeurs observées n, et ri on déduit p, etyi,
à l’aide de la table de la loi normale.2/
Onpeut
alors tracer legraphique
despoints (xi yi)
et tracer appro- ximativement une droited’ajustement
fournissant parsimple
lecture un pre- mier ensemble deprobits
estimésYJ correspondant
aux xi .3/
La différence entre deuxprobits
y et Y et cellequi
existe entre les valeurscorrespondantes
p et P(ou
q etQ)
desprobabilités totales,
étant liéesapproximativement
par :On
peut
àpartir
desprobits
estimésY’i ("expected probits")
calculentdes valeurs
corrigées
desprobits
à utiliser dans le calcul("working probits") y,’
par l’une ou l’autre des formules :Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
37
ou :
Z’, Q’ Z’, (ou P’ Z’)
étant des valeurs données par la table de la loinormale
pour leprobit
y = Y’ et p(ou q)
les valeursexpérimentales
données par(5).
Remarquez
que pour p = 0(ou
q =0)
lesprobits
de calcul seront sim-plement :
4/
Apartir
del’équation (9).
On pourra calculer les coefficients de
pondération
n w’.5/
En utilisant lespoids
n w’ et lesprobits
de calculy’,
leséquations (8)
fourniront unepremière approximation
de a et b.6/
Apartir
de cette fonction linéaire y = a +bx,
on pourra obtenirune nouvelle estimation
y"
desprobits
àpartir desquels
on pourra recom-mencer le
cycle d’itération, jusqu’à
une convergencesuffisante, qui
ne seraévidemment obtenue que si
l’hypothèse préalable
de normalité est valable.Si aucune des
fréquences théoriques niPi (ou niQi),
obtenues àpartir
des
probits Y
finalement estimés n’ esttrop petite,
on pourra calculer :et avoir un test de
signification
des accords entre observations etthéorie,
avec un nombre de
degrés
de liberték = nombre de valeurs
essayées
de x.Finney (1)
a donné une autre méthode de calcul deX2 ,
basée sur lasomme
pondérée
des carrés des écarts entre lesprobits
de calcul et la droite derégression.
Noter enfin que la dose médiane effective
("median
effectivedose"),
c’est-à-dire la valeur de x telle
qu’elle
a 1 chance sur 2 de provoquer laréaction,
est estimée par :---
(1) E.D. abréviation
anglaise
de"effective
dose".Revue de Statistique Appliquee. 1961 - Vol. IX - N* 3
38
Finney (1)
adonné,
pourl’écart-ype
dex50,
la formule :Afin de faciliter les calculs de
l’analyse ci-dessus, Finney
etStevens,
ont calculé des tables
qui
donnentdirectement,
en fonction de P les valeursde
Y,
Y +Q Z,
Y -PZ, 1 Z, et PQ.
C es tables sontreproduites
dans Pearsonet
Hartley "Tables
forStatisticians" (Vol. 1, 1956).
On trouvera des tablesanalogues
dans Fisher en Yates"Statistical
Tables forBiological, Agricul-
tural and Medical
Research".
Exemple (1) -
Unecharge d’explosif
a étéplacée
à une distance x d’unecible de carton
(i = 1,
... ,5). L’expérience
a étérépétée
16 fois(nI =
...=
n5 =16)
àchaque
distance et on anoté,
àchaque expérience
sila cible était ou non
perforée (ri
nombre de fois où la cible étaitperforée
dans
chaque
groupe de nt = 16expériences).
On trouvera
ci-après
le tableau résumantpartiellement
les calculs pour lapremière
estimation et pour lacinquième
itération.Le
graphique
de 5points correspondant
auxcinq séries, permet,
àpartir
des troispoints
à distancefinie,
de tracer unepremière
estimationde la droite de
régression
àpartir
delaquelle
on litapproximativement
lescinq
valeurs deY’i
soit :xi étant lié à la distance réelle par la formule :
Les calculs sont ensuite conduits comme il est
indiqué ci-dessus, compte
tenu de la
simplification
résultant den,
... n =n, =
16.Ainsi,
pour :1/
x = 0(qui correspond
à y - - oo,point qui
nepeut
évidemment être utilisé dans letracé)
la droite tracée à l’0153il donne :Y’ ~ 4,75
d’où on déduit leprobit correspondant :
---
(1)
Extrait de Pearson etHartley -
"Tables for Statisticians - Vol. I.Cambridge
Univer- sity Press, 1956.Revue de Statistique Appliquee. 1961 - Vol. IX - N’ 3
39
donné directement par la table
qui
donne en mêmetemps
la valeur de :2/
x = 1 : on lit sur la droite :Pour cette valeur du
probit
estiméY’,
la table donne directement :d’où on
déduit,
pouret la valeur de
Ayant
fait ces calculs pour x =0, 1, 2, 3,
4 onpeut
alors calculer(8)
L’équation :
donnera une nouvelle série de valeurs
Y"
à
partir desquelles
on fera une nouvelle sérieanalogue
de calculs.Le tableau des
approximations
successives montre la convergence des déterminations de a,b,
etx5o, respectivement vers :
3,775 0,757 1, 62
La distance effective médiane
réelle,
pourlaquelle
on obtient ici uneexcellente
approximation
dès lepremier ajustement, correspond
à :soit :
Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
40
Tableau des calculs
(n1 = n2 = ... = n5 = 16)
(Première
etcinquième approximations)
Approximations
successivesRevue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
41
II - METHODE
"MINIMUM
NORMITX2 ESTIMATE" (BERKSON) - (Estimation
par une méthode deX 2 minimum).
Reprenant
une méthodeproposée
parTaylor (1),
Berkson(2)
a déve-loppé
sous le nom de"minimum
normit~2 estimate"
la méthode suivantequi n’exige
pas d’itération.(Berkson
donne le nom de"normit"
à une variable normale réduite :(3).
Si x est une variable normale et si :
---
(1) Taylor -
Ann. Math. Stat. 1953,p. 85.
(2)
Berkson -J. A. S. A. ,
1955 -p. 529.
(3)
Les auteursanglais emploient
aussil’expression
"normaléquivalent
deviate" au lieu de "normit".Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
42
on devra avoir
On se propose d’estimer la relation
hypothétique
par
La
quantité, ci-après (normit X2 ) :
est
asymptotiquement
distribuée commeX 2(somme
de carrés de variables normalesréduites) :
ni effectif
exposé
aurisque
d’intensité x iPt
fraction atteinte observéev i
"normit" correspondant
àp,
v 1 =
a +bxi
estimationcorrespondante
Les valeurs de a et
b,
rendant S minimum seront solutions ded’où :
Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
43
La do médiane effective étant estimée par :
L’équation
linéaire d’estimation de v étantLa
précision
des deux estimations est caractérisée par les variancesDans l’article cité en
référence,
Berkson donne pour faciliter les cal- cul s :1/
les"normit"
v en fonction de p pour p = 0 ...(0, 001) ... 1 ( v
avec5
décimales),
c’est-à-dire les milliles de la loi normale.2/
les valeurs de w =Z2/ pq
et w v, avec 4 décimales pour les mêmes valeurs de p.3/
les"antinormits",
c’est-à-dire les valeurs de p en fonction de vpour :
v = 0 ...
(0,001)
...2, 50 (p
avec 5décimales)
Pour illustrer sa
méthode,
Berksonreprend
unexemple
deFinney
dontles éléments essentiels sont
reproduits ci-après :
Revue de Statistique Appliquee. 1961 - Vol. IX - N’ 3
44
La méthode de Berkson donne :soit
alors que
Finney
par la méthode desprobits
trouve b =4,
01.La méthode
proposée
par Berksonparaît
donc très satisfaisante mais il faut remarquer que pourl’exemple proposé
àl’appui
de la méthode :1/
Les effectifs soumis àl’expérience
sontimportants (de
l’ordre de50) ;
2/
Tous les résultats sont directement utilisables : iln’y
a pas d’obser- vationp = 0
oup = 1
(Pour
ces valeurs p = 0 et p = 1qui
ne sont pas directement utilisables dans le calcul deBerkson,
ce dernier propose deremplacer par 1 2n,
et 1-2n
lescentres du
premier
et du dernier intervalleen 1 n).
La méthode de
Berkson, appliquée
dans ces conditions àl’exemple pré-
cédent n = 16 avec
Po =
0 etp4 = 1,
donnerait b =0, 618,
résultat voisin de celui de lapremière
itération deFinney
alors que le résultat des itérations successives deFinney
semble converger vers0, 76.
Il semble donc que pour de
petits
échantillons necomprenant plus qu’un petit
nombre de classes directementutilisables,
la méthode de Berkson n’est que trèsapproximativement
une méthodede X2
minimum et que l’économie de calculs due à l’absence d’itérations va à l’encontre de l’efficacité.Remarques générales
diverses.Monsieur
Bastien, Ingénieur
à l’Institut de Recherches de la Sidérur-gie Française, présente,
sur la méthodeproposée
parBerkson,
les remar-ques
ci-après :
Le
remplacement
de p = 0 par1 2n (ou 1 )
est conventionnel. Il estassez naturel que ce
procédé
donne des résultats assez satisfaisants pour certainesdispositions
des niveaux.Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
45
En
effet, remplacer
p = 0 par1 kn
revient à se servir de l’extrémité d’un intervalle de confiance deP,
à seuil presqueindépendant
de n.L’extrémité
supérieure
d’un intervalle de confiance totalementdissy- métrique
pour P est donnée par :Comme :
on en déduit que, a est fonction de k
uniquement.
Pour k =
2, ve ""’ 0, 60.
Onremplace
donc p = 0 par l’extrémitésupé-
rieure d’un intervalle de confiance
(dissymétrique)
à 40%.
Il est à noter
qu’un ajustement graphique
bien fait utilise aussi d’unefaçon
un peudifférente,
les intervalles de confiance autour desproportions observées,
notamment pour lespoints
horsgraphique (p =
0 ou p =1).
Mais
l’emploi
de2n
ou 1 -1 2n
n’est pas sans inconvénient en raison de son caractèresystématique.
Il est évidemment à
proscrire
dans un certain nombre de cas tels que :- ni i =
1, quel
que soiti ;
- niveau à
réponse
p = 0 ou p = 1 trèséloigné
de l’ensembledes autres.
- niveau de
réponse
p = 0 ou p = 1 encadré par des niveaux àréponse p f
0 ou 1.D’autre
part,
Berksonn’envisage
pas le cas des nipetits.
Il semble alors assez aventureux d’utiliser la méthode des moindres carrés avec correction des p = 0 ou p = 1.
En effet :
-
"Normit"
p n’estplus guère
normalement distribué.- La
présence
de nombreux 0 ou 1 amène à des corrections con-ventionnelles
trop
nombreuses.Lorsque
les ni sontgrands,
il semble assez indifférent d’utiliser uneméthode
plutôt qu’une
autrepuisque asymptotiquement
elles sont lesmêmes.
Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3
46
BIBLIOGRAPHIE
J. BERKSON - A
Statistically precise
andrelativaly simple method,
of esti-mating
thebio-assay
withquantal
response, based on thelogistical
function. - J.A.S.A.
(1953), pp. 365-99.
FINNEY - Probit
Analysis - Cambridge University Press,
1947.J. BERKSON - The minimum
normit ~2
withparticular
reference to bio- assay. -J.A.S.A. 50 (1955), pp. 329.
DUFRENOY - L’information
appliquée
auxtechniques
de résolution des pro- blèmesbiologiques (cours
du Conservatoire des Arts etMétiers) -
Centrede Doc.
Universelle, Ronéo,
1960.Revue de Statistique Appliquée. 1961 - Vol. IX - N’ 3