R EVUE DE STATISTIQUE APPLIQUÉE
H. P IN
Méthode graphique de séparation de deux populations
Revue de statistique appliquée, tome 5, n
o1 (1957), p. 77-83
<
http://www.numdam.org/item?id=RSA_1957__5_1_77_0>
© Société française de statistique, 1957, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
MÉTHODE GRAPHIQUE DE SÉPARATION
DE DEUX POPULATIONS
par
H. PIN
Le
problème
de la ~ dissection ~ d’une courbe defréquence représentant
lerésultat du
mélange
de deux distributions normales a évidemment - si cettehypothèse
de normalité estfondée -
une solutionprécise
(1), tout au moinssur le
plan théorique.
Mais la recherche de six inconnues - trois pour
chaque
distribution normale - conduit à écrire unsystème compliqué
de sixéquations
dont larésolution est laborieuse et qui a d’ailleurs l’inconvénient de
faire
appel aux valeursnumériques
des moments d’ordre 1 à 5 de la distribution observée. Ces moments, calculés àpartir
d’un échantillon réduit peuvent être -particulièrement
tles moments d’ordre élevé - entachés d’erreurs
importantes.
La méthode
graphique proposée
par l’auteur et dont leprincipe
adéjà
étéutilisé sous une
forme différente
donnerapidement,
si les circonstances ne sont pas tropdéfavorables,
une solutionapprochée
duproblème.
Il arrive que l’on se trouve en
présence
d’une distribution que l’on soupçonne être constituée par deuxpopulations normales,
enpartie
confondues si bien que l’ensemble se trouve distribué suivant une loi derépartition
inconnue .Des considérations
techniques
fontnaftre ce spupçon. On examine, par exem-ple,
uneproduction
issue de très nombreuses machines(plusieurs milliers)
demême
type,
non surveillées individuellement par carte de contrôle : c’est le casdans l’industrie des textiles artificiels. Alors
qu’on
s’attendait à trouver une distribution normale habituellement observée pour desproductions- analogues,
on constate une
distribution qui
s’enéloigne notablement,
comme celle de lafigure
1. On en vient à se demander si les machines ne donneraient pas deux
types
dif- férents deproduction
et s’il ne serait paspossible
d’isoler ces deuxpopulations,
en
essayant d’ajuster
aussi bien quepossible
la courbe observée à deux courbesnormales. Le
problème
serait résolu si l’on connaissait, pour chacune de cesdeux
populations,
trois éléments : lamoyenne
m,l’écart-type
a , le nombre N d’individus.(1)
StrÕmgren - Tables and Diagrams for dissecting a frequency curve into components bythe half invariant method - Skandinavisk Aktuarietidskvift 17. 1934 - 1-6.
K. Pearson - Philosophical Transactions - vol 185 - part I p. 13 - Risser et Traynard -
Les principes de la statistique mathématique - Gauthier Villars - 1933 - p. 96.
MÉTHODE BASSÉE
SUR LESPROPRIÉTÉS
DUGRAPHIQUE SEMI-LOGARITH MI QU E
En utilisant un
graphique semi-logarithmique (ordonnées logarithmiques)
onobtient le même tracé
parabolique (1)
pour toutes les courbes normales de mêmeécart-type :
c’est là unepropriété
bien connue de cesgraphiques .
Laméthodeconsisteà tracer successivement sur
un calque,
partâtonnements,
les deux courbes
normales,
enutilisantungraphique semi-logarithmique.
L’exem-ple qui
suit,figure
1, choisiparticulièrement simple,
permet decomprendre
la
façon d’opérer.
On utilise un
graphique semi-logarithmique (figure 3)
surlequel
sont tracéesdes courbes normales
théoriques correspondant
à diverses valeurs de (7(ces
valeurs sont
indiquées
sur lescourbes).
1) TRACÉ
DE LAPREMIÈRE
COURBE.On
place
uncalque
sur une feuillesemi-logarithmique,
de même module que lafigure 3, (en pratique,
on utilise lafigure 3).
On y trace(figure 4)
en utilisantles ordonnées
logarithmiques,
la courbecorrespondant
à la distribution observée de lafigure
1 ; les valeurs des ordonnées àreporter
sontindiquées
à lapremière ligne
de lafigure
2 "courbe observée". On a soin,(figure 4)
de tracer leslignes
verticales des ordonnées et de
repérer
par des horizontales les valeurs 1(du module)
defaçon
àpouvoir toujours replacer
correctement lecalque
sur le gra-phique.
On porte le
calque (figure4)
surlegraphique (figure 3)
et l’on cherche(figure 5)
àajuster
le mieuxpossible,
lapremière partie
de la courbe observéeavec l’une des courbesthéoriquesdugraphique 3 ; quand
on a trouvé la courbequi
con-vient le mieux on la trace entièrement en
pointillé
sur lecalque .
On y marque lespoints
A, B,C sur leslignes verticales correspondantrespectivementauxpoints
D.E.F de la courbe observée(figure 5).
Ainsi, on vient de tracer, àl’essai, unepremière
courbe normale. Mais onne connaitpas
encore lenombre d’observa- tionscorrespondant
auxpoints A, B, C .
2)
NOMBRE D’OBSERVATIONS A AFFECTER A LAPREMIÈRE
COURBEOn porte le
calque (figure 5)
surle graphique semi-logarithmique
enl’ajustant
correctement sur les
graduations
1(du module).
On se trouve ainsiplacé
commeon l’était
lorsqu’on
a tracé lacourbe observée(figure 4).
On peut donc lire sur legraphique
les valeurscorrespondant
auxpoints
A, B, C, soit dans cetexemple :
7,2 - 2,9 -0,75.
On inscrit ces valeurs en les arrondissant à 7, 3 et 1 à la deuxièmeligne
de lafigure
2, defaçon
à obtenir toutes les ordonnées de la pre- mière courbe. On connait alors donccomplètement
lapremière
courbe normale.Il faut savoir maintenant si en retranchant cette courbe de la courbe
observée,
il reste encore une seconde courbe normale satisfaisante.
3)
NOMBRE D’OBSERVATIONS A AFFECTER A LADEUXIÈME
COURBEEn
soustrayant
dans le tableaude lafigure
2, les ordonnées de la lère courbe de celles de la courbeobservée,
on obtient les ordonnées de la 2ème courbe. Oncomplète
cette deuxième courbe sur lecalque
en yportant
lespoints
G,H, J(figure 6).
4) TRACÉ
DE LADEUXIÈME
COURBEIl reste alors, en
opérant
comme pour lapremière courbe,
à chercher entâtonnant,
àajuster
cette deuxième courbe avec l’une des courbesthéoriques
de201320132013201320132013~20132013201320132013
( 1) De
la relation :.
on déduit en effet :
la
figure
3. On voit sur lafigure
6 que, pour éviter detronquer
la 2ème courbe, àgauche,
on aurait pu retrancher une observation de l’ordonnée L de la courbe observée. On aurait obtenu lepoint
K pour la deuxièmecourbe, qui
aurait donnéun bon
ajustement.
Si cette deuxième courbe estjugée
satisfaisante le travail estterminé. Il reste à relever les résultats.
5) PARAMÈTRES
DES DEUX DISTRIBUTIONS.Quand on a tracé
(figure 5)
lapremière
courbethéorique
on a obtenu immé-diatement la valeur m de la moyenne . On peut de même obtenir
graphiquement
lavaleur m + Q ou m + 2 T , ce
qui permet
d’avoir J* . Mais on peut aussi obtenir aen relevant sur la
figure
3 la valeur del’écart-type correspondant
à la courbenormale choisie
(7, 5
dans cetexemple)
eten multipliant
cette valeur par l’inter- valle de classe de lafigure
5.On
peut procéder
de la mêmefaçon
pour la deuxième courbe. Dans cet exem-ple
on trouve la même valeur del’écart-type
pour les deux courbes(courbe
théo-rique 7,5)
ce que,d’ailleurs,
on attendait pour des raisonstechniques.
En faisant coincider le sommet de la deuxième courbe avec la
graduation
100de l’échelle
logarithmique
on lit(figure 6)
la valeur 47 au sommet de lapremière
courbe. On a ainsi
l’importance
relative des ordonnées maxima M. On en tire, siles
écarts-types
ne sont paségaux,
l’effectif N relatif dechaque
courbe en utili-sant la formule N = 2 , 51 0’M.
REMARQUES
a)
Il peut arriver que l’on ne trouve, à lafigure
3, aucune courbethéorique
satisfaisante, lacourbe observée se situant entre deux courbesthéoriques.
Il fautalors, ou bien avoir un
jeu plus complet
degraphiques
de lafigure
3, ou refaire legraphique
observé avec une échellelégèrement agrandie.
b)
Ilpeut
arriver, notammentprès
desextrêmités, qu’une fréquence
delacourbe observée soit zéro
(point rejeté
à l’infini sur l’échellelogarithmique).
Ondoit alors, soit sauter ce
point
dans le tracéen joignant
directement aupoint
suivant, soitajouter
arbitrairement une ordonnée trèspetite.
c)
Bien entendu, onpeut
commencer àajuster
la courbe de droite avant celle degauche
si cela seprésente
mieux. On peutséparer
deux courbesbeaucoup plus
confondues que celles de la
figure
1qui
sont nettement distinctes. Onpeut
mêmeparfois séparer
trois courbes normales confondues enextrayant
d’abord celle dedroite
puis
celle degauche .
d)
La même méthode peut être utilisée pour la loide Poisson(fig. 7).
Elle estnotamment utile lors des
règlages,
assezlongs,
de machines(casses
sur métiersde
filature). Onpeut
alorsséparer
deuxdistributions de Poisson ou une distributionnormale,
et une distribution de Poisson. Lafigure
7 permet aussi de vérifier trèsrapidement,
sans utiliser letestX 2,
si une distribution suit une loi de Poisson.Si cette méthode a
l’avantage
d’êtrerapide, elleprésente
de sérieux inconvé- nientsqu’il
ne faut pasignorer.
Il n’est pas besoin desouligner
cequ’il
peut y avoir d’arbitraire à chercher àséparer
deuxpopulations quand
on n’a pas à cela de sérieusesjustifications techniques.
Laméthodedonneunrésultattrès imprécis,
notamment en ce
qui
concernel’écart-type
et il est bien difficile de savoir àquel point l’ajustement
est satisfaisant. Il faut remarquer notamment que, dans la soustractionopérée figure
2, la branche droite de lapremière
courbe(figure 5) ne prend aucune variation
aléatoire à son compte. Lefaitque
les courbess’ajustent
bien
n’implique pas
nécessairementqu’elles
existent en réalité . Onpeut appliquer
le test
classique X2
en prenant pour valeursthéoriques
la somme des ordonnées des deux courbespointillées,
maisl’application
de ce test n’est que trèsgrossiè-
rement
approximative,
les conditionsthéoriques d’emploi
n’étant pas satisfaites.Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5
Fig.6
Fig.7