R EVUE DE STATISTIQUE APPLIQUÉE
B. C YFFERS
Analyse discriminatoire
Revue de statistique appliquée, tome 13, n
o2 (1965), p. 29-46
<
http://www.numdam.org/item?id=RSA_1965__13_2_29_0>
© Société française de statistique, 1965, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (
http://www.sfds.asso.fr/publicat/rsa.htm
) implique l’accord avec les conditions générales d’uti- lisation (
http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
29
ANALYSE DISCRIMI NATOIRE
B. CYFFERS
Ingénieur
enChef des Manufactures de l’État
A - L’ANALYSE DISCRIMINATOIRE
1 - DOMAINE D’APPLICATION
L’analyse
discriminatoire trouve sonapplication lorsqu’on
est enprésence
d’unepopulation statistique
constituée deplusieurs
familles telles que le caractèrequi
différencie les familles n’est pas directement ap-parent,
et que l’on se propose d’affecter un individu de lapopulation
à la famille à
laquelle
ilappartient.
Le domaine
d’application
del’analyse
discriminatoirepeut paraître
restreint et,
cependant,
elle constitue un moyend’investigation qui,
s’iln’a pas reçu
jusqu’ici beaucoup d’applications pratiques,
n’en semble pas moinssusceptible
de rendre des services dans de nombreux cas :-
lorsque
la reconnaissance du caractèrequi
définit une fa- mille est délicate ou entièrementsubjective.
Exemple :
Unepopulation
decigarettes peut
être divisée en trois familles :cigarettes
de bonnecompacité, cigarettes
decompacité
forteet
cigarettes
decompacité
faible.-
lorsque
la mesure du caractèrequi
définit la famille est trèslongue
et onéreuse ; on cherche alors à identifier la famille à l’aide decaractéristiques plus
facilement accessibles.-
lorsque
l’identification de la famille àlaquelle appartient
l’individu entraîne la destruction de l’individu.
Exemple :
savoir si une orange contient despépins
ou non.-
lorsqu’une
décision doit êtreprise
alorsqu’il
est encoreimpossible
de connaître la famille. C’est le cas du sexe des oeufs : on a intérêt à vendre les oeufs mâles et à mettre couver les oeufs femelles.C’est
également
le cas de certainsdiagnostics
médicaux. Ainsilorsqu’un
malade rentre à
l’hôpotal
et est reconnuhépatique,
doit-on lesoigner
par voie médicale ou par voiechirurgicale ?
2 - NOTION DE DISCRIMINATION
Considérons le cas le
plus simple
où lapopulation
necomprend
que deux familles.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Soit X la
caractéristique
mesurable sur chacun desindividus,
et sup- posons que la loi de distribution des valeurs x de X à l’intérieur dechaque
famille est
normale,
avec mêmeécart-type
6, mais de moyenne m 1 dans lapremière
famille etm2
dans la seconde.Si sur un individu
quelconque
de lapopulation
on neprocède qu’à
la mesure de la
caractéristique X,
la connaissance de la valeur observéex contient toute l’information
disponible
relative à la famille àlaquelle appartient
l’individu. Pour identifier cettefamille,
nous ne pouvonsadop-
ter
qu’une
seuleposition,
à savoir : déterminer une valeur Xo et con- cluresi x Xo l’individu
appartient
à lapremière
famille.si x > x 0 l’individu
appartient
à la deuxième famille.Si,
parexemple,
on sait que les deux familles sontd’égale
im-portance,
on est conduit àprendre
xo -m12+
m2 de manière à ce que lerisque
de setromper
soit le mêmequelle
que soit la famille àlaquelle appartient
l’individu. Avec leshypothèses
énoncées cerisque
est :où
F(u) représente
la fonctionintégrale
de la loi normale.On constate, ce
qui
est d’ailleurs assezintuitif,
que cerisque
estd’autant
plus
faible quem2-m1 03C3 ml est grand.
Désignant
par d la distance des moyennes(d =
m2 -ml)
la discri- mination des familles est d’autant meilleure que lerapport a
estgrand.
Supposons
maintenant que nousprocédions
à la mesure de deux ca-ractères mesurables
Xl
etX2
sur chacun des individus et que les lois de distribution de chacune des variables xi et x 2 soient normales à l’inté- rieur dechaque
familleFamille 1 Famille 2
31
La discrimination réalisée par xi est caractérisée par
La discrimination réalisée par
x2 est
caractérisée parSi
d 2 > d1 03C31
nous dirons que la variable x 2 assure une meilleure dis- crimination que la variable Xl’3 - FONCTION DISCRIMINANTE
Lorsqu’on
a mesuré xi et x2 sur le mêmeindividu,
l’information relative à la famille de cet individu est contenue à la fois dansXl et X2.
Or,
toute fonction linéaire de xi et x2 est distribuée à l’intérieur des deux familles suivant des lois normales de mêmeécart-type
mais de mo-yennes différentes.
Désignons
par Y =xi
+ A 2X2 la fonction linéaire de xi et X2 pourlaquelle
la différence des moyennes, mesurée enécart-type,
c’est-à-direy(2) - Ycm
est maximum. De toutes les fonctions
linéaires,
Y est celle Oyqui
assure la meilleurediscrimination,
et cette discrimination nepeut
pas être inférieure à celle réalisée par XI ou x2séparément.
Y est
appelé
fonction discriminante.4 - L’ANALYSE DISCRIMINATOIRE
Les considérations
qui précèdent
nouspermettent
maintenant de don-ner la définition suivante de
l’analyse
discriminatoire :Soit une
population
d’individus constituée de k familles distinctes les unes des autres par un certain caractère mesurable ou non. Surchaque
individu on
procède
à la mesure d’un certain nombre deparamètres
xi , X2 ...Xp L’analyse
discriminante établit la ou les fonctions linéaires des x,...
dont la connaissance
permet
d’identifier avec le minimum de chances d’er-reurs la famille à
laquelle appartient
un individu extrait de lapopulation.
Cette ou ces fonctions sont
appelées
fonctions discriminantes.Examinons successivement
plusieurs
cas :a)
Cas de deux famillesdépendant
de deuxparamètres
C’est bien entendu le cas le
plus simple.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
A l’intérieur de
chaque
famille les deux variables xi etx2
sont dis- tribuées en loi normale à deuxdimensions,
dont lesellipses
indicatrices dans leplan XIOX2
se déduisent l’une de l’autre par une translation.Nous établirons que la fonction discriminante Y =
À. l Xl
+À 2 X
2 définit la directionconjuguée
de laligne
des centres parrapport
à cesellipses
indicatrices. Ce résultat n’est passurprenant.
Pouremployer
unlangage imagé,
supposons que nousdéplaçions
notre oeil sur la droite de l’infini duplan
xiOX2’
c’estlorsque
nousregarderons
les deuxellipses
àpartir
du
point correspondant
à la directionconjuguée
de laligne
des centresque nous les verrons
séparées
au maximum l’une de l’autre. Le calcul de la fonction discriminante neprésente
donc pas degrande
difficulté. Il reste ensuite à calculer la valeurYo qui permettra
d’affecter un in- dividu à la famille 1 ou 2 selon que la valeur de Y observée sur cet in- dividu sera inférieure ousupérieure
àYo.
Onpeut
alors tracer la droite :Yo = À l Xl
+À 2 X2
2qui
divise leplan
en deuxrégions.
Si laprobabilité
apriori qu’un
in-dividu
appartienne
à l’une ou l’autre famille estidentique,
cette droite passera par le milieu dusegment joignant
les centres desellipses.
b)
Cas de deux famillesdépendant
de pparamètres
Soient xl, x 21 ...
x p
lesparamètres.
La loi de distribution de xl-’ x2...x p
à l’intérieur dechaque
famille estreprésentée géométri- quement
dansl’espace à p
dimensions par unhyperellipsoide.
La fonctiondiscriminante
représente
lamultiplicité
linéaire à p - 1 dimensions con-juguée
de laligne
des centres parrapport
à ceshyperellipsdldes.
Soncalcul ne
peut pratiquement
être effectuéqu’à
l’aide de machines électro-comptables
dès que p > 4. Il reste à choisir la valeur limiteYo
commedans le cas
précédent.
c)
Cas deplusieurs
famillesLorsqu’on
est enprésence
deplusieurs
familles leproblème
restesimple lorsque
les centres des différentes familles sontalignés.
Iln’y
a alors
qu’une
seule fonction discriminantequi
définit la direction con-juguée
ou lamultiplicité
linéaireconjuguée
de laligne
des centres parrapport
auxellipses
ouhyperellipsoides
indicateurs. Si k est le nombre de familles on doit fixer k - 1 valeursYo1
...Xlt. -l,
onpeut
ainsi"dé-
couper
l’espace
en tranchesparallèles"
et on affecte l’individu à une fa- mille selon laposition
dupoint expérimental.
33
Lorsque
les centres ne sont pasalignés,
la théorie devientplus compliquée,
la discrimination entre familles nécessitel’emploi
deplus
d’une fonction discriminante. Par
exemple,
dans le cas de troisfamilles,
dont les centres sont nécessairement dans un
plan,
c’est-à-dire une mul-tiplicité
linéaire à deuxdimensions,
il y a deux fonctions discriminantes.Plus
généralement,
le nombre de fonctions discriminantes estégal
aunombre de dimensions de la
multiplicité
linéaire contenant les centres . L’utilisation de ces fonctionsdevient,
elleaussi, plus
délicate.B - UN EXEMPLE D’APPLICATION LE DIAGNOSTIC DES
ICTERES( 1)
Parmi les
épreuves biologiques
dites du"complet hépatique" figure l’analyse électrophorétique
desprotéines
du sérum. Cetteanalyse,
dontil ne
paraît
pas nécessaire de décrire latechnique
dans cetarticle,
fournit les
renseignements
chiffrés suivants :A = masse absolue d’albumine par litre de sérum
a 1 = "
" de globuline
ai" "
()t 2 Il
" de globuline a 2 r’
" tP
= " "de
globuline P
" "y = " " 1 de
globuline
y ""
On obtient
également
desquantités
Ó et equi
sont des anomalies dues à la méthode de mesure. Laquantité
totale deprotéines
P’ est enréalité la somme
mais on a l’habitude de la mesurer par :
La
population statistique
étudiée est celle deshépatiques,
que l’on divise tout d’abord en deux familles"médicaux"
c’est-à-dire malades at- teintsd’hépatite
et"chirurgicaux",
cette seconde famille se divisant à son tour en deux sous-familles"Calculs"
et"Cancers".
Il existe d’autres ictèreschirurgicaux,
mais defréquence beaucoup plus
faible.(1) L’application de l’Analyse discriminatoire au diagnostic différentiel des ictères a
déjà fait l’objet des publications suivantes :
- Discrimination entre ictères médicaux et chirurgicaux à partir des résultats de
l’analyse électrophorétique des protéines du sérum par A. Charbonnier, B. Cyf- fers, D. Schwartz et A. Vessereau
Communication présentée par M. A. Vessereau à la 29ème Session de l’Institut International de Statistique - Rio de Janeiro 1953
- Discrimination entre ictères médicaux et chirurgicaux à partir des résultats de
l’analyse électrophorétique des protéines du sérum, des mêmes auteurs.
Revue International d’Hépatologie - Tome V n° 7 - 1955
- Intérêt de l’Analyse discriminatoire dans l’interprétation des Résultats de l’élec- trophorèse pour le diagnostic différentiel des Ictères par rétention, des mêmes auteurs, dans La Presse médicale 64ème Année, n° 89, 8 Décembre 1956.
Le présent article est publié avec l’accord du Docteur Charbonnier, de M. D . Schwartz et de M. A. Vessereau.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Le
problème
leplus important
pour le médecin est de déterminer si le malade doit êtreopéré
ou non, c’est-à-dire s’il est"chirurgical"
ou
"médical",
car ilpeut
être très graved’opérer
un maladequi
n’auraitpas dû
l’être,
ou de ne pasopérer
un maladequi
aurait dû l’être.L’examen des résultats de
l’analyse électrophorétique
desprotéines
du sérum montre
qu’ils apportent
une information sur la famille à la-quelle appartient
le malade. Les médecins avaient énoncéquatre lois,
telles que :"Toute
baisse des a2globulines
au-dessous de leur valeur normale est en faveur d’un ictère parhépatite".
grâce auxquelles
ilspouvaient
définir environ 2 ictères sur 5 avec unrisque
d’erreur de 8. 5%
du nombre total desictères,
soit 20%
des casoù un
diagnostic
a été énoncé.Ils se sont alors demandé s’il n’était pas
possible
de tirer une meil-leure information des données de
l’électrophorèse,
et c’estpourquoi
ils ont faitappel
aux statisticiens.L’analyse
discriminatoires’imposait
pour résoudre leproblème
soumis.
L’étude a
porté
tout d’abord sur un groupe de 197 malades et acomporté
lesphases
suivantesa)
choix des variablesb)
calcul des fonctions discriminantesc) application
au classement de tous les maladesd) application
au classement des malades avecpossibilité
dediagnostic
réservé.Ensuite,
les résultats ont étéappliqués
à un groupe de 81 nouveaux malades.I - Etude
préliminaire
sur un ler groupe de 197 maladesa)
Choix des variables. Pour chacun des 197 maladesvisés,
dont l’ictère a pu êtrerigoureusement
identifié(il s’agit
de malades traités et suivis àl’hôpital)
onpossède
les résultatsd’analyse électrophoréti-
que.
Valeur de A +
0: l
, a2? ,
, y , P Eneffet,
la méthodepermet
mal de séparer A et alIl n’est pas évident a
priori
que les variables brutes sont les mieuxappropriées
à discriminer les différentes famillesd’hépatiques :
certaines fonctions des variables(le logarithme
parexemple) peuvent
conduire à unemeilleure
séparation
desfamilles,
soit parce que leurdispersion
estplus
faible que celle de la variablebrute,
soit parce que cettedisper-
sion
dépend
moins de la valeur moyenne.C’est la raison pour
laquelle
on aenvisagé l’emploi
des variables suivantes :- variables brutes A + al, a 2,
(3,
y.-
logarithme
des variables. On constate en effet que, pour l’unequelconque
des variables del’électrophorèse,
le coefficient de va- ration6/m reste,
d’une famille de malades àl’autre, plus
constant quel’écart-type
cy.- variables
exprimées
en%
de leur total P’ =(A
+al )
+(a2)
+(P)
+(y).
35
On constate que
l’écart-type
o ou le coefficient de variationa/m
restent d’une famille de malades à une
autre, plus
constants,lorsqu’on
les calcule à
partir
durapport x/P’
quelorsqu’on
les calcule àpartir
de la variable brute x. Ce fait est mis en évidence par le tableau ci-dessous, qui
donne les valeurs du coefficient de variationa lm,
d’unepart
pour la famille deshépatites,
d’autrepart
pour celle des cancers:Il est évident d’autre
part qu’une
erreur éventuelle dedilution, qui
fait varier à la fois x et
P’,
influebeaucoup
moins que lerapport x/P’ . L’adoption
derapports
au lieu de données brutesgarantit,
dans une cer-taine mesure, contre la variabilité de
l’appareillage
ou de latechnique.
Pour
juger
si l’une ou l’autre des variables del’électrophorèse
est influencée de
façon significative
par la nature de lamaladie,
on aappliqué
le test t de Student-Fisher à lacomparaison
des moyennes cons- tatées pour cette variable dans les familles"hépatite"
et"cancer".
On supposel’égalité
des variances dans les deux famillescomparées ;
cettecondition n’est ici réalisée que de
façon approximative.
Les valeurs obtenues pour t sont les suivantes :
Ce tableau
appelle
les commentaires suivants :1/
A uneexception près (log
x pour lavariable y)
toutes les va-leurs de t sont hautement
significatives :
il y a, defaçon quasi-certaine,
des différences de valeur moyenne entrehépatite
et cancer, pour chacune des variables del’électrophorèse.
2/
pour une variableélectrophorétique déterminée,
c’estgénérale-
ment le
rapport x / P’ qui
donne la valeur laplus
élevée de t : ce rap-port sépare
mieux les deux familles que les autres variablesenvisagées.
3/
La variablequi
donne la moins bonneséparation (valeur
de tla
plus petite)
est la variable y.Compte
tenu de ces remarques, onadoptera,
pour la suite de l’étudestatistique :
- d’une
part
lesrapport
A +al/Pl, a2/P’, f3/P’
- d’autre
part
laquantité P,
masse totale-desprotéines.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
b)
Calcul des fonctions discriminantes. Dans le groupe des 197malades,
les valeurs moyennes des variablesprécédentes
sont, par na- ture demaladie,
les suivantes :Les
écarts-types
ont été calculés sur le groupe des"médicaux"
(hépatite)
etdes "chirurgicaux" (calcul
+cancer) ;
lesécarts-types
mo-yens, pour l’ensemble de ces deux familles de malades ont
permis
decalculer la discrimination réalisée par chacune des variables retenues .
On a calculé deux fonctions discriminantes :
la lère
YI,
en vue deséparer
Médicaux etChirurgicaux
la 2ème
Y2,
en vue deséparer,
à l’intérieur desChirurgicaux,
les Calculs et les Cancers.
Il convient de noter que l’on
n’applique
pas, dans le casprésent,
la méthode
générale
de discrimination entre 3 famillesdistinctes,
maisque l’on
traite, compte
tenu de la manière dont se pose leproblème
aumédecin,
la discrimination entre deux familles unepremière
fois entreMédicaux et
Chirurgicaux,
et une deuxième fois pour les malades recon- nuschirurgicaux
parapplication
de lapremière
discrimination.Discrimination
"médicaux", "chirurgicaux"
La valeur moyenne de cette fonction est :
pour le groupe des
"médicaux"...
330. 554pour le groupe des
"chirurgicaux"...
401. 476la différence des moyennes
est ... d 1.
= 70. 922l’écart-type
de Y est... 03C31 = 51. 171 lerapport
de discrimination estd1/03C31 =
1. 38637
On vérifie que la discrimination réalisée par
YI
est meilleure que celle réalisée par la meilleure variableisolée,
en l’occurence03B12/P’
(1,
386 contre1, 148)
Les coefficients de
03B12/P’ 03B2/P’
et P dans la fonction discriminante sont hautementsignificatifs.
Par contre le coefficient d’A +al/Pl
n’estpas
significatif ;
onpourrait donc,
sans nuire sensiblement à lapuis-
sance de la
discrimination, supprimer
cettevariable,
mais celaoblige-
rait à recalculer les coefficients des autres variables.
Discrimination
"calcul", "cancer" :
La valeur moyenne de cette fonction est :
pour le groupe
"calcul"
... 20.847 pour le groupe"cancer"...
8.643 La différence des moyennes est...d2 =
12. 204L’écart-type
deY2
est...03C32=11.603
Le
rapport
de discrimination est...d2/(03C32 = 1.
052Les coefficients des trois
premières variables,
dans la fonctiondiscriminante,
sont peusignificatifs ;
le coefficient de laquatrième (P)
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
ne l’est pas du tout. Ces
constatations,
ainsi que la faible valeur durapport
d2/03B12,
laissentprévoir
que la discrimination entre calculs et cancers sera médiocre.Les distributions
théoriques de Yl
etY2
à l’intérieur des familles de malades sontreprésentées
sur ungraphique
ci-dessus.c) Application
au classement de tous les maladesSupposons
tout d’abord que l’on veuille énoncer undiagnostic
surchaque
malade. On décidera à l’aide deYl
s’ils’agit
d’un ictère médicalou
chirurgical,
et dans cette seconde éventualité onchoisira, grâce
àY,,
entre"calcul"
et"cancer".
Cette manière de poser le
problème
conduit à déterminer deux"va-
leurs de
séparation" Y1°
etY’ 2
et à décider :si
Y1 Y1° Hépatite
Le choix de
Y1°
etY2’ dépend
de laproportion
de malades dans cha-cune des trois
familles,
c’est-à-dire de laprobabilité
apriori
pour un malade d’être atteint de l’un ou l’autre ictère. Il est difficile de déter- miner cesprobabilités
apriori :
ellespeuvent changer
dans letemps (épidemie)
et sontprobablement
variables d’unhôpital
à l’autre.Dans le cas
présent,
en nous basant sur les nombresd’Hépatites (106),
de Calculs(41)
et de Cancers(50)
observés au cours d’une mêmepériode,
nous avons admis lesprobabilités
apriori
suivantes :Hépatites 1/2
Calculs1/4
Cancers1/4
Ce
qui
conduit àprendre
pourY1°
etY2°
la moyennearithmétique
des valeurs moyennes de
Y1°
etY2
à l’intérieur desfamilles,
soit :Y1° = 366,015 y; =
14,745ylo
etY’ 2 sont,
sur legraphique,
les abscisses despoints
d’intersection des deux courbes.1/ Diagnostic "médical"
ou"chirurgical" (fonction Y1) - Risques
d’erreur.Les erreurs
possibles
dans l’utilisation deY1,
consistent à déclarer médical un ictèrechirurgical,
ou à déclarerchirurgical
un ictère médical.Avec le choix
qui
a été fait pourY°,
ces deuxrisques
sontégaux,
toutau moins
théoriquement.
Il sontreprésentés
sur legraphique
par les aires délimitées par lescourbes,
l’axe desabscisses,
et la droite d’abscisseYlo.
Parexemple,
lerisque (c’est-à-dire
laprobabilité)
de déclarer chi-rurgical
un ictère médical estreprésenté
par l’airecomprise
à droite de la droite deséparation (366, 015),
entre la courbe relative auxhépa-
tites et l’axe des abscisses. Cette
probabilité peut
être évaluée à l’aide de la table de la fonctionF(u), intégrale
de la loi deLaplace-Gauss.
On trouve
ainsi,
pour laprobabilité
de déclarerchirurgical
un ic-tère médical :
39
soit :
24, 41%
Autrement
dit, 24, 41 %
des ictères médicaux seront classés en ic- tèreschirurgicaux
par l’utilisation deYl,
et de même 24.41%
des ic-tères
chirurgicaux
seront classés en ictères médicaux. Comme on a ad-mis
qu’il
existait autant d’ictères médicaux que d’ictèreschirurgicaux,
onse
trompera,
en moyenne, dans 24. 41%
des cas.Il est intéressant de comparer cette
proportion
à celle que l’on obtient pour chacune des variables del’électrophorèse prise séparément .
Le tableau ci-dessous
indique
les% théoriques
d’erreur selon que l’on utilise l’une ou l’autre de ces variables.On constate que
YI
améliore sensiblement la discrimination effectuée par la mesure laplus sélective,
à savoir03B12/P’.
Vérification :
Sur les 197 malades étudiés dans
ce § (qui
ont servi à l’établisse- ment de la fonctiondiscriminante) :
parmi
les 106hépatites,
15 sont classés par
Y,
en ictèreschirurgicaux parmi
les 91 ictèreschirurgicaux,
31 sont classés en
hépatites
soit au total : 46 erreurs sur 197
malades,
c’est-à-dire23. 35 %,
propor- tion très voisine de laproportion théorique.
2/ Diagnostic "calcul"
ou"cancer" (fonction Y2) - Risques
d’erreur.Nous donnons ci-dessous les
%
d’erreursqu’entraînent
l’utilisation deY2
ou de chacune des variablesélectrophorétiques prise isolément , lorsqu’on
veutséparer
en Calculs et en Cancers les malades dont on estdéjà
certainqu’ils
sont atteints de l’une ou l’autre maladie.Y2
n’améliore que de très peu la discrimination effectuée par A +cxl/P’
considéré isolément.
Vérification :
Sur les 91
malades "chirurgicaux"
de l’étude actuelle :parmi
les 41calculs,
12 sont classés parY2
enCancers, parmi
les 50 cancers, 16 sont classés en Calculssoit au total 28 erreurs sur 91
malades,
c’est-à-dire30. 77 %,
propor- tion très voisine de laproportion théorique.
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
3 / Diagnostic
par utilisation successive deY,
etY2 - Risques
d’erreurLes
risques
d’erreur dans l’utilisation successive deY1
etY2
sontles suivants
(en
admettant lesprobabilités
apriori 1/2, 1/4
et1/4
pourun malade d’être atteint
d’hépatite,
de calcul ou decancer) :
pour les
hépatites : 1/2
x 0.2441pour les calculs :
(1/4
x0.2441)
+(1/4
x 0. 7559 x0. 3000)
pour les cancers :
(1/4
x0. 2441)
+(1/4
x 0. 7559 x0. 3000)
soit au total : 0. 35750
La
proportion théorique
d’erreurs est donc de 35. 75%
Il est à noter que le
risque
d’erreur dans l’utilisation successive deYI
etY2
estsupérieur
à ceux rencontrés dans l’utilisationséparée
deYI
ou deY2.
Ceciprovient
de ce que, dans lapratique, lorsqu’on
utiliseY2,
onignore
si les malades sont réellement atteints d’ictères chirur-gicaux.
Vérification :
Pour les mêmes 197
malades,
le tableau ci-dessous donne danschaque
case le nombre d’individus atteints de la maladiecorrespondant
àla
ligne,
classés par les fonctions discriminantes dans la maladie cor-respondant
à la colonne.Le nombre total d’erreurs s’obtient en
ajoutant
les chiffres descases
n’appartenant
pas à ladiagonale principale,
soit 62 sur 197 ma-lades. La
proportion
observée est de62/197 =
31. 17%, légèrement
in-férieure à la
proportion théorique.
d) Application
avecpossibilité
d’undiagnostic
réservé.L’utilisation des fonctions discriminantes
exposée
ci-dessuspermet
de connaître laproportion
d’erreurs commiseslorsqu’on
veut prononcerun
diagnostic
sur tous les malades àpartir
des résultats del’électropho- rèse,
etuniquement
àpartir
de ces résultats. La bonne concordance entre laproportion
d’erreurthéorique,
et laproportion
observée sur les 197malades
ayant
servi à l’étudeapporte
une confirmation de la validité de la méthode et deshypothèses
faites.Mais,
on vient de leconstater,
lesrisques
d’erreur sont loin d’êtrenégligeables.
Ilparaît
doncplus
raisonnable de ne pas chercher à énon-cer un
diagnostic
sur tous les malades. On se donnera àpriori
la pro-portion
d’erreurs à ne pasdépasser (proportion
suffisammentfaible,
parexemple
5%),
et,compte
tenu de cettecondition,
on n’énoncera un dia-gnostic
que sur unepartie
des malades. Pour lesautres,
lediagnostic
sera
"réservé",
et remis à la connaissance du résultat d’autres investi-gations
médicales.41
Il convient donc de
déterminer,
pour uneprobabilité
d’erreur don- née à ]’avance(nous prendrons
5%),
laproportion
des cas où un dia-gnostic
pourra effectivement êtreprononcé.
1/ Diagnostic "médical"
ou"chirurgical" (fonction discriminante
Reportons-nous
augraphique représentant
les distributions deYl ,
au sein des familles
"médical"
et"chirurgical".
Il
s’agit
de délimiter sur l’axe des Y unsegment (Yi - Y1B)
telqu’un
diagnostic
ne seraprononcé
quelorsque
la valeur deYI
déduite des me- sures effectuées sur un individu sera extérieure à cesegment.
En
acceptant
lerisque
d’erreur 5%, Yi
B est défini parl’équation :
d’où
Y1B - Y1 (Hépatite) =
1. 64503C3y1
De même
Y1A
est donnée par :Yl (chirurgical) - Yi -
1 64503C3y1
On trouve
YA1 =
317,30Y1B = 414,73
La
proportion
de malades atteintsd’hépatite,
dont lesYI
sont ex- térieurs ausegment (Yi - YB1)
est de 5% (Y1 > YB1) plus 39, 78 % (YI Y,),
soit au total 44. 78
%.
Cette
proportion
est la même pour les malades de la famille"chirur-
gical".
La fonction discriminante
YI permet
donc de dire si un malade est atteint d’un ictère médical ou d’un ictèrechirurgical
dans 45%
des casenviron,
avec uneproportion
d’erreur de 5%.
Ce dernier chiffre est rap-porté
au nombre total des malades.Rapportée
au nombre de malades pourlesquels
undiagnostic
esténoncé,
laproportion
d’erreurs est de5/45,
soit
1/9.
Remarquons
que les valeurs deYi
etYi
sontindépendantes
des pro- babilités àpriori
pourqu’un
maladeappartienne
à l’une ou l’autre famille et nedépendent
que durisque
d’erreur consenti.Vérification :
Le tableau ci-dessous
donne,
pour les 197 malades del’étude,
le classement effectué par Y dans les troiscatégories : diagnostic
non pro-noncé, hépatite,
calcul ou cancer.Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Nombre de
diagnostics
énoncés : 81 sur197,
soit 41. 12%
Nombre d’ erreurs... : 9 sur
197,
soit4. 56 %
ou par
rapport
au nombre dediagnostics prononcés : 9/81 = 1/9 2/ Diagnostic "calcul"
ou"cancer" (fonction
discriminanteY2)
Partant cette fois de la fonction
Y2,
oncalcule,
de la même ma-nière que
précédemment,
les valeursY2
etY2 correspondant
à une pro- babilité d’erreur de 5%.
On trouve :
Y2 =
1. 76Y2 =
27. 73Le pourcentage de malades pour
lesquels
lediagnostic
estprononcé
est de 32. 66
%.
Laproportion d’erreurs,
parrapport
au nombre de dia-gnostics prononcés,
est de5/32.66
soitprès
de1/6.
Vérification :
Sur les 91 malades de
l’étude,
atteints réellement de calcul ou de cancer, le classement obtenu parl’emploi
de la fonctionY2
est le sui-vant :
Nombre de
diagnostics
énoncés : 29 sur91,
soit31,
87%
Nombre d’erreurs...:
3 sur 91,
soit3.3%
ou par
rapport
au nombre dediagnostics prononcés 3/29 # 1/10 3/ Diagnoctic
par utilisation successive deY1
etY2
L’utilisation successive des fonctions
YI
etY2
conduit à donnerpour
chaque
malade une des 5réponses
suivantes :diagnostic
non pro-noncé, hépatite, calcul,
cancer, calcul ou cancer.C’est, semble-t-il,
dans l’état actuel de nos
connaissances,
la meilleurefaçon
d’utiliser les fonctions discriminantes aux fins d’undiagnostic.
Le calcul
théorique
de laproportion
d’erreurs et de laproportion
dediagnostics énoncés,
calculqui
fait intervenir la corrélation desquanti-
tésYI
etY2
n’a pas été effectué. Il est certain que laproportion
d’er-reurs
(par rapport
à l’ensemble desmalades)
estsupérieure
à cequ’elle
est dans l’utilisation de
YI
seul ou deY2
seul. Eneffet,
l’utilisation deY2
sur les malades
déjà
classés parYI
dans la famille"calcul" ou"cancer"
ne
peut qu’augmenter
le nombre des erreursdéjà
commises lorsdel’uti- lisé1tion deY1.
L’application
de larègle
shcématisée ci-dessous43
aux 197 malades de l’étude donne les résultats suivants :
Le nombre de malades classés est évidemment de 81 comme dans l’utilisation de
Yl
seul. Le nombre total d’erreurs est de 10 : une deplus
que dans l’utilisation deYl
seul.Aucun des malades n’a été classé en
"Calcul".
Ce faitprovient
dece que les valeurs moyennes de A +
al/P’, 03B12/P’, 03B2/P’
et P observéessur les malades de la famille
"Calcul"
sontcomprises
entre les valeurs moyennescorrespondantes
dans les familles"Hépatite"
et"Cancer".
Lavaleur
moyennede Y1_à
l’intérieur de la famille"Calcul"
estcomprise
entre
Yl (Hépatite)
etYl (chirurgical).
Il en résulte que les valeurs ob- servées deYl supérieures
àYB1
ont uneprobabilité plus grande
de pro- venir d’un malade atteint d’un cancer que d’un maladeayant
un calcul.Ceci est confirmé par le fait que sur les 22 Cancéreux classés par
Yl
dans la famille Calcul ouCancer,
21 sont reconnus effectivement Can- céreux parY2,
tandis que sur les 7"Calculs"
classés Calcul ou Cancer parYl, Y2
nepermet
depréciser qu’une
fois s’ils’agit
de l’un ou del’autre
ictère,
en donnant d’ailleurs uneréponse
erronée.II -
Application
à un nouveau groupe de 81 maladesictériques
Les fonctions discriminantes
Yl
etY2
sontappliquées,
dans ce pa-ragraphe,
à 81 nouveauxmalades,
dont lesanalyses électrophorétiques
ont été effectuées
après
l’établissement de cesfonctions,
mais pour les-quels
undiagnostic
a étéprononcé
avant que les médecins n’aient encoreeu connaissance de l’existence de ces fonctions et de la manière de les utiliser.
L’application
à ces nouveaux malades de la méthodepréconisée
auparagraphe précédent
pourl’exploitation
des résultats del’électrophorèse
constitue donc une
épreuve
cruciale de la validité de cette méthode.Les 81 nouveaux ictères se
répartissent
ainsi :39
hépatites,
21calculs,
17 cancers et 4 autres ictères chirur-gicaux.
Bien que dans la
pratique
on ne cherche pas à prononcer un dia-gnostic
pour tous lesmalades,
on considérera toutd’abord,
à titre d’in- formation et devérification,
les résultats del’application
des fonctions discriminantes au classement de tous les malades.1/ Application
au classement de tous les maladesa)
Utilisation deY,
seule :Parmi les 39 ictères
médicaux, 7
sont classés commechirurgicaux
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
Parmi les 42 ictères
chirurgicaux,
12 sont classés médicaux soit au total 19 erreurs sur 81diagnostics,
c’est-à-dire 23. 45%
des cas(proportion théorique
24. 41%).
b)
Utilisationde Y2
seule :Parmi les 21
calculs,
6 sont classés en cancersParmi les 17 cancers, 4 sont classés en calculs
soit au total 10 erreurs sur 38
diagnostics,
c’est-à-dire 26. 32%
des cas(proportion théorique
30. 00%).
c)
Utilisation successive deY,
etY2 :
Le tableau ci-dessous donne pour les 77 malades atteints
d’hépa- tites,
calculs ou cancers, le classement effectué par l’utilisation suc- cessive deYI
etY2 :
Au
total,
25 erreurs sur 77diagnostics,
soit32, 47 % (proportion théorique
35. 75%).
2/ Application
avecdiagnostic
réservéa) Diagnostic "médical"
ou"chirurgical"
àpartir
deYI
Le classement effectué par
Y1
est donnéci-après
sous forme de ta-bleau :
Un
diagnostic ("médical"
ou"chirurgical")
estprononcé
36 fois sur81,
soit44, 4 %
des cas(proportion théorique
45%).
Les erreurs, au nombre de4, correspondent
toutes à des"calculs"
classés en"hépatite" .
Elles sont en
proportion
de4/81,
ou 4 sur 36diagnostics prononcés,
soitexactement
1/9.
La concordance des résultats observés avec les résultats attendus est extrêmement satisfaisante.
45
b) Diagnostic "calcul"
ou"cancer"
àpartir
deY2
L’utilisation de
Y2,
avecpossibilité
dediagnostic réservé,
sur les 38 malades atteints réellement de calcul ou cancer donne les résultats suivants :Le nombre de
diagnostics prononcés
est de 9 sur38,
alors que le nombre attendu(38
x 32. 66%)
est de 12. 4. Le nombre d’erreurs attendu est de 38 x0,
05 =1, 9 ;
on en constate une seule.c) Diagnostic
par utilisation successive deYl et Y2
Les résultats de
l’application
successive deYl
etY2
sont lesplus
intéressants à
considérer, puisqu’ils correspondent
à l’utilisation envi-sagée
des fonctions discriminantes.Ils sont
consignés
ci-dessous :Le nombre de
diagnostics
énoncés est de 36 sur 81(comme
pourY1)
soit 44. 4
%
des cas. Iln’y
a que 4 erreurs,correspondant
à des ma-lades atteints de calculs et classés en
hépatites.
On adéjà signalé
que l’utilisation deY1
etY2
était peuapte
à déceler les"calculs" :
on cons- tate ici encorequ’un
teldiagnostic
n’estjamais prononcé. Enfin,
il est intéressant de noter que pour les 4 maladeschirurgicaux, autres que
"calculs"
ou"cancers",
les fonctions discriminantes conduisent à ne pas énoncer dediagnostic
dans trois cas, et à conclure"chirurgical"
pour lequatrième.
CONCLUSIONS
L’application
des fonctions discriminantes audiagnostic
différentiel àpartir
des résultats del’électrophorèse,
a conduit aux résultats sui-vants :
Revue de Statistique Appliquée. 1965 - Vol. XIII - N’ 2
En consentant à ne prononcer un
diagnostic
que dans 45%
des cas, laséparation
des ictères entre"médicaux" (hépatites)
et"chirurgicaux"
(calculs
oucancers) peut
être effectuée avec unpourcentage
de 5 erreurssur 100 malades examinés
(soit
11 erreurs sur 100diagnostics
pronon-cés).
Ces résultats sont meilleurs que ceux que l’on obtenait par les mé- thodesantérieures, qui
donnaient au mieux 40%
dediagnostics,
avec 20erreurs sur 100
diagnostics prononcés.
La
séparation
des ictèreschirurgicaux
entre"calculs"
et"cancers"
ne donne pas des résultats aussi satisfaisants.
Il faut insister sur le fait que les résultats
qui
viennent d’être don- nés ne sont valables que pour latechnique électrophorétique utilisée,
et pour des groupes de malades
comparables
à celuiqui
a servi de baseà l’étude.
Après
avoirprésenté
dans cette étudel’analyse
discriminatoire etmontré,
par cetexemple,
les servicesqu’elle
estsusceptible
derendre,
nous en ferons dans un
prochain
article unexposé théorique
suivi d’unnouvel