R EVUE DE STATISTIQUE APPLIQUÉE
A LICE G UÉGUEN J AVIER N ICOLAU
J EAN -P IERRE N AKACHE
Utilisation des réseaux probabilistes en analyse discriminante sur variables qualitatives
Revue de statistique appliquée, tome 44, n
o1 (1996), p. 55-75
<http://www.numdam.org/item?id=RSA_1996__44_1_55_0>
© Société française de statistique, 1996, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UTILISATION DES RÉSEAUX PROBABILISTES EN ANALYSE DISCRIMINANTE
SUR VARIABLES QUALITATIVES
Alice
Guéguen,
JavierNicolau,
Jean-Pierre Nakache INSERM Unité 88Hôpital
National de Saint-Maurice.14, rue du Val d’Osne. 94410 Saint-Maurice
1. Introduction
La méthode de discrimination
présentée
ici est une méthodeadaptée
au cas oùles variables
explicatives
sont nominales et en nombreimportant.
Plusprécisément
cette méthode utilise
l’approche qui
consiste à estimer les densités deprobabilité
par groupe,puis
à l’aide de la formule deBayes, d’expliciter
lesprobabilités
aposteriori d’appartenance
aux différents groupes.Dans cette
approche,
un modèleparamétrique apparaît
très naturellement. Il consiste à supposer que, pourchaque
groupe, lesfréquences
observées dans les différents étatspossibles
sont les réalisations d’une loi multinomiale : ils’agit
dumodèle multinomial
complet.
Enpratique,
dès que le nombre de variables estélevé,
la construction d’un modèles’impose :
le modèle leplus simple
est le modèled’indépendance
conditionnellequi
consiste à estimer la densité deprobabilité
dansun groupe donné par le
produit
desfréquences
des différentes variablesexplicatives.
On suppose ainsi que dans chacun des groupes à discriminer il n’existe pas de liai-
son entre les variables
explicatives.
Plusieurs modèles se situant entre le modèled’indépendance
et le modèle multinomialcomplet
ont étéproposés parmi lesquels
le modèle de
Parzen,
le modèle deBahadur,
le modèlelog-linéaire
et le modèle de Lancaster.Cependant
pour ces modèles intermédiaires la difficulté de la modélisationpersiste
si le nombre de variables est élevé.Les réseaux
probabilistes
fournissent aisément des estimations des densités deprobabilité quelle
que soitl’importance
du nombre de variablesexplicatives.
Ilsconstituent un formalisme de
représentation
des connaissances associant ungraphe
et une distribution de
probabilité;
les sommets dugraphe représentent
des variablesaléatoires et la structure de la densité de
probabilité conjointe
des variables aléatoiresse déduit sans
ambiguïté
de la structure dugraphe.
Le réseauprobabiliste
leplus simple,
constituéuniquement
de sommets, conduit au modèled’indépendance;
leréseau
probabiliste
danslequel
les sommets sont reliés par desarêtes, permet
laprise
en
compte
des associations de variables deux à deux alors que le réseauprobabiliste
constitué de
triangles permet
laprise
encompte
des associations de variables trois à trois.56 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHENotations
Les groupes a
priori
sont notésGl, - Gk
et ont pourprobabilité a priori
7r1, ... 7rk
qui
vérifient 7rr > 0 pour r =1,···, k
etL
7rr = 1. Lesprobabilités
apriori
7rr, r =1,···, k
étant rarement connues, ellespeuvent
être soit estimées par lesfréquences
des groupes si le schémad’échantillonnage
lepermet,
soit évaluées àpartir
de connaissances antérieures. Les coûts de mauvais classement résultant de l’affectation d’une observation du groupeGr
au groupeGs
sont notésCs|r
pours =
1,···, k
et r =1, - " , k.
Les coûtsCs 1 r
sontpositifs si s =1=
r et nuls si s = r. Engénéral cs|r
est différent decris.
On note X =
(X1,···, Xp)
le vecteur de dimension p des variables aléatoiresexplicatives.
La variableXj, (1 ~ j ~ p) prend
les modalités1, ...
mj,···,Mj.
M =
Ml
x ... xMp représente
le nombre d’états ou deprofils possibles
du vecteurX. On note
P(X = xl Gr )
la densité deprobabilité
de X dans le groupeGr, Pobs(X = xl Gr)
la densité deprobabilité
observée dans le groupeGr
à l’aidede l’échantillon
d’apprentissage
et(X
=xl Gr )
la densité deprobabilité
dans legroupe
Gr
estimée par les réseauxprobabilistes
avec arêtes outriangles.
2. Modèles
graphiques
Dans les modèles
log-linéaires hiérarchiques décomposables,
les estimations du maximum de vraisemblancepeuvent s’exprimer
sous formeexplicite,
sans avoirrecours à une
procédure
itérative. Ces modèlespeuvent
sereprésenter graphique-
ment, et à tout modèle
graphique correspond
un modèlelog-linéaire hiérarchique décomposable [Agresti 1990].
Prenons un
exemple
danslequel
on a 4 variablesexplicatives.
Le modèlelog-
linéaire saturé consiste à écrire le
logarithme
de la densité deprobabilité
dans ungroupe donné sous la forme suivante :
où u
représente
l’effetglobal, u(mj1)j1
les effetsprincipaux
dûs auxvariables, u(mj1mj2) j1j2
les effets des interactions entre les variables deux à
deux, u(mj1mj2mj3) j1j2j3
les effets des interactions entre les variables trois à trois etu(m1···,m4) 1...,4
l’effet de l’interaction entre lesquatre
variables.A ce modèle
correspond
le modèlegraphique représenté
dans lafigure
1. Lessommets du
graphe représentent
lesvariables,
les arêtesreprésentent
les liaisons entre deuxvariables,
lestriangles représentent
les liaisons entre trois variables et le volume de lapyramide représente
l’interaction entre lesquatre
variables.FIGURE 1
Modèle
graphique
associé au modèlelog-linéaire
saturéAu modèle
log-linéaire
non saturéhiérarchique
etdécomposable
donné par :correspond
le modèlegraphique représenté
dans lafigure
2.FIGURE 2
Modèle
graphique
associé au modèlelog-linéaire
non saturédéfini
en(2)
Le modèle
log-linéaire
nondécomposable
défini par :58 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHEne peut pas être
représenté graphiquement.
Eneffet,
les arêtesu(m1m3) 13, u 4
et
u(m3m4) 34
définissent untriangle auquel
necorrespond
pas d’interaction dans lemodèle;
l’ effetu(m1m3m4) 134 n’y
est pas inclus.De manière
générale,
un modèlegraphique
est défini par lecouple (G, PG)
oùG est un
graphe
fini non orienté associé à une distribution deprobabilité PG,
danslequel
les sommetsreprésentent
des variables aléatoiresX1,···, Xp.
L’intérêt des modèles
graphiques
estqu’ils permettent
d’obtenir directement les estimateurs du maximum de vraisemblance sans utiliser deprocédure
itérative.L’utilisation de tels modèles
présentent cependant
des inconvénientsquand
le nombrede variables est
important,
cequi explique
l’intérêt que nous avonsporté
auxréseaux
probabilistes,
modèlesgraphiques particuliers
définis dans lesparagraphes
ci-dessous.
2.1. Réseaux
probabilistes
avecprise
encompte
des liaisons d’ordre 1 :graphe
avec arêtesUn réseau
probabiliste
avec arêtes est un modèlegraphique
danslequel
lesarêtes -
représentant
les liaisons entre variables - ne forment pas decycle.
Dans cecas, le
graphe qui
lui est associé est ungraphe
connexe; la distribution deprobabilité PG peut
s’écrire[Pearl 1988]
comme unproduit
de distributions deprobabilités
conditionnelles :
où
Xi(j)
est la variablequi désigne
leparent
deXj.
La racineXi
dugraphe peut
être arbitrairement choisie et,n’ ayant
pas deparent,
elle est caractérisée par lesprobabilités P(XI =mi),mi =l,...,Mi.
En
pratique,
on cherche à déterminer la distribution P -appartenant
à la famille décrite en(4) - qui approche
au mieux la distributionPobs
observée dans l’échantillond’apprentissage
dans un groupe donné. En d’autres termes,parmi
tousles
graphes qu’on peut
construire àpartir
de p variablesexplicatives,
chacun d’entreeux conduisant à une densité
P, quelle
est la densitéP
laplus proche
dePobs ?
Chowet Liu
(1968)
ont fourni uneréponse
utilisant la distance de Kullback-Leibler(1951):
Cette distance est non
négative
etprend
la valeur 0 si et seulement si P’ coïncide avecP. A
partir
de la définition de l’informationmutuelle,
notéeI(Xj1, Xj2),
entre deuxvariables :
Chow et Liu ont
proposé l’algorithme
suivantqui permet
de construire legraphe
etd’en déduire la densité de
probabilité qui
lui est associée :1.
Calculer,
àpartir
de l’échantillond’apprentissage,
lesprobabilités Pobs (Xj1 =
Mil
Xj2
=mj2)
pour tous lescouples
de variablesXjl etXj2 .
2. Calculer les informations mutuelles observées
Iobs (Xjl, Xj2)
desp(p - 1) /2
arêtes
(X j 1 , X j2)
et les ranger par ordre décroissant.3. Retenir les deux arêtes
correspondant
aux deuxplus
fortes informations mu-tuelles observées.
4.
Puis, parmi
lessuivantes,
retenir cellequi
ne crée pas decycle
avec les arêtesdéjà
retenues.5.
Répéter (4) jusqu’à
retenir(p - 1)
arêtes.6.
P(X)
est ensuite obtenue comme leproduit
des distributions desprobabilités
conditionnelles à
partir
d’une racine que l’on choisit arbitrairement.On obtient ainsi le réseau
probabiliste
avec arêtesqui approche
au mieux la densité deprobabilité
observéePobs
d’un groupe donné.2.2. Réseaux
probabilistes
avecprise
encompte
des liaisons d’ordre 2 :graphe
avectriangles
Les réseaux
probabilistes
avectriangles
sont des extensions des réseaux pro- babilistes avec arêtesprenant
encompte
des liaisons entre troisvariables;
ils sont tels que deuxtriangles
ont auplus
un sommet commun et ils ne forment pas decycle.
La
généralisation
de la démonstration de Chow et Liu(Annexe A)
montre que la recherche de la distributionP,
associée à ungraphe
avectriangles,
laplus proche
d’une distribution observée
(au
sens de la distance deKullback-Leibler),
consiste àchercher les t
triangles
pourlesquels
la somme des informations mutuelles observées soit minimum.Le nombre maximum de
triangles t qui puissent
être construits avec p variables estégal
à lapartie
entière de(p - 1)/2. (Si
p estpair,
il est doncpossible
de créer unevariable artificielle
Xp+1
à valeur constante, de manière à ceque t
=p/2 triangles
soient
construits.)
60 A.
GUÉGUEN,
J. NICOLAU, J.P NAKACHE La mesure de l’information mutuelle entre trois variables s’écrit :et
l’algorithme qui permet
de construire legraphe
et d’obtenir la densité deprobabilité
associée est le suivant :
1.
Calculer,
àpartir
de la distributionobservée,
lesprobabilités Pobs (Xjl = mj1, Xj2 = mj2, Xj3 = mj3)
pour tous lestriplets
de variablesXjl, Xj2
et
Xj3.
2. Calculer les informations mutuelles observées
Iobs(Xj1, Xj2’ Xj3)
des p(p - 1)(p - 2) /6 triplets
et les ranger par ordre décroissant.3. Retenir le
triangle correspondant
à laplus
forte information mutuelle observée.4.
Puis, parmi
lessuivants,
retenir lepremier triangle qui
ne crée pas decycle
avecles
triangles déjà
retenus etqui
nepossède
pas nonplus
d’arête commune avecces derniers.
5.
Répéter (4) jusqu’à
obtenir ttriangles.
6. La densité de
probabilité
s’écrit alors comme leproduit
de tprobabilités
conditionnelles et de la
probabilité
de la racine choisie arbitrairement.où les sommets
X0(03BD), X1(03BD)
etX2(v)
forment le03BDème triangle
danslequel Xo(,)
estle
parent
deXI(v)
etX2(v),
et oùXO(I)
=Xi.
On obtient ainsi le réseau
probabiliste
avectriangles qui approche
au mieux ladensité de
probabilité Pobs
d’un groupe donné.(Si
p estpair,
la variable artificielleXp+l n’appartient qu’à
un seultriangle
v*(Xp+l = X1(03BD*))
et laprobabilité
conditionnelle
Pobs(X1(03BD*) = cte, X2(03BD*) = m2(v*)IXo(v*) = m0(03BD*)),
s’écritPobs(X2(03BD*) = m2(03BD*)|X0(03BD* = m0(03BD*)).)
3. Discrimination à l’aide des réseaux
probabilistes
3.1.
Règle
de décisionDans un contexte
décisionnel,
la discrimination consiste à construire unerègle
de
décision,
àpartir
de l’échantillond’apprentissage.
Unerègle
de décision 03B4 est uneapplication
de l’ensemble X des états dans l’ensemble G des groupes.La
règle
de décision obtenue à l’aide des réseauxprobabilistes
consiste à affecter l’état x au groupe pourlequel
le coût entraîné par cette affectation est minimum.où
cslr
est le coût de mauvais classement et(Gr|X
=x)
est l’estimation de laprobabilité
aposteriori d’appartenance
au groupeGr.
Elle est obtenue à l’aide de la formule deBayes :
où 7rr est la
probabilité
apriori d’appartenance
au groupeGr.
Le
risque
associé à larègle
de décision8,
noté R*(8)
etpermettant
d’évaluer laqualité
de la
règle
dedécision,
estégal
à :où
Q*s|r
est laprobabilité
pourqu’une
observation x du groupeGr
soit affectée augroupe
GS :
3.2.Évaluation
d’unerègle
de décisionUne fois la
règle
de décisionconstruite,
il estimportant
d’en évaluer laperformance
c’est-à-dire d’estimer lerisque
associé à larègle,
l’erreurqu’elle produira lorsqu’elle
seraappliquée
à de nouvelles observations. Plusieursprocédures
peuvent être utilisées pour estimer ce
risque :
les estimations par resubstitution et par échantillon testqui
sontprésentées
dans lesparagraphes suivants,
ainsi que l’estimation par validation croisée et parbootstrap [Celeux
etNakache, 1994].
62 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHE3.2.1. Estimation du
risque
par resubstitutionOn note
Nr
le nombre d’observations de l’échantillond’apprentissage
appar- tenant au groupeGr
etNslr
le nombre d’observations du groupeGr
affectées augroupe
Gg
par larègle
8. L’estimation durisque
par resubstitution s’obtient en esti- mant lesprobabilités Q*s|r
par lesproportions
observéesNI,IN,
d’observations du groupeGT
affectées par larègle
8 au groupeGs :
L’utilisation de cette valeur
Rea(03B4)
donne une idéeoptimiste
de laperformance
dela
règle
de décisionpuisque
le même échantillon sert à la fois pour construire larègle
de décision et pour fournir l’estimation durisque qui
lui est associé. Ce biaisd’optimisme
est d’autantplus
fort que la taille de l’échantillon estpetite
et que larègle
estcomplexe.
3.2.2. Estimation du
risque
par échantillon testL’estimation du
risque
par la méthode de l’échantillon test est obtenue àpartir
d’un échantillon testindépendant
de l’échantillond’apprentissage.
Soit 8 larègle
obtenue à l’aide de l’échantillond’apprentissage.
On noteAs
le nombred’observations de l’échantillon test
appartenant
au groupeGr
etNets|r
le nombred’observations de l’échantillon test
appartenant
au groupeGr qui
sont affectées augroupe
G s
par larègle
8. L’estimation par échantillon test s’obtient en estimant lesprobabilités Q*s|r
par lesproportions
observéesNets|r/Netr
d’observations dans l’échantillon testappartenant
au groupeGr
et affectées au groupeGs
par larègle 03B4 :
L’estimation ainsi obtenue est sans biais car l’échantillon test est
indépendant
de l’échantillon
d’apprentissage.
La variance de cette estimation est fournie dans l’Annexe B.Remarque
Si les
probabilités a priori
7r r sont estimées par lesfréquences
des groupes, lerisque
estimé par resubstitution est alorségal
àoù N est le nombre d’observations de l’échantillon
d’apprentissage.
Pour l’estimation par échantillon test, il est licite d’estimer lesprobabilités a priori
parNetr/Net
carl’échantillon test est
indépendant
de l’échantillond’apprentissage.
L’estimation durisque
par échantillon test estégale
à :où
Net
est le nombre d’observations de l’échantillon test.Si de
plus,
les coûts de mauvais classement sontunitaires,
l’estimation durisque
par resubstitution est
égale
à :et l’estimation du
risque
par échantillon test estégale
à :Dans ce cas l’estimation du
risque
estégale
aupourcentage
d’observations de l’échantillon mal classées par larègle
8.3.3.
Discrimination fondée
surl’adéquation
des
probabilités
aposteriori
Adopter
unpoint
de vuepurement
décisionnel n’est pastoujours nécessaire,
ni mêmerecommandé;
parexemple
dans unproblème
dediagnostic médical,
au lieu d’affecter unpatient
à une classediagnostique,
ilpeut
êtrepréférable
defournir
uniquement
les estimations desprobabilités
aposteriori d’appartenance
auxdifférentes classes
diagnostiques.
Dans ce cas, iln’y
a pas derègle
dedécision,
ladiscrimination consiste à fournir pour
chaque
état x E X un vecteurd(x)
décrivant les différentes
probabilités
aposteriori d’appartenance
aux groupes. Brei-man et al.
[Breiman 1984] proposent
deprendre
l’écartquadratique
moyen du vecteurd(X)
comme mesure de laqualité
de la discrimination :64 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHEoù
Zr
est une variable aléatoireprenant
la valeur 1 si il y aappartenance
au groupeGr
et la valeur 0 sinon.L’estimation de cette mesure par resubstitution est
égale
àoù
IT représente
l’ensemble des indices des observations de l’échantillond’appren- tissage appartenant
au groupeGr,
et où Zis = 1 si l’observation iappartient
au groupeGs
et Zis = 0 sinon.L’estimation de cette mesure par échantillon test est
égale
àoù
Ietr
est l’ensemble des observations des individus de l’échantillon testappartenant
au groupe
Gr.
La variance de cette estimation est fournie dans l’Annexe B.Remarque
Si les
probabilités a priori
7r, sont estimées par lafréquence
des groupes, Rea(d) et Ret(d)
s’écrivent :où I et
let
indicent les observations de l’échantillond’apprentissage
et de l’échantil- lon test. Onparle
alors de scorequadratique
moyen estimé par resubstitution ou par échantillon test.4.
Application
L’exemple
utilisé pour illustrer cette méthode est constitué de 6000 observa- tions simuléesréparties
en 1800 observations pour l’échantillond’apprentissage
et4200 observations pour l’échantillon test. Trois groupes sont à
discriminer; chaque
observation est caractérisée par 9 variables binaires et 2 variables à 3 modalités. Les
probabilités
apriori
sont estimées par lesfréquences
des groupes dans l’échantillon et les coûts de mauvais classement sontégaux.
Les
probabilités
aposteriori d’appartenance
aux différents groupes ont été es-timées à l’aide du
système
MAID[Nicolau 1994]
pour les trois modèlesenvisagés :
indépendance conditionnelle,
réseauxprobabilistes
avec arêtes et réseauxprobabi-
listes avec
triangles.
Lesystème
MAID aégalement permis
de construire lesrègles
de décision et d’estimer leurs
risques (pourcentages
d’observations malclassées)
par resubstitution et échantillon test. Par contre, le calcul du scorequadratique
moyen(non implémenté
pour l’instant dans lesystème MAID)
a été effectuégrâce
aulogiciel
SAS.
Evaluation par le pourcentage d’observations mal classées
Le tableau 1 fournit le classement des observations des deux
échantillons, apprentissage
et test, par larègle
issue du modèle avecindépendance
conditionnelle.Le
risque (pourcentage
d’observations mal classées - MC-)
estimé par resubstitution estégal
à0,619
et celui estimé par échantillon test estégal
à0,659,
avec unécart-type
de
7,32 10-3.
TABLEAU 1
Classement des observations
(modèle
avecindépendance conditionnelle)
Échantillon d’apprentissage Échantillon
testMC :
61, 9%
MC :65,9 ± 0, 7%
La
figure
3fournit,
d’unepart,
lareprésentation graphique
des réseaux pro- babilistes avec arêtes associés aux trois groupesGI, G2
etG3,
et d’autrepart,
les estimations des densités deprobabilités correspondantes.
Lesprobabilités
a poste- riorid’appartenance
aux groupes sont ensuite obtenuesgrâce
à la formule deBayes.
Chaque
observation de l’échantillond’apprentissage
est alors affectée au groupe pourlequel
laprobabilité
aposteriori
est maximum. La mêmerègle
d’affectation est ap-pliquée
à l’échantillon test. Le tableau 2 fournit le classement des observations des deux échantillons -apprentissage
et test - par larègle
issue des réseauxprobabilistes
avec arêtes. Le
risque (pourcentage
d’observations malclassées)
estimé par resubsti- tution estégal
à0,334
et celui estimé par échantillon test estégal
à0,378,
avec unécart-type
de7,48 10-3.
La
figure
4fournit,
d’unepart,
lareprésentation graphique
des réseauxproba-
bilistes avec
triangles
associés aux trois groupesCi, G2
etG3,
et d’autrepart
les estimations des densités deprobabilités correspondantes.
Lesprobabilités
a poste- riorid’appartenance
aux groupes sont ensuite obtenuesgrâce
à la formule deBayes.
Chaque
observation de l’échantillond’apprentissage
est alors affectée au groupe pourlequel
laprobabilité
aposteriori
est maximum. La mêmerègle
d’affectation est ap-pliquée
à l’échantillon test. Le tableau 3 fournit le classement des observations des deuxéchantillons, apprentissage
et test, par larègle
issue des réseauxprobabilistes
66 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHEFIGURE 3
Réseaux
probabilistes
avec arêtes associés auxdifférents
groupesFIGURE 4
Réseaux
probabilistes
avectriangles
associés auxdifférents
groupes68 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHETABLEAU 2
Classement des observations
(réseaux probabilistes
avecarêtes)
avec
triangles.
Lerisque (pourcentage
d’observations malclassées) estimé
resubstitution est
égal
à0,322
et lerisque
estimé par échantillon test estégal
à0,3
avec un
écart-type
de7,49 10-3.
TABLEAU 3
Classement des observations
(réseaux probabilistes
avectriangles)
Évaluation
par le scorequadratique
moyenL’utilisation du modèle avec
indépendance
conditionnelle fournit un scorequadratique
moyen calculé sur les 1800 observations de l’échantillond’apprentis-
sage
(estimation
parresubstitution) égal
à0,662.
Son estimation par échantillon test estégale
à0,671,
avec unécart-type
de0,02 10-3.
Les réseauxprobabilistes
avec arêtes conduisent à un score
quadratique
moyen estimé par resubstitutionégal
à
0,432.
Son estimation par échantillon test estégale
à0,450,
avec unécart-type
de0,1010-3.
L’utilisation des réseauxprobabilistes
avectriangles
fournit une estimationdu score
quadratique
moyen estimé par resubstitutionégale
à0,423.
Son estimationpar échantillon test est
égale
à0,416,
avec unécart-type
de0,10 10-3.
Que
le critère d’évaluation de laqualité
de la discrimination soit lepourcentage
d’observations mal classés ou le scorequadratique
moyen, on observe - comme ons’y
attend - une amélioration du critère estimé par resubstitutionquand
on passe du modèled’indépendance conditionnelle,
au modèle avec arêtes et au modèle avectriangles.
Il est clair que dans cetexemple,
les réseauxprobabilistes
avec arêtes outriangles
fournissent une discrimination de bien meilleurequalité
que celle obtenueà l’aide du modèle
d’indépendance
conditionnelle. Par contre laprise
encompte
de liaisons entre trois variables n’améliore pas laqualité
de la discrimination.5. Discussion
L’intérêt des réseaux
probabilistes
réside dans leur facilité etrapidité
d’obten-tion des estimations de densités de
probabilité
par groupe. Pour l’instant latechnique proposée permet
de retenir un modèleparmi
le modèled’indépendance conditionnelle,
le modèle «arêtes» et le modèle«triangles»,
au moyen d’estimations desrisques
par échantillon test.Il est
possible
d’étendre cette méthode de deuxfaçons :
lapremière
consisteà évaluer la
qualité
de la discrimination à l’aide detechniques plus puissantes
quel’estimation par échantillon test, comme la validation croisée ou le
bootstrap.
Laseconde extension consiste à proposer d’autres modèles tenant
compte
du fait que les dernières arêtes ou les dernierstriangles
construits parl’algorithme peuvent apporter
une information peupertinente
car ilsdépendent trop
des fluctuationsd’échantillonnage.
Bibliographie
Agresti
A.(1990), Categorical
dataanalysis,
New York :Wiley.
Breiman
L.,
FreidmanJ.H.,
OlshenR.A.,
and Stone C.J.(1984), Classification
AndRegression Trees,
Wadsworth International group,Belmont,
California.Celeux
G.,
Nakache J.P.(1994), Analyse
discriminante sur variablesqualitatives, Polytechnica.
Chow C.K. and Liu C.N.
(1968), "Approximating
discreteprobability
distributions withdependence trees",
IEEE Trans. onInfo. Theory, IT-14,
462-467.Kullback S. and Leibler R.A.
(1951),
"Information andsufficiency",
Ann. Math.Statist., 22,
79-86.Nicolau J.
(1994),
Méthodes d’aide à la décision. Lesystème
MAID : aspectsstatistiques
etinformatiques,
Thèse de 3èmecycle,
Université Paris V.Pearl J.
(1988),
Probabilisticreasoning
inintelligent
systems : networksof plausible inference, Morgan
Kaufmannpublishers,
SanMateo,
California.Annexe A
La recherche de la distribution P
(associée
à ungraphe
G avectriangles),
laplus proche
d’une distribution observéePobs
se fait en deuxétapes.
Dans unpremier temps,
on suppose
que la structure dugraphe
G est fixée et on cherchequelles probabilités
P’ (Xl (,) = ml(v),X2(v) = m2(03BD)|X0(03BD) = m0(03BD))
pour v =1,...,
t rendent ladistribution
PG
laplus proche possible
de la distributionPobs
au sens de la distance de Kullback-Leibler. La distributionPG
estappelée projection
dePobs
sur legraphe
70 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHEG. Dans un deuxième
temps,
on fait varier Gparmi
tous lesgraphes possibles
et,parmi
toutes lesprojections
dePobs
sur cesgraphes,
on cherche cellequi
est laplus proche
dePobs .
Première
étape
Considérons deux distributions P et
PG, PG
étant associée à ungraphe
avectriangles.
PG
s’écrit :Le
graphe
G est définipar t triangles,
levè" triangle
étantcomposé
des 3 sommetsXl(v), X2(v)
etXO(v).
La distance de Kullback-Leibler entre P etPG
s’écrit :En
posant
on obtient :On sait que si la distribution P est
fixe, l’expression :
est maximum pour. et que
l’expression :
est maximum pour
P’(X1 =
ml,X2
=m2)
=P(Xl =
ml,X2 = m2). Donc,
legraphe
G étantfixé,
la distributionPG qui
minimise la distance de Kullback-Leibler est telle que :La distribution
PG qui
minimiseD(P, PG)
estégale
à :Deuxième
étape
On
remplace PG (X)
par sonexpression
donnée en(19)
dansl’expression (15) :
72 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHELe deuxième et le troisième terme étant
indépendants
dugraphe G,
la distributionPG qui
rend minimum la distance de Kullback-Leibler est cellequi
maximise la sommedes informations mutuelles :
Annexe B
Discrimination décisionnelle
L’estimation du
risque
associé à unerègle 03B4
par la méthode de l’échantillon test estégale
à :2022 Dans le cas où les
probabilités a priori
sont estiméespar
lesfréquences
observées des groupes dans l’échantillon test, on note
pet1 s|r
=Nets|r/Net
laproportion
dans l’ensemble de l’échantillon test des observations du groupeGr
affectées au groupe
Gs.
L’estimation durisque peut également
s’écrire de lafaçon
suivante :La variance
(estimée)
de l’estimation durisque
s’écrit :En
indiçant par t
les différentes combinaisons des indices r et s, on écrit :et la variance s’écrit :
c’est-à-dire :
2022 Dans le cas où les
probabilités
apriori
7r r sont données parl’utilisateur,
onnote
pet2s|r
laproportion
des observations dans l’échantillon testappartenant
au groupeGr
affectées au groupeGs, pet2s|r = Nets|r/Netr.
L’estimation durisque
s’écrit :
et la variance
(estimée)
de l’estimation durisque :
74 A.
GUÉGUEN,
J. NICOLAU, J.P. NAKACHEEn utilisant une démonstration semblable à celle utilisée
ci-dessus,
on montre que :Discrimination non
décisionnelle, fondée
surl’adéquation
des
probabilités
aposteriori
L’estimation du
risque
associé à la discriminationd,
par la méthode de l’échan- tillon test, estégale
à :où
dans lequel
zi,prend
lavaleur 1 si l’individu i
appartient
au groupeG s
et 0 sinon.e Si les
probabilités a priori
sont estimées par lesfréquences
observées des groupes dans l’échantillon test, l’estimation durisque
s’écrit :et la variance
(estimée)
de l’estimation durisque
estégale
à :e Si les
probabilités
apriori
sontdonnées,
l’estimation durisque
s’écrit :La variance de
Ret
estégale
à :On obtient une estimation de la variance en