R EVUE DE STATISTIQUE APPLIQUÉE
A. D E F ALGUEROLLES
S. J MEL
Un modèle graphique pour la sélection de variables qualitatives
Revue de statistique appliquée, tome 41, n
o2 (1993), p. 23-41
<http://www.numdam.org/item?id=RSA_1993__41_2_23_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UN MODÈLE GRAPHIQUE
POUR LA SÉLECTION
DE VARIABLES QUALITATIVES
A. de
Falguerolles,
S. JmelLaboratoire de
Statistique
et Probabilités U.R.A. CN.R.S. D0745, Université Paul Sabatier118, route de Narbonne, 31062 Toulouse Cedex
RÉSUMÉ
Nous proposons une méthode de sélection de variables
qualitatives
fondée sur lespropriétés
de certains modèlesgraphiques.
Cette méthode est assezproche
de celleproposée
dans FALGUEROLLES et JMEL (1991) pour la sélection de variables en
analyse
en composantesprincipales.
Nous la situons par rapport à une méthodeproposée
par BUIQUOC
(1981). Deuxexemples
fournissent une illustrationpratique.
Mots-clés : Modèle
loglinéaire,
Modèlegraphique loglinéaire,
Sélection de variables.SUMMARY
This paper is concemed with a variable selection method based on the
properties
ofsome
graphical
models forqualitative
variables. This method isclosely
related to the methodwhich was
proposed
earlier in FALGUEROLLES and JMEL (1991) for variable selection inprincipal
componentsanalysis.
We compare it to a methodproposed by
BUI QUOC ( 1981 ).Two
examples
illustrate this method.Key-words : Loglinear
models,Graphical loglinear
models, Selectionof
variables.1. Introduction
Les tables de
contingence
issues du croisement de nombreuses variables seprêtent
rarement à uneanalyse
par modélisation. Il est courant de les soumettre à un traitementpréliminaire
visant notamment à réduire le nombre de variables intervenant. La sous-table associée est alors retenue en vue d’une étudeplus approfondie.
L’analyse
factorielle descorrespondances multiples (AFCM)
est une méthodesouvent utilisée dans ce contexte. On réalise des AFCM successives : à
chaque
étape,
onsupprime
les variables peu influentes(au
sens des contributions deleurs modalités à la détermination des axes
principaux),
on regroupe les modalités voisines d’une mêmevariable
et on introduitparfois
des variables obtenues par croisement de certaines variables initiales. Cette démarche trèsempirique donne,
en
général,
des résultats satisfaisants.Cependant,
elle nepeut
être conduite defaçon automatique.
Nous proposons dans cet article une
procédure
de sélection de variables.Basée sur un
type particulier
de modèlesgraphiques,
elle a pour ambition degarantir
une certaine stabilité desanalyses loglinéaires
effectuées sur les sous-tables obtenues en différentes dimensions.Dans la section
2,
nous introduisons brièvement les modèlesloglinéaires
pour variablesqualitatives ;
une attentionspéciale
estportée
sur les modèlesgraphiques qui
fondent notreapproche
de la sélection de variables. Dans la section3,
nous reprenons, à titred’illustration,
deuxjeux
de données traités dans WHITTAKER(1990).
Dans la section4,
nous nous intéressons à l’aide à la construction desgraphes qu’apportent,
dans ce contexte, des méthodes factorielles del’analyse exploratoire
des données. Dans la section5,
nousprésentons
la méthode de sélection de variables et nous la situons parrapport
à la méthode de BUIQUOC (1981)
dans la section 6. Une dernière section est consacrée à la
comparaison
de ces deuxméthodes sur les deux
jeux
de donnéesprécédemment
introduits. La connaissanceapportée
par le modèlegraphique qui
lesajuste permet
de contrôler lapertinence
des sélections effectuées.
2. Modèles
loglinéaires hiérarchiques
etgraphiques
Les modèles
graphiques loglinéaires,
introduits par DARROCH et al.(1980)
à la suite des travaux de WERMUTH(1976),
constituent une sous-classe des modèlesloglinéaires hiérarchiques
et sont d’unegrande simplicité d’interprétation.
Eneffet, l’analyse
d’une table decontingence multiple
au travers de modèlesgraphiques
débouche sur la
représentation
exacte des’ interactions et/ou desindépendances
conditionnelles par un
graphe (au
sens de la théorie desgraphes).
Le lecteurtrouvera un
exposé complet
de ces modèles dans WHITTAKER(1990)
ou se reportera à LAURITZEN(1982),
SANTNER et DUFFY(1989),
FINE(1992),
ou à ANDERSEN
(1990)
pour une introductionrapide.
2.1.
Définitions
Soit X ==
(Xk), k
=1,..., q,
un vecteur aléatoire de distribution multi- nomiale multivariée. Soit K ={1, 2,
...,q}
l’ensemble des indices associés aux différentes variables etIk
l’ensemble des niveaux de la variableZ.
On noteq
I
== II lk
et i =(i1...,ik, ..., iq)
un élément de 1.’ Si a =={k1, ...,kr}
estk=1
un sous-ensemble de
K,
on noteXa
le sous-vecteur(Xk1, ..., Xkr)
etia
ler-uple (ik1 , ..., ikr), ia
Ela = II Ik.
La loi de X est déterminée par leskEa
probabilités p(i)
pour i E I avecp(i)
> 0 et03A3p(i) =
1. La distributionici
de
Xa
est aussi multinomiale multivariée et sa loi est définie par lesprobabi-
lités
marginales p(za) == Lp(ia,ia)
où â est lecomplémentaire
de a dans K2a
(0; K B a)
et i =(ia,ia).
Si l’onconsidère
un échantillon de taille n,n(i)
etn(ia) = L n(ia, ia) désignent respectivement
le nombre d’observations telles queia:
X = i et
Xa = ia.
Dans lapratique
ces effectifs s’obtiennent par desopérations
de tabulation.
On définit un modèle
loglinéaire
par la donnée d’unedécomposition
additivedu
logarithme
de laprobabilité p(i), supposée
strictementpositive,
sous la formeL ua (i)
où Ua est une fonction de i nedépendant
que deia.
On noteraaCK
abusivement
ua(ia)
=ua(i)
=ua(i1,i2,...,iq).
La fonction10g[P(i)]
estappelée potentiel
d’interaction et la fonction Ua, pour aC K,
interaction entre les variables du sous-ensemble a. Sicard(a) - 1,
Ua est dite effetprincipal;
sicard(a) = 2,
Uaest dite interaction d’ordre 1 et, en
général,
sicard(a)
= m, Ua est dite interaction d’ordre m - 1.Dans la
pratique
on se limite à la considération des modèleshiérarchiques,
c’est-à-dire des modèles
possédant
lapropriété
suivante : si un ensemble d’inter- actions estannulé,
il en est de même pour tout autre ensemble d’interactions dont les indices contiennent ceux de l’ensembleoriginal (ua =
0 ~ Ub = 0 pour tout b ~a).
Un modèlehiérarchique
est donc défini par la donnée d’un ensemble de sous-ensembles deux-à-deux noncomparables
pour l’inclusion. Ces sous-ensembles déterminent les interactions maximales. Ces différents sous-ensembles sontappelés générateurs
et constituent la classegénératrice
du modèle associé.Deux modèles souvent cités dans cet article sont le modèle saturé et le modèle de toutes interactions d’ordre 1. La classe
génératrice
dupremier
est K. Celle du second est donnée par l’ensemble despaires
de variables et sondéveloppement
enu-terme est de la forme :
A
chaque
modèleloglinéaire hiérarchique peut
être associé ungraphe
nonorienté G =
(K, E) appelé
indifféremmentgraphe
d’interactions ougraphe d’indépendance (conditionnelle).
Les sommets de cegraphe
sont les éléments de K. Les arêtes se définissent defaçon équivalente
par lespropriétés
suivantes :2022 toute arête entre deux sommets matérialise l’existence d’un u-terme d’indice a contenant ces sommets
(approche graphe d’interactions) ;
. l’absence d’arête traduit
l’indépendance
des variables associées conditionnelle- ment aux autres variables(approche graphe d’indépendance).
On
peut
vérifier facilement queplusieurs
modèleshiérarchiques
distinctspeuvent admettre un même
graphe.
C’est le cas du modèle saturé et du modèle detoutes interactions d’ordre 1. Toutefois certains modèles
loglinéaires hiérarchiques
dits
graphiques
se définissent defaçon biunivoque
à l’aide de leurgraphe
enidentifiant classes
génératrices
etcliques
dugraphe.
Le modèle saturé est unexemple
assezparticulier
de modèlegraphique
dont legraphe
estcomplet (une
seule
clique).
Rappelons
que lescliques
d’ungraphe
sont les sous-ensembles de sommetscomplets (sommets
deux-à-deuxconnectés)
et maximaux au sens de l’inclusion.2.2. Estimation
Les estimations des u-termes et/ou des
p(i)
d’un modèlehiérarchique
sont,en
général,
obtenues par la méthode du maximum de vraisemblance(en imposant
des contraintes d’identification pour les
u-termes).
Unepremière approche (celle
du
logiciel
GLIM parexemple,
AITKIN etal., 1989)
consiste àoptimiser
lavraisemblance par un
algorithme
detype
NEWTON-RAPHSON. Une secondeapproche (celle
de MIM parexemple, EDWARDS, 1991)
consiste à résoudre par réductionproportionnelle
itérative lesystème d’équations :
pour tout
système
degénérateurs
C du modèle considéré.Remarquons
que pour le modèlesaturé,
cesystème
se réduit aux seuleséquations p(i)
=n(i)/n.
La
qualité
del’ajustement
d’un modèlehiérarchique
M à des données se mesure par sa déviance parrapport
à un modèle de base contenant le modèle M.En
général,
on choisit le modèle saturé et la déviance s’écrit :où
Ls (resp. LM)
est le maximum de la fonctionlog-vraisemblance, L(p, n)
ex2: n(i)log[P(i)],
sous le modèle saturé(resp.
sous le modèleM).
iEI
La déviance
peut
aussi s’écrire en fonction de l’information de KULLBACK-LEIBLER, 1,
mesurant ladivergence
entre lesprobabilités fis
etpM :
1où
fis (resp. pM )
est l’estimation maximum de vraisemblance de p sous le modèle saturé(resp.
sous le modèleM).
2.3. Modèle
loglinéaire collapsible
sur un sous-ensemble de variablesLa notion de
collapsibilité explicite
les relations entre les résultats obtenus pour une table et certaines de ses tablesmarginales.
En ce sens, c’est une notionsusceptible
d’éclairer certainsaspects
de la sélection de variables dans le casthéorique
ou l’on connaîtrait le modèleajustant
les données initiales.Etant donnés un modèle
loglinéaire hiérarchique
M de la table X et unsous-ensemble a de
K,
on considère le modèleMa
de la sous-tableXa
ayant poursystème générateur
les intersections desgénérateurs
de M et de a. SuivantASMUSSEN et EDWARDS
(1983), on dit
que le modèlehiérarchique
M estcollapsible
sur le sous-ensemble a de variables sipa (2a )
=p( Ía)
est vérifiée pour tous lesia ~ Ta,
p et pa étant lesprobabilités
associées aux modèles M etMa respectivement.
La
collapsibilité
d’un modèleloglinéaire hiérarchique
est caractérisée par unepropriété
dugraphe
d’interactions(ASMUSSEN
etEDWARDS, 1983) :
un modèlehiérarchique
estcollapsible
sur un sous-ensemble de variables a si et seulement si lafrontière
de toute composante connexe de 7i(= K B a)
est contenue dans ungénérateur
de ce modèle.Rappelons qu’une composante
connexe d’ungraphe
est une classed’équiva-
lence de la relation
d’équivalence
d’existence d’une chaîne connectant toutepaire
de sommets.
La
collapsibilité
sur un sous-ensemble a se traduit au niveau desgraphes
d’interactions de M et de
Ma :
legraphe
d’interactions deMa préserve
lesindépendances
conditionnelles constatées dans celui de M.3.
Exemples
3.1.
Exemple
1 : Facteurs derisque
pourl’infarctus
Cet
exemple
a été traité par EDWARDS et HAVRANEK(1985)
etrepris
par WHITTAKER
(1990).
On étudie larépartition
de six facteurs derisque
pour l’infarctus(six
variablesqualitatives binaires)
sur 1841employés
d’une usine de construction automobile enTchécoslovaquie.
Les six facteurs derisque
sont lessuivants :
A Fumeur :
oui,
nonB Travail mental
fatiguant : oui,
non C Travailphysique fatiguant : oui,
nonD Pression
systolique
du sang :140,
> 140 E Ratio delipoprotéines
a et: 3,
>3 F Antécédents familiaux d’infarctus :oui,
nonPartant du modèle
saturé,
on testel’indépendance
conditionnelle dechaque paire
de variables conditionnellement à l’ensemble des autres. On considère alors legraphe d’indépendance
constitué d’arêtes associées à desdépendances significatives.
Ondéfinit
et l’on teste le modèlegraphique
associé : ilapparaît
quece modèle est
rejeté.
On étudie alors la réinclusion dechaque paire
de variables exclue. Certaines arêtes sont donc réintroduites et on obtient legraphe reproduit
en
figure
1.FIGURE 1
Graphe
d’interactions des données del’exemple
1Ce modèle
graphique
a une déviance de44,59
pour 42d.d.l.,
cequi permet
del’accepter
avec m niveau designification
de0,36 (pour
les détails de cetajustement,
voir
WHITTAKER, 1990,
pp.261-265).
3.2.
Exemple
2 : Données de RochdaleLes données considérées dans cet
exemple,
sont traitées dans WHITTAKER(1990)
et concernent les facteurséconomiques qui
influencent le mode de vie à Rochdale. Ungrand
nombre derenseignements
a été collectéauprès
de 665foyers
tirés au hasard. On ne retient ici que 8
variables,
toutesdichotomiques,
cequi
donne une table de
contingence
à28 (256)
cellules. Ces variables sont :A femme active : non, oui
B
âge
de la femmesupérieur
à 38 ans : non, ouiC mari au
chômage :
non, ouiD nombre d’enfants inférieur ou
égal
à 4 : non, ouiE niveau scolaire de la femme « O level» ou
plus :
non, ouiF niveau scolaire du mari « O level » ou
plus :
non, ouiG
origine asiatique :
non, ouiH autre membre actif : non, oui
On considère le modèle
hiérarchique
de toutes interactions d’ordre 1 commemodèle de
départ.
on teste alorsl’indépendance
dechaque paire
de variables conditionnellement aux autres. En éliminant les interactions nonsignificatives
onobtient un modèle
(non-graphique) qui
estaccepté.
Ilapparaît qu’il
en est demême pour le modèle
graphique
déduit de songraphe
d’interactions. Legraphe d’indépendance
associé à ce modèle estreproduit
enfigure
2.Pour les détails de cette
étude,
le lecteur pourra sereporter
à WHITTAKER(1990,
pp.279-282).
3.3.
Remarque
Dans
l’exemple 1,
le modèle dedépart
était le modèle saturé(qui
estgraphique).
Ce choixcorrespond
à laphilosophie
des modèlesloglinéaires qui
consiste à
prendre
la distributionjointe
d’un ensemble devariables,
considérerFIGURE 2
Graphe
d’interactions des données del’exemple
2son
développement
en u-termes et lesimplifier
par des contraintesd’indépendance
conditionnelle. Dans le deuxième
exemple,
laprésence
de nombreuses cellules vides(165
sur256)
nepermettait
pas le choix du modèle saturé comme modèle dedépart.
Dans cetype
desituation,
on considèreplutôt
le modèle de toutesinteractions d’ordre 1. On sait que les
statistiques
exhaustives de ce modèle sont toutes les tablesmarginales
à 2entrées, {n( ik, ik) 1
pour k et k’ E K(HUBER
et
LELLOUCH,
1974 etWHITTAKER, 1990).
Ilapparaît
donc comme lependant loglinéaire
de l’AFCMqui analyse
le tableau de BURT construit à l’aide de cestables.
4. Aide à la construction des
graphes
Le
graphe d’indépendance
conditionnelle visualise un modèlehiérarchique (graphique) ajusté
à un ensemble de données.Cependant
cegraphe
est tracé defaçon
assezempirique.
Parailleurs,
sa construction ne donne aucune informationsur l’intensité des associations entre variables. Dans cette
perspective,
des méthodesfactorielles
d’analyse exploratoire, analyse
factorielle descorrespondances
et po- sitionnement multidimensionnel(CAILLIEZ
etPAGES, 1976, GOWER,
1966 et MARDIA etal., 1979), peuvent
faciliter cette constructionaprès
modélisation des données(paragraphe 4.1 )
ou hors modélisation(paragraphe
4.2 et4.3).
4.1.
Analyse
descorrespondances
de la matriced’incidence
La modélisation définit au travers des u-termes
significatifs
la matrice d’incidence dugraphe
d’interactions. Onpeut
alors utiliser une méthodeclassique
développée
par LEBART(1984).
Pour avoir une idée sur ladisposition
dessommets. Cette méthode consiste à effectuer une
analyse
descorrespondances
de lamatrice d’incidence du
graphe.
On notera que, pardéfinition,
cette méthode ne peut refléter les intensités des liaisons. Lesfigures
3a et 3b illustrent lesreprésentations
données par cette
analyse
sur les deuxexemples.
4.2. Positionnement multidimensionnel de la matrice des carrés des
coefficients
de TSCHUPROWOn
peut aussi,
en dehors de touteapproche modélisatrice,
utiliser lareprésen-
tation de variables
qualitatives proposée
dans SAPORTA(1976).
Cetteapproche
consiste en
pratique
à considérer la matrice des carrés des coefficients de TSCHU- PROW entre les variablesprises
deux à deux. Lepositionnement
multidimensionnel de cette matricequi possède
lescaractéristiques
d’une matrice de corrélation fournitune carte des variables. Les
figures
4a et 4b donnent cesreprésentations
pour les deuxexemples.
Pour confronter les résultats ainsi obtenus à ceux de la modélisation effectuée à la section3,
legraphe
d’interactions y est aussireporté
enpointillé.
Ily
apparaît
encore que lespositionnements
obtenuspeuvent
être utilisés avecprofit
dans la construction des
graphes
d’interactions.4.3. Positionnement multidimensionnel de la matrice des
informations
conditionnellesUne autre
approche
consiste às’inspirer
de cequi
a été fait dans le casquantitatif.
Dans ce cas, WHITTAKER(1988) suggère
de réaliser uneanalyse
en
composantes principales
de la matrice des corrélationspartielles, Rp,
ou dela matrice des valeurs absolues des corrélations
partielles abs(Rp) lorsque
cettedernière est semi-définie
positive. Rappelons
que la matriceRp
a pour termed’indice
général (k, l)
la corrélationpartielle
entre les variables k etl,
toutes lesautres variables étant fixées.
Pour
exploiter
cette idée dans le cadrequalitatif,
nous proposons de considérer la matrice des déviances d’exclusion(cf. WHITTAKER, 1990,
p.224)
ou, àun coefficient
près,
des informations de KULLBACK-LEIBLER conditionnelles calculées parrapport
au modèle saturé(exemple 1) :
ou au modèle de toutes interactions d’ordre 1
(exemple 2) :
où
n(.) désigne
l’estimation du maximum de vraisemblance denp(.)
sous cemodèle
(WHITTAKER, 1990,
pp. 104-108 et pp.222-224).
FIGURE 3a
Analyse
descorrespondances
de la matrice d’incidence dugraphe
du modèleajusté
aux données del’exemple
1.FIGURE 3b
Analyse
descorrespondances
de la matrice d’incidence dugraphe
du modèleajusté
aux données del’exemple
2.Le
positionnement
multidimensionnel de cettematrice,
considérée comme une matrice desimilarité,
fournit une ébauchespatiale
dugraphe qui
rendcompte
des liaisons entre variables. Notons que ces matrices ne sont pas forcément semi- définiespositives
et que cela posequelques problèmes classiques
enpositionnement
multidimensionnel
métrique.
Lesfigures
5a et 5b illustrent cetteapproche
sur lesdeux
exemples.
Signalons
enfin que, dans cetteesprit,
SAPORTA(1976)
avait introduit la matrice des coefficientspartiels
de TSCHUPROW commel’analogue,
pour des variablesqualitatives,
d’une matrice de corrélationspartielles.
Lepositionnement
multidimensionnel de la matrice de ces coefficients donne des résultats intéressants bien que ces coefficients ne soient pas
justifiés
d’unpoint
de vuethéorique.
Eneffet,
on
peut
avoirindépendance
conditionnelle entre deux variables sans pour autant que le coefficient de TSCHUPROWpartiel correspondant
soitnul,
et inversement(DAUDIN, 1977).
5. Présentation d’une méthode de sélection de variables
qualitatives
La méthode de sélection de variables que nous proposons est fondée sur
certaines
propriétés
des modèlesgraphiques
et leprincipe
de base des modèles de structure latente(voir EVERITT,
1984 etMcCUTCHEON, 1987).
Considérons la situation «idéale» où les variables se
répartissent
en deuxsous-ensembles a et b tels que
(i)
les variables deXb
sont deux à deuxindépendantes
conditionnellementaux variables de
Xa,
(ii)
la réunion de toute variable deXb
aux variables deXa
constitue uneclique.
Il serait alors naturel de sélectionner les variables de
Xa :
les modèles destructure latente
supposent
que les associations entre variables sontexpliquées
par leur interaction avec les variables latentes(ici
les variables deXa).
Le
principe
de la méthode consiste à fixer apriori
le nombre de variables à sélectionner et à rechercher le modèlegraphique
dutype
ci-dessusajustant
au mieuxles données. Il
apparaît
que de tels modèlesprésentent
uneexpression simple
de leurdéviance. La recherche d’un modèle de déviance minimum s’en trouve
simplifié.
5.1.
Expression
de la dévianceConsidérons un modèle du
type précédent.
SoitXi - (X1, X2, ..., Xr)
le vecteur des variables sélectionnées et
Xb
=(Xr+l, Xr+2,
...,Xq)
celui desvariables non sélectionnées.
L’hypothèse (i)
se traduit parFIGURE 4a
Positionnement multidimensionnel de la matrice des carrés des
coefficients
de TSCHUPROW entre
couples
devariables
del’exemple
1. Legraphe
considéréà la section 3, non
fourni
par la méthode, y est reporté enpointillé.
FIGURE 4b
Positionnement multidimensionnel de la matrice des carrés des
coefficients
de TSCHUPROW entre
couples
de variables del’exemple
2. Legraphe
considéréà la section 3, non
fourni
par la méthode, y estreporté
enpointillé.
où
ia, ib
etik désignent respectivement
des réalisations des sous-vecteursXa
etXb
et de la variableXk.
Onpeut
alors écrireet donc
Les
hypothèses (i)
et(ii)
rendent le modèlecollapsible
parrapport
à ses q - rcliques
et au sous-ensemble a. Parconséquent
l’estimation dep(i)
pour i E I estdonnée par
La déviance s’écrit alors
où
On retrouve ici les
expressions d’entropies empiriques H(X )
pour la table définie parX, H (Xa )
pour la table définie parXa
etl’entropie
conditionnelleempirique H(Xk 1 Xa)
pour la table définie parXa~{k}·
Cesentropies (au
sens deSHANNON), compte-tenu
despropriétés
decollapsibilité
du modèlesaturé,
sontaussi des estimations du maximum de vraisemblance sous
n’importe quel
modèlecollapsible
sur les tables considéréeslorsqu’il
en existe.FIGURE 5a
Positionnement multidimensionnel de la matrice des
informations
conditionnelles de KULLBACK-LEIBLER(exemple
1 ). Legraphe
considéré à la section 3,non
fourni
par la méthode, y estreporté
enpointillé.
FIGURE 5b
Positionnement multidimensionnel de la matrice des
informations
conditionnelles de KULLBACK-LEIBLER(exemple
2). Legraphe
considéré à la section 3,non
fourni
par la méthode, y estreporté
enpointillé.
On notera enfin que cette déviance et ces différentes
entropies
sont aisémentcalculées à
partir
de tabulations élémentaires des données.5.2. Procédure de sélection
La
procédure
de sélectionconsiste,
pour1 r q -
2fixé,
à rechercher la meilleureapproximation
du modèleproposé.
Onajuste
donc tout oupartie
de l’ensemble des modèles
graphiques loglinéaires définis
comme ci-dessus et onretient le sous-ensemble de variables réalisant la
plus petite
déviance.On notera d’une
part,
que r n’est pas connu apriori
et que la sélection s’obtient donc en faisant varier r de 1à q - 2;
d’autrepart,
que pour rfixé,
onpeut
choisir ou non de ne pas remettre en cause les sélections del’étape
r - 1.Dans le
premier
cas, on obtient des sélections emboîtées. C’est la démarche quenous avons
adoptée
dans cet article.6. Méthode de BUI
QUOC
Dans cette
section,
nousprésentons
la méthode de BUIQUOC ( 1981 )
et unede ses variantes en nous attachant à
expliciter
les liens avec la méthode que nous proposons.6.1. Réduction
proportionnelle
de l’incertitudeSoient
Xk
etXl
deux variablesqualitatives. Classiquement,
on mesure laproportion
de variation deXk expliquée
parXl
par laquantité :
où PRU est une abréviation de
"proportional
reduction inuncertainty" (réduction proportionnelle
del’incertitude)
et Hdésigne l’entropie (au
sens deSHANNON).
Il n’est fait
l’hypothèse
d’aucun modèleloglinéaire
pour X autre que le modèle saturé. On se réfère à desentropies empiriques
aisément calculées.Le PRU peut
prendre
toute les valeurs entre 0 et 1. Ilprend
la valeur 0 siXk
etXl
sontindépendantes.
Ilprend
la valeur 1lorsque
la variableXk
est«pleinement prédictible »
àpartir
deXl.
Enparticulier PRU(Xk| 1 Xk)
= 1. Pourplus
de détail sur le PRU onpeut
se reporter à STRONKHORST et PANNEKOEK(1984)
ou à ISRAELS et al.(1984).
Cette mesure
peut
être étendue au cas du conditionnement parplusieurs
variables formant le sous-vecteur
Xa .
Elle devient alorsRemarquons qu’on
trouve dansl’expression
du PRU les différentesentropies
intervenant dans le calcul de la déviance des modèles
graphiques
de sélectionconsidérés en section 5.
6.2. Méthode de BUI
QUOC
Le
principe
de sélectionséquentielle
de BUIQUOC
consiste à sélectionnerune variable
qui
réalise leplus grand
PRU moyen calculé sur les variables nonsélectionnées.
BUI
QUOC
propose unalgorithme
de sélection en bloc en troisétapes.
Etantconstruite la
matrice q
x q des PRU entre toutes lespaires
devariables,
onprocède
comme suit :
a)
calcul pourchaque
variable dutotal-ligne
des PRUcorrespondants.
b)
sélection d’une variablequi
réalise leplus grand total-ligne
des PRU.c) suppression
de laligne
et de la colonnecorrespondant
à la variable sélectionnée et retour àl’étape a).
A
chaque étape
r, unpourcentage
de l’information cumulée PIC est calculé àpartir
de la relation de récurrence :où
SPRU (k)
est la somme des PRU de la variable sélectionnée àl’étape k
et avecPIC(O)
= 0.6.3. Variante de la méthode de BUI
QUOC
La méthode de BUI
QUOC,
dans sa versionsimplifiée,
ne tientplus compte
des variables dès lorsqu’elles
sont sélectionnées. Une extension naturelle de cette méthode consiste àconsidérer,
àchaque étape
r, les variables sélectionnéesXar-1
au côté des variables candidates
Xl, l ~ K B
ar-le Considérant lagénéralisation
du PRU associé à
Xar-l
onrecherchera
une variableXl qui
maximise laquantité
7.
Comparaison
des deux méthodesDans cette
section,
nous comparons notre méthode à celle de BUIQUOC
(version
initiale etvariante)
sur les deuxjeux
de données introduits à la section 3.7.1.
Comparaison
à la méthode de BUIQUOC
A
chaque étape,
la méthode de BUIQUOC
ne reconsidèreplus
la variable sélectionnée àl’étape précédente.
Tout se passe donc comme si l’on travaillait surla sous-table obtenue en
marginalisant
la table courante parrapport
à cette variable.Pour que cette
comparaison
se fasse dans des conditionséquitables,
àchaque étape,
notre méthode est
appliquée
à la sélection d’une seule variable dans la sous-table obtenue defaçon analogue.
Les résultats de cette
comparaison
sontconsignés
dans les tableaux la(exemple
1 : 6variables)
et 1 b(exemple
2 : 8variables).
A titreindicatif,
ondonne,
pour les différentes tailles de sélection r(r
=1,..., q - 2),
la déviance et le nombre dedegrés
de liberté du modèlegraphique
défini par les variables sélectionnées(selon
l’une ou l’autreméthode)
ainsi que celles obtenues sans la contrainte d’emboîtement.TABLEAU la
TABLEAU 1 b
Les deux méthodes donnent des sélections assez
proches. A l’étape
4 dutableau
la,
il se trouve que la sélection par la méthode«graphique»
estoptimale (plus petite
déviance pour tout modèlegraphique
de sélection de 4variables).
C’estaussi le cas pour la méthode de BUI
QUOC
àl’étape
6 du tableau Ib.7.2.Comparaison
à la variante de BUIQPOC
On compare la méthode
«graphique»
à la variante de BUIQUOC.
Oneffectue donc une sélection pas à pas en conservant et tenant
compte,
àchaque étape,
des variables sélectionnées àl’étape précédente
pourl’optimisation
descritères considérés.
TABLEAU 2a
TABLEAU 2b
Les résultats sont
consignés
dans les tableaux 2a(exemple 1)
et 2b(exemple 2)
enindiquant
les valeurs indicatives de la déviance et du nombre dedegrés
deliberté associés aux modèles
graphiques
définis par les différentes sélections.Les deux méthodes donnent encore des résultats très
proches qui,
deplus,
nediffèrent pas
trop
de ceux obtenus lors de lapremière comparaison.
On noteraqu’à l’étape
6 du tableau2b,
la sélection(variables
en caractèresgras)
par la méthode« graphique »
estoptimale.
Conclusion
Il ressort de cette
comparaison
que ces méthodes donnent des sélections dequalités comparables.
Eneffet, disposant
pour cesexemples
d’un modèlegraphique ajustant
les donnéesinitiales,
on constate que les variables sélectionnées«couvrent» le
graphe
associé au modèle : toute variable non sélectionnée est connectée à des variables sélectionnées. C’est ce que l’on constate enparticulier
pour les données de
l’exemple
2 et la sélection des variablesB, D,
E et G.Il
apparaît
aussi que les données initiales ne sont pastoujours collapsibles
surles sous-ensembles de variables sélectionnées. C’est le cas du deuxième
exemple
et du sous-ensemble des variables
B, D,
E et G. On noteracependant
que la contrainte decollapsibilité pourrait
être introduite sanstrop
de difficulté dans les méthodes de sélection.Les sous-tables obtenues par sélection
peuvent
à leur tour être soumises àl’analyse loglinéaire.
Lafigure
6 donne lesgraphes
d’interactions obtenus pour les données del’exemple
2 et la sélection des variablesB, D,
E et G. On y noteracomment les interactions BG et
EG,
introduites au côté de cellesconservées,
traduisent lacomplexité
des liaisons dans la table initiale. Leurinterprétation
demeure délicate.
FIGURE 6
Graphes
d’interactions des données de Rochdale(exemple
2) :le
graphe
(6a) est celui du modèle des données initiales(cf. §3.2)
tandis que le
graphe
(6b) est celui du modèleajusté
à la sélectionde 4 variables
(cf 3
5 et tableau 1 b).Bibliographie
AITKIN, M., ANDERSON, D., FRANCIS,
B. etHINDE,
J.(1989).
StatisticalModelling
in GLIM. Clarendon Press. Oxford.ANDERSEN,
E.B.(1990).
The statisticalanalysis
ofcategorical
data.Springer- Verlag.
ASMUSSEN,
S. etEDWARDS,
D.(1983). Collapsibility
and response variables incontingency
tables.Biometrika, 70,
567-578.BUI
QUOC,
T.(1981).
A data reduction based on informationtheory.
In Contin-gency Table
Analysis
for RoadSafety
Studies.G.A.
FLEISCHER(edi.).
Series E :
Applied
Sciences. N° 42.CAILLIEZ,
F. etPAGES,
J.P.(1976).
Introduction àl’Analyse
des Données.SMASH,
Paris.DARROCH, J.N., LAURITZEN,
S.L. etSPEED,
T.P.(1980).
Markov field andloglinear
interaction models forcontingency
tables. Annals ofStatistics, 8,
522-539.DAUDIN,
J.J.(1977).
Coefficient de TSCHUPROWpartiel
etindépendance
conditionnelle.
Statistique
etAnalyse
desDonnées, 3,
55-58.EDWARDS,
D.(1991).
Aguide
to MIM2.0,
Statistical ResearchUnit, University
of
Copenhagen,
Danemark.EDWARDS,
D. etHAVRANEK,
T.(1985).
A fastprocedure
for model search in multidimensionalcontingency
tables.Biometrika, 72, 2,
339-351.EVERITT,
B.(1984).
An Introduction to Latent Variable Models.Chapman
&Hall,
Londres.FALGUEROLLES,
A. de etJMEL,
S.(1991).
Un critère de choix de variablesen
analyse
en composantesprincipales
fondé sur des modèlesgraphiques gaussiens particuliers.
Aparaître
dans la Revue Canadienne deStatistique.
FINE,
J.(1992).
Modèlesgraphiques
d’associations. Dans Modèles pourl’analyse
des données multidimensionnelles.
Economica, Paris,
267-313.GOWER,
J.C.(1966)
Some distanceproperties
of latent root and vecteur methodsused in multivariate
analysis.
Biometrika53,
325-338.HUBER,
C. etLELLOUCH,
J.(1974).
Estimation dans les tableaux decontingence
a un
grand
nombre d’entrées. Int. Stat.Rev.,
Vol.42,
N°.2,
193-203.ISRAELS, A.Z., BETHLEHEM, J.G.,
VanDRIEL, J., JANSEN, M.E.,
PANNE-KOEK,
J. etREE,
S.J.M. de(1984).
Méthodesd’analyse
multidimensionnelle pour variables discretes. InDéveloppements
récents dansl’analyse
degrands
ensembles de données. Information de
l’Eurostat,
numérospécial,
Luxem-bourg.
LAURITZEN,
S.L.(1982).
Lectures oncontingency
tables.University
ofAalborg
Press :
Aalborg.
LEBART,
L.(1984). Correspondence analysis
ofgraph
structure. Bulletin Techni- que duCESIA, 2,
N°1-2, 5-19.
MARDIA, K.V., KENT,
J.T. etBIBBY,
J.M.(1979). -
MultivariateAnalysis.
Academic
Press,
NewYork,
NY.McCUTCHEON,
A.L.(1987).
Latent ClassAnalysis. Sage University Paper
onQuantitative Applications
in the Social Sciences.Beverly Hills,
CA.SANTNER,
T.J. etDUFFY,
D.E.(1989).
The StatisticalAnalysis
of Discrete Data.Springer-Verlag.
SAPORTA,
G.(1976). Quelques applications
desopérateurs
d’ESCOUFIER autraitement des variables
qualitatives. Statistique
etAnalyse
des Données.1,
38-46.STRONKHORST,
H. etPANNEKOEK,
J.(1984). Passage
del’enseignement pri-
maire à
l’enseignement
secondaire en 1964 et1977,
uneanalyse loglinéaire.
In
Développements
récents dansl’analyse
degrands
ensembles de données.Information de
l’Eurostat,
numérospécial, Luxembourg.
WERMUTH,
N.(1976). Analogies
betweenmultiplicative
models incontingency
tables and covariance selection.
Biometrics, 32,
95-108.WHITTAKER,
J.(1988).
E.S.R.C.Workshop : "Graphical modelling : Transparen-
cies". Technical