R EVUE DE STATISTIQUE APPLIQUÉE
J.-J. D ENIMAL
Analyse des interactions entre k partitions prises 2 à 2. Théorie et application en biologie
Revue de statistique appliquée, tome 42, n
o1 (1994), p. 19-40
<http://www.numdam.org/item?id=RSA_1994__42_1_19_0>
© Société française de statistique, 1994, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE DES INTERACTIONS ENTRE
kPARTITIONS PRISES 2 À 2
THÉORIE ET APPLICATION EN BIOLOGIE.
J.-J. Denimal
Laboratoire de
Statistique
et Probabilités Université des Sciences etTechnologies
de Lille59655 - Villeneuve
d’Ascq
Cedex, FranceRÉSUMÉ
A
partir
d’un tableau decontingence kii, l’ensemble
I étant muni de npartitions Pl, P2,
...,pn,
affectées despoides
al, a2,..., an, on se propose, dans le cadre del’analyse
des
correspondances,
de définir une méthode permettantl’analyse
des « interactions » entre cesdifférentes
partitions prises
2 à 2. Cette méthode dessinera d’autre part, un cadrethéorique
où se retrouveront comme cas
particuliers :
lesanalyses
factorielles intra-classe, inter-classe, ainsi quel’analyse
descorrespondances multiples.
De nouveaux critèresd’agrégation
serontégalement
établis, permettant d’édifier sur I une classification ascendantehiérarchique
souscontraintes. Enfin, une
application
à unjeu
de données viendra illustrerles
différentes méthodesproposées.
AMS
Classification
62XX07 -Mots-clés : Interactions
multiples, analyses
descorrespondances, analyse factorielle
intra- classe, inter-classe, interne,classifications
sous contrainteSUMMARY
This
paper introduces
a new notion of « interactions » between npartitions Pl, p2, ..., pn
(withweights
al, a2, ... 1 an) on a setI,
with respect to acontingency
tablekIJ,
where J is aset
of categorical
variables. We propose a method, based oncorrespondence analysis,
tostudy
these interactions. This method covers a
large
area,including
factoranalysis
of structured tables (between classesanalysis
and within classesanalysis)
andmultiple correspondance analysis.
Some new hierarchical
clustering algorithms
(under constraints) are alsogiven. Finally,
thisnew methods are
applied
to a set ofbiological
data.AMS
Classification : -
62XX07 -Key-words :
Interactions,correspondence analysis factor analysis of structured
tables, classi-fications
under constraints.1. Introduction
L’objet
de la méthodedéveloppée
dans cetarticle,
est donc dedéfinir, puis d’analyser
les « interactions » entre kpartitions Pi, p2 ... Pk
définies sur un nuageN(I),
construit àpartir
dekIJ (ce
dernier étant un tableau decontingence,
ou touttableau
pouvant
être soumis àl’analyse
descorrespondances).
A
partir
d’une formulegénérale
dedécomposition
duproduit scalaire,
vérifiéedans tout espace
euclidien,
etappliquée
ici dansR card l (muni
de lamétrique classique
duCHI2),
unequantité
notéeA(P1, P2, ..., Pk)
sera définie et mesurera«l’interaction» entre les k
partitions Pi, P2, ... , Pk, (ces
dernières étantsupposées
munies de
poids
al, a2, ... ,03B1k). L’analyse
de ces interactions seraréalisée,
ensoumettant à
l’analyse
descorrespondances,
un tableaukr l J
construit àpartir
dutableau initial kIJ et d’inertie et(P1,P2,... pk). L’interprétation
desreprésentations
obtenues sera
précisée,
enparticulier,
par l’obtention de formules de transition.Cette
analyse, appelée
dans la suiteanalyse
factorielle des interactions entreP1, P2, ..., Pk, généralise
dans le cas de 2partitions P1
etP2
munis depoids égaux
à1,
d’une partl’analyse
factorielle intra-classe d’Escofier que l’on obtientlorsque
l’une despartitions Pi
etP2
est celle réduite à uneclasse,
et d’autre part,l’analyse
factorielle inter-classe que l’on retrouvelorsque
l’une despartitions Pl
etP2
est cellecomposée
dessingletons.
Uncinquième paragraphe
sera consacré auxapplications
à la classificationautomatique.
Ondéfinira,
enparticulier,
un nouveaucritère
d’agrégation.
Ce dernier seprésentera
sous la forme d’un critère de Wardmodifié,
vérifieraégalement
l’axiome de lamédiane,
etpermettra
d’édifier sur l’ensembleI,
àpartir
du tableaukIJ,
une classification ascendantehiérarchique, qui,
à
chaque niveau,
construira unepartition
où l’influence de npartitions (c’est-à-dire
de variablesqualitatives)
définies sur I et données apriori
sera minimisée.Enfin,
un sixièmeparagraphe
sera consacré auxapplications
des méthodesproposées,
dans le cadre d’uneétude,
menéeconjointement
avec l’Institut Pasteur de Lille et lé C.R.E.S.G.E.* et dontl’objet
était l’estimation de la consommation d’alcool àpartir
deparamètres biologiques.
2. Les données et les
hypothèses
2.1 Présentation des données
La méthode
présentée
dans cet article estdéveloppée
àpartir
d’un tableaukIJ, appelé
dans la suite le tableau decontingence initial, kI
etkj désignant
les margesde ce tableau. Celui-ci
placé
dans le cadre del’analyse
descorrespondances,
donneclassiquement
naissance aux deux nuages :* Centre de Recherches Economiques, Sociologiques et de Gestion 1, Rue Norbert Segard - B.P. 109 - 59016 Lille Cedex
Chaque
élément i de I(resp. j
deJ)
est doncreprésenté
par sonprofil fiJ (resp.
fi)
et admet lepoids fi = t(i) k (resp. fi - (j»;
les distances utilisées étant celles de CHI2.On suppose, de
plus,
que l’ensemble I est muni de kpartitions Pi, P2 .
... ,Pk
munies depoids
al, a2,..., aksupposés positifs
et de somme notée r.Enfin,
pour la suite del’article, indiquons
que toutproduit
scalaire entreéléments de
RcardI (resp. R cardJ)
sera, sauf mention express ducontraire,
celui définissant lamétrique
duCHI2,
c’est-à-dire celui défini par lamétrique diagonale
dont les éléments
diagonaux
valent(1/fi)1icard I (resp. (1/fj)1jcard J).
Cetteremarque
s’applique également
aux différentsprojecteurs qui
serontemployés.
2.2 Les sous-espaces
Fl , F2, F3,..., Fk
deR card’,
associésaux
kpartitions Pl, P2
...,pk.
2.2.1.
Définition
VÊ E[1, k],
àchaque partition p~
deI,
est associé le sous-espaceFe
deRcardI engendré
par lesystème {ep/p
EP~}
défini comme suit :2.2.2.
Propriétés.
Lamétrique
étant celle duCHI2,
onvérifie facilement
que :a)
Lesvecteurs {ep/p
EP~}
sont de norme 1 etorthogonaux
2 à 2.b) fÎ représentant
leprofil
del’élément j
deJ,
laprojection orthogonale
defi
sur
Fi,
notéePF~ (fjI),
s’écrit :pi
étant la classe de lapartition p~
contenanti,
etk(pi, 3) 03A3r~pi k(r, j) (et
demême, k(p2) = k(r».
c) fI = (fi)i~I appartient
à chacun des sous-espacesF~ lorsque
~ varie dans[1, k].
Eneffet,
~~ E[1, k], fI = 03A3p~~p~ f~ep~.
3. Les données et les
hypothèses.
3.1. Lemme de
décomposition
Soit k sous espaces
F1, F2,
...,Fk
d’un espace euclidien Equelconque,
affectés respectivement
de k réels al, a2, ..., ak de somme rsupposée
non nulle.PFi (1
ik) désignant
laprojection orthogonale
surFi,
on obtient alors ladécomposition
suivante duproduit
scalaire x, y > : ~x EE, ~y
EE,
k
où A est
l’opérateur :
A= T 03A3 aiPFi - I (I
étantl’application
identité deE).
i=l
Démonstration :
(voir annexe).
3.2 Formule de
décomposition
de l’inertie dekjj.
3.2.1
Propriété :
L’inertie In du tableau initialkjj
sedécompose
comme suit :( fi, fiJ, fp2~J, fpi~’J représentant respectivement
lepoids de
i et lesprofils
de iet des centres de
gravité
des classespi~
etpi~’,
despartitions P~
etP~’ (contenant
l’individu i~ I),
calculésà partir du
tableau initialkIJ).
Démonstration :
(voir annexe).
3.2.2
Définition.
Apartir
de ladécomposition
de l’inertie totale du tableaukIJ (présentée ci-dessus),
en 2 termes dont l’un mesure un «écart moyen» entre lespartitions Pi, P2 ,
... ,Pk prises
2 à2,
il est naturel deprendre
l’autre terme, notéA(P1,P2... Pk)
comme mesure de l’interactionmultiple
entre les kpartitions considérées;
ces dernières étant munies despoids positifs
a1,a2,...,ak de sommeégale
à r. Autrementdit,
nous poserons :3.3
Propriétés
de l’interaction3.3.1.
Propriété :
L’interactionmultiple A(P1, P2,..., Pk)
entre les kpartitions
Pl, P2, ... , Pk définies
surI,
s’écrit encore sous laforme :
(PF~ représentant
laprojection orthogonale
sur le sous-espaceF~
associé à lapartition Pi).
Démonstration :
(elle apparaît,
au cours de celle de lapropriété §3.2.1.
donnée enannexe).
3.3.2
Remarque.
Lapropriété précédente
montre que lesmodalités j ( j
EJ) jouant
un rôle
prépondérant
dans l’interactionA(P1, P2, ... , Pk)
entre les kpartitions P1, P2, ... , Pk
sont celles pourlesquelles
lequotient
prend
les valeurs lesplus
élevées.Nous
dirons qu’il s’agit
desmodalités i (j
EJ)
marquant le mieux l’interaction entre les kpartitions
considérées.Par contre,
lorsque
lequotient précédent
estproche
de0,
autrement ditlorsque
l’on a :
fjI - fI ~ 2 r L aR . PFi (fl - fI),
nous dironsqu’il
y a additivité entre lamodalité j
et les kpartitions Pl, P2, Pk.
Enfin,
unquotient analogue (provenant
de la définition§3.2.2.)
pour les modalités i(i
EI) pourraît
êtreégalement
établi.4.
L’analyse
factorielle des interactionsmultiples
4.1 Le tableau
krIJ
associé au tableau initialkIJ.
4. l. i.
Définition
Le tableaukr l J
croisant les ensembles I etJ,
associé au tableau initialkIJ, l’ensemble
I étant muni de kpartitions Pi, P2, ..., Pk
affectées despoids positifs
a 1, a2 , ... , ak de sommeégale
à r, se définit comme suit :pi~
étant la classe de lapartition P~
contenant i(i
EI).
4.1.2.
Propriétés
immédiates :a)
Les deux tableauxkrIJ
etkIJ
ont les mêmes marges sur I et sur J.03B2 )
Lesprofils f ri
etfjI
d’unélément j
de J associésrespectivement
aux tableauxkrIJ
etkIJ
sont liés par la relation :(PF,
étant laprojection orthogonale
sur le sous-espace deF~
deRcard I
associé à lapartition Te,
et Il’application identité).
03B3)
L’inertie du tableaukrjj
estégale
àA(P1, P2, ... , Pk).
4.2 Notations 1.
A
partir
du tableau initialkIJ
sont définis le tableaukrjj
ainsi que les tableauxkP~J
etkjj,,
~~ E[1, k].
Le tableau ci-dessousprécisera
leurs définitions et les notationsemployées.
(PF,
étant laprojection orthogonale
sur le sous-espaceFÊ
associé à laparti-
tion
P~).
4.3
Définition.
Nous
appellerons analyse
factorielle des interactionsmultiples, l’analyse
descorrespondances
du tableauA-r/j,
les tableauxkI J
etkP~J
W E[1, k]
étantplacés
en
lignes supplémentaires,
et les tableauxkIJ
etkIJ~
Vf E[1, k]
en colonnessupplémentaires.
4.4. Notations 2.
A
partir
de l’axe d’ordre Q; issu del’analyse
descorrespondances
du tableaukrIJ,
nousprécisons
ci-dessous les notations des coordonnées sur cet axe, des différenteslignes
et colonnes intervenant dansl’analyse
factorielle des interactionsmultiples
entre les kpartitions Pl, P2, ... , Pk.
4.5.
Propriétés.
En utilisant les notations 1 et 2
précédentes (§
4.2. et4.4.), 03BB03B1 désignant
lavaleur propre
d’ordre ex issue del’analyse
descorrespondances
dekrii,
on obtient :Démonstration :
(voir annexe).
4.6
Interprétation
desreprésentations
obtenues.Notons
Nr(I)
etNr(J) (resp.N(I )
etN(J))
les nuages associés au tableaukrjj (resp. k] J).
La
propriété b) du §
4.5. montre que les axes factoriels dansRcard I (issus
del’analyse
dekrIJ)
sont construits defaçon
à maximiser laquantité ei fi [2 r L
al.Gex (j~) -G03B1 (j)]2,
autrement dit sont construits àpartir
desmodalités j
deJ, marquant
le mieux l’interaction entre les
partitions P1,P2,... , Pk. (cf. § 3.3.2.).
Une remarqueanalogue pourrait
être faite pour les modalités i deI,
intervenant dans la construction de ces différents axes factoriels.Enfin,
les formulesd)
ete) du § 4.5.
ne sont autresque les formules de transition
classiques
liant les 2 nuages.Vr(7)
etNr(J).
Quant
à lapropriété a) du § 4.5.,
le termeLiE] fi F2 ,, (i) représentant
l’inertieprojetée
du nuageN(I)
sur l’axe a, les axes factoriels dansRcard J,
issus del’analyse
de
krIJ,
sont donc construits defaçon
à simultanément maximiser l’inertieprojetée
du nuage
N (1)
et minimiser l’ «écartprojeté moyen"
entre les classes des différentespartitions Pl, P2, ... , Pk prises
2 à 2. Cette dernière conditionayant
pourobjet
demettre en évidence les variations communes de ces différentes
partitions
suivant les modalités de J.4.7.
Remarques :
L’analyse
factorielle des interactionsmultiples (§4.3.) généralise
lesanalyses classiques :
4.7.1.
Lorsque
I est muni de 2partitions Pi
etP2 (k = 2)
affectées depoids égaux
à
1,
le tableaukrjj (§ 4.1.)
s’écrit alors :p1
etpi2
étant les classes contenant ides 2partitions Pi
etP2
définies sur 7.a)
Si lapartition P2
est lapartition
de I réduite à la seule classeI,
le tableaukrIJ
devient :l’analyse
descorrespondances
dekr l J représente
doncl’analyse
factorielle intra- classe dekIJ,
I étant muni de lapartition Pl.
b)
Si lapartition P2
est lapartition
de Icomposée
desingletons,
le tableau krse réduit à :
son
analyse
estéquivalente (par application
duprincipe d’équivalence
distribution-nelle)
à celle du tableaukP1 J,
croisantPl
et J(kP1J(p,j)
=03A3i~p k(i,j)
-k(p,j), ~p ~ P1, ~j ~ J)
et parconséquent représente l’analyse
factorielle inter- classe dekIJ,
I étant muni de lapartition Pi.
4.7.2. On démontre
(voir bibliographie,
Denimal92)
que,lorsque
le tableau initialkIJ
est le tableau identitékII,
I étant muni departitions Pl, ?2, - ., Pk
affectées despoids
al, a2, ... , ak bienchoisis, l’analyse
du tableaukrIJ
associé estéquivalente
àl’analyse
descorrespondances multiples
associée à ces kpartitions
définies sur I.5.
Applications
à la classificationautomatique
5.0
Nous allons utiliser la
décomposition (§3.2.1.)
de l’inertie totale dekIJ,
pour élaborer une classification ascendantehiérarchique
sur l’ensemble des éléments de I. Nous verrons que l’onpeut
définir un nouveau critèred’agrégation, pouvant
seprésenter
sous la forme d’un critère de Ward modifié et vérifianttoujours
l’axiome de lamédiane;
cequi permettra
de luiappliquer
lestechniques d’agrégations
accélérées(graphes réductibles,
voisinsréciproques).
Différentes
propriétés
seront tout d’abord données dans le cadre de k - 2partitions
munies depoids égaux
à 1(§5.1.), puis
étendues au casgénéral (§5.2.).
Ladéfinition et les
propriétés
d’un nouveau critèred’agrégation
sous contraintes serontensuite
présentées
au§5.3.
5.1
On
considère, donc,
un tableau decontingence
initialkIJ, l’ensemble I,
étant muni de 2partitions Pl
etP2
affectées depoids égaux
à 1.Dans ces
conditions,
la formule dedécomposition (§3.2.1.)
s’écrit :où
pl
etpi2
sont les classes dep1
etp2
contenant i.S.l.l. Théorème. Soit
P1
etP’1 deux partitions de l, P’1 se
déduisant deP1
parl’agrégation de
2 classes r et s deP1.
On a alors :où
frJ désigne
le reconstitué de r àpartir
de lapartition P2,
autrement ditfrJ
-03A3i~r fi fr fpi2J.
Les notationsfsJ
etfr~sJ
auront dessignifications analogues.
La démonstration est donnée dans Denimal
(1992).
5.1.2. Définition et propriété.
a)
I étant muni de lapartition P2,
on pose pour r et s deux sous-ensemblesdisjoints
de I(avec
les notations du§5.1.1.)
b)
soitt,
r, s 3 sous-ensembles deI, disjoints
2 à2,
on montre alors que :Démonstration :
(voir annexe).
5.1.3.
Conséqences.
03B4 va donc vérifier l’axiome de la médiane. Autrementdit,
r, s, t étant 3 sous-ensembles deI, disjoints
2 à2,
on obtient :5.2. Généralisation au cas des interactions
multiples.
On
considère,
dansce § ,
un tableau initialkIJ,
I étant cette fois muni de kpartitions Pl, P2,
... ,Pk
affectées despoids respectifs
ai, a2, ..., ak de somme r.La
décomposition
de l’inertie dek l J
s’écrit alors(§3.2.1.).
5.2.1. Théorème. Sous les
hypothèses précédentes, P’k
étant unepartition
deI,
sedéduisant de
Pk
parl’agrégation
de 2 classes r et s dePk,
on a alors :a)
avec
où
frJ
etfjl représentent
les reconstitués de r et s àpartir
de lapartition P~.
b) t,
r, s étant 3 sous-ensembles del,
2 à 2disjoints,
en posant :on obtient alors :
c) 8 vérifie
l’axiome de la médiane.Démonstration :
(cf.
Denimal(1992)).
5.3. Un nouveau critère
d’agrégation
sous contraintes.Le critère
d’agrégation
sous contraintesproposé
dans cetarticle, (qui
seprésentera
sous la forme d’un critère de Wardmodifié)
est un casparticulier
del’indice 8
du §5.2..
Nous supposerons,
ici,
que l’ensemble I du tableaukIJ
est muni de(k- 1) parti-
tions
Pl, P2, ...,Pk-1
donnéesa priori
et affectées depoids
connus a1, a2, ak-1, telles que :2022 k 3
e
Pk-1
=partition
réduite à 1 classe.Sous ces
conditions,
on se propose de construire une hiérarchie surI, qui,
àchaque
niveau n élabore une
partition pin)
depoids
donné ak et d’indicev(n) égal
à :D’après la propriété (§ 5.2. 1.), p(n)k
se déduisant dep(n - 1)k
parl’agrégation
des classesr et s on peut écrire que :
Or, Pk-1
étant lapartition
réduite à uneclasse,
nous endéduisons, pour f
= k -1,
que :puisque,
dans ce cas :frJ~ = fsJ~ = f J.
Cequi
est le critère de Wardclassique,
quenous noterons
Ward(r, s).
En
conséquence,
le critèred’agrégation proposé
s’écrit alors sous la forme :Quant
àl’interprétation
de cecritère,
nous laprésentons
ci-dessous dans le cadre deshypothèses : k
= 3 et al = a2 = a3 =1, (l’extension
au casgénéral
s’en déduit alorsfacilement).
Sous ces
conditions,
où
(pi1, pi3, p’i3
étant les classes despartitions P1, P(n-1)3, , ’P3’ (n)
contenanti) (voir §5.1).
En
conséquence,
les classes r et s,qui
sontagrégées,
doivent minimiserb(r, s)
et donc vérifient les 2 conditions :
- miminiser
Ward(r, s)
- minimiser
61 (r, s),
c’est-à-dire encore maximiser03A3i~I fi~fpi1J - Ppi3J 112.
Au-trement
dit,
la nouvellepartition
construitep(n)
devra être laplus «éloignée»
possible
de lapartition Pl
donnée apriori (cette partition Pi représentant
unevariable
qualitative
dont on veut minimiserl’influence).
Enfin,
notre indiced’agrégation peut prendre
des valeursnégatives,
mais commeil vérifie l’axiome de la
médiane,
la suite des indices de niveau sera forcément croissante.6. Un
exemple d’application
6.1. Introduction :
Les données utilisées sont extraites d’une étude
que j’ai
menéeconjointement
avec l’Institut Pasteur de Lille et le
CRESGE(1) (cf.
Denimal(1991)),
seprésentent
sous la forme d’un tableau de
contingence,
calculé àpartir
de 11000individus,
croisantun ensemble I de modalités
(définies
àpartir
des variables sexe,âge, CSP,
niveau de consommationd’alcool)
et un ensemble Jcomposé
des modalités de 6 marqueursbiologiques.
Les
paragraphes 6.2., 6.3., 6.4.,
ci-dessous seront consacrésrespectivement
auxdéfinitions des ensembles I et
J,
ainsiqu’à
celle des 2partitions Pl
etP2
définiessur I.
6.2.
Définition
et notations des modalités de I.TABLEAU 1
6.3.
Définition
et notations des modalités de J.TABLEAU 2
6.4. Les
partitions Pl
etP2
de I.Pl = {F 30, F 40, F 60, F > 60, H 30, H 40, H 60, H > 60}
P2
={ALC1, ALC2, ALC3, ALC4, ALC5}
TABLEAU 3
6.5. Les
analyses
réalisées.6.5.1. Résumé des
premières analyses.
Ce tableau de
contingence kjj
croisant les ensembles I etJ,
a tout d’abord été soumis àl’analyse
descorrespondances qui
agénéré
unplan principal, représentant 86%
de l’inertie totale(dont
72% pour lepremier axe),
etprincipalement expliqué
par
l’âge
et le sexe : lesplus âgés
se détachent desplus jeunes
en prenant les valeurs lesplus importantes
pour l’ensemble des marqueursbiologiques,
et les femmes sedistinguent
des hommes par des valeursplus
faibles etplus particulièrement
pour l’acideurique.
Ainsi, l’âge
et le sexe étant des variablesprépondérantes
sur la consommationd’alcool, (ce
que l’onpeut
vérifier aussi par d’autresanalyses),
pour faireapparaître
les liaisons entre consommation d’alcool et marqueurs
biologiques,
uneanalyse
factorielle intra-classe du tableau
kIJ,
mettanten jeu
lapartition Pl (Pl
= AGE xSEXE)
a été réalisée.Cette
analyse, qui
a pour but de minimiser l’influence del’âge
et du sexe,génère
unplan principal
totalisant75%
deIntra(Pi) (c’est-à-dire 17%
de l’inertie totale dekIJ)
dont59%
pour lepremier
axe. Ce derniers’interprète
comme un axed’accroissement de la consommation
d’alcool,
les variablesbiologiques
lamarquant
le mieux étant GGT et TOTAL LEGO. 3 zones sedégagent
alors nettement, dans leplan (1,2).
Celles
- des consommations faibles
(Fl
>0, F2
>0)
- des consommations moyennes
(F1 0, F2
>0)
- des consommations
importantes (F1 0, F2 0).
6.5.2.
Analyses
des interactions entrePl
etP2 (Graphiques
1 et2).
Il
s’agit
del’analyse (présentée au §4.3.)
avec k - 2partitions (Pl
etP2),
affectées de
poids égaux
à1, kjj
étant le tableau decontingence
initial.Cette
analyse génère
unplan (1,2) représentant
83 % de l’interactionA(P1, P2) (c’est-à-dire
8% de l’inertie dekIJ),
dont 77% pour lepremier
axe.A l’aide des indices
INR, (voir (1)
en bas depage),
calculés par leprogramme d’analyse
descorrespondances,
et en choisissant lesplus
faibles d’entre eux(INR -
1% de
A(P1,P2) ),
on voitapparaître
une zone(voir graphiques
1 et2)
où il y aquasi-additivité.
Cequi s’écrit,
avec les notationsemployées
dans cet article :Il
apparaît, ainsi,
que les modalités de Icorrespondant
aux consommations moyennes d’alcool et les modalités des marqueurs(donc,
deJ)
traduisant des valeurs moyennessont celles pour
lesquelles
il y aquasi-additivité.
(1)
INR = indicereprésentant
les contributions dechaque
i E I(ou j
EJ)
à l’inertie totale du tableauanalysé, rapportées
à cette inertie.D’autre part, le tableau
analysé
kr se définit comme suit :et
représente
la différence entre la valeur que l’on aurait sousl’hypothèse
del’additivité des effets de
l’âge
et du sexe d’unepart
et de la consommation d’alcool d’autrepart,
et la valeur observéek (i, j).
Dans le cadre de cetexemple, kr (i, j)
esttoujours positif.
Autrement
dit,
les formules de transition(§
4.5d)
ete)) s’interprètent
facilement.Ainsi,
une absence croissante d’additivité va se traduire par des valeursk(i,j)
de
plus
enplus
faibles devant celles que l’on aurait sous cettehypothèse
d’ additivité.Les
représentations
obtenues(graphiques
1 et2)
mettent alors en évidence les 2 résultats suivants :- Pour les
hommes, plus
les individus sont consommateursd’alcool,
moins il y a d’additivité cequi
est surtout observé pour les modalités traduisant les valeurs élevées des marqueurs GGT et TOTAL LEGO.-
A l’inverse,
chez lesfemmes, plus
la consommation estfaible,
moins il y a additivité cequi
est, enparticulier, remarqué
pour les modalités traduisant les valeurs faibles du marqueur AcideUrique.
6.5.3.
Classifications
des modalités de I(Graphiques
3 et4).
La
première
classification est celle réalisée surI,
àpartir
du tableaukIJ,
enutilisant le critère
classique
de Ward. Cettepremière
classification ascendante hiérar-chique génère
des classesmarquées principalement
parl’âge
et le sexe(graphique 3).
On obtient en effet une
partition
de I en 5 classes :- Deux d’entre elles regroupent, pour l’une
(classe 71)
les femmesjeunes
et pour l’autre les femmesâgées (classe 69).
- Les
hommes,
quant à eux, serépartissent
au sein des autres classes : la classe70
regroupant
lesjeunes (avec
pour la tranched’âge [0,30[
tous les niveaux deconsommation),
la classe 68 les hommesâgés (avec
tous les niveaux de consommation pour la tranched’âge > 60),
reste la classe 12 necomportant
que le seul élément HIN 1 dont leprofil
serapproche
de celui des femmesjeunes (classe 70).
La seconde classification des éléments de I est une classification sous contrain- tes réalisée à
partir
des 2partitions
données apriori : Pl
etPo (partition
de I réduite à la seule classe7).
Les 3partitions Pl, Po, p(n) (cette
dernière étant pour le niveau n de lahiérarchie,
celle constituée dessommets)
seront munies du mêmepoids. Ainsi,
le critèred’agrégation employé (§ 5.3)
serait le critère de Ward modifié suivant :et a donc pour but de minimiser l’influence de
l’âge
et du sexe.GRAPHIQUE
1Analyse
des interactions(Pl, P2) Projection
dans leplan (1,2)
des éléments de
I,
issus du tableaukrIJ (Tl
=77%,
T2 =6%)
GRAPHIQUE
2Analyse
des interactions(Pl, P2). Projection
dans leplan (1, 2)
des éléments de
J,
issus du tableaukrIJ (03C41
=77%, 2
=6%).
GRAPHIQUE
3Classification
des éléments de I - Critèreclassique
de WardGRAPHIQUE
4Classification
des éléments de I sous contraintesLa classification
hiérarchique
obtenuegénère
unepartition
en 5 classes s’ex-pliquant
cette fois par la consommation d’alcool. Onobtient,
eneffet,
les classes73, 69, 70,
62regroupent respectivement
les non-consommateurs, les consommateurs d’alcool moyens,importants
et trèsimportants. Seules,
les femmesd’âge supérieur
à60 ans, formant la classe
52,
seregroupent
avec la classe des consommateurs moyens.Pour les autres classes
(73, 69, 70, 62)
seule la consommation d’ alcool lesexplique
et l’on y trouve
regroupées,
dans chacune de cesclasses,
les tranchesd’âge
et les 2sexes
correspondant
à untype
de consommation donné.Annexes
1 - Démonstration de 3.1.
Après
avoir mis le terme :La formule du lemme ci-dessus
s’obtient, après
avoirremarqué
que :. d’une
part :
(En effet,
Vie[1, k]
.
d’autre part :
2 - Démonstration de 3.2.1. Cette
décomposition provient
du lemme dedécomposition (§ 3.1.),
enprenant
dans E =Rcardi I muni de la métrique
duCHI2,
x = y = fji - fI.
On
obtient,
eneffet,
parapplication
de lapropriété §
2.2.2.b)
etc)
que :On en
déduit, alors,
A étantl’opérateur
Le lemme
permet
donc d’écrire que l’inertie I n dekIJ
sedécompose
comme suit :D’où l’on déduit facilement la formule de cette
propriété (§ 3.2.1.).
3 - Démonstration de 4.5. Nous nous limiterons à celle du
a).
Sachant que l’on a, par
définition, l’égalité : (en
utilisant lesnotations § 4.2.)
fi r J = 2 r 03A3a~ · fpi~J - fiJ,
nous en déduisons que :.=1
En
conséquence :
ce
qui
montre que03BB03B1 = ~A(F03B1(i)fi)i~I~2
où A estl’opérateur 2 r 03A3k~=1 a~PF~ -
lD’où, finalement,
en utilisant le lemme dedécomposition (§ 3.1),
ilapparaît
que :
ce
qui
démontre la formulea).
4 - Démonstration de 5.1.2.
03B4(r, s)
peut s’écrire sous la forme :03B4( r, s) = 81 (r, s) - 03B42(r, s)
avec :81 (resp. 82) représente
le critère de Ward pour le nuageNl (I) (resp. N2 (I))
associéau tableau
k1IJ (resp. k2IJ)
suivant :les 2 tableaux
k1IJ
etk2 ayant
même marges que le tableau initialA-/j, 03B41
et03B42.
etpar
conséquent 03B4
vont vérifierl’égalité
demandée.Bibliographie
BENER A.
(1982) Décomposition
des interactions dans unecorrespondance multiple.
Cahiers de
l’ Analyse
des Données 7 n° 1.BENZECRI J.-P.
(1983) Analyse
de l’inertie intra-classe parl’analyse
d’un tableau decorrespondance.
Cahiers del’Analyse
des Données8,
n° 3.CAZES P.
(1986) Correspondances
entre deux ensembles etpartitions
de ces deuxensembles. Cahiers de
l’ Analyse
desDonnées, 11,
n° 3.CAZES
P.,
CHESSELD.,
DOLEDEC S.(1988) L’analyse
descorrespondances
internes d’un tableau
partitionné.
Son usage enhydrobiologie.
Revue deStatistique Appliquée
XXXVI n° 1.DENIMAL J.-J.
(1992) Analyse factorielle
des interactions entre kpartitions prises
2 à 2. Publications
IRMA, Lille,
Volume 27.DENIMAL J.-J.
(1991)
Essai de modélisation de la consommation d’alcool dansune
population.
Article(H.C.E.I.A.) supplément scientifique
ettechnique
(CRESGE -
Centre d’Examens de Santé de l’Institut Pasteur deLille).
Journald’Alcoologie.
MOREAU J.
(1990) Analyse factorielle
et relationnelle de données structurées.Centre Vaudois de recherches
pédagogiques
n°91103,
Lausanne.SABATIER
(1987) Analyse factorielle
de données structurées etmétriques.
S.A.D.Volume