R EVUE DE STATISTIQUE APPLIQUÉE
J EAN -J ACQUES D AUDIN
Analyse factorielle des dépendances partielles
Revue de statistique appliquée, tome 29, n
o2 (1981), p. 15-29
<http://www.numdam.org/item?id=RSA_1981__29_2_15_0>
© Société française de statistique, 1981, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.
sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les conditions générales d’uti- lisation (http://www.numdam.org/conditions). Toute utilisation commerciale ou im- pression systématique est constitutive d’une infraction pénale. Toute copie ou im- pression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme
15
ANALYSE FACTORIELLE
DES DEPENDANCES
PARTIELLESJean-Jacques DAUDIN
Département de Mathématique, Institut National Agronomique Paris-Grignon, 16, rue CL Bernard, Paris
RESUME
Nous proposons des méthodes permettant d’analyser les dépendances partielles dans
une table de contingence tridimensionnelle.
INTRODUCTION
Quand
ondispose
d’une table decontingence
tridimensionnelle et que l’on s’intéresse enparticulier
à ladépendance
entre 2 des 3variables,
lapratique
cou-rante veut que soit établie la table
marginale
obtenue en sommant sur la troisièmevariable,
et que cette table soit étudiée par uneanalyse
factorielle des correspon- dances. Ce faisant onperd
l’information concernant lesdépendances partielles.
Une autre
possibilité
est l’étude de toutes les tables decontingence
cor-respondant
aux différentes valeurs de la troisième variable. Cela peut être fas- tidieux et difficile àsynthétiser
si cette dernièreprend
de nombreuses valeurs.De
plus
se pose leproblème
des cases vides de la table tridimensionnelle s’il ya peu d’observations.
Nous proposons ici une
méthode,
basée sur une idée de J.N. DARROCH[ 1 ], qui
permet d’étudier lesdépendances partielles
par 2analyses
des corré- lationscanoniques
ou 2analyses
factorielles descorrespondances
sur 2 tablesbidimensionnelles. J.N. DARROCH
distingue
2 sortes dedépendances partielles
entre 2 variables aléatoires X et Y : la
dépendance "qui
passe par Z"(qu’il appelle dépendance attachée)
et ladépendance indépendante
deZ,
c’est-à-dire l’association conditionnelle(qu’il appelle dépendance détachée).
La
première partie
de cet article contient les défmitions desdépendances
attachées et détachées
proposées
par J.N. DARROCH dans[1]
pour des va- riables discrètes ainsiqu’une généralisation
de ces définitions au cas de variablesquelconques.
Dans les deuxième et troisième
parties
nous proposonsrespectivement
des méthodes
d’analyses
desdépendances
attachées et détachéesanalogues
del’analyse
factorielle descorrespondances
de la liaisonmarginale.
Dans la
quatrième partie
nous illustrons ces méthodes par desexemples.
Revue de Statistique Appliquée, 1981, vol. XXV IX, n° 2
Mots-clés :
Analyse
factorielle descorrespondances, Dépendances
attachées et1. DEPENDANCE PARTIELLE ATTACHEE ET DEPENDANCE PARTIELLE DETACHEE
A. Présentation des définitions de J.N. DARROCH
Soient X, Y, Z trois variables aléatoires discrètes et
appelons
X et Y sont
indépendants
conditionnellement à Z si(1)
est vérifié :Définitions
DARROCH mesure la
dépendance
des évènements(X
=i)
et(Y
=j)
conditionnellement à Z = k par
et la
dépendance
conditionnelle moyenne par(2)
où
DARROCH mesure la
dépendance marginale
entre les évènements(X
=i)
et
(Y
=j)
par laquantité Pij. - Pi.. P j
Enfin il mesure la
dépendance
attachée à Z par la différence entre ces2 dernières
quantités,
c’est-à-dire par(3)
Cette dernière
quantité
méritequelques
éclaircissements :03A0ij peut s’interpréter
comme étant la
probabilité conjointe
des évènement(X
=i)
et(Y
=j)
si ces2 évènements sont
indépendants
conditionnellement à Z.S’il
n’y
a pas dedépendance
attachée à Z entre ces 2 évènements on doit avoirFL
=Pi.. P.j.’
. Ladépendance
attachée à Z rendcompte
d’unphénomène
bien connu selon
lequel
il sepeut
quechaque
table à Z = k fixéindique
l’indé-pendance
entre X et Y alors que la tablemarginale
montre une non indé-pendance.
La relation
(4)
résume les notions introduites :(4) s’exprime
verbalement de lafaçon
suivante :Dépendance marginale
=dépendance
détachée de Z +dépendance
attachée à Z.Remarques
1)
ladépendance
détachée de Z mesure seulement unedépendance
condi-tionnelle moyenne. Cette mesure n’est intéressante que s’il y a une relative .
stabilité, quand
Z varie, de ladépendance
conditionnelle à Z fixé. Parexemple
il se
peut
queFL
=Pij.
sansqu’il
y aitobligatoirement
situationd’indépen-
dance
conditionnelle.
2)
Deux casparticuliers
sont à remarquer :- Si
IIij
=Pij.
ladépendance
détachée de Z estnulle,
et toute ladépendance marginale
est due à la composante de ladépendance
attachée àZ,
c’est-à-dire que ladépendance "passe"
par Z.- Si
IIij
=Pij
ladépendance
détachée de Z estnulle,
et toute ladépendance marginale
estégale
à ladépendance
détachée de Z. Dans ce casl’analye
dela
dépendance marginale
est donc aussil’analyse
de ladépendance détachée,
c’est-à-dire de ladépendance
conditionnelle moyenne.3)
A l’aide desprobabilités marginales Pij., Pi.k , P.jk
on peut constituerplusieurs
tables I x J :a)
la table dont le(i, j)
ième élément estPii
b)
la table03A0ij.
c)
la tablePi.. P.j.
+(Pij.
-03A0ij)
Toutes ces tables ont même
marginales Pi..
etPj..
On peut construire de
façon identique
les tables decontingence (a’), (b’), (c’) correspondant
aux tables desprobabilités (a), (b), (c) respectivement.
Pourétudier la
dépendance marginale (X , Y)
des variables X et Y on est amené à fairel’analyse
factorielle descorrespondances
de la table(a’).
De même pour étudier lesdépendances
attachées à Z et détachées de Z on est amené à faire lesanalyses
factorielles descorrespondances
des tables(b’)
et(c’).
Nous étudions les
propriétés
de ces 2 dernièresanalyses
dans les 3e et 4eparties
de cet article. Il est auparavant utile d’allerplus
avant dans l’étude des notions dedépendance
attachée et détachée dans le cas de variables aléatoiresquelconques.
B. Généralisation
1)
Généralisation des définitions de Darroch Soit X ,Y ,
Z trois variables aléatoires.Soit
dPXHZ la
loi deprobabilité conjointe
de(X, Y, Z) dpxy dPxz ,
dPyz , d?x, dPy , dPz
les loismarginales.
Soit
Lx_ , Ly L2Z ,
les ensembles de fonction de carré sommable de res-pectivement
X, Y et Z :où
E(03C8/(X))
estl’espérance
de03C8(X) ,
etoù 03C8 , 03B8 et 03B6
sontrespectivement
des fonctions
X, Y,
Z mesurables.Soit
EZ l’opérateur espérance
conditionnelle.Pour toutes variables
aléatoires 03C8(X)
DeL2X
et03B8(Y)
deCy,
on peutmontrer que l’on a
Cette relation est évidente si on
décompose chaque
terme, car elle s’écrit alors :La relation
(5)
est unegénéralisation
de(4).
Eneffet,
siX, Y ,
Z sont des va- riables aléatoires discrètes avec les notations du début de lapremière partie,
etsi on note :
ce
qui
donne :De ces relations et de
(5bis)
l’on déduit immédiatement(4).
Si on note que
E((03C8(X) - E(WX))) (O(Y) - E(O(Y)))
est la cova-riance entre
03C8(X)
etO(Y),
queEZ(03C8(X) - E(03C8(X)))
est laprojection
de03C8(X) - E(03C8(X))
surL2
et que03B8(X) - EZ(03B8(X))
est laprojection
de03B8
(X) - E(03B8(X))
surL2Z,
oùL2~Z
estl’orthogonal
deLz
, on peutinterpréter
la relation
(5)
de lafaçon
suivante : la covariance entre03C8(X) et 03B8 (Y)
estégale
à la somme des covariances entre leurs
projections
surL2d’une part
et surLZ
d’autre part.
Nous avons montré dans
[2]
et[3]
que toutes les corrélations entreprojec-
tions sur
L2~Z
de fonctions de X d’unepart
et de fonction de Y d’autre part me-surent la liaison moyenne conditionnellement à Z. De
plus les
corrélations entreprojections
de fonctions de X et de fonctions de Y surL2Z
mesurent ladépen-
dance entre X et Y
qui
est liée à Z. La relation(5)
est donc unegénéralisation
de la
décomposition (4)
due à DARROCH(1).
Lorsque (X, Y, Z)
est un vecteurgaussien, l’espérance
conditionnelle à Z étant une fonction linéaire deZ,
on retrouve àpartir
de(5)
la formuleclassique :
en prenant
2) Décomposition
de la mesure dedépendance globale
La relation
(5)
concerne seulement deux variables aléatoires03C8(X)
et 0(Y).
On peut obtenir une
décomposition analogue
de ladépendance globale
entreX et Y.
Soit
respectivement (t/Ji)
i El et(0j) j C- J
dessystèmes
orthonormés totaux deL2X
etL2Y,
avec03C80=03B80=1.
La liaison entre X et Y est mesurée par
03A62XY
où03A62XY = 03A3~ ij=1
,
(E(03C8i03B8j))2.
ij=1
D’après (5), on a : 03A62XY =
A + B + Cavec
A mesure la
dépendance
attachée à Z.(A > 0)
B mesure la
dépendance
détachée de Z .(B > 0)
C est un double
produit qui permet
de savoir si les deux formes dedépendance
se renforcent l’une l’autre
(cas
où C estpositif)
ou si au contraire elless’opposent (cas
où C estnégatif).
(1) Dans l’article cité, DARROCH écrit aussi (4) sous la forme d’une décomposition
de’la covariance dans des conditions moins générales que (5).
Ce dernier cas permet
d’expliquer
leparadoxe
suivant :Chaque
table bidimensionnelle à Z fixé peutprésenter
unedépendance
entre X et Y alors que la table
marginale indique l’indépendance.
Notons que la liaison attachée mesurée par A
possède
lapropriété
suivante :qui précise
en termesmathématiques
un fait intuitif : l’intensité de ladépendance
entre X et Y attachée à Z est bornée par le
produit
des intensités desdépendances
entre X et Z d’une part et Y et Z d’autre part.
La démonstration de
(6)
est basée surl’inégalité
deCauchy-Schwartz :
et sur le fait que
(6)
permet de retrouver le résultat(7)
démontré dans[2] :
Si ladépendance
condi-tionnelle moyenne entre X et Y est nulle alors
3) Analyses canoniques
desdépendances
attachées et détachéesSoient
Hl
1et H2 respectivement
les sous espaces deL2Z engendrés
parles variables aléatoires
(EZ(03C8i), i E I)
et(EZ(03B8j), j~J).
Définition
1L’analyse canonique
de ladépendance
attachée à Z estl’analyse canonique
des espaces
Hl
etH2 .
Soient
G 1
etG2 respectivement
les sous espaces deL 21 engendré
par les variables aléatoires
(03C8i - Ez i ~ I)
et(03B8j
-EZ(03B8j) , j
EJ).
Définition
2L’analyse canonique
de ladépendance
détachée de Z estl’analyse
cano-nique
des espacesG 1
etG2 .
Ces définitions seront utilisées pour des variables discrètes dans la suite de cet article.
II. ANALYSE FACTORIELLE DE LA LIAISON ATTACHEE
1. Calcul de la matrice de covariance
Considérons les indicatrices des modalités de X et de Y :
(U0, U1 .. UI-1)
et(V0, V1 .. VJ-1)
sont deux basesorthogonales
deLi
et
L2 U
etV
étant les fonctions constantes.Les
projections
deUi
etVj
surL2Z
sontUZi
etV? :
et on a
Soit 03A311
la matrice des covariances desUiZ, 03A322
celle desVj
etE 12
lamatrice des covariances entre
uf
etV’f. L’analyse canonique
de ladépendance
attachée s’obtient en
diagonalisant
lamatrice 03A3-111
Il se peut queY, 11
ouY,22
ne soient pasinversibles ;
c’est le cas pour K 1 ou K J. Il faut considérer pour K 1 une famille libre desUf
et non tous lesut.
Il en estde même pour les
VZj lorsque
K J.2.
Analyse
factorielle de la liaison attachéeUne solution
plus simple (et qui
ne pose pas deproblème d’inversion)
consisteà faire
l’analyse
factorielle descorrespondances
de la table decontingence
suivante :où
Nijk
est l’effectif de la table tridimensionnellepour
Ceci revient à
diagonaliser
la matrice :où
DI
est la matricediagonale
avecNi..
pour ième élément de ladiagonale, D J
est la matricediagonale
avecN...
pourjème
élément de ladiagonale, V12
est la matrice à I
lignes
et J colonnes de termegénéral Mi,
Dans cette
analyse factorielle,
la distance entre deux modalités i eti’
de X est
égale
à :L’inertie totale de
l’analyse
estégale
à :ni ANALYSE FACTORIELLE DE LA DEPENDANCE DETACHEE
1.
Analyse canonique
de ladépendance
détachée :On considère les
projections Ut
etV*j
deUi
etVj
surL2~Z
on a
Soit
03A3*11
la matrice de covariance desU*i
L’analyse canonique
conduit àdiagonaliser
la matrice2.
Analyse
factorielle de ladépendance
détachéeUne solution
plus simple
consiste à fairel’analyse
factorielle des corres-pondances
de la table decontingence
suivante :qui
a les mêmes marges((Ni..)
et(N.j.))
que les tablesNij
etMij. (Cette
table
peut
éventuellementprendre quelques
valeursnégatives).
Cette
analyse
revient àdiagonaliser
la matrice.Comme dans le
paragraphe précédent
la différence entre les 2analyses
est dueà des choix différents de la
métrique
de référence dansL2X
etL 2 : DI
etDj
dans
l’analyse factorielle, Y,*
etE22
dansl’analyse canonique.
La distance entre 2 modalités i et
i’
de X estégale
à :l’inertie totale de
l’analyse
est :3.
Décomposition
de la mesure dedépendance globale
Les résultats du
paragraphe
IB2s’appliquent
ici sous la forme suivante, ou I est l’inertie del’analyse
factorielle descorrespondances
de la tablemarginale :
En
résumé,
on obtientl’égalité
suivante :Comme C peut être de
signe quelconque,
il sepeut que Il
et ou12
soientplus grands
que I.IV. EXEMPLES 1 e r
exemple
On considère 3 variables
X, Y, Z
arespectivement 5,5
et 2 modalités.On considère les tables de
contingence
suivantes :Tables
marginales
Z x X, Z x Y et Y x XA l’aide des tables Z x X et Z x Y on construit les tables suivantes :
La
première
table est calculée par(8),
la seconde par(9).
La
première
table permetd’analyser
ladépendance attachée,
la seconde ladépendance
détachée.On observe que la
dépendance marginale
estfaible,
1 =0.01 ;
par contre lesdépendances
attachées et détachées sont élevéesIl
= .4312
.49 et desens contraire par C est
négatif :
C = - .91.Il n’est pas nécessaire de
procéder
à uneanalyse
factorielle des correspon- dances sur ces deux tables pour décrire lesdépendances
attachées et détachées :on observe directement sur les tables que les
premières
modalités de X sontfortement associées aux dernières modalités de Y dans la liaison
attachée,
alorsqu’au
contraire elles sont fortement associées auxpremières
modalités de Y dans la liaison détachée. Le cumul de ces 2 associations contradictoires donne unedépendance marginale
nonsignificative.
2e exemple
Cet
exemple
montre l’intérêt des méthodesproposées
même si l’ordre degrandeur
de ladépendance
est faible et si ladépendance
détachée est relative-ment semblable à la
dépendance marginale.
On considère la table de
contingence
où sontrépartis
les salariés par tranche de salaire annuel etâge
de fm d’études. Les classes de salaire annuel sont les sui- vantes :(nous
avonsregroupé
certaines classes àpartir
dudécoupage initial).
0 à
5 000, 5 000
à10000 ;
10 000 à15 000,
15 000 à20 000,
20 000 à5 0 000,
50 000 à 80 000,
plus
de 80 000.Les modalités de la variable
âge
de fin d’étude sont les suivantes : moins de 15 ans, 15 ans, 16 ans, 17 ans, 18 ans, 19 ans, 20-24 ans 25-29 ans,plus
de30 ans.
En fait on
dispose
de 2 tables decontingence :
l’une pour les individus de 16 à 34 ans, l’autre pour ceux deplus
de 35 ans.Les données sont issues de l’INSEE
[4]
p. 185 et datent de 1970. Le ta- bleau des données est dans la table 1(on
aregroupé
en 2 classes les 6premières
classes de
salaires.)
1)
Les résultats del’analyse
factorielle descorrespondances
sur la tablecumulée
(individus
de 16 à 34 ans et individus deplus
de 35ans)
sont les sui-vants :
valeur propre
pourcentage
pourcentage cumuléLe
plan principal
de cetteanalyse
estreprésenté
par lafigure
1. On observe uneétroite
dépendance
entre salaire etâge
de find’étude ;
les différentes modalités de salaire etd’âge
de fin d’études’alignent
sur une courbe de salaire etd’âge
defin d’étude croissants. La seule anomalie consiste dans le fait que la modalité des salaires de moins de 5 000 F se trouve
au-dessus
de celle des salaires de 5 000 à10000;
cette anomalie estgênante
pourl’interprétation
dugraphique
et mé-rite une
explication.
2)
Les résultats del’analyse
factorielle descorrespondances
sur la tablereprésentant
ladépendance
détachée del’âge (qui
est une variable à 2 moda-lités), dépendance
donnée parl’application
de la formule(9)
sont les suivants :valeur propre
pourcentage pourcentage
cumuléle
plan principal
de cetteanalyse
estreprésenté
dans lafigure
2. On observe cettefois que l’ordre des modalités 0-5 et 5 -10 a été rétabli.
3)
On peut construire la table decontingence
de ladépendance attachée,
en utilisant
(8)
et en fairel’analyse
par uneanalyse
factorielle des correspon- dances.Cependant
cette étude ne donnequ’une
valeur propre non nulle cequi correspond
au fait que la variable Z n’a que 2 modalités. Il est doncplus rapide
de considérer directement les 2 tables
marginales
X x Z et Y x Z.On observe que les individus de
plus
de 35 ans ont en moyenne des sa- lairesplus
élevés et unâge
de fm d’étude moins élevé que les individus de 16 à 34 ans.4) Interprétation
des résultats. Ladépendance marginale
obtenue en cu-mulant les 2 tables de
contingence
est la somme de 2types
dedépendances :
celle
positive
entreâge
de fin d’étude et salaire : c’est ladépendance
détachéea
n
O
Figure 1. - Représentation simultanée des classes de fin d’étude et des tranches de salaires :
plan principal de l’Analyse Factorielle des Correspondances de la liaison marginale. Les tranches de salaires sont représentées par des rectangles. Les classes d’âge de fin d’étude sont
repré-
sentées par des cercles.
Figure 2. - Représentation simultanée des classes d’âge de fin d’étude et tranches de salaires :
plan principal de l’Analyse Factorielle des Correspondances de la liaison détachée de l’âge.
(les légendes sont identiques à celles de la figure 1).
(pour
une classed’âge fixée)
cellenégative
entreâge
de fin d’étude et salaire : c’est ladépendance
attachée à la classed’âge.
Les ordres degrandeurs
de cesdifférentes liaisons sont :
I = .265
12 =
0.282Il
= 0.003 C = - 0.020Bien que
Il
et C soient faibles cela suffit pourperturber
les résultats del’analyse
factorielle de la
dépendance marginale
comme on l’a vu sur lafigure
1. On peutinterpréter
l’interversion des 2 modalités de salaires comme un effet de ladépen-
dance attachée aux classes
d’âge :
les salariésgagnant
moins de 5 000 F sont enmoyenne
plus jeunes
que les autres et ont unâge
moyen de fin d’études relati- vement élevé.BIBLIOGRAPHIE
[1] J.N.
DARROCH. -"Marginal
and ConditionalDependance
and CovarianceAnalysis" Unpublished
report 1979. FlindersUniversity
of South Australia.[2]
J.J. DAUDIN. - "Etude de la liaison entre variables aléatoires.Régression
sur variables