R EVUE DE STATISTIQUE APPLIQUÉE
R. R OUSSEAU
Analyse des correspondances d’un tableau ayant des cases à poids prépondérants
Revue de statistique appliquée, tome 48, n
o2 (2000), p. 73-83
<http://www.numdam.org/item?id=RSA_2000__48_2_73_0>
© Société française de statistique, 2000, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE DES CORRESPONDANCES D’UN TABLEAU AYANT DES CASES À POIDS PRÉPONDÉRANTS
R. Rousseau Institut de
Mathématiques Appliquées
Université
Catholique
de l’Ouest 3,place
AndréLeroy,
49000Angers,
FranceRÉSUMÉ
Un tableau de
correspondance
peutprésenter,
dans lapratique, quelques
cases dont lespoids
sontprépondérants
par rapport à ceux des autres cases du tableau. En considérant, surchacun des deux ensembles (individus et variables) du tableau de
correspondance,
lapartition
en deux classes (éléments à marges
prépondérantes
et éléments à margesnégligeables),
cetarticle étudie la limite de
l’analyse
descorrespondances
d’un tel tableauquand
lespoids
descases
négligeables
tendent vers zéro.Mots-clés :
Analyse factorielle
descorrespondances,
limite,poids prépondérant,
blocsdiago-
naux
ABSTRACT
In
practice,
acorrespondence
data matrix may have somehigh weight
elements. This article studies the limit of thecorrespondence analysis
on a such table when theweights
of thenegligible
elements converge at zero.Keywords : Correspondence analysis,
limit,high weight, diagonal
blocks.1. Position du
problème
On considère un tableau de
correspondance kjj
de la forme suivantekIJ = AI J
+03B5BIJ
avec 6- >0, AI J
etBIJ
étant des tableaux de nombrespositifs vérifiant,
pour despartitions {7o, Ip}
et{Jo, Jp}
en deux classes de I et Jrespectivement,
lespropriétés
suivantes :les marges de
AI J
de tout élément deIo
et deJo
sont non nullesles marges de
BI J
de tout élément deIp
et deJp
sont non nullesAutrement
dit, kIJ
est un tableau decorrespondance
dutype
suivant :L’objet
de l’article est l’étude de la limite del’Analyse
Factorielle des Corres-pondances (notée AFC)
dekIJ quand c
tend vers zéro. Onétudiera,
d’ abordjusqu’ au
§ 8,
le casIp =1=
0 etJp =1=
0,puis, au § 9,
le casIp - 0
ouJp =
0 etenfin,
au§ 10,
unegénéralisation
au cas où certaines des cases deAI0J0 = kI0J0
sont aussid’ordre c.
2.
Étude
du nuageN(I)
des individus(pour Jp =1= Ø), (nuage
desprofils
deslignes
du tableaukjj)
On utilisera les notations habituelles de
l’AFC, cf. [BEN80],
àsavoir,
pourkIJ
tableau de
correspondance :
k l
sa marge surI,
de termegénéral
JkJ
sa marge surJ,
de termegénéral
fI J
le tableau defréquence associé,
Ces notations se
transposent
aux deux tableauxAI J
etBI J
ainsiqu’au
tableauAI0J0 (sous-tableau
deAI J).
On supposeJp ~
0.Les marges du tableau
k l J
sont donc les suivantes ettendent, quand c tend
vers
0,
vers :Donc, quand E
tend vers0, fj
tend vers(fio, OJp)
et parsymétrie,
pourIp
0,f I
tend vers
(fI0,0Ip). Ainsi,
les masses des éléments deIo
et deJo
tendent vers cellesassociées au tableau de
correspondance AI0J0
et celles deIp
etJp
tendent vers zéro.L’écriture des
profils
desindividus,
ViEI,V j
E J :montre les limites suivantes :
Le
profil fiJ
de l’individu i de I tend donc vers le vecteur(AiJ, 0Jp)
pour i E10
et est
égal
au vecteur constantBiJ
pour z EIp.
Le calcul de la
norme ~fiJ~,
avec lamétrique
du Chi-2 de centrefi,
montreaisément que celle-ci
tend,
si i EIo, vers ~AiJ0~,
relativement à la norme du Chi-2 de centref A Jo (loi marginale
surJo
deAI0J0),
et, si i EIp,
vers +~(de
l’ordre de1/03B51/2). Ainsi,
lesprofils
des individus deIp,
mêmeinvariants,
ont, pourJp =1=
0, dufait de la modification de la distance du Chi-2 sur
J,
une norme tendant versl’infini, quand c
tend vers 0.Le sous-nuage
N(Io)
tend donc vers une forme limitequi
est celle correspon- dant au sous-tableauAIO Jo,
tandis que lesprofils
fixes despoints
deIp
de masselégère
d’ordre cs’éloignent
del’origine
à des distances d’ordre1/03B51/2.
3.
Étude
de la matricef J (pour Ip =1= 0)
Pour
Ip =1=
0, endécomposant
I selon sapartition {7o, Ip},
on calcule aisément la limite du termegénéral,
ce
qui donne,
comme limite deff,
une matrice de la forme :On montre aisément que la matrice
gui
est une transitionprobabiliste, i.e.,
que la somme de toute colonne estégale
à1;
eneffet,
pourtout j
EJp :
Il est à noter que, sauf pour
gJpJ0 = 0JpJ0,
la formeparticulière
de la matricegJJ
n’existejamais
pour la matricefJJ
associée à un tableau decorrespondance quelconque.
Eneffet,
leségalités
suivantes~fjI, fjI~
fI= 1 fj fj’j = 1 fj’ fjj’ impliquent
désignant
leproduit
scalaire entref Î
Le cas
particulier gJpJ0
=0JpJ0 correspond
à la situation suivante :(du
fait que la marge de i surIo
pour le tableauAIJ
est non nulle parhypothèse)
ce
qui
estéquivalent
à unedécomposition
du tableaukIJ
sous la forme suivante :Dans ce cas, le tableau
kjj
estdécomposable
en deux blocsdiagonaux
et sonAFC revient
donc,
à des termes correctifsprès dépendant
des masses des deuxblocs,
à l’AFC du
premier
bloc(cas particulier
duproblème présent
avecJp = 0),
à l’AFCinvariante du second bloc et à
ajouter
le facteuropposant
les deuxblocs, cf. [BEN85].
NB : si de
plus Ipi =
0, alors le tableaukIJ
estdécomposable
en deux blocsdiagonaux
selon lespartitions {7o, Ip} et {Jo, Jp}
de I et J.Un autre cas
particulier
de la matricegJJ existe,
à savoirgJpJp
=0JpJp,
correspon-dant au cas suivant :
i.e. aucune interaction entre deux éléments
quelconques
deIp
etJp
4.
Diagonalisation
de la matricegJJ
et de la matricegII (Ip ~
o etJp = 0)
Si 1 est valeur propre de
fi
demultiplicité k > 2,
le tableaukIJ
est alorsdécomposable
en k blocsdiagonaux
et son AFC revient à faire les AFC des k blocsauxquelles
onrajoute
les(k - 1)
facteursséparant
les k blocs. Dans ce cas, cela revient à étudier k limites d’AFC et à faire les correctifs nécessairesd’après
les masses desblocs.
Aussi,
on supposera dorénavant que le tableaukjj
n’est pasdécomposable
enblocs
diagonaux (ce qui
élimine le casparticulier gJpJ0 = 0JpJ0 précité
auparagraphe
précédent).
On supposeIp -1-
0 etJp -1-
0.Vu la forme
particulière
de la matricepropres sont celles de
AJ0J0
et celles degJpJp .
On noteraA, Ao
etA
les ensemblesindiçant
les valeurs propres non nulles degJJ, AJ0J0
etgJpJp respectivement.
On adonc
l’égalité
A =Ao
UAp
avecAp =
0 si et seulement siBIpJp = OIpJp.
Laforme
particulière
deg J implique
deplus
que les facteurs surJ,
vecteurs propres àgauche
deg:J,
relatifs à a eAp peuvent
s’écrire sous la forme(0J0, ~Jp)
et que lesaxes factoriels dans
Rj,
vecteurs propres à droite degJJ,
relatifs à cx eAo peuvent
s’écrire sous la formet(UJ0, 0Jp).
Parsymétrie,
la matricef f
tend vers la matriceAI0I0
gIpI0gII
= limI - ( l’
Les valeurs propres non nulles deff
etff
étantgui
E-0 0I0Ip
Ip p pf il
Jidentiques,
ainsi que celles deAI0I0
etAJ0J0,
celles degIpIp
etgJpJp
sont doncidentiques.
De
plus,
les facteurs sur I relatifs à a EAp peuvent
s’écrire sous la forme(0I0, cpI p)
etles axes factoriels dans
RI
relatifs à a EAo peuvent
s’écrire sous laforme t(UI0, 0Ip).
On notera
également
que le facteur trivialbJ
sur J(i.e.
le facteur constant etégal
à 1 surJ)
est bien facteur degui (car g J
est une transitionprobabiliste), qu’il
n’est pas associé à une valeur propre de
gJpJp
vu sa forme et vu le fait quekIJ
n’estpas
décomposable
en blocsdiagonaux,
etqu’il
est donc associé à la valeur propre 1 deAJ0J0.
Idem pour le facteur trivial03B4I
sur I.5. Facteurs sur I et sur J associés à
Ao (Ip ~ Ø
etJp =1= 0)
Les axes factoriels du tableau
AI0J0 engendrant
lesupport
deN(I0)
sontdonc,
à la limite
quand c
tend verszéro,
axes factoriels du nuage entierN(I).
Lespoints io
EIo
sont, à la limitequand c
tend verszéro, représentés
sur ces axes comme dans l’AFC deAI0J0,
tandis que lespoints ip
EIp
y sontreprésentés
par despoints-limites qui
ne sont pas, engénéral,
associés à leursprojections orthogonales
sur lesupport
deN(I0) (pour
lamétrique
du Chi-2 de centref AJo,
loimarginale
surJo
deAI0J0).
En
effet,
on a :Vzp
EIp, i0 ~ I0 :
où A
représente
le total du tableauAIJ , i.e.,
du blocAI0I0.
Ainsi,
l’élémentip
EIp possède
unereprésentation,
à la limitequand c
tendvers
zéro, généralement
différente de celle que l’on obtiendrait en le mettant ensupplémentaire
au tableauAI0J0,
sauf s’il est à termes nuls surJp (ce qui
est vérifiéquand Bjpjp
=Ojpjp)
ou s’il estorthogonal
surJp
à tous les éléments deIo (ce qui correspond,
si cela est vrai pour tous les éléments deIp,
à unedécomposition
en deuxblocs du sous-tableau
kIJp avec f Io, Ip}
commepartition
sur7).
6. Facteurs associés à
Ap (Ip ~ Ø
etJ p =1= 0)
Considérons le tableau de
correspondance hI’
J’ défini àpartir
du tableaukIJ
dela
façon
suivante : on cumule leslignes
deIo
en une seuleligne io,
de même on cumule les colonnes deJo
en une seule colonnejo.
Autrementdit,
on note I’ ={i0}
UIp
etJ’ = {j0}
UJp .
Cetteopération permet
au tableauhI’J’
d’avoir les mêmes margessur
Ip
et surJp
que dans le tableauk l J.
On obtient ainsi un tableau dutype
suivant :qui
est un casparticulier
du tableaukIJ
avecIo = {i0} et J0 = {j0}.
L’étudeprécédente
montre donc les résultats suivants : ,car
2022
HJ’J’
est une transitionprobabiliste;
2022 le facteur trivial
8 J’est l’unique
facteur sur J’ associé àl’unique
valeur propre1 de
AJ0J0
réduite à l’élément1;
2022
Ap = 0
si et seulement siBIpJp
=OIpJp;
e les facteurs sur
J’
associés aux valeurs propres non nulles degjp
sont de laforme
(0,~Jp).
On
peut
remarquer queV j
EJp : Hj = 03A3{gjj0|j0 ~ J0}
du fait queg J
etH J,
sont des transitionsprobabilistes, i.e.,
lapremière ligne
deHJJ
est le cumul deslignes
deJo
de la matricegi
Ainsi,
pourBJpJp ~ 0IpJp,
les axes factoriels de laprojection orthogonale
deN(Ip)
dansl’orthogonal
dusupport
deN(I0)
sont, à la limitequand E
tend verszéro,
ceux de l’AFC de
hI’J’.
Onpeut
remarquer aussi que les valeurs propres deAp
sontd’ordre
comparable
à celles deAo
et donc que le tableauBI J
crée des interférences dans l’AFC dekjj
de même ordre degrandeur
que dans l’AFC du tableauAI0J0.
On retrouve ici le cas IV n° 10
[CASE PRED], analyse
d’un tableau dont une case a unpoids déterminant, in [BEN85].
Ce cas est un tableauparticulier
dutype
général kIJ
défini dans cetarticle,
danslequel Io
etJo
sont tous deux réduits à unseul élément. On
généralise
donc dans cet article les résultats obtenus dans le cas IV n°10,
à une nuanceprès
concernantl’interprétation
de la valeur propre 1 : celle-ci est la limite de la valeur propre triviale(liée
au fait que la matriceHJ’J’
est une transitionprobabiliste)
et non une valeur propre non triviale liée à unedécomposition
en blocsdiagonaux
de la limite du tableauhI’J’ (cf exemple suivant § 7).
7.
Exemple
1 d’un tableau à une seule case depoids prédominant
On considère le tableau de
correspondance
ci-dessus où 03B5 > 0. Ce tableau nepossède qu’une
seule valeur propre non triviale A. On montreaisément, après calculs,
les résultats suivants :~J désignant
le facteur non trivial sur J de variance1,
etW l
etW J
lescomposantes principales
sur I et Jrespectivement.
ayant
comme valeurs propres 1 et 7/9.On y constate que la limite de la seule valeur propre non triviale est différente de 1 et on y retrouve les résultats énoncés
précédemment
sur les facteurs.8.
Exemple
2 avec cardIo
= 2On considère le tableau de
correspondance
ci-dessous où 03B5 > 0 et 03B3 > 0. Letriangle
123 est isocèle de sommet 3. La médiatriceD’ passant
par 3 esttoujours
axefactoriel du nuage N
(I).
L’autre axe factoriel D est doncorthogonal
à cette médiatriceet passe par le centre de
gravité
du nuage. A la limite sur E tendant verszéro,
l’axe factoriel D tend vers la droiteportée
par lesegment [1,2]
et le facteur associé sur Ide la forme(a, -03B1, 0)
tend versl’unique
facteur du sous-tableau{1,2}
x{a, b}.
Lesecond facteur sur I tend vers
(0, 0, +~) puique -y
> 0.9. Cas
particuliers
I et
J jouant
des rôlessymétriques
enAFC,
le casIp
= 0 estidentique
au casJp =
0. On supposera doncJp
= 0,i.e., kIJ0
=AIJ0
+03B5BIJ0.
Le tableaukIJ
estdonc de la forme :
A la différence du cas
Jp
0, lanorme ~fipJ~
tend vers une limite finiequi
est celle de son
profil
constantBiJ
pour la norme de lamétrique
du Chi-2 de centref A Jo (loi marginale
surJo
deAI0J0).
En
reprenant
la démarchedu § 3,
on montre queg J -
limfJJ = AJ0J0
et(AI0I0
gIpI0)gI
= limfii
=(
Io).
Les axes factoriels du nuageN(I)
dansRi
=RJo
0I0Ip 0IpIp )
tendent vers ceux de l’AFC de
AI0J0 (ce qui
estnormal,
vu que les éléments deIp
de
profils
fixes ont des masses tendant verszéro)
et les facteurs sur J =Jo
tendentvers ceux de l’AFC de
AIOJo.
Les axes factoriels du nuageN(J)
dansRI
tendentsur
Io
vers ceux de l’AFC deAIOJO
et surIp
vers zéro. Les facteurs sur I tendentsur
Io
vers ceux de l’AFC deAIO Jo
et surIp
vers ceux associés auxprojections orthogonales (pour
lamétrique
du Chi2 de centref AJ0,
loimarginale
surJo
deAI0J0)
des éléments deIp
sur lesupport
deN(I0) (qui
interviennent de moins enmoins du fait de leurs masses tendant vers
zéro),
cequi correspond
à la situation de mise en élémentssupplémentaires
au tableauAI0J0.
On retrouve donc les résultatsprécédents
sans avoir ici l’interférence des facteurs associés àAp
et donc du blocIpJp.
10. Généralisation et
exemple
d’un tableau à deux cases depoids prédominants
On a
supposé, jusqu’à présent, qu’aucune
case du sous-tableauA10JO
n’étaitd’ordre 03B5. Les démonstrations
précédentes
s’étendent aisément au cas où certaines d’entre elles le sont, à condition que toutes leslignes
et colonnes deAI0J0
aient desmarges d’ordre 1.
Par
exemple,
considérons un tableau à deux cases depoids prépondérants
demême ordre. Notons
(io, jo)
et(i1, j1)
ces deux cases aveci0 ~ il
etj0 ~ j1.
En
effet,
sijo
=j1 (le
casio = il
estanalogue),
la matriceAJ0J0
se réduit alors àune seule case, ce
qui
nous ramène au cas d’un tableauayant
une seule case àpoids prépondérant.
Supposons
deplus k(i0, j0) =
1 etk(i1, j1) = On
a doncIo
={i0, i1}
etJo
={j0, j1}.
La matrice limite est donc
Il
existera,
à la limite sur c tendant verszéro,
une valeur propre 1 non trivialequi
opposera les éléments
io
etil,
les éléments deIp
se situantd’après
leursprojections-
limites sur cet axe, comme le montre aussi la forme du facteur associé sur I
égale
à(~ 03B3, ~ -1, ~Ip)
à un coefficient de normalisationprès.
On a un résultatanalogue
pour les éléments
jo
etj1
et ceux deJp.
11. Conclusion
En
conclusion,
pourIp
etJp
nonvides,
les ensemblesIo
etJo représentent
lesindividus
io
et les variablesjo
de la 1 ère classeayant
entre eux des relations k(io , j0)
dont les marges
k(i0) = 03A3{k(i0, j0)|j0 ~ J0} et k (jo) - 03A3{k(i0, j0)|i0 ~ I0}
ontun ordre de
grandeur égal
à 1. Il en est donc nécessairement de même pour l’une descases
k(i0, j), où j
EJo,
et l’une des casesk (i, jo),
où i EIo.
Les ensemblesIp
etJp représentent
les individus et les variables de la seconde classeayant
entre eux, et avec les éléments deIo
etJo,
des relations dont l’ordre degrandeur
est 6;.La structure
globale
dekIJ
donnée par son AFC est, à la limitequand c
tendvers
zéro,
obtenue notamment par la structure dekI0J0
donnée par son AFC : les axesfactoriels de N
(I)
etN(J)
étant ceux deN(I0)
etN(J0) respectivement,
les facteurssur
Io
etJo
sont ceux de l’AFC dekjojo auxquels
les éléments deIp
etJp s’ajoutent
par leurs
projections-limites
sur lessupports
deN(Io)
et deN(Jo) respectivement, projections-limites qui
diffèrent engénéral (sauf
notammentquand -67 j = 0IpJp)
de celles que l’on obtiendrait en mettant ces éléments en
supplémentaire
au tableauAIOJo.
De
plus,
pourBlpJp =1 OIpJp’
la structureglobale
dekIJ
doit tenircompte
aussi des seuls individus et variables de la seconde classequi
définissent des axesde variances
comparables
à celles des axes dekI0J0,
des facteurs tendant vers zérosur
Io
etJo
etpouvant
être d’ordre1/ E.1/2
surIp
etJp.
Il est à noter que les valeurs propres des deux groupespeuvent
se mêler et même certaines liées aux individus et variables de la seconde classe êtresupérieures
à celles liées aux individus et variables de lapremière classe, l’exemple typique
étant celui du tableauk J J décomposé
en lesdeux blocs
diagonaux AI0J0
etBIpJp (les partitions {J0, Ip} et {Jo, Jp}
de I et deJ étant celles de la
décomposition
enblocs)
où les valeurs propres sont invariables.Dans le cas où
Ip (ou Jp)
estvide,
les résultatsprécédents
restent évidemmentvalables avec la
simplification
que les interférences dues aux individus et variables de la seconde classe n’existent pas et ne créent pas de structureparticulière
dans lastructure
globale
dekjj
et, avec lapropriété toujours vérifiée,
que les résultats surIp
(ou Jp)
sont, à la limitequand é
tend verszéro, analogues
à ceux obtenus en mettantcet ensemble en
supplémentaire
au tableaukI0J0.
Références
[BEN80]
J.P. et F.BENZECRI, Pratique
del’analyse
desdonnées,
tome1, analyse
des
correspondances, (exposé élémentaire), Bordas, Paris,
1980.[BEN85]
Ch.BASTIN,
J.P.BENZECRI,
CH.BOURGARIT,
P.CAZES, Pratique
de