R EVUE DE STATISTIQUE APPLIQUÉE
P. C AZES
Analyse factorielle d’un tableau de lois de probabilité
Revue de statistique appliquée, tome 50, n
o3 (2002), p. 5-24
<http://www.numdam.org/item?id=RSA_2002__50_3_5_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE FACTORIELLE
D’UN TABLEAU DE LOIS DE PROBABILITÉ
P. CAZES
Lise Ceremade, UMR7534, Université Paris 9
Dauphine,
Place du Maréchal De Lattre de
Tassigny,
75775, Paris Cedex 16.RÉSUMÉ
On
développe
ici destechniques d’analyse
factorielle pouranalyser
un tableau dontchaque
case est une loi deprobabilité
connue. Dans le cas où le support de chacune de ces lois est fini, on obtient comme casparticulier
le cas des données intervallesdéjà
étudié. On donneégalement
descompléments
surl’analyse
de ces données intervalles, et on discute de l’intérêtet des limites des
méthodologies qui
ont étédéveloppées
pour traiter ce type de données.Mots-clés :
Analyse
enComposantes Principales,
Données-intervalles, Lois deprobabilité,
Variabilité.
ABSTRACT
We propose factorial
analysis
methods forstudy
tables where each cell is aprobability
law. When the support of these laws is finite, we have the case of interval data which has been studied. We
give
alsocomplements
on these interval data and discussmethodologies
whichhas been
developped
forstudy
these types of data.Keywords :
Interval data,Principal Component Analysis, Probability
law,Variability.
I. - Introduction
On considère un tableau
rectangulaire
X à nlignes
et pcolonnes,
leslignes pouvant
être considérées comme des observations ou desindividus,
et les colonnescomme des variables. On suppose que dans la case
(i, j )
du tableauprécédent,
on aune loi de
probabilité,
et on désire effectuer uneanalyse
factorielle de ce tableau defaçon
àreprésenter
sur un axe, unplan,
ou defaçon plus générale
dans un espace à sdimensions,
leslignes
et les colonnes du tableau X.Cette étude
généralise
le cas où danschaque
case dutableau,
on a un intervalle(cf. Cazes et alt., 1997, Tang Ahanda, 1998, Rodriguez-Rojas, 2000).Ce
dernier auteurconsidère aussi le cas où dans
chaque
cellule du tableau on a unhistogramme,
maisil ne fait intervenir que la distribution de
fréquences associée,
et non pas la valeur de la variablesous-jacente (dans
le cas d’une variable discrète ou d’une variablequantitative découpée
enclasses),
contrairement à lafaçon d’opérer
ici. Boumaza(1998)
considère aussil’Analyse
enComposantes Principales
d’un tableau de lois deprobabilité,
mais il seplace
dans un cadre différent dans la mesure oùchaque ligne (et
non
plus chaque cellule) correspond
à une loi deprobabilité.
Lauro et alt.(2000)
ontdéveloppé
des méthodes decodage
pour effectuerl’analyse
factorielle discriminante de donnéessymboliques plus générales
que des données intervalles maisqui
ne sontpas des lois de
probabilité.
Emilion(2001) traite,
d’unpoint
de vueprobabiliste,
dumême
type
de tableau que ceux étudiés ici mais dans un cadre de classification et demélange
de lois. De même Aboa(2002) développe
sur le mêmetype
de données des méthodes desegmentation.
Outre cette
introduction,
cet articlecomporte
troisparties.
Dans lapremière (§ 2)
on définit les notations et leshypothèses
tandis que dans la seconde(§ 3),
onsuggère
un certain nombred’analyses
factorielles et on étudie leurspropriétés.
Ondétaille en
particulier
la manière dereprésenter
la variabilité(ou l’imprécision)
dueau fait
qu’on
a des lois deprobabilité
et non pas des valeursnumériques,
en faisantréférence à ce
qui
est fait dans le cas de données intervalles. Dans la dernièrepartie (§ 4),
on donne descompléments
surl’analyse
factorielle de donnéesintervalles,
eton compare les méthodes
d’analyse
factorielledéjà préconisées (méthode
des centreset méthode des
sommets)
avec d’autres méthodes(STATIS, l’Analyse
FactorielleMultiple, etc.)
II.
Notations-Hypothèses
Nous supposerons que
chaque
individu est muni d’une massepi(pi
>0,
pi = 1)
cequi
revient à munirl’espace F
= Rn de lamétrique diagonale
despoids Dp.
Nous supposeronségalement
quel’espace
RP est muni de lamétrique
M.Nous supposerons que conditionnellement à l’individu
i,
lavariable j
suit uneloi de
probabilité
de densitéfij (x)
et que lecouple
de variablesj, j’ ( j =1 j’)
suitune loi de densité
fijj’ (x) (dont
les margesfij (x)
etfij’ (x)
sont bien sûr les lois dej
etj’ respectivement,
conditionnellement ài) qui
se réduit àfij (x).fij’ (x)
dans lecas de
l’indépendance.
Les différentes
analyses
considérées dans le cas de données detype
intervalle(Cazes et alt., 1997) correspondent
au cas ou les loisfij (x)
sont desupport
fini avecl’hypothèse d’indépendance
conditionnelle(fijj’(x) = fij (x). fij’ (x), pour j =1 j’).
On
peut
alors àchaque
case(i, j )
du tableau Xassocier,
conditionnellement ài,
la moyennegi
et la variancea’fj de j :
On
peut
de même calculer conditionnellement à i la covarianceentre j
etj’ (j =1 j’ ) qu’on
notera 03C3ijj’ :A
chaque
observationi,
onpeut
donc associer unpoint moyen g (qui
est levecteur colonne de
composantes gij (1 j ?))
et une matricevariance Vi qui
estla matrice des 03C3ijj’
(1 j,j’
p, avec03C3ijj = 03C32ij).
On
peut
alors définir le centre degravité général g :
ainsi que les matrices variances interclasses
B,
intraclassesW,
et totale V :Dans les
expressions précédentes,
leprime correspond
comme c’estclassique
en
statistique
à latransposition.
On
peut
aussi définir la matrice carrée d’ordre nWG
de termegénéral :
mjj’ étant le terme
général
de la matrice associée à lamétrique M,
matrice que l’on noteraégalement
M et gj(resp. Yj’) la j eme (resp. j,ème) composante
de g.On supposera dans la suite sans
perte
degénéralités qu’on
a ramené le centrede
gravité global g
àl’origine, soit g
=0.
Dans ces conditions on a :
G étant la matrice n x p de terme
général
gij etDp
la matricediagonale,
d’ordre ndes pi
(i. e.
la matricediagonale
despoids).
III.
Analyses
etpropriétés
777.7.
Analyses
On
peut
considérer lesanalyses
factorielles suivantes :-
L’analyse globale qui
revient àdiagonaliser
VM ou MV etqui correspond
dans le cas de données intervalles à la méthode des sommets.
-
L’analyse
interclassesqui
revient àdiagonaliser
BM ou MB etqui
corres-pond
dans le cas de données intervalles à la méthode des centres. Ils’agit
del’Analyse
en
Composantes Principales (ACP)
du tableau Gqui rappelons-le
est issu du tableauX en
remplaçant
danschaque
case de X la loi deprobabilité
par sa moyenne.-
L’analyse
factorielle discriminante(qui
est uneanalyse
interclassesparticu-
lière avec le choix de la
métrique
d’inertie M =V -1,
V étantsupposée inversible) qui
revient àdiagonaliser BV -1
etV -1 B
et dont le but est deséparer
au maximumles individus
compte
tenu de ladispersion
donnée par les lois deprobabilité qui
lescaractérisent.
-
L’analyse
intraclassesqui
revient àdiagonaliser
W M ou MW. Cette dernièreanalyse
semble moins intéressante dans la mesure où elle ne met en valeur que les différenciations entre lesindividus,
associées à leursdispersions
individuelles autour de leur centre degravité partiel.
Remarque :
Dans les deuxpremières analyses
ainsi du reste que dans ladernière,
onpeut
choisir lamétrique
defaçon
à effectuer desanalyses
normées(indépendantes
du choix des unités pour les variablesconsidérées)
cequi
revientà
prendre respectivement
M =(DiagV)-1,
M =(DiagB)-1,
M =(DiagW)-1
(DiagA désignant
pour une matrice carrée A la matricediagonale ayant
mêmes élémentsdiagonaux
queA).
On
peut
noter que dansl’analyse discriminante,
onpeut
aussiprendre W-1 ( W
étant
supposée inversible)
commemétrique, auquel
cas, si W estdiagonale (ce qui
est le cas dans la méthode des sommets dans le cas de données
intervalles) l’analyse
discriminante est
équivalente
àl’analyse
factorielle usuelle(i. e.
avec lamétrique identité)
du tableau de termegénéral gij/(wjj)1/2,wjj
étant lejème
termediagonal
de W.
III.2.
Représentations
des individus et des variablesSoit
un vecteur axial factoriel issu d’une desanalyses précédentes (i. e.
unvecteur propre de
VM, BM, BV-1
ou W M suivant lecas) et ~
= Mu(avec
M =
V -1
dans le cas del’analyse discriminante)
le facteur associé. Pourreprésenter
un individu i sur l’axe factoriel associé
Au,
il semblelogique
deprojeter
lepoint moyen g.
associé à l’individu i. Lacoordonnée 03C8i de gi
sur Du s’écrit alors(puisqu’on
a
supposé
que g =0) :
~j désignant la jème composante
de cp.On
désignera par 03C8
le vecteur decomposantes 03C8i(1 i n),
vecteurqu’on appellera composante principale,
et il est immédiat de vérifierque 0
est bien centréLa variance
de 03C8
s’écrit alors :Il
s’agit
en fait d’une variance interclassesqui
dans le cas del’analyse
interclasses ou de
l’analyse
discriminante estégale
à la valeurproprè
associée àcp (ou
àu).
La
façon d’opérer précédente
revient àprojeter
leslignes
du tableau G surl’axe factoriel
considéré,
ceslignes
intervenant suivant le cas en tantqu’élément
actif(analyse
interclasses ouanalyse discriminante, auquel cas 03C8
est vecteur propre deWGDp)
ousupplémentaire (analyse globale
ouanalyse intraclasses).
Pour avoir une
représentation
desvariables,
il suffit de calculer les corrélations entre les colonnes de G et03C8.
Ils’agit
donc de corrélations interclasses. La corrélation rejentre 03C8
et lavariable j s’écrit
alors :bjj
étantle jème
termediagonal
de B(i. e.
la variance interclassesde j).
Dans le casd’une
analyse interclasses,
cette formule se réduit à :uj étant
la jème composante
de u et A la valeur propre associée.111.3.
Représentation
de la variabilité III.3.1. IntroductionPour
représenter
la variabilité due au fait que les données ne sont pas des valeursnumériques,
mais des lois deprobabilité
traduisant unedispersion
autour de la valeur moyenne, on vaopérer
defaçon analogue
à cequi
a été fait pour les données intervalles(Cazes et alt., 1997).On
verra auparagraphe
III.4 d’autresfaçons
dereprésenter
lavariabilité. A
chaque
loi deprobabilité fij,
on associe un intervalle(xij-, xij+).
Si lesupport
defij
estfini,
Xij - et Xij+correspondent
aux extrémités de cesupport;
sinonon
peut prendre
pour xij- et xij+ lesquantiles
d’ordrecx/2
et(1- o;/2)
de la loifij
(on
pourraprendre
les valeursclassiques
ce =5%
ou cx =1%;
si la loifij
est malspécifiée,
mais que l’écarttype
orij est connu, on pourraprendre
xij- = gij -t03C3ij
et xij+ = gij +
tuij,
avec t = 2 ou t =3).
Enfait,
d’unpoint
de vuepratique,
pour ne pas
trop
surestimer ladispersion
dans lesprocédures développées ci-dessous, qui supposent l’indépendance
conditionnellement àchaque
individu desvariables,
onaura intérêt à
prendre
des valeursplus importantes
de a, de l’ordre de 20 à 30 %.III.3.2. Cas des individus
On
peut
associer à l’abscisse0’ de gi
sur l’axe factoriel Au un intervalle de valeurspossibles (03C8i-, avec
Posant Eij = 1
ou -1, 03B5i
= 1 ou -1 et assimilant lesigne
+ à 1 et lesigne - à -1,
les formulesprécédentes peuvent
s’écrire sous la forme condensée suivante :Notons que l’on a :
Remarque :
A lacomposante principale IQ,
onpeut
associer pourchaque
individu i la combinaison linéaire :
qui
n’est ni une loi deprobabilité,
ni même une mesurepositive (sauf
si tous les03C8j
sont
positifs).
On
peut
alorsreprésenter
les nfonctions fi (x)
et voir si elles sont bienséparées
ou non, ce
qui peut permettre
uneinterprétation complémentaire
et intéressante de l’axe factoriel considéré.///.3.3. Cas des variables
Dans le cas des
variables,
l’abscisse de laprojection
de lacolonne j
du tableauG sur la
composante principale
normée03A8/(~’ B ~)1/2
est donnée par :qui
n’est autre que la covariance interclasses entre lavariable j
et lacomposante principale
normée.Quand
on considère ladispersion
autour degij , 03B8j
varie entre les deux bornes03B8j-
et() j +
données par :formules
qui
se réduisent à uneseule,
enconsidérant 03B5j =
1 ou -1 et oùOj,j
estdonné par les sommations
précédentes
enimposant que 03B5j03B5ij03C8i
soitpositif.
( 1 ) Quand Cij (resp. ci) est en indice ou en exposant, on notera cij (resp. ci) pour ne pas surcharger
l’écriture.
Normant les
quantités 03B8j-
et03B8j+
par(bjj)1/2
pour avoirl’équivalent
d’unecorrélation,
on obtient autour de la corrélationr’ljJj
laplage
de variation(1j-
=03B8j-/(bjj)1/2,03B3j+
=03B8j+/(bjj)1/2)
dont les extrémitéspeuvent
être extérieures à l’intervalle(-1, 1).
Onprendra
donc comme intervalle de variation autour der ’ljJj
l’intervalle(ri -, rj+)
donné par :Remarques : 1)
On aurait pu, cequi
sembleplus logique,
rechercher directement les extrêma du coefficient de corrélation(en
fait ducosinus)
entre lacomposante
principale p...
et lavariable j,
suivant que l’individu i est enposition
basse(xij-)
ouen
position
haute(xij+)
pour lavariable j,
cequi
donne 2’possibilités
et donc 2ncosinus. On sera donc ramené à rechercher le minimum et le maximum de :
On
peut
noter que lavariable j
associée à une suite donnée de n valeurs03B5ij(1
in) égales
à 1 et -1 etqui
a pour réalisations lesxij03B5ij(1
in)
n’estpas en
général
centrée. C’est la raison pourlaquelle,
comme on l’asignalé ci-dessus,
la
quantité (1)
n’est pas unecorrélation,
mais un cosinus.On aurait pu aussi centrer la variable
précédente,
et considérerquand
les Eijvarient,
les extrêma de la corrélation entre cette variable et lacomposante principale.
2)
Dans leplan
déterminé dans Rn par deuxcomposantes principales,
lesreprésentations précédentes
conduisent àreprésenter chaque
variable par unrectangle.
Ce
rectangle
n’étant pas forcément contenu à l’intérieur du cercle de centrel’origine
et de rayon
1,
onprendra
l’intersection durectangle
et de ce cercle.En fait la
représentation précédente
àpartir
derectangles
n’estpeut
être pas laplus
astucieuse dans la mesure où dans uneanalyse
factorielle sur donnéesusuelles,
les coordonnéespolaires Rj,
aj d’unevariable j
à l’intérieur du cercle de corrélation sont au moins aussi intéressantes que ses coordonnées cartésiennes(i. e.
ses corrélationsavec les
composantes principales) : Rj
est en fait la corrélationmultiple
de lavariable j
par
rapport
aux deuxcomposantes principales
considérées. Il semble donc intéressant de considérer les valeurs extrêmales deRj
et de aj(suivant
laposition
basse ou hautede l’individu
i(1
in)
pourj)
et de se servir des valeurs obtenuesRj-, Rj+
pour
Rj
et aj -, 03B1j+ pour aj pourreprésenter j
à l’intérieur du cercle de corrélation.Cette
représentation qui
a étédéveloppée
parTang
Ahanda(1998)
dans sathèse,
sefait à l’intérieur du domaine délimité par deux arcs de cercle de rayons
respectifs Rj -
et
Rj+,
lesangles
définissant les extrémités de ces arcs de cercle étant aj- et 03B1j+(cf. fig. 1).
Représentation
de ladispersion
de lavariable j
par l’intérieur du domaine ABCD dans leplan
de deux composantes
principales :
Figure
1III.4. Autres
analyses possibles
III.4.1.
Analyses
basées sur lesquantiles
On
peut
associer àchaque
loi deprobabilité fij
un certain nombre dequantiles,
et en déduire d’autres
analyses
ou d’autresreprésentations
de la variabilité.On
peut
parexemple
considérer les 3quartiles
q1 ij, q2ij, q3ij,(q2ij
correspon-dant à la
médiane)
et les tableauxQ1, Q2
etQ3
associés.On
peut
alors construire les tableauxQ
et R obtenusrespectivement
en accolantet en
superposant
les tableauxQk :
et l’on
peut envisager
les troisanalyses
suivantes :analyse
de G avec R etQ
ensupplémentaire
analyse
de R avec G ensupplémentaire analyse
deQ
avec G ensupplémentaire
Dans les deux
premières analyses, chaque
individu i estreprésenté
dansl’espace
Rp par
quatre points gi,
q1i, q2i et q3i, q’1i (resp. q’2i;q’3i)
étant la ièmeligne
deQ1 (resp. Q2; Q3),
cequi permet
sur unplan
factoriel de visualiser la variabilité associée à l’individu i. Notons que dans la secondeanalyse,
onpourrait
effectuer uneanalyse
factorielle sous
contrainte,
enimposant
que surchaque
axefactoriel,
lareprésentation
du
point médian q2i
se situe à l’intérieur dusegment joignant
lesreprésentations
despremier
et troisièmequartiles q1i i et 9:.3i.
De
façon analogue,
dans lapremière
et dans la troisièmeanalyse, chaque
variable est
représentée
parquatre points,
cequi permet
à l’intérieur d’un cercle de corrélation de visualiser la variabilité dechaque
variable.Il semble aussi intéressant de considérer le tableau médian
Q2
et del’analyser
en
rajoutant
les tableauxQ 1
etQ3
d’unepart
enlignes supplémentaires
et d’autrepart
en colonnessupplémentaires.
Dans le cas où tous les
fij
ont poursupport
un intervalle fini(xij-, Xij+)
et siQo (resp. Q4) désigne
le tableau des Xij-(resp. xij+),
onpeut
considérer les tableaux P et Z suivants :et effectuer des
analyses analogues
à cellespréconisées ci-dessus,
enremplaçant Q
et R par P et Z
respectivement,
certaines de cesanalyses pouvant
être faites souscontrainte,
pourchaque
individu(ou variable)
derespecter
l’ordre naturel induit parles Qk(0 k 4).
On
peut
encoreanalyser Q2
enrajoutant
ensupplémentaires
les tableaux P et Zauxquels
on a retiréQ2.
III.4.2.
Analyses
basées sur lesécarts-type
On
peut
considérer le tableau E desécarts-type
a ij et effectuerl’analyse
factorielle
(a priori
noncentrée)
de ce tableau avec lamétrique
M dans RP et lamétrique
despoids
dans Rn . On pourra alors dansl’analyse précédente rajouter
letableau G en
lignes
et colonnessupplémentaires.
On pourra aussi defaçon symétrique rajouter
E enlignes
et colonnessupplémentaires
dansl’analyse
de G.Dans le cas où l’on
peut
associer àchaque
loifij
un intervalle(xij-, xij+) (cf.
§ III.3.1.)
onpeut
aussi considérer le tableau L dont le termegénéral lij
= xij+ - xij-correspond
à lalongueur
de l’intervalle(xij-, xij+).
On
peut
alors soitanalyser
L avec G enlignes
et colonnessupplémentaires,
soit
rajouter
L enlignes
et colonnessupplémentaires
dansl’analyse
de G.F. Gioia
(2000)
propose uneanalyse
sur le tableau des(lij)1/2
et citeégalement
une
méthodologie
due à Lauro et Palumboqui
combineplusieurs analyses
pour étudier simultanément laposition
et ladispersion
associées aux données intervalles. Nous nedévelopperons
pas ici cesanalyses.
IV.
Rappels
etcompléments
sur les données detype
intervalleOn suppose ici que toutes les lois
fij
sont desupport borné,
ce support étant défini par l’intervalle(xij-, xij+),
et on conserve les mêmes notations queprécédemment.
Onpeut
donc considérer le tableau où danschaque
case(i, j )
on al’intervalle
(xij-, xij+).
On va discuter des méthodesdéjà proposées
pour traiter cetype
de données(méthodes
des centres, dessommets)
etsuggérer
d’autresanalyses.
Par contre, nous ne dirons rien ici des méthodes
d’analyse
déduites del’algèbre
desintervalles
(matrices intervalles,
valeurs propresintervalles, etc.) qui
sontdéveloppées
par F. Gioia
(2000).
IV 1. Les nuages de
points
et lesanalyses
associéesDans
l’espace RP,
onpeut
considérer les deux nuages depoints
suivants :- Le nuage
Mc qui
est le nuage despoints moyens gi affectés
des masses piou nuage des centres.
- Le nuage
Ms qui
est le nuage des sommets :A
chaque
individu(ou objet) i,
on associe 2P sommets,chaque
sommetSki(1 k 2P)
étant caractérisé par un vecteur 03B5k -(03B5k1, 03B5k2,..., Ekp)’
dontchaque composante
estégale
à 1 ou -1. Le sommetSki
est alors lepoint
de RP decomposantes xij03B5kj(1 j p).
On attribuera alors à
Ski
lepoids pi/ 2P
et ondésignera
par S le tableau n2P x p associé aux n x 2P sommetsSki(1 k 2p, 1
in)
dans RP.Dans
l’espace Rn,
on considèreraégalement
deux nuages :- Le nuage
NG qui
est le nuage des colonnes du tableau moyen G.- Le nuage
NT qui
est le nuage des sommets(variables) :
A
chaque
variablej,
on associe 2n sommets,chaque
sommetTkj(1
k 2n)
étant caractérisé par un vecteur 03B5k =(03B5k1, 03B5k2,... , 03B5kn)’
dontchaque
composante vaut 1 ou -1. Le sommet
Tkj
est alors lepoint
de Rn decomposantes
xij03B5ki(1 i n),
et ondésignera
par T le tableau n xp2n
decomposantes
xij03B5ki(1 i n, 1 j p, 1 k 2n ) .
Sil’espace
RP est muni d’unemétrique
associée à une matrice définie
positive
M de termegénéral
mjj’, on muniral’espace RP (avec P’ == p2n)
de lamétrique
associée à la matrice dont le termegénéral
mjk,j’k’
(1 j,j’
p,1 k, k’ 2n )
estégal
àmjj’./2n
si k =k’,
et à zéro sinon.On a alors le schéma de la
figure
2qui suggère
lesanalyses
suivantes :1) L’analyse
factorielle du tableau G(i.e.
l’ACP dutriplet (G, M, Dp))
avecles tableaux S et T en
supplémentaire, qui a l’avantage
de fairejouer (à part
lesproblèmes
decentrage
et depondération)
un rôlesymétrique
aux individus et auxvariables. Cette méthode
correspond
à la méthode des centres.2) L’analyse
factorielle du tableau S avec G ensupplémentaire.
Cette méthodecorrespond
à la méthode des sommets dans le cas des individus(cf.
Cazes etalt.,
1997).
Figure 2
3) L’analyse
factorielle du tableau T avec G ensupplémentaire.
Cette méthodequi correspond
à la méthode des sommets dans le cas desvariables,
a étédéveloppée
par
Tang
Ahanda(1998)
dans sathèse,
ainsi que parRodriguez-Rojas (2000).
IV.2. Etude des
analyses précédentes
IV.2.1. Méthode des centres
Dans la méthode des centres
envisagée
par Cazes et alt.(1997)
onprenait
comme
point
moyen de l’individu i pour lavariable j
le centre de l’intervalleassocié,
soit gij -(Xij+
+xij-)/2,
cequi
supposeimplicitement
que la loicorrespondante fij
estsymétrique.
Nous nousplacerons
ici dans le cas d’une loifij quelconque
et donc gij ne sera pas engénéral
le centre de l’intervalleprécédent.
Par contre nous supposerons
toujours
que le centre degravité général
est àl’origine
(gj = 03A3{pigij | i = 1, n} = 0, ~j = 1,p).
Comme on l’a
déjà
dit(§ IV. 1.)
la méthode des centres est l’ACP dutriplet
(G, M, Dp)
i.e.l’analyse
factorielle des nuagesMc
etNG,
les vecteurs axiauxfactoriels,
facteurs etcomposantes principales
étant vecteurs propresrespectivement
de
BM,
MB etWGDP.
Lareprésentation
de la variabilité chez les individus ou chez les variables sefaisant,
commeindiqué aux § §
111.3.2. et111.3.3.,
à l’aide derectangles
dans le
plan
des axes factoriels ou à l’intérieur du cercle decorrélation,
àpartir
desvaleurs extrêmes des coordonnées ou des cosinus des sommets. On
peut
aussi dans lecas des
variables,
effectuer lareprésentation
à l’aide d’arcs de cercle commeindiqué
à la fin
du §
111.3.3. et sur lafigure
1.IV.2.2. Méthode des sommets
(cas
desindividus)
Dans ce cas, on
analyse
le tableauS,
et le nuageMs.
La matrice variance V associée à cetteanalyse
a alors pour termegénéral (cf.
Cazes etalt., 1997),
siVjj’
et
bjj’ désignent respectivement
les termesgénéraux
de V et B et si on suppose que gij =(xij+ +Xij -) /2 (ce qui
est enparticulier
réalisé si les loisfij
sontsymétriques) :
ce
qui
revient à dire que la matrice variance intraclasses W estdiagonale, son jème
terme
diagonal
étantégal
à03A3{pi(xij+- xij-)2 | i
-1, n}/4. L’expression précédente
de V ne tientcompte
que de laconfiguration
des sommets, et pas del’expression
des loisfij.
Si l’on veut tenircompte
de cetteexpression
et si l’onsuppose que conditionnellement à i les
variables j
etj’
sontindépendantes,
on a :03B1ij étant un coefficient
positif
nedépendant
que de la loifij,
celle-ci ayant été ramenée à avoir poursupport (-1/2,1/2) (cf.
Cazes etalt.,
op.cit.).
On
peut
alorsreprésenter
dans unplan
factorielchaque
individu comme dansla méthode des centres par la
projection
de sonpoint
moyen à l’intérieur durectangle
associé sur
chaque
axe duplan,
aux coordonnées des sommets extrêmes. Il seraitplus
intéressant en fait non pas de considérer les
rectangles,
mais lesenveloppes
convexesassociées aux 2P sommets caractérisant l’individu z.
Remarque :
Comme on l’asouligné
ci-dessus,
la méthode des sommets supposeimplicitement l’indépendance
des variables conditionnellement àchaque
individu. Si deux variables sont liées par une relation linéaire(ou
defaçon plus générale
par une relationmonotone)
l’ensemble des sommetspossibles
associés à un individu n’estplus
2P mais2P-1;
eneffet,
supposons que lesvariables j
etj’(1 j j’ p)
soient liées par une relation
positive (par exemple
xj =xj’),
alors les sommets pourlesquels
xj est enposition
haute(resp. basse)
et xj, enposition
basse(resp. haute)
nepeuvent
pas être atteints. La méthode des sommets, en considérantsystématiquement
2P sommets surestime donc la
dispersion.
Defaçon plus générale
cettedispersion
estd’autant
plus
surestiméequ’il
y a un effet tailleimportant.
On
peut représenter
les variables et leurdispersion
commeindiqué
au§ 111.3.3.
àpartir
descomposantes principales
obtenues enprojetant
le nuageNG
en
supplémentaire.
Si on veut
représenter
les variables àpartir
des éléments actifs del’analyse,
on
peut,
pour un axe factorieldonné,
considérer lacomposante principale qu’on
notera
W s
obtenue enprojetant
les n 2 P sommets individus(qui
sontactifs)
sur cetaxe. Cette
composante principale qui
est donc une variableprenant
n 2 P valeurspeut
être considérée comme une variable intervalle. Il suffit d’associer àchaque
individu i l’intervalle
(03A8i-S, 03A8i+S) (avec 03A8i-S = 03C8i-, 03A8i+S = 03A8i+,
selon lesnotations
du § 111.3.2.) correspondant
auxprojections
extrêmes de ses 2P sommetsSki (1 k 2P).
Onpeut
alors utiliser la corrélation entre variables intervalle introduite parRodriguez-Rojas (2000) :
03A8S
étant une variableintervalle, désignons
parT03A8
l’ensemble de ses 2n sommets dans Rn et parTj
l’ensemble des sommetsTkj (1 k 2n )
de la variablej. Alors,
onpeut
considérer l’intervalle de variation(r03A8j-, r03A8j+)
pour la corrélationentre Ws et j,
avec :rxy
désignant
la corrélation entre x et y.Remarques : 1)
Les variables deT03A8
et deTj
ne sont pas engénéral
centrées.On aurait donc pu
remplacer
dans les formules(2)
les corrélations entre xet y (qui
reviennent à calculer les cosinus entre x et y
après centrage)
par les cosinus entre x et y(sans centrer).
2)
Dans leplan
associé à deuxcomposantes principales w1s
etw2s,
onpeut représenter
ladispersion
des variables par le domaine défini par l’intersection du cercle de corrélation avec lerectangle
déterminé àpartir
des valeurs extrêmes fournies par(2)
pour chacune des deuxcomposantes principales
considérées.3 )
Laplage
de variationr03A8j-, r03A8j+ risque
d’êtreimportante
et donc peu intéressante d’unpoint
de vuepratique
dans la mesure où dans(2)
les extrêma du coefficient de corrélation rxy entre xet y
se calculent à la fois sur x et y, cequi
donneun domaine de recherche des extrêma
T03A8
xTj
trèsgrand.
En
comparaison,
laplage
de variation(1j;i-, 03C8i+)
d’un individu i sur un axefactoriel
qui
est obtenue àpartir
des abscisses extrêmes desprojections
des sommetsassociés à i
correspond
à la recherche de valeurs extrêmesquand
on considère le domaine Si(et
nonplus
unproduit
dedomaines)
des sommets de l’individu i.4)
Si deux individus sontidentiques,
l’ensemble des sommetspossibles
associésà une variable n’est
plus
2n mais2n-1.
En considérant 2n sommets on surestime donc ladispersion.
IV.2.3. Méthode des sommets
(cas
desvariables)
Dans ce cas, on considère le tableau T à n
lignes
etp2n colonnes,
et dans Rn lescomposantes principales
sont vecteurs propres de la matriceWTDp,
où la matriceWT (cf. annexe)
peut s’obteniruniquement
àpartir
des xij+ et xij- sans avoir àbalayer
l’ensemble des 2n sommets associés àchaque
variable. Defaçon précise
leterme
général (WT)ii’,
deWT s’écrit, en posant xcij = (xij+ + xij-)/2 :
Désignant
par C la matrice n x p desxcij,
etposant :
Ona:
Ww désignant
la matricediagonale
deième
termediagonal
Notons que dans le cas où les lois
fij
sontsymétriques,
on a C = G et doncWc == Wc.
Sur un axe factoriel
Au
deRP’ (où p’
=p2n), chaque
individu i estreprésenté
defaçon classique
par l’abscisse de saprojection W’ sur 0394u,
levecteur
decomposante
03A8i(1
in) étant, rappelons-le,
lacomposante principale qui
est vecteur propre deWTDp.
La
représentation
de la variabilité pour l’individu ipeut
se faire defaçon analogue
à cequi
a été vuau § IV.2.2.
Il suffit d’intervertir le rôle des individus et des variables etd’adapter
les formules(2)
en ne considérantplus
des corrélationsou des
cosinus,
mais des abscisses deprojection.
Néanmoins cettefaçon
deprocéder
a peu d’intérêt car elle
risque
de conduire à desplages
de variation trèsgrandes.
En ce
qui
concerne lesvariables,
onpeut adopter
lesreprésentations
définiesdans les remarques
du §
III.3.3. en recherchant les extrêma de( 1 )
ou desreprésentations planes analogues
à celles fournies par lafigure
1. Il faut noter ici queW,
contrairementaux § §
111.2. et111.3.,
n’est pas unecomposante principale interclasses;
par ailleurs 03A8(cf.
remarqueci-dessous )
n’est pas engénéral centrée;
par contre le carré de sanorme
(pour
lamétrique
despoids Dp)
estégal
à la valeur propre associée à l’axe considéré.Remarques : 1)
Contrairement aux tableaux G etS,
le tableau T n’est pascentré,
etl’analyse
factoriellepréconisée
ci-dessus est uneanalyse
noncentrée,
afin depouvoir
comparer lesanalyses
de T et G.T étant non
centré,
sonanalyse risque
de fournir unpremier
axe contenantun
pourcentage d’explication
trèsimportant,
axe relativement trivial carjoignant l’origine
aupoint
moyen de T. Les axes suivantsrisquent
alors d’être peu in-terprétables
carnoyés
dans le bruit dupremier
axe. Onpeut
aussi centrerT,
cequi
permet d’avoir uneanalyse plus classique,
mais noncomparable
defaçon
aussiévidente à celle de S. Par contre on
peut
en centrantparler
de corrélation(et
nonplus
de
cosinus),
cequi
estplus parlant
pour un statisticien.2)
Comme on l’adéjà
dit(cf.
remarque4)
à la fin duparagraphe précédent),
sideux individus sont
identiques (ou proportionnels),
l’ensemble des sommetspossibles
associés à une variable n’est
plus
2n mais2 n-1 .
La méthode des sommetsvariables,
en considérant dans tous les cas de
figure
2n sommets pourchaque
variable surestimedonc la
dispersion.
Par contre, si deux variables sontidentiques,
leurs sommets sontconfondus,
cequi
ne pose pas deproblème,
contrairement à cequi
se passe dans la méthode des sommets individus.IV.3. Autres
analyses
IV.3.1.
Analyses
norméesCes
analyses
sont obtenues enprenant
M =(Diag(B))-1
dans la méthode des centres, et M =(Diag(V))-1
dans la méthode des sommets(individus
ouvariables).
Dans le
premier
cas, cela revient à fairel’analyse
factorielle usuelle(i.e.
avec lamétrique
usuelle M =Idp)
du tableau de termegénéral gij/(bjj)1/2,
tandis que dans les deux méthodes des sommets, cela revient à raisonner sur le tableauSn (n2P
xp)
de terme
général xij03B5kj/(Vjj)1/2(1 k 2P)
dans le cas des sommets individusavec la
métrique
usuelle de RP et sur le tableauTn (n
xp2n )
de termegénéral
xij03B5ki/(Vjj)1/2(1 1 2n )
dans le cas des sommets variables avec lamétrique
Idp’ /2n
dansRP’ (avec p’ = p2 n) .
Notons que dans ces deux cas, le tableau moyencorrespondant
est le tableauGn (n
xp),
de termegénéral gij/(VjjY)1/2,
associé à lamétrique
usuelle de RP.Remarque :
CommeT,
le tableauTn
n’est pas centré. Deplus
il n’est pas réduit(i.e.
le carré de la norme de chacune de ses colonnes pour lamétrique Dp
n’est paségal à 1).
Onpeut
doncenvisager l’analyse
du tableau réduit ou du tableau centré réduit associé à T(ou Tn) ;
mais cesanalyses
ne sont pas directementcomparables
àcelles des tableaux
Gn
etSn.
IV.3.2.
Analyse
discriminanteSi l’on veut essayer de discriminer au maximum les individus de telle sorte que sur un
plan
factoriel lesrectangles
associés aux différents individus serecoupent
le moinspossible,
on feral’analyse
discriminante du tableauS,
cequi
revient àfaire
l’analyse
factorielle du tableau G avec lamétrique
M =W-1. Compte
tenude la structure
symétrique
deshypercubes
associés à l’ensemble des sommets d’unindividu,
la matrice W estdiagonale,
comme on l’adéjà remarqué au §IV.2.2.
L’analyse
discriminante est alorséquivalente
àl’analyse
factorielle usuelle du tableau de termegénéral gij/(wjj)1/2
comme on l’adéjà signalé
à la findu §
111.1.IV.3.3. Statis
Le tableau S des sommets
peut
se mettre sous la forme :le
tableau Si (à
2Plignes
et pcolonnes)
étant le tableau donnant les coordonnées des 2P sommets associés à l’individu i.On
peut
doncenvisager d’appliquer
la méthode STATIS-DUAL(cf.
Lavit(1988), Dazy-Le
Barzic(1996».
La matrice
variance Vi
associéeà Si
est, du fait de la structureparallélépipédique
des sommets,