R EVUE DE STATISTIQUE APPLIQUÉE
C HRISTOPHE C ROUX
C ATHERINE D EHON
Analyse canonique basée sur des estimateurs robustes de la matrice de covariance
Revue de statistique appliquée, tome 50, n
o2 (2002), p. 5-26
<http://www.numdam.org/item?id=RSA_2002__50_2_5_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ANALYSE CANONIQUE
BASÉE SUR DES ESTIMATEURS ROBUSTES DE LA MATRICE DE COVARIANCE
Christophe
CROUX et Catherine DEHON * Université Libre de BruxellesRÉSUMÉ
Dans ce
papier,
nous proposons uneapproche
robuste pourl’analyse canonique, qui
estune méthode
majeure
del’analyse
multivariée.L’analyse canonique s’appuie
sur l’estimation de la matrice de covariance. L’ estimateurclassique,
leplus puissant
sousl’hypothèse
de normalité, devientcomplètement
non fiablelorsque
les données contiennent despoints
aberrants. Nous proposons une solution à ceproblème
en utilisant un estimateur robuste de la matrice de covariance. L’estimateur robuste utilisé est le «Minimum Covariance Determinant» estimateur,qui
a un hautpoint
de rupture. Nous donnonségalement
uneexpression
des fonctionsd’influence des corrélations et vecteurs
canoniques
dans le casgénéral
où la matrice decovariance est estimée par
n’importe quel
estimateurrégulier
multivarié dedispersion.
Noustraitons aussi de manière robuste une base de données réelles.
Mots-clés : Corrélation canonique, Fonction
d’influence,
Robustesse.ABSTRACT
In this paper we present a robust
approach
to canonical correlationanalysis,
one ofthe
major
methods in multivariate statistics. A canonical correlationanalysis
is based onestimators of covariance matrices. The classical estimator, most
powerful
under theassumption
of
normality,
becomes unreliable in presence ofoutlying
observations. Aremedy
for thisproblem
is to use robust estimators of the covariance matrix. Here we will use the "Minimum Covariance Determinant," estimator, which has ahigh
breakdownpoint.
We alsogive
anexpression
for the influence function of estimators of the canonical correlations and vectors whenusing
anyregular
robust estimator of thedispersion
matrix. A real dataexample
will begiven.
Keywords :
Canonical correlation,Influence function,
Robustness.1. Introduction et motivation
L’analyse canonique
a été introduite par HarroldHotelling (1936).
Ellejoue
un rôle
théorique important puisqu’elle permet
de lier les formalismes deplusieurs
* ECARES, Faculté SOCO et Institut de Statistique, Université Libre de Bruxelles, CP-114, av. F.D.
Roosevelt 50, B-1050 Brussels, Belgium.
techniques
de lastatistique
multivariée. Sonobjectif
est de caractériser les relations linéaires existantes entre deux ensembles de variables aléatoires. Pour introduirel’analyse canonique,
considérons deux ensembles de variables. Lepremier
groupe, que nous noterons par le vecteur aléatoireX,
seracomposé
de p variables et le deuxième groupe, notéY,
sera de taille q. Les vecteurs aléatoires X et Y ont doncrespectivement
les dimensions(p, 1)
et(q,1 ).
Sansperte
degénéralité,
nous supposons quep
q. Nous avons au niveau des deuxpopulations
considéréesNous supposons que toutes les matrices considérées sont de rang maximum. Les vecteurs aléatoires X et Y peuvent être considérés
conjointement
sous la formed’une variable aléatoire
Z,
de dimension d = p + q. Le vecteur aléatoire Z s’écritle vecteur des moyennes
populations
est le suivantet la matrice de covariance
Le but de
l’analyse canonique
est derésumer,
de la manière laplus adéquate,
les relations entre les ensembles X et Y. La matrice de covariance nous fournit pq
covariances,
aveclesquelles
il estparfois
difficile de se faire une idéegénérale
si les dimensions de p et/ou
de q
sontgrandes. L’analyse canonique
va nouspermettre
d’isoler l’information dans seulementquelques
covariances bien choisies.Le
problème
sera de trouver lescomposantes canoniques qui
seront des combinaisons linéaires déterminées dans chacun des deux groupes de variables et, les corrélationscanoniques qui
mesureront la corrélation entre lescomposantes canoniques.
Plusprécisement,
lapremière étape
déterminera lapaire
de combinaisons linéairesayant
la corrélation maximum. Dans la secondeétape,
nous chercherons lapaire
decombinaisons linéaires
ayant
une corrélation maximumparmi
toutes lespaires
noncorrélées avec celle sélectionnée à la
première étape.
Et ce processus serarépété
p fois pour obtenir ppaires
decomposantes canoniques
et p corrélationscanoniques.
Les vecteurs al E IRP et
(31
E IRq tels quesont alors définis comme la
première paire
de vecteurscanoniques.
Les variables univariées résultantessont
appelées
variablescanoniques.
Lapremière
corrélationcanonique
Pl est définie par la valeur absolue de la corrélation entre les 2 variablescanoniques, qui
est donc lemaximum atteint en
(1).
Les k-ièmes vecteurscanoniques (ak, (3k),
pour2 k
p,sont définis par
sous les contraintes
COV(Uk, Uz) == 0,Cov(Vk, Vl)
=0,Cov(Uk, Vl) =
0 etCov(Vk, Uz) ==
0 où l E{1,... k - l}
etUj
=ajX
etVj - (3jY
sont lesj-
ièmes variables
canoniques (2 j k).
Les vecteurscanoniques
étantuniques
à unfacteur
multiplicatif près,
on décide pour avoir unicité que les variablescanoniques
auront une variance unitaire
pour j
=1,...,
p. Les contraintesd’orthogonalité
et de normalisation sur les vecteurscanoniques,
seront donc les suivantes :cetexxaj
=bit, (3;Eyy (3j = bi
et03B1ti03A3XY03B2j = Pi bij
oùbij
est le delta de Kronecker.Le calcul des corrélations et des vecteurs
canoniques
est basé sur uneanalyse
devaleurs et vecteurs propres
qui
est la suivante : lapremière
corrélationcanonique
pl est la racine carrée de lapremière (la plus grande)
valeur propre deE-1 ExyE-1 Eyx
ou de
S-1 EyXE-1 E
et les vecteurscanoniques
ce, et(31
sont les vecteurs pro- prescorrespondants.
La k-ième corrélationcanonique
Pk est la racine carrée de la k- ièmeplus grande
valeur propre de03A3-1XX03A3XY03A3-1YY03A3YX ou de 03A3-1YY03A3YX03A3-1XX03A3XY,
et les vecteurs
canoniques
ak et(3k
sont les vecteurs proprescorrespondants où k
p.Pour un traitement
plus
détaillé del’analyse canonique classique,
voir Johnson &Wichem
(1992, Chapitre 10)
ou Rencher(1998, Chapitre 8).
Dans la Section
2,
nous allons montrer un moyen d’obtenir des estimateurs robustes pourl’analyse canonique.
Les estimateursclassiques
pour les corrélations et vecteurscanoniques
sontgénéralement
obtenus en estimant les matrices de covariancepopulation qui
interviennent dansl’analyse
par leurscontreparties empiriques.
Nousallons robustifier cette
procédure
en utilisant des estimateurs robustes à laplace
des estimateurs échantillon. Les méthodes robustes
proposées
dans ce travail sontmoins
puissantes
que la méthodeclassique
dans la situation où toutes leshypothèses classiques
sont vérifiées.Néanmoins, l’analyse canonique classique
est tout à faitinappropriée
si la base de données contient despoints
aberrants. Un utilisateur nonaverti pourra
développer
desinterprétations
àpartir
de résultatspotentiellement
erro-nés. Dans la Section
3,
nous introduisons la fonctionnellestatistique qui correspondra
aux estimateurs robustes. Ceci nous
permettra
depréparer
l’obtention des fonctions d’influence de cesestimateurs, qui
constitue la contributionprincipale
de cepapier.
Dans la Section
4,
nous donnerons uneexpression
des fonctions d’influence descorrélations et vecteurs
canoniques
dans le casgénéral
où la matrice de covariance est estimée parn’importe quel
estimateurrégulier
dedispersion
multivariée. Nous ferons ensuite le lien avec le casclassique.
Unexemple
réel seraanalysé
dans laSection
5,
et nous finirons par une brève conclusion. Toutes les démonstrations serontreprises
en annexe.2. Estimation Robuste
Les corrélations
canoniques
et les vecteurscanoniques
sont doncobtenus,
comme vu
précédemment,
en calculant les valeurs et vecteurs propres deMx
etMy
oùLe calcul des corrélations et des vecteurs
canoniques
d’une base de donnéesexigera
donc l’estimation de la matrice de covariance E. La méthode
classique utilise,
pourun échantillon
Zn = {z1, ... , zn 1
de n observations et de dimensiond,
la matrice de covariance échantillonCet estimateur est
optimal lorsque
les données sont distribuées suivant uneloi normale multivariée.
Cependant
il est extrêmement sensible face à despoints aberrants,
et dans ce cas, les conclusions faites sur la base des corrélationscanoniques
et des vecteurs
canoniques
peuvent être totalement erronées. Il estimportant
desouligner
quel’apparition
depoints
aberrants est relativementfréquente
dans descas
réels,
surtout dans des bases de données degrande
dimension. L’idée est donc deremplacer
l’estimateurclassique
par un estimateur robuste dedispersion multivariée,
pour obtenir une
analyse canonique
robuste. Pourchaque
choix d’estimateur robuste de la matrice decovariance,
une nouvelle méthode robusted’analyse canonique
seraobtenue ainsi que de nouveaux estimateurs robustes des corrélations
canoniques
etdes vecteurs
canoniques. Campbell (1982)
utilise une combinaison de M-estimateur et des fonctions depoids
basées sur des distancesrobustes,
pour robustifierl’analyse canonique.
Karnel( 1991 ), lui,
utilise comme estimateurmultivarié,
le M-estimateur.Nous allons travailler avec d’autres estimateurs que le M-estimateur car celui-ci n’est pas satisfaisant. En
effet, plus
la dimensionaugmente
moins le M-estimateur est robuste(Maronna 1976).
Sonpoint
derupture,
défini par laplus grande proportion
depoints
aberrants dans les données ne faisant pasexploser
ouimploser l’estimateur,
est inférieur ouégal
à1 / (d + 1).
Dans cetarticle,
nous allons considérer deux estimateurs robustes à hautpoint
derupture,
l’estimateur « Minimum Covariance Determinant »(MCD)
et l’estimateur«Reweighted
Minimum Covariance Determinant»(RMCD).
Plus de détails concernant le
point
derupture
des estimateurs de la matrice dedispersion peuvent
être trouvés dansLopuhaa
& Rousseeuw(1991).
L’estimateur
MCD,
introduit par Rousseeuw(1985),
est déterminé pour unéchantillon {z1, ... , zn} ~ ind
en sélectionnant le souséchantillon {zi1, ... , zih}
de taille h
(1 h n), qui
minimise le déterminant de la matrice de covarianceparmi
tous les sous-échantillonspossibles
de taille h. L’estimateur MCD deposition
est alors défini comme
et l’ estimateur MCD de la matrice de covariance est défini par
où ci ==
(1 - 03B1)/F~2d+2 (q03B1) (F~2d+2
étant la fonction derépartition
de la loi du khi-2 à d + 2degrés
deliberté)
est un facteur de convergence pour une distribution normale.Nous avons défini q03B1 =
~2d,1-03B1
comme lequantile (1 - a)
de la distribution khi-2 à ddegrés
de liberté.Généralement,
hprendra
les valeurs h =[n(1 - a)],
aveca = 0.5 ou a = 0.25. Dans le
premier
cas, l’estimateur aura leplus
hautpoint
derupture (50%)
et dans le second cas on aura un meilleurcompromis
entre efficacitéet haut
point
derupture (qui
sera de25%).
Despropriétés théoriques
de l’estimateur MCD ont étéinvestiguées
parButler,
Davies & Jhun(1993).
La fonction d’influence de l’estimateur MCD d’échelle multivariée a été trouvée par Croux & Haesbroeck(1999).
Unalgorithme rapide
pour calculer l’estimateur MCD a étéproposé
par Rousseeuw & Van Driessen(1999).
Pour
augmenter
l’efficacité des estimateurs à hautpoint
derupture,
il est souvent recommandé d’utiliser leur versionpondérée
en uneétape, qui garde
lepoint
derupture
de l’estimateur initial. Une étude despropriétés asymptotiques
d’un tel estimateur a été réalisée parLopuhaa (2000)
et les efficacités sont calculées par Croux & Haesbroeck(1999).
Nous allons doncpréférer
utiliser les estimateurs RMCD(MCD pondérés
àune
étape) qui
sont définis paroù C2 =
(1 - 03B4)/F~2d+2 (q03B4)
est un facteur de convergence. Lespoids
sont calculéscomme suit
où
Tn
etCn
sont les estimateurs MCD nonpondérés.
Dans notretravail,
nousprendrons
commepoint
de rupture50%,
c’est-à-dire ce -0.5,
et unparamètre
b == 0.025
(comme suggéré
par Rousseeuw & VanDriessen, 1999).
Pour obtenirune meilleure
efficacité,
nouspourrions également
choisir a == 0.25 cequi
donne unpoint
derupture
de25%.
3. Les Fonctionnelles
Statistiques
Soit F la fonction de
répartition
de la variable Z. La distribution F serasupposée
normale multivariée
Nd(03BC, E)
où 03BC EIRd
et E EMDPS(d),
l’ensemble de toutes les matrices carrées de dimension d définiespositives
etsymétriques. Néanmoins,
les résultats obtenus seront directementgénéralisables
au cas des distributionselliptiques.
Soit F l’ensemble de toutes les distributions sur
IRp+q
ou unlarge
sous en-semble de celui-ci.
Alors,
une fonctionnellestatistique correspondant
à un estimateurmultivarié de
dispersion
est uneapplication
C : F ~MDPS(p
+q) qui
envoieune distribution arbitraire G E F vers
C(G).
Leproblème
d’estimation consiste à estimerC(F)
où F est la distributionpopulation.
Un estimateur naturel deC(F)
est donné par
Cn
=C(Fn)
oùFn
est la distribution échantillon. Nous utiliserons la notationC(Z)
au lieu deC(G) quand
Z suit la distribution G. Par abus delangage,
nous dirons
parfois
l’estimateur C au lieu de la fonctionnelle C. Les fonctionnelles associées aux estimateurs des valeurs propres deMx
etMy
serontnotées h
et lesfonctionnelles des vecteurs propres seront
appelées
aj etbj pour j
=1, . p.
Doncl J (G), aj (G) et b J (G)
sont les valeurs et vecteurs propres deMx (G)
etMy (G),
oùet
pour
chaque
G E F. Les fonctionnelles associées aux estimateurs des corrélationscanoniques
seront notées rj, doncTj (G)
=lj(G).
Nous n’étudions que des estimateurs multivariés de
dispersion
Cconvergents
au sens de Fisher pour des distributions
normales,
cequi
revient à dire queC(F) ==
E.Nous supposerons aussi que les estimateurs multivariés de
dispersion
C sont affinséquivariants,
c’est-à-dire queC(AX
+b) = AC(X) At
pour tout b EIRd
etpour
chaque
matrice carrée A de dimension d et nonsingulière.
Il résulte queMx(F) == Mx, My(F) = My
et les estimateursaj,bj
et rj seront donc aussiconvergents
au sens deFisher,
c’est-à-dire queoù les
paramètres
03B1j,3j
et Pj ont été définis à lapremière
section.Si q
> p, nous posons 03C1p+1 = ... = 03C1q = 0 et03B2p+1, ... , 03B2q
sont les vecteurs propres de la matriceMy correspondant
aux valeurs propres nulles(ces
vecteurs propres sontuniques
àune transformation
orthogonale près).
Nous allons maintenant introduire une notion
importante
enrobustesse,
la fonction d’influence. Plus d’information sur les fonctionnelles et les fonctions d’influence sontdisponibles
dansHampel
et al.(1986).
DÉFINITION 1. - Soit T une
fonctionnelle statistique,
lafonction d’influence
de T au
point
z en la distributionF,
estdéfinie
paroù
0394z
est la distribution de Diracqui
met toute sa masse aupoint
z, etF03B5 = (1 - 03B5)F
+03B50394z.
La fonction d’influence
IF(z, T, F)
donne une mesure de l’influence dupoint
z sur la fonctionnelle T si la distribution
sous-jacente
est F. On s’attend donc pourun estimateur robuste à une fonction d’influence bornée. Pour calculer les fonctions d’influence des corrélations
canoniques
et vecteurscanoniques,
nous aurons besoin du lemme suivant(Croux
& Haesbroeck2000), qui
caractérise la fonction d’influence pour des estimateurs dedispersion
affinséquivariants.
LEMME 1. - Pour toute
fonctionnelle
C associée à un estimateur multivarié dedispersion affin équivariant possédant
unefonction d’influence,
il existe deuxfonctions
yC et03B4C : [0, ~[~
IR tel queTABLEAU 1
Fonctions 03B3C pour les estimateurs
MCD,
RMCD et l’estimateurclassique (Cov)
Les fonctions d’influence des estimateurs MCD et RMCD ont été calculées par Croux & Haesbroeck
(1999).
Les fonctions 03B3C, pour les 2 estimateurs robustes ainsi que pour l’estimateur échantillon de la matrice decovariance,
sont décrites dans le Tableau 1. Nous verronsplus
loin que les fonctions8e jouent
un rôle moinsimportant
que les fonctions 03B3C. Sur la
Figure 1,
nous voyons que 03B3MCD est une fonctionen escalier avec une discontinuité et 03B3RMCD avec deux discontinuités. Ces deux fonctions deviennent nulles
après
un certainpoint.
Comme ces deux fonctions sontnon
croissantes,
leur contribution à la fonction d’influence décroit si la distance entrez et IL dans la
métrique imposée par E
augmente. La fonction -yCov étant constante, elle donne donc le mêmepoids
à tous lespoints.
FIGURE 1
Graphiques des fonctions -y(t)
pour les estimateurs MCD(en pointillé),
RMCD
(en
traitsdisjoints) et
l’estimateurclassique (ligne continue) pour d = 6,
a = 0.5 et 03B4 = 0.0254. Fonctions d’influence des corrélations
canoniques
et des vecteurs
canoniques
Dans la section
précédente,
nous avons donné uneexpression
pour la fonction d’influence associée à des estimateurs multivariés dedispersion.
Apartir
de cesfonctions d’influence nous allons calculer les fonctions d’influence des corrélations
canoniques
et des vecteurscanoniques
dans un cadre tout à faitgénéral,
c’est-à-direavec
l’emploi
den’importe quel
estimateurrégulier
de la matrice de covariance. Pour calculer les fonctions d’influence deMx
etMy,
nous avons besoin du lemme suivant.LEMME 2.
- La fonction d’influence
deMx
en la distributionF, définie
par(5), est
donnée paroù
-y(.)
est lafonction qui apparaît
dans lafonction d’influence
de lafonctionnelle
C.
La fonction d’influence
deMy
est donnée de manière similaire.Les fonctions d’influence des corrélations
canoniques
et des vecteurs canon-iques
découleront des fonctions d’influence deMx
etMy
et cecigrâce
à une varianted’un lemme de Sibson
(1979).
Ce lemme nous donne les fonctions d’influence des valeurs et vecteurs propres de toute matricesymétrique
définiepositive,
sur base de lafonction d’influence de la matrice elle-même.
Puisque
les matricesMx
etMy
ne sontpas
symétriques,
nous devons doncadapter
le lemme deSibson,
en tenantégalement compte
des contraintes de normalisation(2).
Nous supposerons que toutes les valeurs propres sont distinctes et strictementpositives.
LEMME 3. - Soit
(03BBj, 03B1j)
lespaires
de valeurs propres et vecteurs propres d’une matrice Mquelconque
telles que03B1ti03A303B1j
=03B4ij pour i, j
=1, ... , p
et E unematrice
définie positive quelconque.
Alorsoù M est
une fonctionnelle
tel queM(F) = M, Ij
et aj sont les valeurs et vecteurs propres deM,
avecatjCaj
= 1, C étantune fonctionnelle
telle queC(F) =
E.Le théorème suivant va nous fournir les fonctions d’influence des corrélations
canoniques
et des vecteurscanoniques
dans un cadre trèsgénéral.
Pourplus
delisibilité,
nous allonsadopter
les notationssuivantes,
pour k =
1,
..., p. Les vecteurs Uk et Vk sontrespectivement appelés
scores de x surle k-ième vecteur
canonique
03B1k et scores de y sur le k-ième vecteurcanonique 03B2k.
THÉORÈME 1. - Les
fonctions d’influence
des estimateurs des corrélationscanoniques
et des vecteurscanoniques
basés sur un estimateur Caffin équivariant
de la matrice de covariance en la distribution F =
Nd(03BC, 03A3),
sont données paret
où -y
et 6 sont lesfonctions qui apparaissent
en(6), d2 (z)
=(z - 03BC)t03A3-1(z - 03BC)
etE ==
C(F).
Pour aider à visualiser les fonctions d’influence et le caractère borné de celles- ci dans le cas
robuste,
nous allons lesreprésenter graphiquement. Malheureusement,
nous devons nous restreindre à un
graphique
en 3 dimensions maximum. Nous avonsdonc calculé la fonction d’influence de la
première
corrélationcanonique
rI dans le casparticulier
où p = q = 1. Nous avonsenvisagé
3procédures
d’estimation : soit defaçon classique,
soit par la méthode MCD ou soit par la méthode RMCD.Les dessins de la
Figure
2 donnent sur l’axe vertical la valeur de la fonction d’influence aupoint z
=(x, Y).
Il est maintenant très facile de constater que dans le casclassique,
la fonction d’influence de rI en la distribution F =N2(0, E)
oùE =
((1, 0.5)t, (0.5, 1)t)
n’est pasbornée,
cequi signifie qu’un point
aberrant peut avoir une influence infinie sur l’estimateur. Par contre dans les cas MCD etRMCD,
les fonctions d’influence sont bornées.
Donc,
si unpoint
est vraimenttrop
loin de lagrande majorité
desdonnées,
il n’aplus
d’influence sur l’estimateur rl. Par contre si lepoint
n’est pastrop loin,
nous en tiendronscompte
et son influence sera contrôlée.Nous voyons que la fonction d’influence des estimateurs basés sur la méthode RMCD
a un niveau de cassure
supplémentaire
parrapport
à celle basée sur la méthode MCD.En ce
qui
concerne les vecteurscanoniques,
il est aisé de voir àpartir
du Théorème 1 que ajet bj
seront bornés si la fonction03B3(x)
s’annule pour tout xsupérieur
à uncertain xo et si la fonction 8 est bornée.
FIGURE 2
Fonction
d’influence
pour lapremière
corrélationcanonique
calculéesur base de
(a)
l’estimateurclassique (b)
l’estimateur MCDet
(c)
l’estimateur RMCDDans le cas
particulier où 03B3
= 1 et 8 ==1,
nous obtenons les fonctions d’influence des corrélationscanoniques
et vecteurscanoniques
où l’ estimateur de la matrice covariance n’est rien d’autre que l’estimateur de covarianceempirique.
Cesfonctions d’influence sont non bornées ce
qui indique
que ces estimateurs sont nonrobustes. On
peut
vérifier que celacorrespond
aux résultats obtenus par Romanazzi(1992), qui
a obtenu les fonctions d’influence dans le casclassique.
Les liens entre lesfonctions d’influence des corrélations
canoniques
et des vecteurscanoniques
utilisantun estimateur robuste et l’ estimateur
empirique classique,
sont extrêmementsimples
et sont donnés par le corollaire
suivant, qui
découle immédiatement du Théorème 1.COROLLAIRE 1. - Les liens entre les
fonctions d’influence
des corrélationscanoniques
et des vecteurscanoniques
utilisant un estimateur robuste et l’estimateurempirique classique (Cov)
sont les suivants :pour j = 1,
..., p, où 03B3 et 03B4 sontles fonctions qui apparaîssent
en(6).
En
pratique,
onpréfère parfois
fairel’analyse canonique
basée sur la matricedes corrélations
au lieu de
C(G).
La matrice de corrélation robuste est définie àpartir
deC(G)
commedans le cas
classique.
Nous avons parexemple
queoù
Dx(G)
=diag(CXX(G)) reprend
seulement les élémentsdiagonaux
deCxx (G)
et annule les autres. En utilisant R à laplace
deC,
les corrélations canoni- ques restentidentiques
mais les vecteurscanoniques changent. Néanmoins,
il existeun lien
simple
entre les deux versions.Désignons aj (G)
ethj (G)
les fonctionnelles pour les vecteurscanoniques
basés sur la matrice de corrélation. Alorspour
chaque
G EF,
et1 j
p. Apartir
de(12)
et du Théorème1,
nous retrouvons les courbes d’influence des estimateurs des corrélationscanoniques
et des vecteurscanoniques
basés sur un estimateur R de la matrice de corrélation.THÉORÈME 2. - Soit R un estimateur de la matrice de corrélation déduit d’un estimateur C
affin équivariant
de la matrice de covariance.La fonction d’influence
des estimateurs des vecteurs
canoniques
basés sur R en la distribution F =Nd (p, E),
est donnée par
où 03B3
estla fonction qui apparaît
en(6), 03B1k
est le vecteurcanonique
au niveau de lapopulation (donc aj(F) = âj)
etDx = diag(xxt)
avec x =diag(03A3XX)-1/2(x -
03BCx).
Bienévidemment,
uneexpression analogue
est valide pourIF(z, bj, F).
Les fonctions d’influence mesurent la robustesse d’un
estimateur,
mais ellespeuvent
aussi être utilisées pour obtenir uneexpression
pour la matrice de variance- covariance des estimateurs. Si l’ estimateur de la matrice de covariance estasympto- tiquement
normal(ce qui
est le cas pour les estimateurs MCD etRMCD),
les estima-teurs dérivés des corrélations et vecteurs
canoniques
le serontégalement.
Eneffet,
lesvecteurs et valeurs propres des matrices
Mx
etMy
sont des fonctions différentiables des éléments de la matrice C. Par la méthodeDelta,
on obtiendra alorsoù
ASV(â3) - EF[IF(z, aj, F)IF(z, aj, F)t]
et03B1j
=aj(Fn)
avecFn
ladistribution
empirique
pour1 j
p. Un estimateur de la matrice de covariance de l’estimateur03B1j
est alorsavec
Fn
la fonction derépartition
de la loi normaleN(Tn, Cn),
oùTn
etCn
sont lesestimateurs de localisation et de
dispersion
multivariées. Desexpressions
similairessont valides pour
Cov(03B2j), Cov(03B1j), Cov(03B2j)
etVar(pj), avec /3j
-bj(Fn),
pour
1 j
p.La distribution
asymptotique
des corrélations et vecteurscanonique
constitue lesujet
de nombreuxpapiers (cf
les références citées dans Anderson(1999)).
Lepremier papier
sur cesujet
est celui de Hsu(1941) qui
donne des résultats pour les corrélationscanoniques.
Unpapier plus
récent est celui de Anderson cité ci-dessusqui
donnela distribution
asymptotique
pour les vecteurscanoniques.
Tous ces résultats sontrestreints à
l’analyse canonique
basée sur la matrice variance-covariance échantillonet nombre d’entre eux
exigent
la normalité. Lepapier
de Eaton &Tyler (1994)
estune des
exceptions qui
donnent des résultats pour des distributionselliptiques.
Nousrappellons
que le résultat que nous avons déduit est valable pour uneanalyse canonique
basée sur
n’importe quel
estimateur affin etconvergent
de la matrice dedispersion
E. En
plus,
nous avons donné des résultats pourl’analyse canonique
basée sur lesmatrices de
corrélation,
casqui
ne semble pas avoir été très étudié dans la littérature.5.
Exemple
Nous allons illustrer cette théorie par l’étude de la base de données sur la condition
physique
de Linnerud(traitée
dans Tenenhaus1998,
page15).
L’étudeporte
sur les liens entre 3 variables d’exercices(Xl = Poids, X2
= Tour detaille, X3
=Pouls)
et 3 variables de mesuresphysiques (YI
= Nombre de tractions à la barrefixe, Y2
= Nombre de
flexions, Y3
= Nombre desauts)
pour 20 individus. Lapremière étape
decette étude
empirique
sera consacrée à la détection despoints
aberrants.Ensuite,
nous calculerons et comparerons les résultats obtenus parl’analyse canonique classique
etrobuste. Nous utiliserons comme estimateurs robustes les estimateurs RMCD avec un
point
derupture
de50%,
et unparamètre
bégal
à 0.025.Pour détecter les éventuels
points
aberrants dans un échantillon Z ={z1, ... , zn}
eIRd,
nous utilisons la distance robusteoù
Tn
etCn
sont les estimateurs multivariés robustes. Si nous prenons les estimateursclassiques,
nous obtenons la distance usuelle de Mahalanobis. Sur laFigure 3,
nousavons
repris
les distances de Mahalanobis et les distances robustes. L’observation 10apparaît
très clairement comme unpoint aberrant,
cequi
estbeaucoup
moins visiblepour les distances de Mahalanobis. En
effet,
les distances de Mahalanobisclassiques
souffrent du
« masking
effect »(Rousseeuw
& vanZomeren, 1990).
Nous allons estimer les corrélations
canoniques
et les vecteurscanoniques
aumoyen de l’estimation de la matrice de corrélation par la méthode
classique
et par la méthode robuste. Le Tableau 2 fournit les matrices des corrélations calculées àpartir
des estimations
classiques (au
dessus de ladiagonale)
et RMCD(en
dessous de ladiagonale).
Il estfrappant
de voir dans le Tableau 2 que 3 corrélations ont dessignes
différents suivant la méthode d’estimation. Par la méthode
classique,
les corrélations entre d’unepart
lepouls
et d’autrepart
le nombre detractions,
de flexions ou de sauts sontpositives,
alors que dans le cas robuste ces 3 corrélations sontnégatives.
Or ilest
logique
d’affirmerqu’une
personne aurythme cardiaque plus
lent auraplus
defacilité pour faire des exercices
physiques,
cequi
accrédite la méthode robuste.Les estimations des corrélations
canoniques
et vecteurscanoniques
basées surla matrice de corrélation se trouvent
respectivement
dans les Tableaux 3 et 4 ainsi que leurs écartstypes.
Dans le Tableau3,
les écartstypes
sont calculés en utilisant(15),
et pour le Tableau
4,
on aemployé l’expression (14)
pour03B1j.
Nous remarquons que les deux
premières
corrélationscanoniques
robustes sontplus grandes
que celles obtenues par la méthodeclassique.
Laplus grande
différenceFIGURE 3
Distances de Mahalanobis
(graphique
degauche)
et distances robustes(graphique
dedroite)
pour les données de Linnerud TABLEAU 2Matrice des corrélations obtenue
d’une façon classique (au
dessus de ladiagonale)
et robuste
(en
dessous de ladiagonale)
se reflète dans
03C12 qui
passe de 0.201 à 0.559. En cequi
concerne les vecteurs canoni-ques
(Tableau 4),
nous avonspris
comme convention pour lessignes
que lapremière
coordonnée de
chaque
vecteurcanonique,
soitpositive.
Degrandes
différences entre les valeurs des vecteurs propresapparaissent
et même lessignes
varient suivant la méthode utilisée. Deplus,
les écartstypes
sont relativementgrands (dans
les casclassique
etrobuste)
et donc peu de coefficients sontsignificativement
différentsde zéro. Une
partie
desinterprétations
seront donc soumises à caution. Ce fait estTABLEAU 3
Corrélations
canoniques
estimées par la méthodeclassique
et la méthode robuste(basée
surRMCD)
pour les données de Linnerud. Les écarts types sont donnés entreparenthèses
TABLEAU 4
Vecteurs
canoniques
estimés par la méthodeclassique
et la méthode robuste(basée
sur
RMCD)
pour les données de Linnerud. Les écarts types pourchaque
composante des vecteurs estimés sont donnés entre
parenthèses
expliqué
par le faible nombre d’observations.L’analyse présentée
dans cetexemple
est donc
plutôt exploratoire qu’ inférentielle.
Nous allons être très succints pour
l’interprétation
des résultats. Notre but est de déterminer la contribution dechaque
variable dans lescomposantes canoniques.
Deuxécoles de
pensée s’opposent
dans ce domaine. Rencher(1998)
estpartisan
d’utiliserles coordoonnées des vecteurs
canoniques qui
mesurentl’apport marginal
dechaque
variable à la construction des
composantes canoniques
de leur groupe et c’est cequi
est nécessaire pour
prendre
encompte l’aspect
multivarié del’analyse.
Pour notreexemple,
lespremières
variablescanoniques
robustes estimées s’écriventoù
Xi, X2
etX3
sontrespectivement
les variables centrées réduites(par
la méthodeRMCD)
dupoids,
du tour de taille et dupouls
où
Vi, Y2
etY3
sontrespectivement
les variables centrées réduites du nombre de tractions à la barrefixe,
du nombre de flexions et du nombre de sauts. Nous remarquons que la variable Pouls ne contribue pasbeaucoup
à la construction de lapremière
variable
canonique U1. L’interprétation
est difficile car les vecteurscanoniques opposent
des variablespositivement
corrélées entre elles(par exemple poids
ettaille).
Tenenhaus
(page 18, 1998)
propose alors d’utiliser les corrélations entre les variables et les variablescanoniques.
Les corrélations robustes entre les mesuresphysiques (Xl, X2
etX3)
et leurs variablescanoniques (U1, U2
etU3) apparaissent
dans leTableau 5. De
même,
on trouvera les corrélations entre les exercices(YI, Y2
etY3)
etleurs variables
canoniques (VI, V2
etV3).
Nous pouvons penser queU1
est une mesurede mauvaise
santé,
tandis queVI
oppose la forcephysique
à l’endurance(basée
surla méthode
robuste).
Nous remarquons de trèsgrandes
différences entre les méthodesclassique
et robuste au niveau des corrélations entreVI
et les variables du deuxième groupe. Nous n’allons pasanalyser
les variablescanoniques
d’ordresupérieur
à deuxdans cet
exemple
carl’interprétation
serait difficile.Pour clôturer cette
interprétation,
laFigure
4permet
de visualiser la liaison entre lescomposantes canoniques U 1
etVI
calculées àpartir
des méthodesclassique
et robuste. La
dispersion
despoints
autour de la droiteajustée
estplus grande
dans lecas
classique
que dans le cas robuste. La corrélation robuste entreU1
etVI
estpositive
et assez
grande (0.851),
et nous voyons que l’individu 10 est décentré. Legraphique
associé à la méthode
classique
nepermet
pas de détecter le comportementatypique
del’individu 10. Néanmoins
rappelons
que le but de cegraphique
n’est pas de découvrir lespoints aberrants,
ce rôle étantrempli
par la détermination des distances robustes.Il semble que les variables
canoniques
estimées d’unefaçon classique
ont été attirées par lepoint
10. Il est doncpréférable
de baserl’interprétation
surl’analyse robuste, qui
nousprotège
contre le dixième individuqui
est unpoint
aberrant.6. Conclusion
Le traitement des
points
aberrants dansl’analyse canonique
adéjà
été étudiédans la
littérature,
parCampbell (1982)
et Karnel(1991),
en utilisant les M- estimateurs multivariés. Nous avons étendu cette étude en utilisant les estimateurs multivariés à hautpoint
derupture
et nous donnons uneexpression explicite
desfonctions d’influence des corrélations
canoniques
et vecteurscanoniques
basés surn’importe quel
estimateurconvergent
et affinéquivariant
de la matrice de variance-covariance.
TABLEAU 5
Corrélations entre le
premier
groupe de variables et leurs composantescanoniques
ainsi que pour le deuxième groupe de variables et leurs composantes
canoniques
pour les méthodes
classique
et robusteCas classique
Cas robuste
FIGURE 4
Graphiques
des variablescanoniques U1
etVI
estimées par la méthodeclassique
et robuste
(basée
surRMCD)
pour les données de Linnerud7. Annexes Démonstration du Lemme 2 :
Pour démontrer ce
lemme,
nous utilisons le résultat suivant(Pullman 1976,
page
120) :
Par dérivation et en utilisant le résultat ci-dessus avec
F03B5 = ( 1 - 03B5)F + 03B50394z,
noustrouvons :
En réutilisant
l’expression générale
pour la fonction d’influence pour un estimateur de la matrice covariance(6)
et leséquations (3)
et(4),
le lemme est demontré.Démonstration du Lemme 3 :
Puisque M(G)aj(G) = lj(G)aj(G)
pour toute distributionG,
nous avons pourF03B5 = (1 - E)F
+03B50394z
où0394z
est une distribution mettant toute sa masse aupoint z
=(x, y) :
Il en découle
et donc
Il est facile de voir que .
Grâce à ces deux
observations,
nous avonset donc
Comme les vecteurs propres ak sont linéairement
indépendants (mais
nonorthogo- naux),
les coefficients devant les vecteurs propres dansl’équation
ci-dessus doivent être nuls cequi implique déjà l’équation (7)
etpour tout k
i- j. Mais, grâce
à(17),
nous pouvons écrire toutpoint
x comme suitx -
03A3pk=1 (xt03A303B1k)03B1k. Donc,
nous obtenonsDe
plus,
la restrictiona’. 7 C(F,) a - 3
= 1implique
Ainsi,
le deuxième résultat du lemme est démontré en combinant(18)
et(19).
0 Démonstration du Théorème 1 :Puisque
lesr2j
sont les valeurs propres de la fonctionnelleMx,
lepremier
résultatdu lemme 3 donne
Et,
comme dans le lemme 2 nous avonsexplicitement
calculé la fonction d’influence deMx,
il vient queRappelons
que(Pl, aj)
sont les valeurs et vecteurs propres deMx
et que(Pl, (3j)
sont les valeurs et vecteurs propres de
My,
dès lors nous pouvons utiliser les deux relationsDonc
En utilisant la relation suivante
et les notations
adoptées,
nous obtenons lepremier
résultat du théorème.Le deuxième résultat du théorème s’obtient à
partir
du deuxième résultat du lemme3, qui
estDonc, l’application
du lemme 2 et(6)
donnentEn utilisant les
équations (2)
et(20),
nous obtenonsPar définition des scores Uk et Vk, le deuxième résultat