R EVUE DE STATISTIQUE APPLIQUÉE
P. B ESSE
L. F ERRE
Sur l’usage de la validation croisée en analyse en composantes principales
Revue de statistique appliquée, tome 41, n
o1 (1993), p. 71-76
<http://www.numdam.org/item?id=RSA_1993__41_1_71_0>
© Société française de statistique, 1993, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
71-
SUR L’USAGE DE LA VALIDATION CROISÉE
EN ANALYSE EN COMPOSANTES PRINCIPALES
P. BESSE et L. FERRE
Laboratoire de
Statistique
et Probabilités, U.A. C.N.R.S. 745 Université Paul Sabatier, 31062 Toulouse Cedex FranceE-Mail :
besse @ cix.cict.fr
Rev.
Statistique Appliquée,
1993, XLIRÉSUMÉ
De nombreux critères ont été
proposés
dans la littérature pourguider
le choix de la dimension enAnalyse
enComposantes Principales
(ACP). Undéveloppement
deTaylor
du critère obtenu par Validation-Croisée (cf. Wold (1978), Eastment et Krzanowski (1982), Krzanowski (1983, 1987)),
conséquence
de la théorie desperturbations,
montre, quemalgré
un coût en temps de calcul
important,
ce critère estéquivalent
à ceux prenantsimplement
en compte la part de variance
expliquée.
Mots-clés : Validation Croisée,
Analyse
enComposantes Principales,
Choix de la dimension, Théorie desperturbations.
SUMMARY
Many
criteria have beenproposed
in literature in order to lead the choice of the number of dimensions inPrincipal Components Analysis.
Theperturbation theory
enablesto calculate a
Taylor expansion
of the criterion asperformed
as Cross-Validation. It shows that, in addition tobeing computationally costly,
Cross-Validation offers littleadvantage
over
simpler
methods which are based on the part ofexplained
variance.Key-words :
Cross- Validation,Principal Component Analysis,
Dimension choice, Perturba-tion
Theory.
1. Introduction
L’Analyse
enComposantes Principales
recherche uneapproximation
de lamatrice initiale
(n, p)
des données par une matrice de ranginférieur q
issued’une
décomposition
en valeurssingulières.
Elle fournit ainsi desreprésentations graphiques
dans des sous-espaces de faible dimension. Laquestion qui
se posealors,
etqui
a étélargement
débattue dans lalittérature,
concerne le choix du nombre decomposantes
ou de dimensionsqui
doivent être retenues. Différentesstratégies
ont étéproposées
dont Jolliffe(1986) présente
une revue. Certaines72 P BESSE, L. FERRE
sont des
règles heuristiques
considérant lapart
de varianceexpliquée
ou lecomportement de l’éboulis des valeurs propres
(screegraph),
d’autresproposent
des tests, parexemple d’égalité
des dernières valeurs propres, moyennant deshypothèses probabilistes classiques.
Un derniertype d’approches,
fondées sur destechniques
derééchantillonnage,
ne nécessite pasd’hypothèses
sur les distributions mais consommebeaucoup
detemps
de calcul.La Validation Croisée a été introduite par Allen
(1971)
dans le butd’optimiser
le choix des variables
explicatives
dans le modèle linéaire.Depuis
Craven et Whaba(1979),
elle estégalement
communément utilisée enrégression non-paramétrique
pour
optimiser
leparamètre
delissage
lors de modélisations par des fonctionssplines
et pouroptimiser
la taille de la fenêtre dans la méthode du noyau :Gyôrfi et
al.
(1989).
Ce sont Wold(1978),
Eastment et Krzanowski(1982) puis
Krzanowski(1983, 1987) qui
ontproposé l’emploi
de cettetechnique
pour aider au choix de la dimension en ACP. Cet article se propose de montrer que,malgré
un coûtde calcul
important, l’usage
de la Validation Croisée en ACPn’apporte
pas unerègle
de décisionplus « objective »
que lestechniques
usuellesheuristiques.
Cetteéquivalence
est obtenue par undéveloppement
deTaylor
du critère de la validation croisée utilisant la théorie desperturbations.
-2. Validation Croisée en ACP
L’ACP, qui peut
être introduite de différentesfaçons,
est iciprésentée
comme l’estimation d’un modèle à effet fixe
(voir
e.g. Caussinus(1986)).
Soit{Yi; i
=1,..., n}
n variablesindépendantes
à valeurs dans RP. On suppose que chacune desréalisations yi
observées sedécompose
sous la forme :n
avec
zi
= 0 et où les ei sontsupposés
i.i.d. avecE(ei)
= 0 etVar(ei) = 03C32Ip.
i=l
On pose alors pour
hypothèse
que les effetsfixes zi
sont contenus dans un sous espacesFq
de dimension q inférieure à p ou, cequi
estéquivalent,
que la matriceZ(n
xp) centrée, qui
admet lesvecteurs
commelignes,
est de rang q.Si
Y,
deligne
courantey, désigne
la matrice(n
xp)
desobservations,
l’estimation par les moindres carrés desparamètres
de ce modèle conduit à estimer M par la moyenneempirique y
et à rechercherl’approximation
de la matrice centrée X déduite de Y par une matriceZq
de rang q inférieur à p :Zq
=argmin{tr(X - Z)’(X - Z) 1 Z (n
xp), rang(Z)
=q}.
La solution est donnée par la
décomposition
en valeurssingulières
de X :73
SUR L’USAGE DE LA VALIDATION CROISEE
où
{Uk; k
=1,...,p}
sont les vecteurs propres orthonormés de la matrice des covariancesempiriques (V
=X’X/n) rangés
dans l’ordre décroissant des valeurs propresÀk.
Lesvecteurs tk = 03BB-1/2kXuk
sont vecteurs propres de la matrice W =XX’/n.
En notantUq
la matrice de ces qpremiers
vecteurs propres, onobtient :
Zq
=XUqU’q.
La mise en oeuvre de la validation croisée consiste à minimiser la fonction Press de Allen
qui
évalue laqualité prédictive
d’un «modèle» :où
(i)q2
est une estimation ouprédiction de zi
construite sans tenircompte
del’observation yi et Il.11 représente
la norme usuelle dans RP. Dans le cas del’ACP,
comme
2(’)
est obtenu par laprojection de xi
sur le sous-espaceengendré
parles q premiers
vecteurs propres, Wold(1978),
Eastment et Krzanowski(1982) puis
Krzanowski
(1987)
utilisent uneadaptation
de la fonction Press :où
2("’)
est le vecteur de coordonnées :Les termes indicés par
(i), respectivement (j),
sont obtenus pardécompo-
sition en valeurs
singulières
de Xprivée
de laième ligne, respectivement j ème
colonne. Ce sont
respectivement
les éléments propres des matricesV(i)
etW(j).
Ainsi,
l’estimation de zij par(i,j)qij
n’utilise pas l’élément xij.3.
Développement
par la théorie desperturbations
De la même
façon
queCritchley (1985)
pourl’approximation
d’une fonctiond’influence,
l’élimination d’uneligne (respectivement
d’unecolonne)
dans letableau des données
peut
être considérée comme uneperturbation
de la matrice V(resp. W).
Eneffet,
lasuppression
de laième ligne (resp. jème colonne)
conduità une matrice
V(i) (resp. W(j))
àdiagonaliser qui
s’écrit :Pour n suffisamment
grand,
il estpossible
d’utiliser la théorie desperturba-
tions des
opérateurs
linéaires(Kato, 1966),
pour obtenir lesdéveloppements
des74 P. BESSE, L. FERRE
éléments propres de
V(i) (resp. W(j))
en fonction de ceux de V(resp. W).
Cesdéveloppements
sont valides sousl’hypothèse :
où K est un
majorant
de laplus grande
valeur des normes de(V(i) - V)
et(W(j) - W), pour i
=1,...,?T, et j
=1,...,p.
A l’ordre
2,
on obtientpour k
=1,
... , p :On déduit de ces
expressions 1
ledéveloppement
à l’ordre 2 de(i,j)qij :
De cette
expression
on tire ledéveloppement
de la fonction Press à l’ordre 2 ci-dessous enremarquant
que .03A3ujlujk = 1 n03A3 tiltik = {1 si l = k,
2 ci-dessous en
remarquant que : 03A3ujlujk
= -03A3tiltik = {
0 sinon.1 Nous remercions l’un des relecteurs pour la rectification apportée à ce calcul.
75
SUR L’USAGE DE LA VALIDATION CROISEE
Cette
expression,
facilement calculable àpartir
des résultats del’ACP,
permet d’obtenir une valeurapprochée
de la fonction Press sans utilisation intensive d’un ordinateur et d’économiser ainsi dutemps
de calcul.Cependant,
on notera que pour ngrand,
la fonction Press devient trèsvoisine,
au facteur1/p près,
de lasomme des valeurs propres
négligées :
elle est alors décroissante en q et atteint son minimum pour q =p!
Dès
lors,
la fonction Press seule se révèle inefficace pour déterminer la di- mension. Cela a conduit Wold(1978),
Eastment et Krzanowski(1982)
à considérer des fonctions(différentes)
de Press pour sélectioner une dimension. Parexemple,
ces deux derniers ont
proposé
de comparer la fonctiong( q) = [Press(q) - Press(q- 1)]/Press(q)
à des valeurs arbitraires. Apartir
desdéveloppements ci-dessus,
on obtient aisément celui de cettefonction g
à l’ordre 1 :Ainsi,
pour ngrand,
larègle
de décision se ramène à lacomparaison
dep
Àg/ L Àk
à une valeurarbitraire,
cequi
montre que latechnique proposée,
k=q+1
malgré
une lourde mise en oeuvreinformatique,
est semblable auxtechniques
detype «screegraph»
ou«part
de varianceexpliquée».
En
conclusion,
il semble que latechnique
de ValidationCroisée,
si efficace dans de nombreux domaines de laStatistique,
se heurte ici auxspécificités
del’ACP : estimateurs
biaisés,
modèlesemboîtés,...
dès lors que l’on s’intéresse à l’estimation des yi. Ces difficultéspeuvent cependant
êtrecontournées,
auprix
d’une
perte d’information,
en considérant la stabilité des estimateurs des sous-espaces
Fq (Daudin et al., 1989, Besse, 1992) qui
seuls sont consistants.Annexe
Rappels
sur la théorie desperturbations :
En utilisant les résultats de Kato
(1966)
et sous les conditions mentionnées dans la section3,
on obtient lesdéveloppements
suivants pour laiè"
valeur propresimple Ai (03B5)
et le vecteur propre associéui(03B5)
d’une matriceV(03B5)
s’écrivant sousla forme
V(c)
= V + cU +O(c2) :
Les
expressions présentées
en section 3 sont obtenues parapplication
de cesrésultats aux matrices
V(i)
etW(j)
et en utilisant le faitque tk = 03BB-1/2kXuk.
76 P BESSE, L. FERRE
Références
ALLEN D.M.
(1971).
Theprediction
sum of squares as a criterion forselecting
variables. Tech.
Report
n°23, Dpt
ofStatistics,
Univ. ofKentucky.
BESSE Ph.
(1992).
PCAStability
and Choice ofDimensionality.
Statistics &Probability
Letters,13,
405-410.CAUSSINUS H.
(1986).
Models and uses ofprincipal components analysis.
Multidimensional Data
Analysis,
J. de Leeuw et al.(eds.),
DSWOPress, Leiden,
149-170.CRAVEN
P.,
WAHBA G.(1979). Smoothing noisy
data withspline
functions.Numerische
Mathematik, 31,
377-403.CRITCHLEY F.
(1985).
Influence inprincipal components analysis, Biometrika, 72,
627-636.DAUDIN
J.J.,
DUBYC., TRÉCOURT
P.(1989).
P.C.A.stability
studiedby
thebootstrap
and the infinitesimaljackknife
method.Statistics, 20,
255-270.EASTMENT
M.T.,
KRZANOWSKI W.J.(1982). Cross-validatory
choice of the number ofcomponents
from aprincipal components analysis. Technometrics, 24, 73-77.
GYÖRFI L., HÄRDLE W.,
SARDAP.,
VIEU P.(1989).
Nonparametric
curveestimation from time series. Lecture Note in
Statistics, 60, Springer Verlag, Heidelberg.
JOLLIFFE I.T.
(1986). Principal component analysis, Springer Verlag,
New-York.KATO T .
(1966).
Perturbationtheory
for linearoperators. Springer Verlag,
New-York.
KRZANOWSKI W.J.
(1983).
Cross-validation choice inprincipal component
ana-lysis :
somesampling
results. Journalof
StatisticalComputational
Simula- tion, 18.KRZANOWSKI W.J.
(1987).
Cross-validation inprincipal component analysis.
Biometrics,
43,
575-584.WOLD S.