R EVUE DE STATISTIQUE APPLIQUÉE
F. F ERRATY
Estimations de transformations optimales en ACP curvilinéaire
Revue de statistique appliquée, tome 45, n
o1 (1997), p. 5-39
<http://www.numdam.org/item?id=RSA_1997__45_1_5_0>
© Société française de statistique, 1997, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
ESTIMATIONS DE TRANSFORMATIONS OPTIMALES EN ACP CURVILINÉAIRE
F.
Ferraty
Laboratoire de
Statistique
et Probabilités, UA CNRS D0745, Université Paul Sabatier, 31062 Toulouse cedex France, email :[email protected]
RÉSUMÉ
Cet article concerne la recherche de transformations
optimales,
une par variable,possédant
certainespropriétés
derégularité
et tellesqu’elles
maximisent le pourcentage de varianceexpliquée
par les qpremières
composantesprincipales
calculées sur les données transformées. Ces fonctions non linéaires sont estimées dans le cadre d’un modèle curvilinéaireau moyen de différents lisseurs
splines : splines
delissage, splines hybrides, splines
delissage
monotones et
splines hybrides
monotones. Uneprocédure bootstrap adaptée
au modèle conduit à un choixoptimal
duparamètre
delissage.
De
plus,
enparticularisant
notre classe de fonctions, leproblème
d’estimation par les moindres carrés associé à ce modèle permet de retrouver en casparticulier
les méthodes liées à la notion decodage
flou etpoursuivant
le mêmeobjectif.
Un
jeu
de données simulées permet de comparer cesalgorithmes
alors que deuxexemples
concrets illustrentl’emploi
desplines hybrides
avec ou sans contrainte de monotonie;nous montrons alors comment une telle
pratique
rend l’ACPplus performante
etprécise
soninterprétation
enprésence
de relations non-linéaires ou depoints
suspects.Mots-clés : Modèle curvilinéaire à
effet fixe,
réduction de dimension,transformations opti-
males,splines hybrides, splines
monotones,codage flou.
ABSTRACT
This article concerns smooth
optimal
transformations, one per variable, which maxi- mizes the percentage ofexplained
varianceby
the first qprincipal
componentscomputed
onthe transformed data. These nonlinear functions are estimated in the context of a curvilinear model
by
meanssplines
smoothers :smoothing splines, hybrid splines,
monotonesmoothing splines
and monotonehybrid splines.
Abootstrap procedure adapted
to the model leads to anoptimal
choice of thesmoothing
parameter.Moreover,
by particularizing
our class of functions, theproblem
of the least squares estimation allows to introduce several methods into relations withfuzzy coding.
A simulated data set allows to compare these
algorithms
when twopractical examples
illustrate the use of
hybrid splines
and monotonehybrid splines.
Wedisplay
how a suchpractice improves
theinterpretation
of the PCA in the presence of nonlinearrelationships
and outliers.Keywords :
Fixedeffect
curvilinear model, dimension reduction,optimal transformations,
hybrid splines,
monotonesplines, fuzzy coding.
1. Introduction
Cet article s’intéresse aux méthodes
ayant
pour but de rechercher des transfor- mations non linéaires des observations afind’optimiser l’Analyse
enComposantes Principales (ACP)
des données transformées.Ainsi,
l’ACP «nonmétrique»
connuesous le nom de nonmetric PCA ou encore
appelée parfois
ACP non linéaire(De
Leeuwet al., 1981,
DeLeeuw, 1982, Rijckvorsel, 1982, Rijckvorsel, 1988, Gifi, 1990)
s’ef-forçe
de construire descodages optimaux
dechaque
variable. Les solutionspeuvent
alors êtreengendrées
par une base de fonctions indicatrices(codage disjonctif
com-plet), B-splines (De Boor, 1978, Schumaker, 1981)
ou encoreI-splines (Winsberg
etRamsay, 1983, Ramsay, 1988).
Enplus
des nombreuxparamètres
nécessaires à la construction de ces fonctions decodage,
l’utilisateur doit donner apriori
le nombreq
(q
p où pdésigne
le nombre devariables)
decomposantes principales
retenues,le critère à maximiser étant la
proportion
de varianceexpliquée
par ces qpremières composantes principales.
Dans cet
article,
on introduit ces méthodes comme solution de l’estimation desparamètres
du modèle curvilinéaire à effet fixe.Ayant
observé n vecteursaléatoires
{yi;
i =1,..., nl indépendamment
distribués etprenant
leurs valeurs dans T =Ti
x ... xTp
cIROP,
ce modèle supposequ’il existe p transformations,
une parvariable,
telles que,après
transformation des variables et donc desindividus, chaque ligne
de la nouvelle matrice ainsi obtenue sedécompose
en la somme d’un effet fixe et d’une erreur. Les n effets fixes sontsupposés appartenir
à un sous-espaceEq
deIRP de
dimension q (q p),
les erreurs aléatoires sontsupposées indépendantes
etidentiquement
distribuées. Pourrésumer,
soit I la matrice identité de IRP et soitf = (fi, ... , fp)
une fonctionqui
au vecteur x =lx 1, ... , xi]’ appartenant
à T associe le vecteurf (x) = [f1(x1),...,fp(xp)]’ appartenant
à IRP. Le modèle curvilinéaire à effet fixe s’écrit alors :{yi;i
=1,..., n}
n vecteurs aléatoiresindépendants
dansIRP,
il existe
f ; Vj ~ {1,...,p}, fj
satisfaisant(Cj),
il existe un sous-espace
Eq
dedimension q
tels que :( 1 ) f (yi)
= z, + 6-, ;i
=1,..., n et Vi
E{1,...,n}, zi ~ Eq
avec
E(03B5i)
=0, var(êi)
==u 21.
où
(Cj)
est un ensemble de contraintesagissant
sur le caractère lisse de la fonctionfi -
L’estimation des
paramètres
zi,Eq
dumodèle,
ainsi que celle des transfor- mationsfj,
par les moindrescarrés,
conduit àl’expression
de différentsproblèmes d’optimisation
caractérisés par lejeu
de contraintes(Cj)
considéré. Enconséquence,
la recherche d’estimations non
paramétriques
des transformationsoptimales
mènenaturellement à
l’emploi
de différentstypes
de lisseurssplines.
Besse et
Ferraty (1995) proposent
unalgorithme
de résolutionappelé
SALSApour
Smoothing
Alternative LeastSquares Algorithm
dans le cas des fonctionssplines
de
lissage (Wahba, 1990)
et conduisant à une solutionlorsque
le nombre d’individusest restreint. En
effet,
le calcul desplines
delissage
nécessite l’inversion de matrices degrandes
tailles souvent malconditionnées,
cequi peut
entraîner une faibleprécision
numérique
associée à untemps
de calcul élevé.De
plus,
il estimportant
depouvoir,
dans certainessituations, imposer
unecontrainte de monotonie sur les transformations afin de conserver l’ordre des valeurs observées
(Winsberg
etRamsay, 1983, Ramsay, 1988).
Pour
répondre
à cesquestions : précision numérique, temps
decalcul,
contraintede
monotonie,
cet article propose d’utiliser lessplines hybrides (Kelly
etRice, 1990) qui
sont uncompromis
efficace entre lessplines
delissage
et lesB-splines,
ainsi que deuxapproches
pourprendre
encompte
la contrainte de monotonie.La section 2
présente
donc les différentstypes
de contraintes conduisant auxdifférents
types
delisseurs,
la section 3 résout pour chacun d’eux leproblème d’optimisation qui
lui est associé tandis que la section 4 décrit la version de SALSAqui
conduit à la solution.Quant
à la section5,
elle étudie lesrapports
existant entre la démarcheproposée
etplusieurs
méthodes liées à la notion decodage
flou en montrantl’équivalence
desproblèmes d’optimisation
associés à chacune d’elle.L’application
desquatres algorithmes proposés
aux données ducylindre
deThurstone
(1947,
p.117),
tous écrits en S+(Becker et al., 1988), permettent
de comparer leursperformances.
On montre ainsi quel’algorithme
leplus
efficace etnumériquement
leplus
fiable utilisant lessplines hybrides
nepénalise
en rien laqualité
des estimations obtenues.Enfin,
deuxexemples,
avec et sans contrainte demonotonie,
montrent comment cetteapproche
non linéaire de l’ACPpermet
en deuxétapes :
1)
d’identifier et de mieuxcomprendre
lesaspects
curvilinéaires ou semi linéairesprésents
dans les données ainsi que de révéler des individussuspects (outliers),
2)
de réaliser etinterpréter,
sur les donnéestransformées,
lesgraphiques
del’ACP dans le cadre strictement linéaire
qui
leur estadapté.
2. Transformations lisses 2.1.
Splines
delissage
Soit
yj
la variablestatistique prenant
ses valeurs dans l’intervalleTj
inclus dans IR. On noteyj
=[yj1,... ,yjn]’
les valeursprises
par cette variable sur un échantillon de taille n. Nous considéronsl’espace
de SobolevWmTj
défini par l’ensemble des fonctions deTj
dansIR,
absolument continuesjusqu’à
la dérivée(m - 1)ème
et telleque sa dérivée
même
soit de carréintégrable
surTj
c’est-à-direappartient
àL2 (Tj).
Afin de
simplifier
lesnotations,
nousremplacerons
désormaisWF
parWj.
Pour toutefonction
appartenant
àWj,
nous mesurons sarégularité
au moyen d’une semi-norme définie sur cet espace fonctionnel de la manière suivante :La
spline
delissage
est définie de manièreclassique (Wahba, 1990)
comme lasolution du
problème
suivant :où
zj = [zj1,
...,zjn]
est un vecteur deIRn.
En introduisant le
multiplicateur
deLagrange PCj’
leproblème (2)
devient :De
plus,
soityj
le vecteur dontchaque
coordonnée est transforméepar fj :
avec des notations
matricielles,
il vient que :où
Nj
est la matrice(n
xn) provenant
de la semi- norme del’espace
de Sobolev. Sa constructiondépend
deyj
et faitappel
à la notion de noyaureproduisant
dansWj
(Hastie
etTibshirani, 1990, Wahba, 1990).
Defaçon plus précise,
soit /?l’opérateur qui
à toute fonctionf appartenant
àWj
associef (m) appartenant
àL2 (Tj).
Onconsidère
alors Oj (resp. kj)
un noyaureproduisant
deker~~ (resp. Wj)
et soit0398j (resp. Kj)
la matrice telle que l’élément situé dans laième ligne
et la1 ème
colonnesoit
égale
à0 j (Yi, Yi) (resp. kj (yi, yl )). Ainsi,
nous avons :Notons que la taille des matrices
Kj
pour ngrand
pose à la fois desproblèmes
detemps
de calcul mais surtout deprécision lorsqu’il s’agit
d’inverser de telles matrices souvent mal conditionnées.Un
premier
ensemble(c
=1)
de contraintes :est celui considéré par Besse et
Ferraty (1995).
Larégularité
dechaque
fonction estcontrôlée par le
paramètre
Cjqui
estremplacé
parpcj
dans leproblème d’optimisation.
2.2.
Splines hybrides
Les
splines hybrides proposées
parKelly
et Rice(1990) puis Champely (1994)
dans le contexte de
régression non-paramétrique
sont uneapproximation
dessplines
de
lissage
dans une base deB-splines.
Plusprécisément,
considérons le sous-espaceSk,d(Tj) engendré
par la base deB-splines
normaliséesBk,d(Tj)
={Bjd,l;
l =1,..., r}
où kdésigne
le nombre de noeuds intérieurs de l’intervalleTj,
d ledegré
des
splines et r = k + d + 1. Alors,
avec les notations duparagraphe précédent,
nousappelons spline hybride
la solution duproblème
suivant :La solution de ce
problème apparaît
comme uneapproximation
par des B-splines
dansSk,d(Tj)
cWj
duproblème
delissage (2).
Le
problème (3)
est alorséquivalent
à :La semi-norme s’écrit dans ce cas :
où
Sj
est un vecteur deIR’
etGj
la matrice(r
xr)
induite par lesemi-produit
scalaireentre les éléments de la base de
B-splines
évalués auxpoints
xi.Le
principe
de celissage
est de choisir un nombre de noeuds relativementimportant
de sorte que ce soit leparamètre pj qui
contrôle larégularité
de la solutioncomme dans le cas de la
spline
delissage classique.
Enrevanche,
ce nombre de noeuds et donc r sont choisis de taille raisonnable(r n)
afin de conserver lesbonnes
propriétés numériques
desB-splines
usuelles et destemps
de calculplus
faibles liés à la taille
(r
xr)
des matrices.Nous considérons donc un autre ensemble de contraintes
(c
=2) :
2.3.
Splines
delissage
monotonesL’objectif
de ceparagraphe
est de construire une version monotone d’unespline
de
lissage
en laprojetant
sur le cône des fonctions monotones.Malheureusement,
nous n’avons pasd’expression explicite
de cetteprojection.
La démarche consiste alors àcalculer une
approximation
de cetteprojection
en discrétisant le cône considéré.Delecroix et al.
(1996)
décrivent cetteprocédure
dans le contexte de larégression non-paramétrique
et donnent des résultatsasymptotiques.
Deplus, grâce
à cettetechnique,
il estpossible
d’obtenir d’autrestypes
de contraintes comme la convexité.Plus
précisément,
soitkj (.,.)
un noyaureproduisant
deWj
et soitMi
le cône des fonctions décroissantes deWj
c’est-à-dire l’ensemble desfonctions appartenant
àWj
telle que, pour tout tappartenant
àTj,
la dérivéedes
aupoint t
soitnégative.
Notons
{tji;
i =1,..., nj}
une discrétisation formée par njpoints
deTj
etMj,nj
laversion discrétisée de
mu :
La
proposition
suivantepermet
de calculer laprojection des
sur le cônediscrétisé
Mj,nj.
Proposition
1Soit
fj,Mj,nj
laprojection des
surMj,nj ;
alorsoù
âj = [a{,
...su ] est
le vecteur deIRnj
solution duproblème :
avec
hj
vecteur de IR’i dont lakèlcoordonnées
estégale
à-2fj(t{)
etMj
lamatrice
(nj
xnj)
de termegénéral
Remarquons qu’on
s’intéresse iciuniquement
au cône des fonctions décrois- santes. Pour obtenir laprojection des
sur le cône discrétisé des fonctionscroissantes,
il suffit deremplacer
dans(4)
lesigne
« - » par lesigne
« + » ethj
par -bj.
Pourplus
de
précision
ainsi que pour la preuve de cetteproposition,
nous renvoyons le lecteur à Delecroix et al.(1996).
Considérons le cas
particulier où fj
est unespline
delissage
évaluée auxpoints
Y’i 1... 1 Yi
et soitHj,n
le sous-espace deWj engendré par {kj(., yji);
i =1,..., n}.
Alors,
enreprenant
les notations duparagraphe
2.1 et enposant
pour tout t
appartenant
àTj :
où
ef désigne
laièmecoordonnée
du vecteurel
deIRn. Ainsi,
nous pouvons écrire :et en déduire aisément les valeurs de
bj puis
celles desâj
en utilisant unalgorithme
de
type gradient projeté.
Ce
type
desplines
est associé aujeu
de contraintes(c
=3)
suivant :2.4.
Splines hybrides
monotonesCette seconde méthode
s’appuie
sur la construction desplines hybrides
cal-culées cette fois-ci à
partir
d’une base deI-splines (Winsberg
etRamsay, 1983)
afind’inclure la contrainte de monotonie. Avec les mêmes notations
qu’au paragraphe 2.2,
les1-splines
se définissentanalytiquement
de lafaçon
suivante :quelque
soit 1 variant de 1 à r - 1 etquelque
soit t dansTj = [aj, bj]; {Bjd-1,l;l =
1,...,
r -1}
est la base deB-splines
normalisées(Schumaker, 1981) qui engendre Sk,d-1 (Tj). Puisque
lesB-splines prennent toujours
des valeurspositives,
les1-splines
sont des fonctions croissantes. Soit alors
Ik,d(Tj) = {Ijd,l;
l =1,...,
r -1}
unebase de
I-splines
etJkd(Tj)
le sous-espace fonctionnel deWj engendré
par cette base. Paranalogie
avec lessplines hybrides,
nous proposons de résoudre leproblème d’optimisation
suivant :en
imposant
àfi
d’avoir unsigne
constant. La solution de ceproblème
est uneapproximation
par1-splines
de laspline
delissage
obtenue sous contrainte demonotonie.
Naturellement,
cette fonction monotone hérite des mêmepropriétés
que celles dessplines hybrides :
un seulparamètre
contrôle larégularité
et son calul estrapide.
D’autrepart,
la semi-normepeut
s’écrire :où u est un vecteur de
IR(r-1)
etHj
la matrice((r - 1)
x(r - 1 ) )
induite par lesemi-produit
scalaire entre les éléments de la base deI-splines
évalués auxpoints
xi.Ce dernier
type
desplines
est associé aux contraintes(c
=4) :
3. Estimation
Dans ce
paragraphe,
nous nous intéressons à l’estimation desparamètres
dumodèle curvilinéaire à effet fixe associé aux différents
jeux
de contraintes. Dans cebut,
considérons Y(resp. Z)
la matrice dont leslignes
sont notées yi(resp. zi)
et Dla matrice
diagonale
despoids
des individus :Une estimation par les moindres carrés
pondérés
nous conduit à résoudre leproblème
suivant :avec c = 1 si on
emploie
dessplines
delissage,
c = 2 si onprend
dessplines hybrides,
c = 3 si on
impose
auxsplines
delissage
d’être monotones etfinalement,
c = 4 sion veut obtenir des
splines hybrides
monotones.Besse et
Ferraty (1995)
ont montré que leproblème (5)
estéquivalent
auproblème :
avec les mêmes contraintes
agissant sur fj
et oùQ
est une matrice deprojection D-orthogonale
de rang q. Enremarquant
queil est aussi
équivalent
auproblème :
avec
Q
etfj
obéissant aux mêmes contraintes queprécédemment;
cette dernièreformulation nécessite moins de calculs.
Compte
tenu de(7),
leproblème
de maximisation(8)
revient à trouver lestransformations fj
telles que lepourcentage
de varianceexpliquée
par les qpremiers
axes fournis par l’ACP des variables transformées
f1(y1),..., fp(yp)
soit maximum.En ce
qui
concerne lessplines
delissage
sans contrainte de monotonie(c
=1),
laprocédure
d’estimation ainsi quel’algorithme
de moindres carrés alternéscorrespondant appelé SALSA(i)
sont décrits dans Besse etFerraty (1995).
Il suffitalors
d’ajouter l’étape
deprojection
sur un cône décriteprécédemment
et conduisantà
SALSA(3)
pour obtenir des estimations monotones des transformations parsplines
de
lissage.
Les deux
paragraphes
suivants détaillent laprocédure
d’estimation non-paramétrique lorsqu’on
considère lessplines hybrides
avec ou sans contrainte de monotonie.3.1. Cas des
splines hybrides
Le
problème
à résoudreintégrant
les contraintesCj2)
s’écrit :sous les contraintes que les variances des variables
transformées fj (Y j)
soientégales
à 1 et que la matrice
Q
soit celle d’uneprojection D-orthogonale
de rang q.Soit
Bj
la matrice(n
xr)
de termegénéral
et
Gj
la matrice(r
xr)
telle queProposition
2En utilisant les notations
précédentes,
leproblème (9)
estéquivalent
à :Preuve
Comme les fonctions
fj
sont des éléments deSk,d (Tj),
elles s’écrivent commedes combinaisons linéaires des éléments de la base de
B-splines :
dont la formulation matricielle s’écrit :
En utilisant
l’expression (11),
la semi-normede fj peut
se réécrire de lafaçon
suivante :
ce
qui
entraîne :On déduit aisément de cette dernière écriture que :
Il suffit d’introduire les
multiplicateurs
deLagrange
03C1j pour obtenirl’équiva-
lence entre
(9)
et(10).
a
3.2. Cas des
splines hybrides
monotonesDans ce
but,
nous devons résoudre leproblème
suivant :sous contrainte de monotonie en ce
qui
concerne lesfonctions
enplus
de cellesénoncées au
problème (9)
à savoir : les variances des variables transforméesfj(Yj)
égales
à 1 etQ
une matrice deprojection D-orthogonale
de rang q.Soit
P
la matrice(n
x(r - 1))
de termegénéral
et
Hj
la matrice((r - 1)
x(r - 1))
telle queProposition
3Le
problème (12)
estéquivalent
à :en
imposant
d’unepart,
que les vecteurslui
soient D-normés et d’autrepart,
queles coordonnées des Uy soient toutes de même
signe.
Preuve
Puisque appartient
àJk,d(Tj),
sous-espace fonctionnel deW]y engendré
parIk,d(Tj) = {Ijd,l;
1 =1,...,
r -1},
il existe uj =[u1j,
... ,u(r-1)j]’ dans IR(r-1)
telque, pour tout t dans
Tj :
ce
qui
s’écrit matriciellement :De
plus, (14) permet
de reformuler la semi-normede fj :
ce
qui implique
queet par
conséquent :
Puisque
lesIâ,l
sont des fonctionscroissantes, fj
est monotone dès que lesigne
des coefficients
ulj
est constant. De cefait,
si onimpose
à toutes les coordonnées du vecteur uj d’êtrepositives (resp. négatives), alors
est une transformation croissante(resp. décroissante).
Enfin, l’équivalence
entre(12)
et(13)
est obtenue enprenant
lelagrangien partiel
associé auproblème (12).
Cependant,
afin d’éviter des calculsinutiles,
il estpossible
de déduirel’expres-
sion de
Hj
en fonction de celle deGj
dont la construction a été vue auparagraphe précédent.
Pour cefaire,
remarquonsqu’on peut
reformuler lesI-splines appartenant
àJkd (Tj)
à l’aide de la base deB-splines Bk,d(Tj).
Eneffet,
nous avons :Alors,
lesemi-produit
scalaire entre deuxI-splines appartenant
à la basece
qui implique :
4.
Algorithmes
Dans un
premier temps,
nous donnons l’alluregénérale
del’algorithme
danslequel
s’insèrent les différentes sortes d’estimation décritesprécédemment.
Ils’agit
d’un
algorithme
detype
moindres carrés alternés.Après initialisation, l’algorithme
enchaîne itérativement deux
étapes.
Lapremière
consiste à réaliser unedécomposition
en valeurs
singulières
de la matrice des données transformées pour estimer le sous- espaceoptimal
de dimension réduite. Cetteprojection
étantfixée,
la secondeétape
cherche les estimations
non-paramétriques
des transformationsoptimales.
C’est cettedernière
procédure qui
diffère suivant letype
de contraintes considérées.L’algorithme
enchaîne donc lesétapes
suivantes :i)
Initialisation : soitY(0)
=y1(0)|··· |yp(0)] la
matrice des donnéesinitiales;
à
partir
deyj(0),
on calcule un certain nombre d’éléments nécessaire à la construction dessplines
considérées.ii) kèmeitération :
2.(a) Y(k) = [y1(k)|···|yp(k)] étant fixée,
nous résolvons :où
Q
est une matrice deprojection D-orthogonale
de rang q. La solutionQ(k)
est donnée par la
décomposition
en valeurssingulières (DVS)
deY(k);
2.(b)
étant donnéQ(k),
on résoutpour j
=1,..., p :
avec fj
satisfaisantCJ .
Notons que la
phase 2.(a) correspond
àl’approximation
d’une matrice par une autre de même dimension mais de rang inférieur fixé à q.4.1.
SALSA(1)
Nous
rappelons
brièvement la structure de SALSA dans le cas où on s’intéresse à l’estimation des transformations par dessplines
delissage.
Pourcela,
dans laphase d’initialisation,
onrajoute pour j
=1,...,
p, le calcul de la matriceNj
intervenant dans l’évaluation de lasemi-norme 11 fj 11,,,. Ensuite, 2.(a)
restantinchangé,
il suffitde
remplacer (16)
dans la deuxièmeétape
par :Dans ce cas, la solution
yj(k+1)
est donnée par le vecteur propre de la matriceDQ(k) - pjNj
de taille(n
xn) correspondant
à laplus grande
valeur propre(Besse et Ferraty, 1995).
La construction des matrices
Nj
nécessaires au calcul dessplines
delissage
estfournie en
partie
par l’inversion de matrices(n
xn). Or,
celles-ci sont souvent malconditionnées,
cequi
rend les calculs des estimationslongs
et peu fiableslorsque n
est
grand (n
>50).
4.2.
SALSA (2)
On doit donner a
priori (p
+2)
constantes : la dimension q du sous-espaceEq
contenant les effets fixes que l’on cherche à
estimer,
les pparamètres
delissage
pj intervenant dans l’estimationnon-paramétrique
des transformationsoptimales
ainsique le
degré
m del’espace
de Sobolev.Cependant,
afin d’obtenir des transformationspossédant
desrégularités homogènes,
on se limite à un mêmeparamètre
delissage
pour l’ensemble de celles- ci.
Finalement,
on a besoin d’unparamètre
p pour contrôler larégularité
et dudegré
m. Comme la forme du noyau dans le contexte derégression non-paramétrique,
le choix dudegré
m est secondaire.Quant
à la structure deSALSA(2),
il suffit de lacalquer
sur celle de laprésentation générale
de SALSA enajoutant
d’unepart,
le calcul des matricesBj, Gj
etFj
dansl’étape
d’initialisation et d’autrepart,
enremplaçant (16)
par :sous la contrainte
Proposition
4La solution de
(17)
est donnée par vecteur propre de la matricede taille
(r
xr)
associé à laplus grande
valeur propre avecFj
=Bj’ DBj.
Preuve
La solution de
(17)
maximise la formequadratique
suivante :sous la
contrainte IIBjsjD2 =
1 et oùSpj
est la matricesymétrique
Pour trouver la solution de ce
problème,
nous utilisons la méthode desmultiplicateurs
deLagrange;
soitle
lagrangien
associé à notreproblème
avec À une constantepositive;
alors :De
plus,
et
D’où,
la solutionSJk+l)
est donnée parF-1 2jv(k+1)j,
oùv(k+1)j
est le vecteur propreI-orthonormal associé à la
plus grande
valeur propre deF- 1 2j Spi Fj 2
Le
principal
intérêt lié àl’emploi
dessplines hybrides apparaît
danscette
dernière
opération.
Eneffet,
on calcule ici les éléments propres d’une matrice(r
xr)
alors que
l’usage
dessplines
delissage (SALSA(1))
nousoblige
d’extraire les éléments propres de matrices(n
xn)
et d’inverser la matriceF1 2j. L’algorithme proposé
rendainsi réellement
opérationnelles
cestechniques non-linéaires.
4.3.
SALSA(3)
Ce
paragraphe
décritl’étape
d’estimationnon-paramétrique
fournissant uneversion monotone des
splines
delissage.
Choisissons pourchaque
variableYi ( j
=1,..., p)
unepartition {tj1,...,tjnj}
deTj
constituéede nj points
distinctset reprenons les notations du
paragraphe 2.3;
soityj+
le vecteur de IR n dont laièmecoordonnée
s’écritfj,Mj,nj (yji), yj
le vecteur de IRn dont laième coordonnée
estfj(yji)
et enfin soitDj
la matrice(n
xnj)
telle que :Alors, (4)
s’écrit matriciellement :et on obtient :
Finalement,
pour obtenirSALSA(3),
on calcule les matricesNj, Kj, Dj
etMj
dans laphase initiale, puis,
onajoute
àSALSA(i) l’étape 2.(c) qui
contient laséquence
suivanted’opérations :
ce
qui
fournit une nouvelle matriceY+(k+1)
àpartir
delaquelle
on réitèrel’étape
2.4.4.
SALSA (4)
La construction de
SALSA(4)
est la version monotone deSALSA(2).
Cetalgorithme
est obtenu enremplaçant,
pourtout j = 1,...,
p,Bj (resp. Gj)
parli (resp. Hj);
laphase 2.(b)
devient :sous la
contrainte ~Ijuj~2D =
1. Ceci revient àremplacer
la base deB-splines
parune base de
I-splines
dans la construction dessplines hybrides.
Deplus, "uj >
0 ouuj
0"signifie
que l’on cherche une solution dans le cas décroissant ainsiqu’une
solution dans le cas
croissant;
on retient cellequi
minimise(19).
Une méthode detype gradient conjugué
comme pourSALSA(3) permet
de résoudre ceproblème.
Remarquons
enfin que, comme lessplines hybrides
vis-à-vis dessplines
delissage, l’usage
desplines hybrides
monotones met enjeu
des matrices de taille moinsimportante ((r - 1)
x(r - 1))
que celles liées àl’emploi
dessplines
delissage
monotones
(n
xn).
4.5.
Convergences
Les
algorithmes
décrits ci-dessus fonctionnent tous sur le mêmeprincipe.
Ilsalternent deux
étapes
de maximisationoù,
parconstruction,
le critèrecroît à
chaque étape.
Deplus,
ce critère estmajoré
par le nombre de variables p, montrant ainsi la convergence de ces différentes versions de SALSA vers une solutionqui peut
être locale et doncdépendre
dupoint
d’initialisation.5. Modèle curvilinéaire et
codage
flouLorsqu’on
s’intéresse à des transformationsengendrées
par une base deB-splines
ouI-splines,
on fait intervenirimplicitement
la notion decodage, appelé
aussi
codage
flou(Lafaye
deMichaux, 1978,
De Leeuwet al., 1981,
DeLeeuw, 1982,
De Leeuw etRijckvorsel, 1988, Cazes, 1990).
Voici doncquelques
brefsrappels
surla notion de
codage
et sur les transformations définies àpartir
d’uncodage.
Considérons maintenant une subdivision de
Tj = [aj, bj] :
laquelle
définit unepartition
Définition 1
Un
codage
deYi
est uneapplication multivoque Oi
telle que : JR ~ IRmjYj ~ oi (y) = [~j1(Y),
... ,~jmj (Y)].
Pour k =
1,..., mj, ~jk est appelée
fonction decodage
relative àTkj.
L’exemple
leplus
usité consiste à choisir pour fonction decodage 03k
la fonction indicatrice1Tkj
de l’intervalleTkj;
on obtient alors lecodage disjonctif complet
de
yj
utilisé enAnalyse
Factorielle desCorrespondances Multiples (AFCM)
pour transformer une variablequantitative
en une variablequalitative.
La matrice obtenue par
codage
notée03A6j
a pour termegénéral
Définition 2
Une transformation h de
Yi
est une combinaison linéaire des fonctionscodages
où
vectf 011,
...,~jmj} désigne
le sous-espace vectoriel deL2 (Tj) (classe
de fonc-tions de carré
intégrable
à valeurs dansTj) engendré
par les fonctions decodage
~j1,...,~jmj.
Les
propriétés
de la transformation ainsi construite sont induites par celles des fonctions debase; ainsi,
des transformationsétagées
conduisent aucodage disjonctif complet.
On note
yj
le vecteuryj
transformé :où
aj = [aj1,..., aij ]’
est un vecteur de IRmj.Soit ~·~D,I
la norme usuelle dansl’espace Mn,p
des matrices n x p :x-1
étant lajèmecolonne
de Xavec j
variant de 1 à p.Dans la
pratique,
les fonctions decodage
lesplus
usuelles(procédure prinqual
de
SAS, 1989) peuvent
être un ensemble de fonctions indicatrices(codage disjonctif
complet),
une base deB-splines
dedegré
1 ou3,
une base deI-splines (splines croissantes) permettant d’engendrer
des fonctions monotones. Tous cesexemples
debases
dépendent
d’unepartition,
fixée parl’utilisateur,
de l’intervalle danslequel Yi prend
ses valeurs.Reprenons
les notationsprécédentes
et posons :Alors,
leproblème (5)
s’écrit :et, comme la matrice
Y
=[03A61a1|···|03A6pap]
des données transformées est centrée parconstruction,
Z l’estégalement.
La contrainte sur la norme des(bJa-1 (ou
uneautre du même
type)
est nécessaire afind’échapper
à une solution triviale.Proposition
5Les
problèmes
suivants sontéquivalents
auproblème (20) :
et
T’qTq diagonale
avecreprésentent
les p vecteurslignes
de la matriceTq ;
projection D-orthogonale
de]Rn de rang q;avec
Pq projection orthogonale
de IRP de rang q;où cor
désigne
le coefficient de corrélation.Ces
problèmes équivalents, qui correspondent
aux différents formulationsadoptées
dans lalittérature, s’interprètent
comme la recherche des transformations des variables initialesqui
rendent l’ACP des données transforméesoptimale
au sensde la somme des q
premières
valeurs propresqui
est aussi la somme des coefficients de corrélationcanonique
entre variables initiales transformées et variablesprincipales (problème (24)).
Preuve
i)
Montrons(20)
~(21)
Par
décomposition
en valeurssingulières
de Z on a :D’où
et,
compte
tenu de(25)zj
=Uqtj,
il vient que :ii)
Montrons(20) ~ (22).
Soit
projection D-orthogonale
de IR’ surIm(Z)
alors :et comme
alors
trW0Q0q
atteint le maximum et donctrW0Q0~q
le minimum cartrwo
= p, du fait de la condition de normalisationagissant
sur les données transformées :mais aussi
et donc
Ceci contredit
l’hypothèse
initiale Y* et Z* solutions de(20), trW*Q*~q
estdonc le minimum atteint par
(22).
Soit
yO
etZO
solutions de(20)
alors :Mais,
siQ0q
est laprojection
sur : cequi implique
et donc
Ceci est
impossible
carQ*q
et Y* sont solutions de(22),
et doncQ*qY*
= Z*et Y*
sont solutions de(20).
iv)
D’une manièreanalogue,
on montre que(20)
~(23).
avec
~Qqyj~2D = (Qqyj)’Dyj
et oùyj = 03A6jaj
est lajèmecolonne
deY.
Soit
{ul, ... , uq}
une base D-orthonormée d’un sous-espace vectoriel deIRn
de dimension q; onpeut
écrire alors :Finalement :
On a vu
précédemment qu’il
suffisait deprendre
les espacesBj engendrés
par une base de fonctions indicatrices
(adéquates)
pour obtenir uncodage disjonctif complet
dechaque
variable.Ainsi,
si l’on s’intéresse auproblème (24)
avec q = 1(on regarde uniquement
laplus grande
valeurpropre),
on retrouve la recherche dupremier
axe de l’AFCM. Enrevanche,
leproblème (21)
de laproposition (5)
minimisela fonction
perte
de la définition usuelle de la «nonmetric PCA»(De
Leeuw etRijckvorsel, 1988).
Il suffit par la suite deprendre
les espacesBi engendrés
parune base de
B-splines
pour obtenir les résultats de De Leeuw et al.(1981).
Notons que les méthodes de
codage présentées
iciintroduisent,
enplus
de ladimension q, de nombreux
paramètres
pourchaque
variable :- les nombres de noeuds en
chaque point,
cequi
conditionne larégularité
destransformations,
- la
position
de cesnoeuds,
- le
degré
dessplines.
Bien
qu’il
existe desalgorithmes qui optimisent
le choix de ces noeuds(procédure MACCA, Rijckvorsel
etTessitore, 1993),
le coût entemps
de calcul esttrop
élevé pourpouvoir
lesappliquer
dans notre contexte. Enrevanche,
les estimationsnon-paramétriques
des transformationsoptimales proposées
dans cet article limitentce nombre
important
deparamètres
que l’on doit fixer apriori
à un seul : leparamètre
de
lissage.
6.
Exemples
6.1. Le
cylindre
de ThurstoneDans cette
section,
nous comparons les résultats obtenus par cesquatre
algorithmes
sur des données simulées dont la structure estcalquée
sur celledu cylindre
de
Thurstone, lesquelles
ontdéjà
faitl’objet
deplusieurs
études(Kruskal
etShepard, 1974, Winsberg
etRamsay, 1983).
On définit une familleparamétrique
decylindres
à
partir
de sa hauteur notée a ainsi que de lasuperficie
de sa base que l’ondésigne
par b. Pour
chaque cylindre,
on considère lescaractéristiques
suivantes :Pour chacune de ces variables mesurées sur les
cylindres,
àl’exception
de la7ème,
une transformationlogarithmique permet
de les écrire comme des fonctions linéaires desparamètres log(a)
etlog(b).
Finalement,
les données simulées concernant n = 50cylindres
sontgénérées
comme suit :
i)
soit ai(resp. bi) n
nombrespseudo-aléatoires
uniformément etindépendem-
ment