R EVUE DE STATISTIQUE APPLIQUÉE
S TÉPHANE G IRARD B ERNARD C HALMOND J EAN -M ARC D INTEN
Une ACP non linéaire basée sur l’approximation par variété
Revue de statistique appliquée, tome 46, n
o3 (1998), p. 5-19
<http://www.numdam.org/item?id=RSA_1998__46_3_5_0>
© Société française de statistique, 1998, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
UNE ACP NON LINÉAIRE BASÉE
SUR L’APPROXIMATION PAR VARIÉTÉ
Stéphane Girard*,
BernardChalmond**,
Jean-Marc Dinten**** INRIA
Rhône-Alpes,
ZIRST 655 avenue del’Europe,
38330 Montbonnot Saint Martin* * Université de
Cergy-Pontoise
et ENS Cachan (DIAM-CMLA) 2, avenue A. Chauvin, 95302Cergy
Cedex* * *
LETI (CEA -
Technologies
Avancées) DSYS-CEN/G 17 avenue desMartyrs,
38054 Grenoble Cedex 9
RÉSUMÉ
Cet article concerne la
généralisation
non linéaire del’Analyse
enComposantes
Prin-cipales
(ACP). Il est connu que l’ACP construit, sous forme d’un espace vectoriel, le modèleoptimal
d’unjeu
de donnéesgaussien. Lorsque
les données n’ont pas une distribution gaus- sienne, l’ACP ne construit pas le modèleoptimal
dupoint
de vue des résidusd’approximation.
Nous proposons une méthode
d’approximation
par variétégénéralisant
en de nombreuxpoints
les
propriétés
de l’ACP mais permettant dedépasser
sesperformances d’approximation.
Notremodèle bénéficie d’une mise en oeuvre très
simple,
basée sur une construction incrémentale.A
chaque
itération de sa construction, la dimension de la variété est incrémentée et les rési- dusd’approximation
diminués. Nous montrons uneapplication
à la définition d’un modèle de l’arcade dentaire humaine.Mots-clés :
analyse
en composantesprincipales,
modèlesauto-associatifs
non linéaires, variétés,splines.
ABSTRACT
This article deals with the non linear
generalization
of thePrincipal Component Analysis
(PCA). It is well-known that PCA builds, thanks to a linearsubspace,
theoptimal
modelof Gaussian data. When the set of
points
is not Gaussian, PCA does not build theoptimal
model from the
approximation
residualspoint
of view. We propose a manifoldapproximation
method both
generalizing
in manypoints
the PCAproperties
andimproving
itsapproximation performances.
This model benefits of a verysimple implementation
based on an incremental scheme. At each iteration of the modeldesign,
the manifold dimension is incremented and residual errors decreased. Anapplication
to themodelling
of human dental arches ispresented.
Keywords : principal
componentanalysis,
non-linear auto-associative models,manifolds,
splines.
Nous nous intéressons au
problème
de lagénéralisation
de l’ACP dupoint
de vuede
l’approximation.
En d’autre termes, nous étudions les méthodes de construction de modèlesqui,
étant donné un nuage d’ungrand
nombre depoints
dans un espacen-dimensionnel,
cherchent à lereprésenter
de manière concise. Ces modèles sontappelés
auto-associatifs(AA)
et ils sont définis par uneéquation implicite.
L’ACPfait
partie
de cesméthodes,
elle construit un modèle auto-associatif linéaire. Cet article est consacréplus particulièrement
aux modèles auto-associatifs définissant une variété(AAV).
Dupoint
de vuegéométrique,
ils’agit
de construire une variétéapprochant
au mieux le nuage de
points
dedépart.
En ce sens, ces modèlesgénéralisent
l’ACPqui
réalise uneapproximation
par un sous-espace vectoriel.La
première partie
de cet article est consacrée à laprésentation
de l’ ACP et à lamise en évidence de ses limites. Nous
poursuivons
enprésentant
unegénéralisation
non linéaire de celle-ci
permettant
dedépasser
ces limitations. Dans une troisièmepartie,
nous détaillons la mise en oeuvre de notre méthode pourl’appliquer
dans unedernière
partie
à la modélisation de l’arcade dentaire humaine. Nous concluons enprésentant
nos directions de recherche actuelles.1. Position du
problème
Notons
{xj}j=1...N
le nuage de Npoints
de Rn à modéliser. Laième (1 -
in) composante
dupoint xi ( 1 j N)
est notéexi.
Dans unpremier temps,
nousrappelons
leprincipe
de la modélisation parACP, puis
nous illustrons ses limites surun
exemple simple
avant deprésenter quelques propositions
récentes pourdépasser
ces limites.
1.1.
L’Analyse
enComposantes Principales
Par souci de
simplicité,
nous supposerons dorénavant que les données sont centrées. L’ACP construit alors un modèle linéaire de l’ensemble depoints
enl’approchant
par des sous-espaces vectorielsd’équation :
d
désigne
la dimension du sous-espacevectoriel,
et l’ensembled’axes {ak}k=1...d
une base orthonormée de ce sous-espace. Les axes sont choisis de
façon
à minimiserla distance
quadratique
moyenne entre les données et le sous-espace vectoriel. Parconséquent,
l’ACP construit le meilleur modèle linéaire dans le sens où il minimise la norme,C2
du modèle aux observations. Deplus,
onpeut
montrer que dans lecas où les données sont distribuées suivant une loi
gaussienne,
cettepropriété
restevraie
parmi
l’ensemble des modèles detype
auto-associatif[8]. Ainsi,
il est clairque les limitations de l’ACP
apparaîtront
dès lors que les données ne seront pas issues d’une loigaussienne.
Prenons parexemple
le cas du nuage depoints
deR3
présenté figure
1. Bien que cet ensemble depoint
soit de dimensionintrinsèque 1,
l’ACP demande de construire un modèle de dimension 3 afin d’obtenir une fraction d’informationreprésentée supérieure
à 75 %.FIGURE 1
Nuage
«hélice».1.2.
Quelques généralisations proposées
Les « Courbes
Principales » [ 12]
sont sans doute lagénéralisation
laplus
intuitivede l’ACP. L’idée est de substituer aux axes
a k
de l’ACP des courbes.Cependant,
iln’est pas
possible
d’obtenir uneexpression analytique
del’opérateur
deprojection
surles
courbes,
et le modèle obtenu est donc nonparamétrique.
Deplus,
cetteapproche
est limitée à la construction de
courbes,
variétés de dimension 1. Citonségalement
lesapproches
detype
réseaux de neurones, etplus précisément
lesperceptrons
en mode auto-associatif[ 14]. L’équation
du modèle est obtenue en introduisant unopérateur
non linéaire a
(appelé
fonctiond’activation)
dans le modèle de l’ACP :Il a été constaté
[3]
que les modèles ainsi construits nepermettent
pas d’obtenir des résidus inférieurs à ceux de l’ACP en raison des difficultés de minimisation de la distance modèle-observation.Une
approche
alternative est l’ACP curvilinéairequi
consiste à rechercher des transformations non linéaires des variables[5]
de manière à maximiser la fraction d’informationreprésentée
par l’ACP sur les données ainsiprétraitées.
Nous allons
quant
à nousprésenter
unprincipe
de construction de modèlesauto-associatifs, généralisant
les modèles detype
ACP ou réseaux de neurones. Ces modèles sont définis defaçon à,
d’unepart
conserver lespropriétés théoriques
del’ACP,
et d’autrepart permettre
d’obtenir aisément de meilleuresapproximations
dans un contexte non linéaire.
2. Modèle non linéaire
Nous
présentons
tout d’abord lesprincipes
de basequi
nous ont conduit dans la construction d’un modèle non linéaire.Ensuite,
nous illustrons cesprincipes
dans descas
simples puis
nous donnons lespropriétés importantes
que vérifie notre modèle.2.1.
Principe
Nous avons vu que l’ACP réalise une
approximation
du nuage depoints
parun sous-espace vectoriel. Afin d’obtenir une
plus grande
classe demodèles,
nouscherchons pour notre
part
à construire desapproximations
par des variétés.Définition 1 Un modèle
auto-associatif défini
par une variété(AAV)
estreprésenté
parl’équation implicite
suivante : .’G(03B2,x) = 0 (1)
-
(3
est un vecteur deparamètres
deRP,
pquelconque ;
-
G(03B2,.),
à(3 fixé
est unefonction
de Rn dansR n
@supposée
continûmentdérivable,
et de telle sorte que(1)
soitl’équation
d’unevariété ;
- On
appelle
alors dimension dumodèle, la
dimension de la variété.Nous focalisons notre attention sur les modèles dits
«composés».
Nous verronspar la suite que ces modèles
peuvent
être construits itérativement. Achaque itération,
la dimension du modèle est incrémentée de manière à
augmenter
laprécision
aveclaquelle
onreprésente
les données.Définition 2 Le modèle est dit
composé (AAVC)
si deplus
Gs’écrit 1
:Avec ~k ~ {1,...,d} :
-
Gk ((3k , .) kème composante
dumodèle, fonction
de R ndans R n
-
(3k kème
vecteur deparamètres,
de dimension Pkquelconque.
Cette
décomposition
demandecependant
encore de construire des fonctions àn variables. Or ceci pose
problème lorsque
la dimension n del’espace
estimportante,
car
apparaît
le «fléau de la dimension» ou «curse ofdimensionality».
Huber[13]
aen effet mis en évidence sur un
exemple
trèssimple
que dans ce cas, même pour desjeux
de données de taille N trèsgrande, l’espace
reste relativement vide.L’idée est alors de construire des modèles
compressant
les données pour s’affranchir autant quepossible
du fléau de la dimension. Pourcela,
nous introduisonsun
opérateur
deprojection
choisi linéaire defaçon
à éviter les limitations des «courbesprincipales» déjà évoquées.
1 Le signe
F7
désigne ici la composition des opérateurs.Définition 3 Nous
appelons projection
sur l’axe a,normé, l’opérateur
suivant :La seconde
brique
de construction des modèles auto-associatifs estl’opérateur
«dual»
qui permet
d’associer à une valeur dans R unpoint
del’espace
R’.Définition 4 Nous
appelons
restaurationl’opérateur :
- sa est
supposé
continûmentdérivable ;
- a est un ensemble de
paramètres.
Le choix du
type d’opérateur S03B1, appelé
aussi fonction delissage
en raisonde sa
régularité,
définit engrande partie
letype
de modèle construit. L’utilisation combinée des deuxopérateurs
Sa et Pa parcomposition
sa papermet
d’associer à toutpoint
de ]Rn un autrepoint
«lissé» deRn,
mais enayant
dans l’intervallecompressé
l’information. Cettetechnique
est aussi utilisée dans la construction des réseaux de neurones où l’onparle
de «bottleneck». Plusgénéralement,
les modèles auto-associatifs sont basés sur cetteapproche.
Nous montrons maintenant comment construire la fonction G àpartir
deS03B1P03B1,
legain apporté
par cetteapproche
étant deramener la construction de
G,
fonction de nvariables,
à celui deSa,
fonction d’une seule variable.Définition 5
Composantes du
modèle AAVC.- Les
composantes
du modèle sontdéfinies
parGk(03B2k,.)=defIdRn - sak pak,
VA;
e {1... d},
l’ensemble deparamètres
étant(3k
=(ok, ak).
- On note
rj(d),
le résidud’approximation
del’observation xj par le modèle,
rj (d) = G((3, xj).
Le résidu total est donné
par
iAinsi
chaque composante
du modèle évalue la différence entre unpoint
etsa
projection-restauration.
Afin d’avoir unpoint
de vue encoreplus
intuitif sur cesmodèles,
nous montrons dans leparagraphe
suivant comment lesinterpréter
dans lescas d = 1
puis
d = 2.2.2. Illustrations
Le modèle s’écrit dans ce cas :
Sous réserve
d’imposer
une conditionnaturelle,
nous exhibons deuxpropriétés
essentielles du modèle.
Lemme 1 Si on
impose
que larestauration-projection
soit l’identité :alors on a les deux
propriétés
suivantes :1. Le modèle
représente
une variété de dimension 1.2. Le résidu
d’approximation
dechaque point
estorthogonal
à l’axe choisi :Preuve : La démonstration du
premier
résultat esttechnique
etpeut
être trouvée dans[8].
Le second
point
est vérifié en formant leproduit
scalaireen utilisant la
propriété (2).
Le
premier point
établit la nature du modèle à unecomposante :
ilreprésente
unecourbe d’un certain
type (sans point
derebroussement,
etqui
ne s’auto-intersectepas).
La condition
(2) signifie
que nous cherchons à construire une fonction de restaurationqui
soit l’inverse à droite de laprojection :
si l’on restaure un réelpuis
que l’on lereprojete,
on désire retrouver le mêmepoint
de R. Laquestion
naturelle est alorsde savoir si l’on peut satisfaire la condition
inverse,
à savoirSI’ Pal 1 (xj)
=xi,
Vj E {l,..., 7V},
defaçon
à obtenir une restaurationparfaite.
Laréponse
estmalheureusement
négative, l’opérateur
deprojection étant,
dans lamajorité
des cas, noninjectif
sur lejeu
de données. Nous verronscependant
lors de la mise en oeuvre de la méthode que l’onpeut
construire unaxe al
favorisant une restauration satisfaisante :S03B11P03B11(xj) ~ xj, ~j
e{l,... , 7V}.
Le résultat(al, rj (1)) = 0, Vj
E{!,...,7V}
découlant de la condition
(2)
est trèsimportant
car il vapermettre
d’itérersimplement
la construction du modèle.
Le modèle avec d = 2 est de la forme :
Le
principe
estsimple,
lespoints xi
sontprojetés
et restaurés unepremière
fois
puis
l’écart de restauration est calculé parrj (1) = (1 dire - Salpal)(X-1)
etle même travail est effectué sur ces résidus. De
plus,
nous savonsgrâce
à(3)
queceux-ci sont dans
l’hyperplan
de normaleal.
Onpeut
donc choisira2
etS,2
dans cemême
hyperplan.
Ceprincipe
sera à la base de toutes lespropriétés
du modèle(cf.
paragraphe 2.4).
Finalement,
on aG(03B2, xi )
=(1 d}Rn - S03B12P03B103B1)(rj(1)),
cequi
se noteégalement rj(2). L’algorithme
de construction itérative d’un modèlecomposé
obéità cette même
logique. Ainsi,
les données sont modélisées suivant deux directionsorthogonales al
eta2.
Leproblème
du fléau de la dimension est contourné en neconsidérant que
quelques
directions intéressantes.On montre alors que sous certaines
hypothèses
la dimension du modèle obtenu est le nombre d d’axes choisis(cf. paragraphe 2.4).
Leproblème principal
est lechoix des axes,
problème pouvant
être résolu par destechniques
dites de Poursuite deProjection (PP).
Uneapproche classique
enanalyse
des données est de choisir desaxes suivant
lesquels
la distribution est laplus éloignée
d’une loigaussienne [6]
defaçon
à montrer à l’utilisateur laspécificité
du nuage depoints.
Dans le casgénéral,
onmaximise une fonctionnelle
I (X, a) appelée
index. A titred’exemple,
l’index dans le cas de l’ACP est la varianceprojetée : I(X, a)
=var( (X, a)).
Un indexadapté
àla
spécificité
de notreproblème
estproposé
dans leparagraphe
3.Ce
type d’approche
est utilisé dans lesproblèmes d’approximation [11] où
les fonctionssak
sont fixées par le choix de la fonction derégularisation,
ou dans lesalgorithmes
detype
PPR(Poursuite
deProjection
enRégression) [7]
dans le cas dela
régression,
le choix de ces fonctions étant alors laissé à l’utilisateur. Dans notre cas, letype
des fonctions delissage
estégalement
un desdegrés
de liberté du modèle.Une famille de fonctions
splines
estproposé
dans leparagraphe
3.2.3. Résumé En
résumé,
le modèle AAVC s’écrit :Avec les conditions suivantes :
Il est construit selon le
principe présenté
dans leparagraphe précédent,
itéré dfois.
Les
étapes (5)
et(6)
del’algorithme
ci-dessous serontprécisées
dans leparagraphe
3. On y proposera notamment un famille de fonctions delissage {S03B1}03B1,
un index de choix d’axe de
projection I,
ainsi que destechniques
pour lesoptimiser.
Auparavant,
nous montrons dans leparagraphe
suivantquelques propriétés théoriques
de ce
type
demodèle, indépendantes
de ces choix.Algorithme
de construction d’un modèle AAVC 1. Initialisation :d ~ 0
rj(0) ~ xj j =
1... N2. Calcul des nouvelles d +
1 ème caractéristiques :
- Calcul de l’axe
ad+1.
- Calcul des
paramètres 03B1d+1.
3. Mise à
jour
des résidus.4. Retour en 2. si les résidus sont
trop importants.
2.4.
Propriétés
Nous
énonçons
deuxtypes
derésultats,
lespropriétés d’approximation
dumodèle, puis
nous donnons des éléments decomparaison
du modèle AAVC avecl’ACP.
Proposition
1 Les modèles AAVC ont lespropriétés
suivantes :1. Le modèle avec d
composantes représente
une variété de dimension d.2. La suite des résidus moyens est décroissante.
3. Pour d = n,
le
modèle est exact.Ainsi, l’algorithme
de construction de modèle réalise desapproximations
deplus
enplus précises
par des variétés de dimensions croissantes. Nous avonsdéjà
vuavec le lemme 1 que pour une dimension d =
1,
le modèlereprésente
un certaintype
decourbe,
pour d =2,
ils’agit
de surfaces. Dans le cas où d estquelconque,
onparle
devariété, partie
de Rn localement semblable à unepartie
ouverte deR d [1].
La preuve de cette
propriété
repose essentiellement sur la condition(2)
et est établiedans
[8].
On met àprofit
cespropriétés
pour définir la fraction d’information.Définition 6 On
définit Qd la fraction d’information représentée
par le modèle à d axes :De
façon évidente,
on a0 Qd
1 et on déduit des résultatsprécédents
que la suite(Qd)d
est croissante et queQn
= 1(figure 2).
Cettegrandeur permet
de choisir la dimension du modèle en fonction de la fraction de l’information que l’on désirereprésenter. Remarquons
que cespropriétés
sont lesgénéralisations
directes de celles de l’ACP. Lacomparaison
de ces deuxtypes
de modèle estl’objet
de laproposition
suivante.
FIGURE 2
Comportement
de lafraction d’information.
Proposition
2 Le choix defonctions
de restaurationSak (t)
=tak,
conduit aumodèle de l’ACP.
Il
apparaît
donc que l’ACP est un casparticulier
des modèles AAVC où l’on choisit comme fonction de restauration larétroprojection.
Onpeut
allerplus
loin dansla
comparaison
entre les deux méthodes en montrant que le seul modèle AAVC additif est le modèle de l’ACP[8].
Nous abordons les
problèmes pratiques
de mise en oeuvre de la méthode dans leparagraphe
suivant.3. Mise en 0153uvre
Afin
d’implémenter l’algorithme
de construction demodèle,
nous devons enpréciser
sa secondeétape
etplus particulièrement
lesoptimisations (5)
et(6).
Pourcela nous allons décrire le choix des fonctions de restauration ainsi que celui de l’index de
projection.
Le
type
de fonction de restauration détermine engrande partie
la nature dumodèle. Par
exemple,
nous avons vu avec laproposition
2 que choisir des fonctions de restauration linéaires conduit à une ACP. Nous proposons de choisir des fonctions delissage splines qui
sontperformantes
dans lesproblèmes
derégression [4].
Pour
cela,
on se donneTM
une subdivision d’un intervallela, b]. TM
=la
=to,
ti, ... tM, tM+l
=b}.
Unpoint ti, 0
i M + 1 estappelé
unnoeud,
et unpoint ti, 1
i M estappelé
un noeud intérieur(M représente
donc le nombre de noeudsintérieurs).
On choisit alors comme fonctions delissage :
Avec
s3(TM)
l’ensemble dessplines cubiques
construites sur la subdivisionTM
à M noeuds intérieursLe choix du nombre de noeuds M est alors
crucial,
il détermine la dimension del’espace
vectoriels3 (TM )
et donc lacomplexité
du modèle. Nous le déterminons par validation croisée[17]
defaçon
à obtenir un boncompromis
entreapproximation
etgénéralisation,
l’ensemble desparamètres
03B1 est alors obtenu par(6) qui
se résume dansce cas à l’inversion d’un
système
linéaire. Cette estimationpeut
aussi êtreinterprétée
comme la construction d’une fonction de restauration sa vérifiant
S03B1Pa(xj) ~ x
Vj ~ {1,..., N}.
Encomparant
cette condition avec(2)
PaS03B1 =IdR,
ilapparaît
que les
performances d’approximation
du modèle seront très liées aux choix de l’axe deprojection.
Nous avonsdéjà
mentionné que le meilleur casS03B1Pa(xj) = xi,
Vj EE f 1, .... N}, n’apparaît
que rarement,puisqu’il correspond
au cas oul’opérateur
de
projection
estinjectif
sur lejeu
de données(figure 3b).
Le rôle de l’index deprojection
est alors de favoriser des fonctions deprojections
pourlesquelles
cettecondition est «presque» vérifiée. Il est
possible
dequantifier
ceci encomptant
le nombre depoints
dujeu d’exemples qui
sontplus proches
voisins dans R’ etqui
nele sont
plus après projection.
Lafigure
3 illustre ceprincipe.
Dans le
premier
cas(figure 3a),
deuxpoints
voisinsdans R,
ne le sont pas dansRn,
et laprojection
conduit à dessuperpositions. Intuitivement,
l’index deprojection peut
se décrire ainsi :03A6
représente
la fonctionindicatrice : 03A6(P)
= 1 si P estvraie,
0 sinon.L’expression analytique
exacte de l’index neprésente
pas d’intérêtparticulier.
Notonscependant
que cette fonction n’est pas continue par
rapport
à a, cequi
interdit toute maximisation basée sur destechniques
degradient.
Nous avons mis en oeuvre unalgorithme
derecuit simulé
[2]
pour obtenir son maximumglobal
et ainsi réaliserl’opération (5)
del’algorithme.
L’ensemble de ce schéma est testé dans leparagraphe
suivant sur desdonnées
réelles,
pour une validation sur des donnéessimulées,
on pourra se référer à[10].
(a) Axe qui ne conserve pas les voisinages (b) Axe qui conserve les voisinages FIGURE 3
Choix de l’axe de
projection.
4.
Exemple d’application
Afin d’illustrer cette
étude,
nous reprenons leproblème
de la modélisation de l’arcade dentaire humainedéjà
abordé dans[16].
Pour les raisonsévoquées
par les auteurs, nous focalisons notre attention sur la modélisation de l’arcade mandibulaireou inférieure.
Chaque
dent étantrepérée
par une ouplusieurs pointes,
l’arcademandibulaire est alors
représentée
par un ensemble de 22points
duplan, après suppression
despointes correspondant
aux dents de sagesse. Nousdisposons
d’unjeu
de 71 données(figure 4).
A titred’exemple,
lafigure
6 montre l’ensemble despoints
caractérisant l’arcade de l’individu 13. Notonsalors {(~ji, 03BEji) 1 i 22}
l’ensemble des
couples
de coordonnées despoints
formant l’arcade mandibulaire dujème
individu. On obtient alors un ensemble de N = 71 observations de dimensionn = 44 en
posant :
L’ACP
permet
alors de construire un modèle linéaire du nuage obtenu et, dece
fait,
un modèle linéaireparamétré
de l’arcade mandibulaire humaine. Notons que l’utilisation de l’ACP pourreprésenter
des déformations de courbes est due à Rice et Silverman[15].
Lafigure
5 montre la décroissance du résidud’approximation
enfonction de la dimension du modèle choisi. Pour obtenir une fraction d’information de 95
%,
ilapparaît qu’un
modèle de dimension d = 9 est nécessaire.Nous avons
également
utilisé notreprocédure
de construction de modèle nonlinéaire. Par souci de
rapidité,
nous avons utilisé les mêmes axes deprojection
quel’ACP,
les axes obtenus par maximisation deI n’apportant
pas, sur cetexemple,
ungain significatif.
Les fonctions de restauration sont dessplines cubiques
construites sur une subdivision de M = 40 noeuds. De même que pourl’ACP,
nous avonsreprésenté
FIGURE 4
Superposition
des 71 arcades de 22points.
les résidus
d’approximation
à diversesétapes
de la construction du modèle. Ilapparaît
que ceux-ci sont
toujours
trèsinférieurs,
pour des modèles de même dimension à ceuxde l’ACP. Par
exemple,
pour avoir une fraction d’information de 95%,
un modèle de dimension 2 est suffisant alors que l’ACP demandait un modèle de dimension 9. Enfait,
un modèle AAVC de dimension 4permet
unereprésentation quasiment
exactede l’arcade inférieure. Les 4
paramètres
de ce modèle non linéaire fournissent alors autant d’indices demorphologie
dento-faciale.Remarquons
que le modèle associépermet
dereprésenter
aussi bien des arcades «saines»(figure 6)
quepathologiques (figure 7),
alors que les limites du modèle linéaire de l’ACP sont surtoutmarquées
surces dernières. Cette nette distinction entre les deux méthodes est dûe à l’utilisation de fonctions de restauration non linéaires par le modèle AAVC. Les fonctions
splines
de
s3(T40) peuvent beaucoup
mieuxs’adapter
aux données que les droites utilisées par l’ACP.Le lecteur intéressé pourra
également
consulter[9]
pour uneapplication
desmodèles AAVC à la construction de modèles de coupes de fémur.
5. Conclusion
Nous avons
proposé
unegénéralisation
non linéaire de l’ACP. Lepoint
dedépart
de cette étude a été de remarquer que l’ACP construit un modèle linéaire enapprochant
les données par un sous-espace vectoriel. Afin d’obtenir de meilleuresapproximation,
il est alors naturel de considérer des modèles de variétés. Nousavons
proposé
des modèles detype composé
offrant le doubleavantage
d’une constructionsimple,
basée sur unalgorithme
itératifd’approximations successives,
etde
propriétés théoriques
intéressantes. Ces modèles ont montré unegrande
efficacitésur des
problèmes
concrets. Nos recherches actuelles concernent la définition et laFIGURE 5
Evolution du résidu total en
fonction
de la dimension du modèle.FIGURE 6
Représentation
d’une arcade «saine» et de sesdifférentes approximations.
comparaison
de nouveaux index deprojection.
Eneffet,
l’index utilisé pour l’ACP(la
varianceprojetée)
est aisé à maximiser mais n’est pas leplus adapté
à notre modèle.A
l’opposé,
l’index ad hoc que nous proposons estpénalisé
par une maximisation délicate à mettre en oeuvre. Il serait alors intéressant d’avoir un index offrant un meilleurcompromis efficacité-simplicité.
FIGURE 7
Représentation
d’une arcadepathologique
et de sesdifférentes approximations.
Références
[1]
AVEZ A.(1983).
Calculdifférentiel, Masson,
Paris.[2]
AZENCOTT R.(1988).
Simulatedannealing.
Seminaire BOURBAKI,40ème année, 697, 1-15, juin.
[3]
COTTRELL M.(1994). Analyse
de données et réseaux de neurones.Préprint
SAMOS-Université Paris
I,
février.[4]
EUBANK R.L.(1990). Spline smoothing
andnon-parametric regression.
Mar-cel Decker.
[5]
FERRATY F.(1997).
Estimations de transformationsoptimales
en ACP curvi-lilnéaire. Revue de
Statistique Appliquée,
XLV(1),
5-39.[6]
FRIEDMAN J.H.(1987). Exploratory projection pursuit.
Journalof
the Ame-rican Statistical
Association,
82(397),
249-266.[7]
FRIEDMANJ.H., STUETZLE
W.(1981). Projection pursuit regression.
Jour-nal
of
the American StatisticalAssociation,
76(376), 817-823.
[8]
GIRARD S.(1996).
Construction etapprentissage statistique
de modèles auto-associatifs
non-linéaires. PhDthesis,
Université deCergy-Pontoise,
octobre.[9]
GIRARDS.,
CHALMONDB.,
DINTEN J.M.(1997). Apprentissage
demodèles flexibles pour la reconnaissance des formes. In Seizième
colloque GRETSI,
pages1295-1298, Grenoble, septembre.
[10]
GIRARDS.,
CHAMONDB.,
DINTEN J.M.(1997). Designing
non linearmodels for flexible curves. Curves and
Surfaces
in GeometricDesign,
A. LeMéhauté,
C.Rabut,
and L.L. Schumaker(eds.),
135-142.[11]
GIROSIF., JONES M., POGGIO
T.(1995). Regularization theory
and neuralnetworks architectures. Neural
Computation,
pages219-269, july.
[12]
HASTIET., STUETZLE
W.(1989). Principal
curves. Journalof the American
Statistical
Association,
84(406),
502-516.[13]
HUBER P.J.(1985). Projection pursuit.
The Annalsof Statistics,
13(2),
435-525.
[14]
KARHUNENJ.,
JOUTSENSALO J.(1995).
Generalizations ofprincipal component analysés, optimization problems,
and neural networks. Neural Net-works,
8(4),
549-562.[15]
RICEJ.A.,
SILVERMAN B.W.(1991).
Silverman.Estimating
the mean andcovariance structure
nonparametrically
when the data are curves. JournalRoyal
Statistical