R EVUE DE STATISTIQUE APPLIQUÉE
A. B ACCINI H. C AUSSINUS
A. R UIZ -G AZEN
Apprentissage progressif en analyse discriminante
Revue de statistique appliquée, tome 49, n
o4 (2001), p. 87-99
<http://www.numdam.org/item?id=RSA_2001__49_4_87_0>
© Société française de statistique, 2001, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
APPRENTISSAGE PROGRESSIF EN ANALYSE DISCRIMINANTE
A.
Baccini,
H. Caussinus et A. Ruiz-Gazen Laboratoire deStatistique
et ProbabilitésU.M.R. - CN.R.S. C 5583
Université Paul Sabatier - 118, route de Narbonne 31062 Toulouse cedex 4
RÉSUMÉ
L’analyse
discriminante affecte une unitéstatistique
à un groupe selon unerègle
dedécision obtenue à
partir
d’un échantillond’apprentissage.
Cetteprocédure
suppose que les conditions d’utilisation restent celles del’apprentissage,
cequi
n’est pastoujours garanti.
Sousdes
hypothèses
assezlarges,
il estcependant possible
de faire face à une dérive inconnue des conditionsexpérimentales.
Nous introduisons pour cela uneanalyse
convenablement modifiéequi complète l’apprentissage
initial par un contrôleprogressif
des conditions d’utilisation.Un
exemple
réel permet de montrer la mise en oeuvre concrète de la méthode ainsi que sonefficacité.
Mots-clés :
analyse
discriminante,classification
supervisée, conditionnement, apprentissageprogressif.
ABSTRACT
Discriminant
analysis assigns
a statistical unit to a groupaccording
to a decision ruleobtained from a
learning sample.
This needs that thebackground
remains stablealong
theuse of the
procedure
after thelearning
step, which is notalways
warranted. Underfairly
mildassumptions,
however, one can face unknown trends inexperimental
conditions. For that, we introduce a modifiedanalysis
whichcompletes
theinitial learning by
a suitable control of thepossible
trend. Theprocedure
isimplemented
on a realexample
which serves also to evidenceits
efficiency.
Keywords :
discriminantanalysis, supervised classification, conditioning,
progressive lear- ning.1. Introduction
Dans cet
article,
nous considérons leproblème
del’analyse
discriminante décisionnelle danslequel
ils’agit
d’affecter une unitéstatistique
à unparmi g
groupes,sur la base de p mesures réelles. On suppose que, pour
chaque
groupe, les mesures sedispersent
autour d’un vecteur moyen caractérisant le groupe, ladispersion
àl’intérieur d’un groupe étant sensiblement de même nature pour chacun d’eux. Dans la situation
usuelle,
la moyenne dechaque
groupe ainsi que la variabilité à l’intérieurdu groupe sont estimées au moyen d’un échantillon
d’apprentissage
surlequel
lesappartenances aux groupes sont connues, ce
qui permet
de définir la combinaison desmesures
qui
différencie le mieux ces groupes, c’est-à-direqui
fait laplus grande part possible
à ladispersion
des mesures d’un groupe à l’autre(intergroupe)
par rapport à la variabilité à l’intérieur de chacun d’entre eux(intragroupe). Après apprentissage,
cette combinaison discriminante sert à affecter toute nouvelle unité
statistique
dontl’appartenance
à un groupe est désormais inconnue.Bien
entendu,
une telleprocédure
n’a de sens(ou,
dumoins,
n’estpleinement efficace)
que si l’échantillond’apprentissage
et les données ultérieures sont observés dans les mêmes conditions.Or,
cettehypothèse
est très douteuse dans de nombreuses situations réelles : parexemple,
unapprentissage
réalisé sur une courtepériode
nepeut
pasintégrer
les facteurs de variabilitésusceptibles d’apparaître
seulement surune
longue période;
en ce sens,l’apprentissage
n’est quepartiel.
Cesfacteurs,
quenous
appellerons
dedérive,
peuvent s’avérerimportants
aupoint
de compromettre trèssérieusement,
et souventinsidieusement, l’efficacité,
voire lapertinence,
de laméthode de discrimination.
L’objet
de cet article est de proposerquelques pistes
pour
prendre
en compte ces facteurs dans laprocédure d’affectation, problème négligé
par les ouvragesclassiques
sur lesujet (par exemple, McLachlan, 1992).
Notons
cependant qu’une problématique analogue
aparfois
été abordée dans d’autres domaines de lastatistique : voir,
parexemple, Goupy (1989)
pour laprise
en compte, dans le contexte del’expérimentation planifiée,
d’une dérivesystématique (hypothèse
nettement
plus
restrictive que celleenvisagée ici).
Une remarque
préalable s’impose :
une foisl’apprentissage effectué,
on neconnait pas a
priori
le groupeauquel chaque produit
contrôléappartient réellement;
dès
lors,
on voit mal comment identifier un groupe si la valeur des mesures effectuées peut être amenée à tel ou tel niveau par unphénomène
externe, noncontrôlé, dépendant
de ce groupe inconnu. Il semble par contreenvisageable
de tenir compte de modificationsqui
toucheraient tous les groupes de la même manière(d’une façon précisée plus loin) :
c’est leproblème
étudié ici.2.
Rappels
surl’Analyse
DiscriminanteL’objectif
de ceparagraphe
est de donnerquelques rappels
surl’Analyse
Discriminante
(que
l’on pourra trouverplus détaillée,
parexemple,
dansl’ouvrage
deSaporta, 1990),
enadoptant
uneprésentation appropriée
aux modificationsproposées
au
paragraphe
3 en vue deprendre
encompte
d’éventuelsphénomènes
de dérive.Soit g
groupes de données vectorielles(à k dimensions),
lej-ième
groupe ayantune distribution
Nk(03BCj, W). Si,
deplus,
laprobabilité
apriori qu’une
observationx
appartienne au j-ième
groupe est pj, laprobabilité
aposteriori
dugroupe j,
cetteobservation étant
faite,
estavec, de
façon usuelle,
x et 03BCj étant ici des vecteurs x 1 et W une matrice k k
symétrique qu’on
supposerarégulière.
Le groupe de
plus grande probabilité
aposteriori
est donc celui pourlequel
estmaximum pjexp (-1 2~x - 03BCj~2w-1),
ou est minimumDans la
pratique,
les uj et W sont inconnus et estimés àpartir
d’un échantillon ditd’apprentissage
danslequel
l’affectation au groupe est connue; l’estimation de W est la matrice des covariancesintragroupes empiriques,
tandis que les estimations des pj sont soit les moyennesempiriques
des groupes, soit lesprojections (orthogonales
au sens de
W -1 )
de ces moyennesempiriques
sur un sous-espace dedimension q
obtenu par
Analyse
Factorielle Discriminante(AFD) (comme q g - 1,
on obtientq = 1
si g
=2;
dans les autres cas, on choisit leplus
souvent q -2,
les deuxprocédures
étantéquivalentes
pour 9 ==3).
Rappelons
que l’AFD repose essentiellement sur ladiagonalisation
deBW -1
où B
= 9 - 1 03A3(03BCj - 03BC)t(03BCj - 03BC)
est la matrice dedispersion
des 03BCj, ou varianceintergroupes, 03BC
= -03A3
03BCj étant la moyenne des 03BCj(cette
formulepour B
est9
naturelle si les pj sont
égaux; sinon,
il convient depondérer convenablement).
L’AFD est utilisée de
longue
date àpartir d’arguments empiriques variés, parmi lesquels
l’utilitépratique
d’unereprésentation
en dimension 2(pour
q =2);
onpeut
trouver une
justification théorique
d’une réduction de dimension dans Ferré(1995),
où est discutée l’estimation
optimale
des 03BCj.Par la
suite,
onremplacera
dans(1)
W et les JLj par leursestimations,
sanschanger
les notations pour ne pas alourdir. Parailleurs,
on supposera les Pjégaux
pour
simplifier,
cequi
ramène leproblème (1)
àchoisir j qui
minimiseIl est facile d’introduire la correction -2 In pj dans le cas
contraire,
à condition que les Pj soient connus ou correctement estimés.Remarque
1Transformons
provisoirement
enW-1/2X
le vecteur aléatoire d’observationsX ;
sa loi deprobabilité
pour legroupe j
devientNk(W-1/203BCj, Ik).
Il est alors clair queles groupes sont d’autant mieux différenciés que les
W -1/2p 3sont plus dispersés.
Sicette
dispersion
est mesurée defaçon quadratique,
elle peut s’écrire :En se basant sur
(3),
on voit que les groupes sont d’autant mieux différenciés que9
03A3 t(03BCj - 03BC)W-1(03BCj - /2)
estplus grand. Donc,
pourdes 03BCj donnés, W-1
doit être leplus grand possible
au sens des formesquadratiques (on rappelle
que, pour des matrices k x ksymétriques AI
etA2,
on poseA1 A2
si et seulementsi,
pour tout vecteur colonne x,txA1x txA2x),
cequi
estéquivalent
à W leplus petit possible
au sens des formesquadratiques (on
vérifie en effet que, siAI
etA2
sontdéfinies
positives
etA1 A2,
alorsA-11 A-12).
Remarque
2Dans la
présentation ci-dessus,
la loi normale des observations n’intervient que pour affirmer le caractèreoptimal
de latechnique
de discrimination linéaire. Pour des observations nonnormales,
ce caractèreoptimal
n’est pasassuré,
mais la méthodepeut
encoreêtre justifiée
si l’on s’en tient auxpropriétés
du secondordre,
c’est-à-direportant
seulement sur les moyennes et les variances. Cette remarque reste vraie pour les raisonnements duparagraphe
suivant.3.
Analyse
Discriminante Conditionnelle 3.1. ModèleSupposons
maintenant que, les M.( j
=1,..., g)
et Wayant
étépréalablement estimés, s’ajoute
àchaque
observation nouvelle X l’observationcomplémentaire
d’unvecteur aléatoire Y
(à
hdimensions)
dans les conditions suivantes.Pour un
groupe j
donné :(a)
la moyenne de Yestuy, quel
quesoit j ;
où
Wx
=W, Wxy = tWYX
est la matrice des covariances de X et Y etWy
est la matrice des covariances de Ysupposée régulière (on
notera que cette variance de Z est une varianceintragroupe, supposée identique
pourchaque
groupe, comme au
paragraphe 2);
(c)
la loi de Z est une loi normale à k + h dimensions(mais
la remarque 2s’applique encore) .
Dans la
pratique,
Y est introduit pour chercher àprendre
encompte
des dériveséventuelles;
on verraplus
bas(paragraphe 4.2) quelques propositions
pour le choix deY. On notera que la
propriété (a) explicite
les commentaires en fin duparagraphe
1.Le
paragraphe
4.1 confirmera sa nécessité pour obtenir les estimateursindispensables
de
Wy
etWxy.
3.2. Nouvelle
Analyse
DiscriminanteSi les valeurs des
paramètres
enjeu,
ou des estimationsconvenables,
sontdisponibles,
ce que nous supposons, laprise
encompte
de l’ensemble des données conduit à effectuerl’Analyse
Discriminante nonplus
sur X mais sur Zx
unvecteur à k + h dimensions.
On est donc amené à
changer
W enWz,
les 03BCjen 11j
et, le caséchéant,
BPosons C =
Wx - WXYW-1YWYX
et supposons Crégulière.
On a :(le
terme noté(*)
est inutile àexpliciter).
Conformément au
principe
del’Analyse
Discriminante usuellerappelé
auparagraphe 2,
on décide d’affecter l’observation x augroupe j qui
minimise(le
terme noté(**)
est inutile àexpliciter
carindépendant de 3),
soit encore d’affectercette observation au
groupe j qui
minimisePour décider du groupe d’une nouvelle donnée x, à
laquelle
est associé y, il convientdonc,
pour tenircompte
de ladérive,
deremplacer x - 03BCj
dans(2)
par x - 03BCj -WXYWi-1Y(y - liy)
et lamétrique W -1
parC-1 - (Wx - WXYW-1YWYX)-1
inverse de la variance de X conditionnelle à
Y,
selon un résultatclassique.
Notonsque, en dehors de la correction sur x
qui
est lepoint majeur,
l’introduction de0-1
améliorethéoriquement l’analyse
selon la remarque 1(puisque C W,
soit0-1 ? W-1)
maisqu’elle
posecependant
des difficultéspratiques :
voir laremarque 3 au
paragraphe
4.Pour des raisons
évidentes,
nous proposonsd’appeler Analyse
Discriminante Conditionnelle cette nouvelleanalyse.
Considérons enfin le cas où l’on
préfère
travailler sur uneprojection
obtenuepar AFD. La nouvelle
analyse
factorielle est fondée sur ladiagonalisation
deOr,
si v =[03C5X03C5Y
]
est vecteur propre deBZW-1Z
associé à la valeur propreA,
on aBC-1(03C5X - WXYW-1Y03C5Y) = 03BB03C5X
et03BB03C5Y = 0
donc, pour À =1= 0,
vy est nul et vx est vecteur propre deBC-1
associé à la valeurpropre À
de cette dernière matrice. On sait que les vecteurs propres deBC-1
sontC-1-orthogonaux
et sont choisis engénéral C-1-normés,
ce que nous ferons. Nousavons donc
t03C5XC-103C5X
=1,
cequi
est encoreéquivalent à [t03C5X 0 W-1Z [03C5X0 ] = 1.
Si l’on
projette
levecteur x
surVX ] au sens de W-1Z,
on obtient pour abscisse
t03C5XC-1(X - WXYW-1YY) ce qui
est doncéquivalent
àprojeter (X - WXYW-1YY)
sur vx au sens de
C-1 .
Enparticulier,
laprojection W-1Z l-orthogonale
de la moyenneempirique
centrée11j - IL sur 03C5X0
est d’abscisset03C5XC-1 (fi3 - M),
cequi
donnela même
représentation
que laprojection
obtenue par l’AFD de X seul oùWx
auraitété
remplacée
par C =Wx - WXYW-1YWYX.
4. Mise en oeuvre
L’analyse
conditionnelle nécessite d’une part le choix(la découverte...)
d’un Yconvenable,
d’autre part l’estimation des diversparamètres
en cause. Nous abordonsd’abord ce dernier
problème
ensupposant
Ychoisi,
vérifiant leshypothèses (a)
et(b)
du
paragraphe
3. Nous étudions ensuite comment introduire un Y convenable.4.1. Estimation
L’estimation de
Wx,
des M. etde
se fait sur l’échantillond’apprentissage.
Par contre, l’estimation de
03BCY, WY
etWxy
se fait sur l’ensemble des donnéesdisponibles : période d’apprentissage plus période opérationnelle.
Cela est nécessairedans la mesure où la variable Y
peut
être constante(ou presque)
sur l’échantillond’apprentissage,
et mêmepeut
êtreimpossible
à définir àpartir
de ce seul échantillon.Cela est
possible grâce
àl’hypothèse (a)
comme nous leprécisons
maintenant.La moyenne My étant la même pour l’ensemble des
observations,
la moyenneempirique
de toutes ces données estimera My le mieuxpossible.
De même pourWy
qui
sera estimé par la matrice des covariancesempiriques
de Y sur l’ensemble desobservations où cette variable est
disponible.
En cequi
concerneWXY,
on a, pour une observation du groupej, WXY
= E[(X - MI) ’(Y - 03BCY)]
= E[X (Y - MY)],
quel
quesoit j.
Onpeut
donc estimerWxy par 1 N 03A3 Xi t(Yi - Y)
où N estle nombre total de données pour
lesquelles
Y estdisponible
et Y est la moyenneempirique
desYi. Donc,
iciaussi, grâce
àl’hypothèse (a), Wxy
est estimable aumoyen de l’ensemble des
données,
même sans connaître le groupe de provenance de X.Remarque
3Les estimations de
Wx, WXY
etWy
étant faites sur des donnéesdifférentes,
on n’estpas assuré que la matrice estimant C soit
positive.
Si des valeurs propresnégatives apparaissent,
onpeut
être tenté de lesremplacer
par0;
ce n’est pasjudicieux
car ilconvient ensuite de calculer
C-1 (et qu’une
inversegénéralisée
n’est paspertinente
dans la mesure où les
plus petites
valeurs propres de C sont lesplus
«importantes
»pour la
discrimination).
Leproblème
de l’estimation de C reste donc àapprofondir
pour l’utilisation de la
métrique C-1.
Nous nous sommes contentés d’utiliser(une
estimationde)
lamétrique W-1X
dansl’exemple présenté
auparagraphe
5.4.2. Choix de la variable
complémentaire
Abordons maintenant le
problème
très ouvert du choix de la variablecomplémen-
taire Y. Celui-ci
peut
êtreenvisagé
de deuxfaçons.
(a)
Onpeut
d’abord effectuer un choix « externe » en considérant les mesuresd’un ou
plusieurs
indicateursindépendants
du groupeauquel appartient
l’unitéstatistique
étudiée etsusceptibles
d’être bien corrélés avec les effetsparasites
àmaîtriser donc bien
représentatifs
d’une éventuelle dérive.(b)
Onpeut
aussi chercher à effectuer un choix « interne » enanalysant
convenable- ment l’évolution des données(pendant
etaprès apprentissage)
afin de découvrir d’éventuelles combinaisons des mesures Xqui
semblent lesplus caractéristiques
d’une éventuelle dérive tout en étant
indépendantes
du grouped’appartenance.
Pour
cela,
onpeut envisager d’utiliser,
parexemple,
les méthodesproposées
dans Caussinus & Ruiz-Gazen
(1995)
ou des méthodesvoisines, d’inspiration
similaire. Pour certains cas, celles-ci ne feront
apparaître
sans doute que la struc- ture en groupedéjà
connuemais,
dans d’autres cas, elles sontsusceptibles
demettre en relief des combinaisons des variables liées à d’autres
phénomènes,
parexemple
une évolution fonction dutemps.
Il suffira alors de retenir ces dernières combinaisons comme vecteur Y.Bien
entendu,
les deuxtypes
de construction de Y ne s’excluent pas, certaines coordonnées de Ypouvant
être obtenues de lapremière façon,
les autres étant obtenues de la seconde.5.
Exemple
Dans cet
exemple ,
p = 18 mesures sont réalisées surchaque
unitéstatistique
et il y a g = 3 groupes
(notés 1, 2
et 3 dans lesfigures).
L’étude aporté
sur 47jours
et,
chaque jour,
environ 5 unités dechaque
groupe ont été considérées fournissant autotal 695 unités.
Ici,
le groupe véritable est connu pour les 695unités, mais,
pour tester laméthode,
nous supposons que l’échantillond’apprentissage
est seulement constituédes données recueillies en début de
période;
les données suivantes étant utilisées pour valider lestechniques proposées,
on lesappellera
donc échantillon de validation.Parmi les nombreux essais
effectués,
nous avons choisi deprésenter
essentiellement ci-dessous les résultats pour unapprentissage
sur les 5premiers jours qui
noussemblent assez bien
représentatifs
de l’ensemble des résultats obtenus. L’échantillond’apprentissage comporte
89 unitésstatistiques (nous disposions
en effet de 6 observations parjour
les toutpremiers jours
et de moins par lasuite).
5.1.
Analyse
Discriminante usuelleDans un
premier temps,
nous considérons uneAnalyse
Discriminante usuelleavec les 89
premières
unitésstatistiques
comme échantillond’apprentissage.
Lafigure
1 montre l’évolution dupourcentage
de mal classés au fur et à mesure de lavalidation,
de la 90-ième à la dernière unité. Ce pourcentageaugmente
au cours dutemps
pour atteindre 49 % à la fin de lapériode
étudiée. Endécomposant
lapériode
de validation en
2,
on obtient environ 34 % de mal classés dans lapremière
moitié et64 % dans la
seconde,
c’est-à-direguère
mieux que par une affectation « au hasard »(qui
conduirait à environ deux tiersd’échecs).
La situation
peut
être illustrée parl’Analyse
Factorielle Discriminante. On fournit deuxgraphiques correspondant
aupremier plan
factoriel de l’AFD :- la
figure
2représente
les observations de l’échantillond’apprentissage :
ellessont
parfaitement
discriminées selon le groupe;- la
figure
3représente
l’ensemble des 695 observations et met clairement enévidence une grave détérioration des résultats à attendre de
l’analyse.
Compte
tenu duproblème
de dérivesous-jacent
à cesdonnées,
l’utilisation del’Analyse
Discriminante usuelle estparticulièrement contre-indiquée
sur unelongue période.
5.2.
Analyse
Discriminante ConditionnelleSur
l’exemple
considéréici,
ondispose
aussi d’une série de mesuresqui,
detoute
évidence,
ne sont pas liées au groupe de l’unitéstatistique,
maispeuvent
être1. Il s’agit de données réelles sur lesquelles, pour des raisons de confidentialité, nous ne
donnerons pas davantage de précisions.
FIGURE 1
Pourcentage
de malclassés,
au cours de lapériode
devalidation,
par
l’Analyse
Discriminante usuelle.FIGURE 2
Échantillon d’apprentissage projeté
sur lepremier plan
del’Analyse
Factorielle Discriminante usuelle.
FIGURE 3
Échantillon global projeté
sur lepremier plan
del’Analyse
Factorielle Discriminante usuelle.
liées à une dérive
temporelle.
On leur faitjouer
le rôle du vecteur Y introduit en 3.1 et nous allons voir que cela conduit à une amélioration notable des résultats.L’Analyse
Discriminante Conditionnelle est conduite comme en situation réelle : àchaque
nouvelleobservation,
les estimations sont remises àjour
avantaffectation,
de sorte que laprocédure
n’esttoujours
basée que sur les donnéesdisponibles.
La
figure
4 montre l’évolution dupourcentage
de mal classés au cours de la validation.Comparons
lesfigures
1 et 4. En tout début depériode,
lespourcentages
sont calculés sur un très
petit
nombre d’unités et n’ontguère
designification.
Jusqu’aux
environs de la 250-ièmeunité, l’analyse
usuelle est meilleure quel’analyse
conditionnelle car le
phénomène
de dérive n’est pas encore trop sensible. Au-delà, lorsque
lephénomène
de dérive devientsensible, l’analyse
conditionnelle s’avère meilleure quel’analyse
usuelle et deplus
enplus efficace,
pour atteindreun
pourcentage global
de mal classés de l’ordre de 26 % seulement(contre
49 % pourl’analyse usuelle).
Endécomposant
lapériode
de validation en2,
comme pourl’analyse usuelle,
on obtient environ 31 % de mal classés dans lapremière
moitié(du
même ordre
qu’avec l’analyse usuelle)
mais 21 % dans laseconde,
cequi correspond
à l’efficacité de
l’analyse
usuelle au début de lapériode
de validation.Les
figures
5 et 6représentent
lepremier plan
del’Analyse
Factorielle Discriminante Conditionnelle(voir
fin duparagraphe 3.2)
obtenu à l’issu de lavalidation, respectivement
pour l’échantillond’apprentissage
et pour l’ensemble de l’échantillon. Cesfigures
montrent que, contrairement àl’analyse usuelle, l’analyse
conditionnelle oublie
partiellement l’apprentissage
initial(comparer
lesfigures
2 et5)
pourintégrer
lephénomène
de dérive(comparer
lesfigures
3 et6).
Celacorrespond
à un
apprentissage poursuivi
tout aulong
de l’utilisation de la méthode.FIGURE 4
Pourcentage
de malclassés,
au cours de lapériode
devalidation,
par
l’Analyse
Discriminante Conditionnelle.FIGURE 5
Échantillon d’apprentissage projeté
sur lepremier plan
del’Analyse
Factorielle Discriminante Conditionnelle à la dernière
étape
de la validation.FIGURE 6
Échantillon global projeté
sur lepremier plan
del’Analyse
Factorielle Discriminante Conditionnelle à la dernière
étape
de la validation.Remarque
4Comme on l’a
dit,
d’autresexemples
ont étéanalysés
en modifiant la duréed’appren- tissage.
Les résultats del’Analyse
Discriminante usuelle sont assezvariables, parfois
meilleurs que ceux
présentés,
mais pas meilleurs que ceux del’Analyse
Discriminante Conditionnelle. Par contre, les résultats de cette dernière restent stables.6.
Perspectives
On
peut
retenir quel’Analyse
DiscriminanteConditionnelle,
tellequ’elle
estproposée,
est unetechnique
relativement facile à mettre en oeuvre et peu coûteuseen
temps
calcul. Les résultats sont encourageants surl’exemple traité,
mais il restequelques points
àapprofondir,
parexemple
l’estimation deC-1.
D’autre part, dans le cas où des mesures Y « naturelles » ne seraient pas
disponibles,
on peutenvisager
de calculer des variables Y eninterne,
c’est-à-dire àpartir
de X. Nous avonssuggéré plus
haut d’utiliser uneAnalyse
enComposantes Principales
avec unemétrique particulière
comme dans Caussinus & Ruiz-Gazen(1995).
Enfait,
les résultats ainsi obtenus surl’exemple
ci-dessus sontencourageants,
même s’ils s’avèrent moinsperformants
que ceux obtenus àpartir
des variables externes. Là encore, un travailcomplémentaire
serait utile.Notons pour terminer que les
principes développés
ici sont aussi utilisables en matière derégression,
c’est-à-direlorsque
la variable àprédire
n’estplus qualitative
mais
quantitative.
Bibliographie
CAUSSINUS,
H. &RUIZ-GAZEN,
A.(1995).
Metrics forfinding typical
structuresby
means ofPrincipal Component Analysis.
Data Science and ItsApplication,
Harcourt Brace