R EVUE DE STATISTIQUE APPLIQUÉE
H. C AUSSINUS S. H AKAM
A. R UIZ -G AZEN
Projections révélatrices contrôlées: groupements et structures diverses
Revue de statistique appliquée, tome 51, n
o1 (2003), p. 37-58
<http://www.numdam.org/item?id=RSA_2003__51_1_37_0>
© Société française de statistique, 2003, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PROJECTIONS RÉVÉLATRICES CONTRÔLÉES :
GROUPEMENTS ET STRUCTURES DIVERSES
H.
CAUSSINUS*,
S.HAKAM*(1),
A.RUIZ-GAZEN*(2)
* Laboratoire de
Statistique
et Probabilités, U.M.R. - C.N.R.S. C5583, Université Paul Sabatier, 118, route de Narbonne, 31062 Toulouse cedex 4.(1)
Département
deMathématique
etInformatique,
Faculté des Sciences, B.P. 1014, Ave. Ibn Battouta, Rabat, Maroc.(2) Gremaq, U.M.R. C.N.R.S. C5604, Université Toulouse 1, 21, allée de Brienne, 31000 Toulouse.
Statistique
Appliquée,
RÉSUMÉ
Les méthodes de
projections
révélatrices recherchent desprojections
exhibant au mieuxd’éventuelles structures
particulières
de la distribution d’individus caractérisés par p variablesnumériques.
Parmi les diversestechniques qui
ont étéproposées figurent
desanalyses
en composantesprincipales généralisées grâce
à desmétriques
convenables surl’espace
desindividus.
Après
avoir étudié les individusatypiques
au moyen d’une d’entre elles dans unprécédent
article, nous examinons ici desanalyses
fondées sur une autremétrique, susceptibles
de mettre en évidence des structures
plus complexes.
Lesdéveloppements
donnés vontessentiellement dans deux directions. On montre d’abord comment contrôler la
signification statistique
desprojections
obtenues en utilisant destechniques
inférentielles fondées sur des résultatsthéoriques
récents (Hakam, 2002) donnant la loiasymptotique
des matrices aléatoiresconsidérées; on voit ensuite comment, dans le cas
particulier
d’une structuration en groupeshomogènes,
nospropositions
peuvent fournir unpréalable
utile à la classification. Plusieursexemples
sont examinés pour illustrer ces diverspoints
tout en montrant comment seprésente
la mise en oeuvre concrète des
analyses proposées.
Mots-clés :
Analyse
en composantesprincipales, Classification,
Projections révélatrices,Techniques graphiques.
ABSTRACT
Projection pursuit
aims to find low-dimensionalprojections
of units characterisedby
p real variables. Varioustechniques
have beenproposed.
One of them consists ingeneralised principal
componentsanalyses
with suitable choices of the metric on the units space. We have considered theproblem
of outliers in aprevious
paper; we are now interested in thedisplay
ofmore
complex
structuresby
means of another choice of the metric. Thedevelopments
thereinare
mainly
in two directions. On the one hand, we show how to assess the statisticalsignificance
of the obtained
projections by using
recent theoretical results (Hakam, 2002)concerning
theasymptotic
distribution of the involved random matrices. On the other hand, in thespecial
casewhere the data are divided into
homogeneous
groups, we show how ourproposals
mayprovide
a useful
preliminary
step toclustering techniques.
Severalexamples
aregiven
to illustrate these variouspoints
as well as to show thepractical implementation
of theproposed analyses.
Keywords : Clustering, Graphical displays, Principal
componentanalysis,
Projection pursuit.1. Introduction
Dans un
précédent
article de cette Revue(Caussinus,
Hakam etRuiz-Gazen, 2002),
nous avonsrappelé
leprincipe
des méthodes deprojections
révélatrices àpartir d’Analyses
enComposantes Principales (ACP) généralisées
et nous avonsillustré notre propos avec la recherche d’individus
atypiques.
C’est unepremière question
d’intérêt évident dansl’analyse
d’un tableau individus xvariables,
mais la recherche d’autrestypes
de structures est aussienvisageable
par une méthodeanalogue.
Unexemple important
est la recherche de groupes, un peu comme le feraitune
technique
declassification,
mais avec le souci de visualiser les groupes en lesséparant
au mieux et en lespositionnant
les uns par rapport aux autres. On peutnoter que
l’analyse
factorielle discriminante estjustement
conçue pourséparer
desgroupes de
façon optimale
et lesvisualiser,
mais ils’agit
de groupes connus à l’avancealors que nous nous proposons au contraire de les rechercher : d’une certaine
façon,
on
peut
dire que nous souhaitons faire del’analyse
factorielle discriminante sans connaissance apriori
de l’affectation des individus aux groupes et sans connaître le nombre ni laposition
des groupes(à
supposerqu’il
y enait...).
Plusgénéralement,
lestechniques
que nous allonsenvisager
cherchent à détecter une « structure » affectée par un « bruit » et visualiser celle-ci enprojetant
les individus sur le sous-espace leplus approprié.
Comme dansCaussinus,
Hakam et Ruiz-Gazen(2002),
nous reprenons destechniques précédemment présentées
par deux des auteurs(Caussinus
etRuiz-Gazen, 1993, 1995)
et nouscomplétons l’analyse
par une méthodeobjective
de choix de la dimensionutile,
cequi
permet de contrôler lasignification statistique
desgraphiques
obtenus et d’éviter ainsi sans doute bon nombre
d’interprétations hasardeuses ;
cette démarche repose sur des résultatsthéoriques
récents(Hakam, 2002).
Les
principes généraux
de la méthode sontexposés
dans leparagraphe
2 etles
problèmes
de dimension dans leparagraphe
3. Leparagraphe
4approfondit
lesconnexions avec les
problèmes
de classificationautomatique : après
avoirrappelé quelques
démarchesprécédentes
de naturevoisine,
on montre comment nos méthodes peuvent s’articuler avec destechniques
de classification etquelle
utilité elles peuventprendre
dans cetteoptique.
Plusieursexemples
sontprésentés
dans leparagraphe
5 afin de
préciser
l’utilisationpratique
des méthodesproposées
et d’illustrer leurs diversespotentialités.
2. Une ACP
généralisée
pour la recherche de structure : modèle etprincipe
2.1. Méthode de base
A
chaque
individu i(z
=1, ..., n)
est associé un vecteurXi
de IRp. On considère les deux matrices p x p suivantes :Vn
est la matrice des variances et covariancesempiriques usuelles,
tandis queTn (03B2) peut s’interpréter
comme une matrice de variances et covariances « locale »(à
un facteur
près).
Eneffet,
sans le termeexponentiel
depondération (ou,
si l’on veut,avec
/3
=0), Tn (03B2)
estégale
à2n n-1Vn,
mais lapondération
introduite vise à diminuerl’importance
descouples
d’individuséloignés
auprofit
des individusproches.
Dansle cas de groupes, par
exemple, Tn (03B2) jouera
le rôle d’une matrice de variances et covariancesintragroupe.
Oncomprend
alorspourquoi,
paranalogie
avecl’analyse
factorielle
discriminante,
il a étéproposé
de réaliser une ACP deVn
avec, pourmétrique
surl’espace
RP desindividus,
la matrice inverse deTn(03B2).
Ondiagonalise
donc
VnT-1n (03B2)
et les individusXi
sontprojetés T-1n(03B2)-orthogonalement
sur lessous-espaces
principaux.
Quelques propriétés théoriques
de cetteméthode,
d’abordproposée
defaçon heuristique
dans Caussinus et Ruiz(1990),
ont été étudiées par Caussinus et Ruiz- Gazen(1993, 1995).
Ces auteurs considèrent que lesXi
sont des vecteurs aléatoiresindépendants,
de mêmeloi,
cette loi étant unmélange
de lois normales. Defaçon générale,
onpeut
écrire cette loi sous la formeintégrale
où P est une
probabilité
concentrée sur un sous espace(ou
une variétélinéaire)
de RP de dimension q. Dans le cas où laprobabilité
P estdiscrète, chargeant q
+ 1points
JLj de RP avec lesprobabilités
pj, on est enprésence de q +
1 groupes de loisrespectives N(03BCj, W)
enproportions respectives
pj( j
=l,
... , q +1);
les centresdes groupes sont évidemment contenus dans une variété linéaire de dimension q.
Mais P
peut
très bien être une loiplus générale,
parexemple répartie
sur une courbed’un sous-espace
à q
dimensions. La restriction laplus importante
de la formulation ci-dessus est clairement le fait que les diverses lois dumélange
ont la même matrice de variances et covariances.La méthode
proposée
est invariante par transformations affines(voir chapitre
8de
l’ouvrage
édité parDroesbecke,
Fichet etTassi, 1992),
unepropriété importante quand
ils’agit
de faire ressortir la structure d’un nuage depoints, laquelle
n’ajustement
de sensqu’à
une affinitéprès.
Unavantage technique
estqu’on
peut, sansperte
degénéralité,
supposer P centrée(en pratique
lesXi
sontcentrés)
et admettantune variance telle que la matrice des variances et covariances V de
Xi
soitégale
àl’identité
Ip.
Pour faire ressortir au mieux la structure
(c’est-à-dire
la loi P paropposition
aux lois normales
qui représentent
lebruit),
il faut que la méthode conduise àprojeter
les individus sur le sous-espace contenant P
(contenant les q
+ 1 vecteurs pj dans le casdiscret).
Caussinus et Ruiz-Gazen(1993, 1995)
montrent que c’est le cas dansun certain nombre de situations dès que n est assez
grand;
la valeuroptimale
de(3 dépend
de la situation réelle(inconnue),
mais une valeur voisine de 2 est engénéral
la
plus
convenable en fonction de notreexpérience
et dequelques
résultatsthéoriques (encore insuffisants).
Nous utiliserons dans lesexemples
la valeur(3
=2,
mais ilpeut
être utile enpratique d’essayer quelques
valeurs entre,disons,
1.5 et 2.5 et comparer les résultats obtenus.Comme des valeurs
atypiques (outliers)
constituent un casparticulier
destructure des données
(un
groupeimportant
et un ouplusieurs petits groupes),
laméthode s’avère sensible à la
présence
de telles valeursqui peuvent
avoir tendance à déterminer lespremiers plans
deprojection, masquant
ainsi d’autres faitsplus importants
dans la mesure où les valeursatypiques
sont faciles à exhiber aupréalable
par une
première
méthodeplus simple (Caussinus,
Hakam etRuiz-Gazen, 2002).
Pour éliminer ce
type d’effet,
deuxprocédures
sontenvisageables :
- retrancher des données les outliers
précédemment détectés,
- robustifier en
remplaçant
la matriceVn
par un estimateur de variance robuste.La
première
de cesprocédures
ne demande aucun commentairesupplémentaire,
si ce n’est
qu’elle exige
des choix detype
« 0 ou 1 » pastoujours
évidents. Nousprésentons
ci-dessous la secondequi
nous semble engénéral préférable
et seralargement
utilisée dans lesexemples
duparagraphe
5.2.2. Méthode
robustifiée
Pour rendre la
technique
moins sensible aux valeursatypiques,
laprocédure
de base
exposée plus
haut est modifiée enremplaçant Vn
par un estimateur de variance robuste. Nous choisissons l’estimateurUn
introduit par Ruiz-Gazen(1996),
estimateur
qui
a le double mérite d’être d’un calculsimple
et d’être dansl’esprit
desdivers
opérateurs
utilisés ici. Nous poserons donc :avec
où M. est un estimateur de la moyenne
générale;
enpratique,
il estpossible
d’utiliser la moyenneempirique
cequi
donne la matriceSn (03B2)
introduite parCaussinus,
Hakam et Ruiz-Gazen(2002);
c’est cequi
est faitplus
loin.(L’utilisation
d’uncentrage
robustepourrait cependant
améliorer certainsrésultats.)
On
diagonalise
alorsUn(03B21)T-1n(03B22).
Soit Uj( j
=1, ..., q)
des vecteurspropres associés aux q
plus grandes
valeurs propres; ilspeuvent être choisis T-1n(03B22)
- orthonormés et constituent alors une base
T-1n (03B22) -
orthonormée d’un sous-espaceà q
dimensions surlequel
lesXi
sontprojetés T-1n(03B22) - orthogonalement.
Lescoordonnées de la
projection
deXi
dans cette base sontX’iT-1n (03B22)uj ( j
=1,..., q).
Remarque. -
Lesparamètres (31
et(32
sontindépendants.
Le second doit être choisi comme dans la méthode de base(03B22
= 2 ou voisin de2).
Lepremier
doit êtrepetit. Cependant,
il fautsouligner
que leproblème
n’est pas ici tout à fait le même que dansCaussinus,
Hakam et Ruiz-Gazen(2002);
ils’agit
maintenant d’avoir une bonne estimation robuste de la variance et lespréceptes
donnés par Ruiz-Gazen( 1996) s’appliquent
conduisant à une valeur de(31
un peuplus
élevée(entre 0,1
et0,5) :
cettequestion
serareprise
dans lesexemples.
3. Choix de la dimension : valeurs
critiques
Dans le modèle
(2) exprimé ci-dessus,
la dimension utile d’uneprojection
estq.
Mais,
enpratique, q
est inconnu. Nous montrons dans ceparagraphe
commentchoisir q
defaçon objective.
Nous détaillons le cas de la méthode de base. Celui de la méthode robuste est tout à fait similaire.Dans Caussinus et Ruiz-Gazen
(1993, 1995)
on remarque que, sous des con-ditions assez
générales, les q plus grandes
valeurs propres deVnT-1n (03B2)
convergentvers un nombre strictement
supérieur
à/3 + 1/2, quand
n tend versl’infini,
alors que les autresconvergent
vers(3 +1/2,
cequi suggère
de ne conserver que les dimensionscorrespondant
à des valeurs propressignificativement supérieures
à(3
+1/2.
Afinde
préciser
ce« significativement supérieur » ,
il faut établir la loi deprobabilité (au
moinsasymptotique)
deVn Tn- 1 (03B2)
sousl’hypothèse nulle q
= 0. C’est cequi
est faitdans Hakam
(2002) (en
mêmetemps qu’une
étudeplus générale
pour deshypothèses alternatives).
Donnons le résultatqui
nous est utile ici. Pour une matrice M carrée d’ordre p etsymétrique,
nous notons M* le vecteur colonne àp(p +1)/2 lignes
cons-titué,
dansl’ordre,
des élémentsdiagonaux
de M et des élémentsextra-diagonaux
dutriangle supérieur.
On a alors :PROPOSITION
(Hakam, 2002). - Définissons
les matricesVn
etTn(03B2)
commeen
(1)
ci-dessus et posons :Si les vecteurs
Xi
suiventindépendamment
la même loi normaleNp(0, IP),
la loi
asymptotique, quand
n tend versl’infini,
de la matriceM*n
est normale(à
p(p
+1)/2 dimensions)
de moyenne nulle et de matrice des variances et covariancesde
la forme
où le bloc sud-est est
diagonal
de dimensionp(p - 1)/2
xp(p - 1)/2
avec sur ladiagonale
et le bloc nord-ouest est de dimension p x p avec tous les éléments
extra-diagonaux égaux
àet les éléments
diagonaux égaux
àLe terme c est la variance
asymptotique
des termesextra-diagonaux
deMn,
les covariances
correspondantes
étantnulles,
tandisque b correspond
à la varianceasymptotique
et d à la covarianceasymptotique
des termesdiagonaux
deMn.
Lescovariances
asymptotiques
entre termesdiagonaux
et termesextra-diagonaux
deMn
sont toutes nulles.
Des tables de la loi
asymptotique
des valeurs propres deMn
sousl’hypothèse
nulle
peuvent
alors être établies par simulation comme dansCaussinus,
Hakam et Ruiz-Gazen(2002) 1 (c’est
le mêmeproblème
avec les nouvelles valeurs ci-dessus de cetd).
Apartir
delà,
etpuisqu’en pratique
on considèreplutôt
les valeurs propres deLn
=VnT-1n(03B2)
que celles deMn,
on pourra parexemple procéder
à un testd’hypothèses multiples
de lafaçon
suivante :- choisir un niveau de
signification
ce,- transformer les valeurs
propres À
deLn
en les valeurs proprescorrespondantes
M de
Mn (ou réciproquement)
au moyen de la relation :1 A ce sujet, notons que la légende des tables de ce précédent article est incorrecte : il faut lire « Valeurs
critiques des 10 plus grandes » au lieu de « Valeurs critiques des 10 plus petites » valeurs propres de M.
- comparer
chaque
valeur propreempirique
ainsi obtenue à la valeurcritique correspondante
encommençant
par laplus grande
valeur propre et en validantles dimensions comme
significatives
tant que la valeurempirique
de la valeur proprecorrespondante
estsupérieure
à la valeurcritique.
Remarques.
1. La
proposition
ci-dessus est énoncée pour une matrice de covariances V =Ip.
A
partir
delà,
on obtient le résultatgénéral
pour Vquelconque
enmultipliant
les
Xi
parV1/2
cequi multiplie Ln
àgauche
par cette matrice et à droite parson inverse. La
proposition
ci-dessus est donc suffisante pour étudier la loi des valeurs proprespuisque
les matrices L etALA-1
ont mêmes valeurs propres.2. Nous donnons des tables de valeurs
critiques asymptotiques pour /3
= 2 et lesniveaux 1 % et 5%
(tables
1 et2).
Nous avons faitquelques
simulations afin de vérifier laqualité
del’approche asymptotique
pour des valeurs modérées den. Il faut admettre que celle-ci n’est pas très bonne pour,
disons,
n inférieur à500,
les niveaux réels étantsupérieurs
aux niveaux nominaux. Les conclusions doivent donc être tirées trèsprudemment
dans ces cas. Des indications surl’ordre de
grandeur
desapproximations peuvent
être trouvées àpartir
dutroisième
exemple
traité dans leparagraphe
5 où l’onapproche
la loi exacte(non asymptotique)
par simulation.3. La distribution
asymptotique
à la base des tables fournies est établie sousl’hypothèse nulle q = 0,
cequi
est tout à faitjustifié
pour contrôler le niveau du test relatif à laplus grande
valeur propre(hypothèse q
= 0 contrehypothèse
q >
0). Mais,
si celui-ci s’avèresignificatif, l’hypothèse
nulle testée ensuite aumoyen de la seconde
plus grande
valeur propre est q = 1(contre q
>1);
souscette nouvelle
hypothèse nulle,
la loiasymptotique
exacte de cette secondevaleur propre
dépend
deparamètres
inconnus et nepeut
être calculée : la loi pour q == 0 n’en donnequ’une approximation;
on connaîtcependant
le sensde l’erreur commise : cette seconde valeur propre tend à être
plus grande
quene
l’indique
la distribution pour q =0,
le niveau réel est doncsupérieur
auniveau nominal donné par les tables. La même remarque vaut pour les valeurs propres d’ordre
supérieur.
4. Les mêmes raisonnements
s’appliquent lorsque
l’on faitl’analyse
robuste enchangeant VnT-1n (03B2)
enUn (03B21)T-1n (03B22).
Il suffit(Hakam, 2002)
deprendre
les nouvelles valeurs de c et d suivantes :
4.
Projections
révélatrices et classificationParmi les structures les
plus
couramment recherchéesfigure
larépartition
des données en groupes
homogènes.
Et c’est l’une des situations que lesanalyses
étudiées ici sont
susceptibles
de faire ressortir. En ce sens, elles serapprochent
de la classification
automatique.
Même si les méthodes de cette dernière sontplus
orientées vers l’affectation d’individus à des groupes alors que les nôtres sont d’abord orientées vers la visualisation au moyen d’une réduction de
dimension,
il est bien clair d’unepart
que les utilisateurs de la classificationautomatique
ont souvent le souci de visualiser les groupes obtenus(et plusieurs
ontsouligné
lacomplémentarité
del’approche
classification et del’approche
visualisation pour uneanalyse pertinente
de leurs
données,
parexemple Jambu, 1977,
dans un article surlequel
nous reviendronsplus loin;
on notera toutefoisqu’il s’agit
là dejuxtaposer
destechniques
sous leurforme
usuelle,
même si on les faitdialoguer
defaçon judicieuse),
d’autrepart
que bien des travaux en classificationautomatique
cherchentparallèlement
des réductions de dimension en combinanttechniques
de classification ettechniques
factorielles. Lapremière
idée est de faire une ACPpréalable
et de classer les individus àpartir
d’uncertain nombre de
composantes principales.
Il n’estcependant
pas certain que lespremières
composantesprincipales
contiennent l’essentiel de l’informationpertinente
pour la classification comme l’ont
souligné plusieurs
auteurs, certains proposant destechniques
alternatives. Une mise engarde déjà
ancienne estChang (1983);
pour unerevue récente de ces
questions
et une nouvelleproposition performante,
voir Vichi and Kiers(2001).
Lebart(2001) applique
leprincipe
del’analyse
decontiguïté
avec ungraphe
decontiguïté
construit àpartir
des donnéeselles-mêmes,
cequi
conduit à uneapproche descriptive
tout à fait dansl’esprit
destechniques
deprojections
révélatrices permettant, selon les termes de l’auteur « de mettre en évidence des zonesd’inégales
densités et des structures intermédiaires entre celles que détectent les méthodes
factorielles
et celles mises en évidence par les méthodes declassification ».
On peut aussi mentionner que Montanari et Lizzani(2001) proposent
d’utiliser un indice deprojections
révélatrices pour la sélection de variables en vue d’uneclassification; mais,
contrairement àl’esprit
des méthodes factoriellesqui
nous animeici,
ils’agit
pources auteurs de retenir ou pas chacune des variables
initiales,
et non de rechercher les combinaisons lesplus
utiles de celles-ci.Enfin,
pour l’utilisation combinée detechniques
factorielles etd’algorithmes
de classification(dans
unesprit cependant
unpeu
différent)
uneimportante
référence estDiday et
al.(1979).
Puisque l’analyse
en composantesprincipales généralisée
que nousprésentons
ici vise à faire
apparaître
les effets structuraux, lescomposantes principales qu’elle
fournit devraient être bien
adaptées
pour une classification. Avant depréciser
cepoint,
notons
qu’il s’agit
de la motivationprincipale
deArt,
Gnanadesikan etKettenring (1982) qui,
lespremiers,
ont introduit une variance locale dans le mêmeesprit
queTn quoique
sensiblement différente.Considérons la méthode de base
(la
discussion estanalogue
pour la méthoderobuste)
et supposonsretenues q
dimensions(où q
n’est pas nécessairement la « vraie » valeur de ladimension). Notons ( j = 1,... q)
des vecteurs propresT;;l ((3) -
orthonormés de
VnT-1n(03B2)
associés aux qplus grandes
valeurs propres, etUq
lamatrice p x q dont les colonnes sont les uj. Afin d’obtenir une variance «locale»
des individus
représentés
par leurscomposantes principales (c’est-à-dire
une variancelocale pour les
projections obtenues),
il est naturel d’utiliser une formule dutype (1),
avec les mêmes
poids,
mais enremplaçant chaque Xi - Xj
par saprojection,
c’est-à-dire par
U’qT-1n (Xi - Xj),
en notantsimplement Tn
pourTn (03B2).
La variance locale est donc maintenantU’qT-1nTnT-1nUq = Iq puisque
les uj sontT-1n(03B2) -
orthonormés.En ce sens, on voit que les groupes, si groupes il y a, sont
« sphériques »
et seront doncfaciles à détecter par tout
algorithme
de classification« naïf » ,
nous voulons dire par là ne cherchant pas à« adapter »
les distances euclidiennescanoniques,
comme unalgorithme
k-meansélémentaire,
parexemple.
Par
ailleurs,
lestechniques
duparagraphe
3peuvent permettre
de réduire la dimension en s’en tenant auxcomposantes significatives, puisque
les autrescontiennent essentiellement des bruits non structurels.
Ces divers
aspects
sont illustrés etapprofondis
avec lesexemples
duparagraphe
suivant.
5.
Exemples
Précisons avant tout que, selon nous
(et
biend’autres !),
uneanalyse exploratoire
doit commencer par les choses les
plus simples,
sans doute d’abord desanalyses
élémentaires variable par
variable,
mais nous n’alourdirons pasl’exposé
avec celles-ci,
ensuite desanalyses
multidimensionnellesqui,
pour letype
de données considéréesici,
commenceront engénéral
parl’analyse
encomposantes principales (ACP).
Cen’est
qu’après (mais,
pensons-nous,quels
que soient les résultats del’ACP)
que l’onpeut
passer à desanalyses
encomposantes principales généralisées,
encommençant
par la recherche de valeurs
atypiques
selon la méthode donnée dansCaussinus,
Hakamet Ruiz-Gazen
(2002)
pour continuer avec lestechniques développées
dans leprésent
article.
Mais,
pour les besoins de notreillustration,
c’est évidemment ce dernierpoint qui
recevra ici le maximum d’attention.5.1. Un
exemple
simuléNous considérons un
exemple
semblable àl’exemple
4.3 de Caussinus et Ruiz(1995).
La loi deprobabilité
P est la loi uniforme sur le cercle de centre 0 et rayonB/2
situé dans leplan
des deuxpremières coordonnées,
tandis que le bruit est une loi normalecentrée,
à p coordonnéesindépendantes,
les deuxpremières
de variancea2
et les autres de variance 1 +u 2.
La loi d’unXi
est alors centrée de matrice de variances et covariances(1
+03C32)Ip.
Nous avonspris
ici p -4, 03C3
=0, 2
et nousavons
généré
n = 500 individus.La
figure
1 donne laprojection
despoints
simulés sur leplan
des deuxpremières
coordonnées. Vu la matrice de variance des
Xi,
il est clair que l’ACP fournit des résultats(projections)
totalementarbitraires,
ce que l’onpeut
vérifier avec lafigure
2
qui
montre lesprojections
sur lepremier plan principal.
On a enfin utilisé notreméthode,
méthode de base avec13
= 2. Lafigure
3 donne lesprojections
sur lepremier plan principal.
Les valeurs propres sont :3, 29 3,12 2, 50 2,47
Les valeurs
critiques asymptotiques
déduites des tables 1 et 2 au moyen de la formule(3)
sont :au niveau 5%:
2,61 2, 56 2, 52 2, 48
au niveau 1 % :
2, 63 2, 58 2, 54 2, 50
Les deux
premières
valeurs propres observées sontsignificatives
à 1 % alorsque les suivantes sont non
significatives
à5%,
cequi
est évidemment cohérent avecla nature de
l’exemple (en
fait la troisième valeur propreempirique
estproche
de lavaleur
critique
à 5% mais la conclusionprécédente
est renforcée par la remarque 3 duparagraphe 3).
La loi Plégèrement
bruitée se retrouve bien visible dans lepremier plan principal.
TABLE 1
Valeurs
critiques
desplus grandes
valeurs propres deMn
pour p -
1, 2,...,
14 au niveau de 1 %(obtenues
àpartir
de 100000simulations)
TABLE 2
Valeurs
critiques
desplus grandes
valeurs propres deMn
pour p =
1, 2,..., 14
au niveau de 5%(obtenues
àpartir
de 100000simulations)
FIGURE 1
Projection
despoints
sur leplan
des deuxpremières
coordonnées pourl’exemple
simuléFIGURE 2
Plan
principal (1,2)
de l’ACP pourl’exemple
simuléFIGURE 3
Plan
principal (1,2)
de l’ACP avec lamétrique T-1n (2)
pourl’exemple
simulé5.2. Deux
exemples
réelsOn considère maintenant deux
exemples
réels danslesquels
une classification estplus
ou moins connue apriori;
bien entendu cette connaissance n’est pas utilisée dansl’analyse,
mais elle permet de contrôler l’efficacité des méthodesproposées qui cherchent, rappelons-le,
à découvrir une structure « vraie » en contrôlant lerisque
de« découvrir » une structure illusoire. Nous allons voir que la
méthodologie proposée
est efficace pour retrouver la structure connue et aussi
peut-être
pour enrichirl’analyse
sur
quelques
autrespoints.
5.2.1.
Quelques
insectes incontournablesNous reprenons les données de Lubischew
(1962) qui
sont devenues un passageobligé
en matière deprojections
révélatrices. Ils’agit
de n=74 insectes sur chacundesquels
sont mesuréesp=6 grandeurs morphologiques. L’entomologiste
pense apriori qu’il
y a trois classes différentes constituéesrespectivement
des individus numérotés 1 à21, 22
à43, 44
à 74.La visualisation de ces données a été examinée par l’un de nous dans le
chapitre
8 de
l’ouvrage
édité parDroesbecke,
Fichet et Tassi(1992).
On renvoie à cet ouvrage pour voir d’abord que l’ACP usuelle ne donnequ’une pâle
information sur la structure du nuage des individus. Selon leprécepte
énoncéplus haut,
nous avons ensuiteprocédé
à la détection de
possibles
valeurs aberrantes par la méthodeexposée
dansCaussinus,
Hakam et Ruiz-Gazen
(2002).
Laprojection
sur lepremier plan principal (figure 4)
montre que les individus 67 et 68 sont un peu
« périphériques » ,
mais cela n’est passignificatif :
en effet laplus grande
valeur propre del’analyse
vaut seulement1,08
alors que la valeur
critique
selon les tables de notre articleprécèdent
est ici de1,13
au niveau
5%,
pour03B2=0.05.
Onpeut
néanmoins penserqu’une analyse
faisant entrerdans le rang ces valeurs extrêmes sera sans doute
plus
efficace. C’est bien vérifié si l’on compare lesfigures
5 et 6qui
donnentrespectivement
lesprojections
desindividus sur le
premier plan principal
de la méthode de base et de la méthode robusteexposées
auparagraphe
2. Pour le choix de03B21
dans cettedernière,
nous avons peu d’information sur laproportion
« d’outliers »attendue,
si ce n’estqu’il
devrait y en avoir peu ou pas selonl’analyse précédente;
dans ces conditions(Ruiz-Gazen, 1996),
il convenait
d’essayer quelques
valeurs assezpetites :
nous l’avons fait et obtenu desvues très
similaires,
celle que nous donnons est pour03B21
=0, 1.
FIGURE 4
Plan
principal (1,2)
de l’ACP avec lamétrique S-1n(0,05)
pour
l’exemple
des insectesA cette
étude, déjà présentée
pour l’essentiel dansDroesbecke,
Fichet et Tassi(1992), ajoutons
maintenantplusieurs points importants.
- La suite des valeurs propres pour la méthode de base
(03B2 = 2)
est :5,27 3,12 2,64 2,36 2,14 2,12
A
partir
des tables 1 et 2 et de la relation(3),
on calcule les valeurscritiques :
au niveau 5% :
2,88 2,75 2,65 2,56 2,47 2,36
au niveau 1 % :
2, 94 2,80 2, 70 2, 60 2,51 2,41
Seules les deux
premières
valeurs observées sontsignificatives.
Nous devonsdonc conclure que les dimensions suivantes ne
représentent
que du bruit :FIGURE 5
Plan
principal (1, 2)
de l’ACP avec lamétrique T-1n (2)
pourl’exemple
des insectesFIGURE 6
Plan
principal (1,2)
de l’ACP robuste avecUn(0, 1)
et lamétrique T-1n(2)
pour
l’exemple
des insectesl’étude nous dit ainsi que toute
interprétation
au delà dupremier plan principal risque
d’être illusoire. Ici encore notons que, si la troisième valeur propre esttout juste
nonsignificative
au niveau nominal5%,
le niveau réel nepeut
être quesupérieur
conformément aux remarques 2 et 3 duparagraphe
3.- Nous avons utilisé
l’algorithme
k-means telqu’il
est donné en routine dansS-plus
pour la recherche de 3 groupes. Sur les donnéesd’origine (réduites), quatre
individus sont mal affectés : les numéros 6 et 10 d’unepart,
47 et 68 de l’autre. L’utilisation del’algorithme
sur lespremières composantes
de l’ACP(réduite)
donne lesquatre
mêmes erreurs au moinsquel
que soit le nombre decomposantes
considéré. Nous avons ensuite utilisé ce mêmealgorithme
àpartir
descomposantes principales
destechniques discutées
ici.Avec les deux
premières composantes principales
de la méthode debase,
seul l’individu 10 reste malclassé,
et iln’y
aplus
aucune erreur si l’on utilise les troispremières composantes
ouplus.
Enfait,
bien que nonsignificative,
latroisième
composante peut
encore contenir del’information;
d’autrepart,
il ne semble paspréjudiciable
ici d’introduire des variables « inutiles »(sans
doutegrâce
à lasphéricité
des classes montrée auparagraphe 4). Enfin,
avec les deuxpremières composantes
del’analyse robuste, l’algorithme
k-means fournit la bonneclassification,
l’individu 10 étant maintenant rentré dans le rang, et ilen va de même avec un nombre
plus
élevé decomposantes.
Lasupériorité
del’analyse
robuste s’avère confirmée.FIGURE 7
Plan
principal (1,2)
de l’ACP avec lamétrique T-1n(2)
pour les individus 44 à 74 de
l’exemple
des insectes- Nous n’avons pas discuté ci-dessus du choix du nombre de
classes,
car il sembles’imposer d’après
lesgraphiques
obtenus etd’après
la dimension del’espace « significatif » .
Nous avonscependant essayé
une classification enquatre classes; l’algorithme
retenu coupe alors en deux la troisièmeclasse,
celle des individus 44 à 74. Cela nous a amenés à examiner la structure de cenuage de 31
points
au moyen desanalyses
duparagraphe
2. Pour s’en tenirà la méthode de
base,
lafigure
7 montre lesprojections
des individus dans lepremier plan principal.
Il est difficiled’y
voir une structuration sans faire preuve debeaucoup d’imagination
et, pour leconfirmer,
laplus grande
valeurpropre est
égale
à2,85
et elle est nonsignificative (les
tables et la relation(3)
donnent une valeur
critique
de3,09
au niveau nominal de5%, lequel
pour cepetit
échantillon est très sous-évalué selon la remarque 2 duparagraphe
3 etles simulations que nous avons
effectuées).
5.2.2. Entre chiens et
loups
Nous revisitons maintenant
l’exemple
aveclequel
Jambu(1977)
illustrel’utilisation
conjointe
de l’ACP et detechniques
de classificationhiérarchique.
C’estun
petit
fichier de 43 individus(des canidés)
et 6variables, mais,
enadaptant
nos am-bitions à sa
taille,
il est suffisant pour montrer leparti qu’on
peut tirer des méthodes que nous avonsexposées.
Il y a 12loups
numérotés 31 à 42(nous
avons conservé la numérotation de l’articled’origine)
et 31 chiens de races diverses(individus
1 à 30et
43,
ce dernierayant
un statutspécial
surlequel
nous ne reviendronspas).
Jambu(1977)
fait d’abord une ACP(réduite)
et note que lepremier
facteur tend àséparer
chiens et
loups quoiqu’il
reste un recouvrement certain des deux groupes. Il en va de même pour les classificationsqu’il
établit ensuite. Pour notrepart,
conformémentau
précepte
énoncé enpréambule
de ceparagraphe, après
l’ACP nous avons faitune
analyse
de structure visant d’abord à détecter d’éventuelles valeursatypiques.
Laméthode de notre
précédent
article conduit ici à lareprésentation
de lafigure
8 dans lepremier plan principal.
Les deuxpremières
valeurs propres sontsignificatives
et noussommes conduits à
accepter
laprésence
de trois individusatypiques qui
sont deuxloups
et unbull-dog. L’analyse
de structure est alorspoursuivie
par les méthodes duprésent papier.
La méthode de baseapprend
peu de nouveau : elle redonne surtout(en
moinsclair)
lespoints atypiques,
illustrant nos remarques de la fin duparagraphe
2.1.sur le masquage par ceux-ci d’autres types de structure
(voir figure 9).
La méthoderobuste
s’impose
donc. Pourl’appliquer,
il faut choisir une valeurjudicieuse
de(31,
sans doute pas
trop petite
étant donné laproportion apparente
d’ « outliers » . On peut fairequelques essais,
mais les recommandations de Ruiz-Gazen(1996)
peuvent aider à lesdiriger :
le nombre de variables étant p = 6 et laproportion
d’outliers étant estimée à 03B5 =3/43,
cet articlesuggère qu’une
bonne valeur dedépart
est donnée par 26 x3 x i = 0, 3 ;
nous avons finalement retenu(31 = 0, 2 qui
donne lesprojections
des
figures
10 et 11respectivement
sur lesplans (1,2)
et(1,3).
La suite des valeurs propres observées est :4,32 3,70 3,06 2,84 1,71 1,44
Comme nous l’avons
dit,
les résultatsasymptotiques
sont trèssujets
à cautionpour 7z = 43. Nous avons donc
préféré
calculer ici des valeurscritiques
par simulation de 1000jeux
de données sousl’hypothèse
nulle. A tous les niveaux lesplus usuels,
ces valeurs propres ne sont pas
significatives;
parexemple
la valeurcritique
pour lapremière
valeur propre au niveau 5% est5,07. Cependant,
à cause de lapetite
taille de