R EVUE DE STATISTIQUE APPLIQUÉE
H. C AUSSINUS S. H AKAM
A. R UIZ -G AZEN
Projections révélatrices contrôlées recherche d’individus atypiques
Revue de statistique appliquée, tome 50, n
o4 (2002), p. 81-94
<http://www.numdam.org/item?id=RSA_2002__50_4_81_0>
© Société française de statistique, 2002, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
PROJECTIONS RÉVÉLATRICES CONTRÔLÉES
RECHERCHE D’INDIVIDUS ATYPIQUES
H.
CAUSSINUS(1),
S.HAKAM(1,2),
A.RUIZ-GAZEN(1,3)
(1) Laboratoire de
Statistique
et Probabilités, U.M.R. - C.N.R.S. C5583, Université Paul Sabatier, 118, route de Narbonne, 31062 Toulouse cedex 4(2)
Département
deMathématique
etInformatique,
Faculté des Sciences, B.P. 1014, Ave. Ibn Battouta, Rabat, Maroc(3)
Gremaq,
U.M.R. - C.N.R.S. C5604, Université Toulouse I, 21, allée de Brienne, 31000 ToulouseStatistique Appliquée,
RÉSUMÉ
En
présence
d’un tableau individus x variables, les méthodes deprojections
révélatrices recherchent desprojections
exhibant au mieux d’éventuelles structuresparticulières
de ladistribution des individus. Caussinus et Ruiz-Gazen ont
proposé
à cet effet desanalyses
en composantesprincipales généralisées
par un choix convenable demétriques.
Dans cet article,nous
rappelons
latechnique qu’ils préconisent
pour la détectiongraphique
et lepositionnement
d’individus (ou de
petits
groupes d’individus)atypiques.
Nous montrons ensuite commentl’affiner à
partir
de résultatsthéoriques
récents d’ Hakam (2002) : ceux-ci permettent de contrôler lesprojections significatives,
c’est-à-dire la dimension à retenir et les décisionssusceptibles
d’être tirées des
graphiques
obtenus. Desexemples
(simulé et réel) illustrent la méthode et aident à en discuter laportée.
Mots-clés :
Analyse
en composantesprincipales, Projections
révélatrices, Valeurs aberrantesou
atypiques, Techniques graphiques.
ABSTRACT
Let us consider an individual x variable array.
Projection
Pursuit aims to find low- dimensionalprojections displaying interesting
features in the structure of the units distribution.For that, Caussinus and Ruiz-Gazen have
proposed
to usegeneralised principal
componentanalyses
with convenient choices of the metric on the units space. We first recall theirproposal
for thegraphical
detection of outliers. Then we show how toimprove
itby using
recent theoretical results
by
Hakam (2002) : these results allow us to get a test to assess the statisticalsignification
of the obtainedprojections,
i.e. inpractice
to make a decision about thedimensionality
of the relevantdisplay.
A simulated and a realexamples
areprovided
toillustrate the method and
investigate
itsefficiency.
Keywords : Graphical displays,
Outliers,Principal
componentanalysis,
Projectionpursuit.
1. Introduction
Nous considérons n individus caractérisés par p variables réelles. A
chaque
individu
correspond
donc un vecteurXi
de RP(i
=1, ... , n), l’empilement
de cesvecteurs conduisant à une matrice X de dimension n x p. La méthode
d’analyse (et
devisualisation)
de X laplus classique
estl’Analyse
enComposantes Principales (ACP)
avec ses diverses variantes
(ACP réduite, Analyse
desCorrespondances, etc.) qui
lamodifient le
plus
souvent par une transformationsimple
des données ou enspécifiant
une
métrique
sur RP. Pour une discussion de tels choix onpeut,
parexemple,
seréférer à
Besse, Caussinus, Ferré,
Fine(1986).
Ces diverses méthodesd’analyse
restent
cependant
"du second ordre" en ce sensqu’elles
sont fondées sur une inertieou, si l’on
préfére,
sur des moments d’ordre 2. Elles ont étécritiquées
pourcela,
ouplutôt
leur efficacité a été relativisée(Sibson, 1984)
car, de cefait,
certainsaspects importants
de la structure du nuage desXi peuvent complètement
leuréchapper,
ne pas
apparaître
dans les sous-espacesprincipaux
retenus, même si leur dimension est élevée. Afin de mettre en évidence de telles structurescachées,
sont nées destechniques
dites ici de"projections révélatrices",
heureuse traduction(due
à YvesEscoufier)
del’anglais "Projection
Pursuit"qui
vient de la référence à une suite deprojections
à la recherche des aspects cachés du nuage des individus(Friedman
etTukey, 1974).
Pour une formalisationsynthétique
on pourra consulter Huber(1985)
et, pour une
présentation
enfrançais,
lechapitre
8 del’ouvrage
collectif édité parDroesbecke,
Fichet et Tassi(1992).
Parailleurs,
alors que laplupart
des travaux surles
projections
révélatrices sont fondés sur desapproches
très différentes de celle del’ACP,
ce dernier texte met l’accent sur lapossibilité
d’obtenir desprojections originales
intéressantes par des méthodesproches
del’ACP,
en ce sensqu’elles
se ramènent à la
simple diagonalisation
d’une matrice : ils’agit
en fait d’ACP"généralisées"
utilisant sur RP desmétriques
convenablesdépendant
des données(de façon
nonquadratique
si bien que les méthodes associées ne sontplus
seulementdu second
ordre).
Cestechniques d’analyse
ont ultérieurement étédéveloppées
par Caussinus et Ruiz-Gazen( 1993,1995) qui
montrentquelques propriétés
des méthodesd’ACP
généralisée qu’ils
ontproposées.
On trouvera enparticulier
dans ces articlesun cadre
théorique permettant
de fournir desréponses
à desquestions
telles que : pourquel type
de structure des données ces méthodes sont-ellessusceptibles
deproduire
des
projections
intéressantes? Lesproblèmes
de dimension y sont aussi abordés :quelle
est la dimension utile del’espace
deprojection (suffisamment grande
pourcapter
la structurecherchée,
suffisammentpetite
pour ne pas exhiber d’éventuelsartefacts) ?
La solution à cette dernièrequestion,
telle queproposée
dans cesarticles,
est
largement heuristique.
Mais des travaux récents(Hakam, 2002) permettent
de lapréciser,
de sorte que c’est une démarcheplus
achevée que nous pouvons maintenant mettre enplace
et que nous nous proposons deprésenter
ici en nous attachant auxaspects méthodologiques (nous
renvoyons ailleurs pour des démonstrations d’ordremathématique)
et en les illustrant par desexemples.
Dans le
présent article,
nous nous concentrons sur la détection et la visualisation des individusatypiques.
Si leproblème
des valeursatypiques
a suscité une abondantelittérature,
c’est biendavantage
pour les données unidimensionnelles que pour les données multidimensionnelles. Leconcept
d’individuatypique
est alors nettementplus complexe
et lestechniques graphiques
ont uneimportance majeure
pour leur miseen évidence. Ces
techniques
restent leplus
souventheuristiques
et non contrôlées pardes outils de validation
(voir,
parexemple,
Bamett etLewis, 1994,
section7.4).
Aucontraire,
la démarcheproposée
dans cet article relève à la fois del’analyse descriptive
des données et d’une validation de nature confirmative en nous
permettant :
(i)
d’unepart
de détecter les individussuspects
des’éloigner
du nuage"majori-
taire" et de les
"positionner"
parrapport
àcelui-ci,
(ii)
d’autrepart
de déciderlesquels
de cesindividus,
ou du moinsquelles projections
les mettant en
évidence,
sontsignificatif(ve)s,
parrapport
à cequi
résulteplus
vraisemblablement d’un seul bruit fortuit.
Sans doute la
possibilité
de réunir naturellement ces deuxaspects
del’analyse statistique
constitue-t-elle l’intérêtmajeur
de la méthodeglobale
que nousprésentons ci-dessous,
lepoint (i)
dans leparagraphe 2,
lepoint (ii)
dans leparagraphe 3,
tandisque des
exemples
viennent illustrer le tout dans leparagraphe
4.2. ACP
généralisée
pour la recherche d’individusatypiques :
modèle et
principe
A
chaque
individu i(i
==1,..., n)
est associé un vecteurXi
de Rp . On considère les deux matrices p x p suivantes :avec
Vn
est la matrice des variances et covariancesempiriques usuelles,
tandis queSn (03B2) peut s’interpréter
comme une matrice de variances et covariances robustes(on peut
consulterRuiz-Gazen, 1996,
pour desprécisions
sur cetaspect)
danslaquelle 03B2
est un réel donné
"petit" (voir ci-dessous).
Selon une idée initiée par
Yenyukov (1988) (sous
une formeheuristique
et unpeu
différente)
etdéveloppée
par Caussinus et Ruiz-Gazen(1993, 1995),
on réaliseune ACP de
Vn
avec, pourmétrique
surl’espace
RP desindividus,
la matrice inverse deSn(03B2).
Ondiagonalise
doncVnS-1n(03B2)
et les individus sontprojetés S-1n(03B2)-
orthogonalement
sur les sous-espacesprincipaux.
Il estimportant
derappeler
que laprojection
ainsi obtenue est invariante par transformation affine desXi,
cequi
faitbien ressortir
qu’elle
concerne seulement la structure du nuage des individus au delà des diversaspects
decentrage
et d’échelle(même
pour deschangements
d’échellearbitrairement choisis pour chacune des
variables,
alors que l’ACP usuelle n’est invariante que par transformationsorthogonales,
c’est-à-direpréservant
lesdistances).
Considérons maintenant le modèle suivant de "valeurs
atypiques" :
Xi
est un vecteur aléatoire dont la loi deprobabilité
est unmélange
de(q +1)
lois normales
N(mj, W)
enproportions respectives
pj( j
=0, 1,..., q),
où l’indice 0 caractérise la loimajoritaire
et les indices 1à q caractérisent q possibilités
decontamination de la moyenne. En vertu de la
propriété
d’invariancerappelée
ci-dessus,
onpeut
supposer mo = 0 et W = I.Pour faire ressortir au mieux les valeurs
atypiques
sur les sous-espaces deprojection,
il faut que la méthode conduise àprojeter
les individus sur le sous-espaceengendré
par les mj(j
=1,..., q).
Onpeut
montrer(voir
Caussinus etRuiz-Gazen, 1993, 1995)
que c’est le cas, pour n assezgrand
etdes pj (j
=1,..., q)
suffisammentpetits (rappelons
quel’objectif
est de mettre en évidence des individusatypiques,
doncdes
configurations rares),
enprenant
pour/3
une valeurpetite,
parexemple
de l’ordrede 0.05 ou 0.01. Pour des
précisions
sur lesaspects théoriques,
on pourra consulter les deux articles mentionnés ci-dessus. Parailleurs,
lenombre q
de contaminations est, enpratique,
inconnu. Il estégal
à la dimension du sous-espaceengendré
par les mj(j
=1,..., q), c’est-à-dire q (sauf
dans le casexceptionnel
où les mj enquestion
ne seraient pas linéairementindépendants). Ainsi,
le choix de la dimension du sous-espace utile pour visualiser les valeursatypiques
est-il lié à l’évaluation de l’entier inconnu q. Une méthodeheuristique
estproposée
par Caussinus et Ruiz-Gazen dans les articlesdéjà
cités. On remarque que, sous des conditionsgénérales précisées
par ces auteurs,
les q plus grandes
valeurs propres de l’ACPproposée,
c’est-à-dire celles de la matriceVn,S-1n (03B2), convergent,
pour ngrand,
vers un nombre strictementsupérieur
à 1 +(3,
tandis que les valeurs propres suivantesconvergent
vers 1 +(3.
Cela conduit à arrêter l’ ACP
lorsque
les valeurs propres deVnS-1n (03B2)
sontproches
de 1 +
(3.
Une seulequestion
concrète se pose alors : que doit-on entendre par"proche
de 1 +
(3"?
Celadépend
évidemment de la variabilitéd’échantillonnage
des valeurs propres considérées.Or,
des travaux récents(Hakam, 2002) permettent
de fournir uneréponse
de natureobjective
que nous exposons ci-dessous.3. Choix de la dimension : valeurs
critiques
Comme nous venons de le
voir,
leproblème
de la dimension est lié à l’évaluation de la loi deprobabilité
des valeurs propres de la matrice :Celles-ci sont liées de
façon simple
au valeurs propres de la matriceCette dernière matrice est
symétrique.
En notant M* le vecteur colonne àp(p + 1)/2 lignes
constitué(dans l’ordre)
des élémentsdiagonaux
de M et des éléments dutriangle supérieur,
Hakam(2002)
a obtenu le résultat suivant.En l’absence de
contamination,
c’est-à-dire sousl’hypothèse
nulle q =0,
la loide M* converge,
quand
n tend versl’infini,
vers une loi normale de moyennenulle,
dont la matrice des variances et covariances a la forme
où le bloc sud-est est
diagonal
de dimensionp(p - 1)/2
parp(p - 1)/2
avec sur ladiagonale
et où le bloc nord-ouest est de dimension p par p avec tous les éléments extra-
diagonaux égaux
àet les éléments
diagonaux égaux
àLe terme c
correspond
à la varianceasymptotique
des termesextra-diagonaux
de
M,
les covariancescorrespondantes
étantnulles,
tandisque b correspond
à lavariance
asymptotique
et d à la covarianceasymptotique
des termesdiagonaux
deM. Les covariances
asymptotiques
entre termesdiagonaux
et termesextra-diagonaux
de M sont toutes nulles.
Des simulations ont montré que la convergence est relativement
rapide
et quel’approximation
par la loiindiquée
est bonne dès que n est voisin de 100.A
partir
delà,
la loiasymptotique
des valeurs propres n’est pas facile à déterminer defaçon analytique,
mais il estsimple
etrapide
de le faire par simulationpuisqu’il
suffit degénérer
des matrices dont la loi est la loi limite donnéeci-dessus,
matrices très facilement obtenues par transformations élémentaires de loisN(0,1).
Cela
permet
de proposer unetechnique
de validation contrôlée du choix de ladimension,
parexemple
un testd’hypothèses multiples
défini ainsi :- choisir un niveau de
signification
a. La table 1correspond
à a =5%
et la table2 à 03B1 = 1%.
- transformer les valeurs propres de L en les valeurs propres
correspondantes
deM. On a :
si A est valeur propre de
L,
alors est valeur propre de M(les
valeurs propres de L et M étantrangées
dans lemême ordre),
- comparer
chaque
valeur propreempirique
ainsi obtenue à la valeurcritique correspondante
encommençant
par laplus grande
valeur propre et en validant les dimensions commesignificatives
tant que la valeurempirique
des valeurs propres de M estsupérieure
à la valeurcritique.
Remarquons
que les valeurscritiques
calculéesdépendent
duparamètre 13.
DansCaussinus et Ruiz-Gazen
(1993, 1995),
lespropriétés théoriques
ont étédéveloppées
pour
13
suffisammentpetit
et, dans lesexemples analysés, 13
était choisi de l’ordre de 0.1 à 0.5. Noussuggérons
d’utiliserplutôt
des valeurs encore inférieures pour13,
de l’ordre de 0.01 à 0.1. Les résultats obtenus sont
particulièrement
stables pour ces différentes valeurs de13.
Les valeurscritiques
des tables 1 et 2 ont été évaluées par simulation commeindiqué plus
haut pour13
= 0.05 et sont valides pour13 compris
entres 0.01 et 0.1 avec une
précision
de l’ordre de 0.1(demi-longueur approximative
des intervalles de confiance de sécurité
0.95).
Nous utilisons lavaleur
= 0.05 dans lesexemples
traités ci-dessous.Comme
toujours,
dans unerègle
de choixmultiple,
il est clair que le niveaucÈ n’est
qu’indicatif
au delà de la dimension 1. Cettequestion pourrait
mériterplus ample discussion,
mais il nous semblequ’en
matière de contrôle d’uneexpression graphique,
nous avonsdéjà
ainsi un cadre suffisamment solide.4.
Exemples
Nous examinons deux
exemples.
Lepremier
est unexemple
simuléprécédem-
ment
analysé
dans Caussinus et Ruiz-Gazen(1993).
Ils’agit
d’un échantillon de 100 observations à 6 dimensions dont les 10premières
sont issues de la loiN((5, 0, 0, 0, 0, 0)’, W)
et les 90 suivantes sont issues de la loi normaleN(0, W)
avec W matrice
diagonale
dediagonale (1,4,4,4,4,4). D’après
la distribution del’échantillon, q =
1. L’ACPgénéralisée
avec lamétrique S-1n(0.05)
conduit auxvaleurs propres de L et M suivantes :
D’après
la table1,
on trouvequ’au
niveau ce -5%,
seule lapremière
di-mension est à retenir pour visualiser les individus
atypiques.
Lafigure
1 montrequ’effectivement
les 10premières
observations forment un nuage à peuprès
ho-mogène
sur la droite dugraphique qui
sedistingue
bien(sauf
l’observation4)
dureste des données sur le
premier
axe. Sans critère devalidation,
il aurait été tentant d’affirmer que l’observation numéro 13 était aussiatypique,
dans une autre directionTABLE 1
Valeurs
critiques
des 10plus petites
valeurs propres de M pour p =1,...,
20 au niveau a ==5%
que les
précédentes ;
mais le fait que la seconde directionprincipale
ne soit passigni-
ficative
prévient
des’égarer
vers cetteinterprétation
malencontreuse dugraphique;
13est certes
extrême,
mais tout à faitcompatible
avec la variabilité du groupeprincipal.
Une
technique classique
de détection de valeursatypiques
en situation mul-tivariée consiste à considérer comme telle toute observation
Xi
dont la distance de Mahalanobis au centre de la distribution(Xi - Xn)’V-1n (Xi - Xn )
excède une valeurcritique
donnée. Rousseeuw et Van Zomeren(1990)
ontproposé
d’utiliser une version robuste de la distance de Mahalanobis enremplaçant Xn
etVn
par des estimateurs deposition
et dedispersion
robustes. Dans Ruiz-Gazen(1996),
il estproposé
d’utiliser unestimateur
simple
et robuste dedispersion
défini par :Un (03B2)
=(S-1n (03B2)-03B2V-1n)-1.
Cet estimateur de
dispersion
nous semblant leplus
cohérent avec la méthode de pro-jections
révélatrices utiliséeici,
nous avons calculé les distances de Mahalanobis des 100 observations del’exemple (distances
à la moyenne au sens de lamétrique
TABLE 2
Valeurs
critiques
des 10plus petites
valeurs propres de M pour p =1,...,
20 au niveau a =1%
U-1n (0.05)).
Bien entendu les valeurs décidéesatypiques dépendent
du niveau desig-
nification retenu
(sans
mêmeparler
desproblèmes
de niveauposés
par la réalisation de testssuccessifs). Ainsi,
les individus numéros9, 1, 6, 8, 10, 5,
sont les seulsparmi
les "vrais"
atypiques
à être détectés à un niveau de l’ordre de5%,
mais en mêmetemps
que l’on décrèteatypiques
les individus "normaux" 13 et 69. En allantjusqu’à
un niveau de
10%,
on retrouve l’individu 3(mais
aussi26, 15
et72 !),
au niveau 20%les individus 2 et 7 sont détectés
(mais
aussi85, 79, 51, 33, 99 !),
etc.Quel
que soit le niveauchoisi,
les distances de Mahalanobis calculées sur l’ensemble des variables nepermettent
pas de biendistinguer
les "vrais" individusatypiques
des autres individus.Remarquons
que ce constat reste vrai si l’onremplace
la moyenne et l’estimateurUn({3)
par des estimateurs à hautpoint
derupture (voir
Rousseeuw et VanZomeren,
1990).
FIGURE 1
Premier
plan principal
de l’ACP avec lamétrique S-1n(0.05)
pour
l’exemple
simuléUne fois choisie la dimension de
représentation,
onpeut
aussisuggérer
decalculer des distances de Mahalanobis dans
l’espace
deprojection
des individus.En
fait,
sur lesreprésentations graphiques
que nousdonnons,
la distance entrepoints correspond
à la distance de Mahalanobis au sens de lamétrique S-1n (0).
Si l’utilisateur fixe un niveau designification
03B1, onpeut
tracer un cercle de confiance associé dont le rayoncorrespond
à la racine carrée duquantile
d’ordre 1- a d’une loi de~2 à
2degrés
de liberté
multipliée
par la racine carrée de 1 +03B2.
Le coefficient 1 +{3
estjustifié
car, pour des observations
gaussiennes
de matrice de covariancesW, (1
+0) Sn (0)
est un estimateur consistant de W. Cela n’a pas été fait sur la
figure
1 pour éviterd’alourdir,
d’autant que tracer ici un cerclepeut
êtretrompeur,
incohérent avec le faitqu’une
seule dimension estsignificative.
Par contre, dansl’exemple qui suit,
noustraçons,
pourchaque plan principal considéré,
deux cercles centrés aupoint
moyen et dont les rayonscorrespondent respectivement
à un niveau de 1 % et de 5%.Le deuxième
exemple
est extrait deDaudin, Duby
et Trécourt(1988).
Ils’agit
de p = 8 mesures effectuées sur 86 échantillons de lait. Ces données contiennent un certain nombre d’observations
atypiques.
L’observation 70 enparticulier
est extrêmepour la
cinquième
et la sixième variablequi
valentrespectivement
33.8 et 33.7 pour cette observation alors que les valeurs de lacinquième (respectivement
lasixième)
variable sontcomprises
entre 22.2 et 27.7(respectivement
22.3 et27.4)
pour le reste des observations. Ils’agit
très vraisemblablement d’une erreur detranscription
et,dans Caussinus et Ruiz-Gazen
(1995)
commeici,
l’observation 70 a étécorrigée
enremplaçant
33.8(respectivement 33.7)
par 23.8(respectivement 23.7).
L’ACP avec la
métrique S-1n(03B2) permet
derepérer plusieurs
observationsatypiques.
Atkinson(1994)
arepris l’exemple
en enlevant l’observation 70 et enutilisant la méthode du "stalactite
plot".
Cetteméthode, proposée
par Atkinson et Mulira(1993)
est un raffinement de la méthode des distances de Mahalanobis : ils’agit
d’un résumégraphique qui
permet de détecter des valeursatypiques
au sein d’unéchantillon en calculant des distances de Mahalanobis à
partir
de sous-échantillonsnon contaminés de taille croissante. Bartkowiak et Szustalewicz
(2000)
ont aussiconsidéré cet
exemple.
Ils ont conservé l’observation 70 et ont utilisé la méthode du"grand
tour" pour détecter les observationsatypiques
dans ce fichier de données.Cette
méthode, proposée
par Asimov(1985),
consiste en une suite de rotations et deprojections
des données en deux dimensions et repose sur l’utilisation d’un environnementgraphique dynamique.
Bartkowiak et Szustalewicz(2000) proposent
dereprésenter
sur ces suites degraphiques
desellipsoïdes
de confiance ensuspectant
comme
atypiques
les observationsqui
se trouvent"fréquemment"
à l’extérieur desellipsoïdes.
En réalisant une ACP
généralisée
avec lamétrique S-1n (0.05), après
correctionde l’observation
70,
on obtient les valeurs propres de L et M suivantes :D’après
les valeurscritiques précisées
dans les tables 1 et2,
5 dimensions sont à retenir au niveau de 1% et 6 dimensions au niveau de 5%. Lesfigures 2, respectivement
3 et4, représentent
les 86 observationsprojetées respectivement
sur les
plans principaux (1,2), (3,4)
et(5,6) (d’autres
combinaisons des 6premiers
axes
n’apportent
pas d’informationsupplémentaire).
Cesreprésentations graphiques permettent
non seulement derepérer
les individusatypiques
mais aussi de lescartographier.
Commeexpliqué plus haut, figurent
sur lesgraphiques,
à titreindicatif,
deux cerclescorrespondant
pour leplus petit
au niveau 03B1 =5%
et pour leplus grand
au niveau a =1%.
Nousrepérons
ainsi sur lafigure
2qu’au
niveau1%,
les individus1,
2 et 41 sontatypiques
sur lepremier
axe tandis que l’individu 44 et, dans une moindre mesure, l’individu 3 sedistinguent
de lamajorité
des données sur le deuxième axe. Sur cettefigure,
au niveau5%,
les individus18,
27 et 75 peuvent aussi êtresuspectés atypiques.
Sur lafigure 3,
au niveau1%,
les individus12, 13, 14, 15,
47 et 20 sedistinguent
de lamajorité
des données(ainsi
que 11 et 75 auniveau
5%). Enfin,
sur lafigure 4,
au niveau1 %,
nousrepérons
commeatypiques
lesindividus 77 et 17 et, en
plus,
au niveau5%, 16, 42,
75 et 85. Si nous comparonsnos résultats avec ceux obtenus d’une
part
par Atkinson(1994)
et d’autrepart
par Bartkowiak A. et Szustalewicz A.(2000),
nous pouvons remarquer que nous avons détecté en commun avec ces auteurs les observations1, 2, 12, 13, 14, 15, 16, 17, 41, 44,
77. Nous trouvonsaussi,
comme Atkinson(et
contrairement à Bartkowiak etSzustalewicz),
que les observations3, 47
et 75 sontatypiques
et comme Bartkowiaket Szustalewicz et
(contrairement
àAtkinson)
que les observations 11 et 42 sontatypiques.
La seule observation considérée commeatypique
à la fois par Atkinson etBartkowiak-Szustalewicz et que nous ne retrouvons pas au niveau des 3
graphiques
"significatifs" présentés
est l’observation 74. Considérant maintenant lafigure
5qui
correspond
auplan principal (7,8),
onpeut
noterqu’elle présente
un nuage depoints
sans réelle structure conformément au fait
qu’elle
est associée à des dimensions nonsignificatives;
l’observation 74(comme
d’ailleurs28,
35 et49)
yapparaît
certesextrême mais sans que cela soit
suffisant, d’après
nous, pour lajuger atypique (il
esttout à fait naturel que 4 observations sur 86 se trouvent à l’extérieur du cercle
5%).
FIGURE 2
Plan
principal (1,2)
de l’ACP avec lamétrique S-1n (0.05)
pour
l’exemple
du laitFIGURE 3
Plan
principal (3,4)
de l’ACP avec lamétrique S-1n(0.05)
pour
l’exemple
du laitFIGURE 4
Plan
principal (5,6)
de l’ACP avec lamétrique S-1n (0.05)
pour
l’exemple
du laitFIGURE 5
Plan
principal (7,8)
de l’ACP avec lamétrique S-1n (0.05)
pour
l’exemple
du lait5. Conclusion
Si le
problème
de détection des valeursatypiques
estancien,
il a reçu récemmentune attention
particulière
dans le cadre du "DataMining"
dont uneprésentation
synthétique
etcritique
pourra êtretrouvée,
parexemple,
dans l’article deBesse,
LeGall,
Raimbault etSarpy (2001). Cependant,
comme lerappellent
ces auteurs, si le chercheur d’or ne trouve pas depépite
là où iln’y en
pas, en fouillant suffisamment lesdonnées,
le statisticienpeut
très bien "découvrir" despépites
illusoires. C’est la raison pourlaquelle
nous croyonsimportant
de contrôler efficacement toute méthoded’exploration,
de"fouille",
des donnéesqui,
comme unetechnique
deprojections révélatrices,
cherche à mettre en évidencequelque
structurespécifique
cachée
éventuelle,
ici l’existence d’individusatypiques.
Leproblème
de la détectionsurabondante de valeurs
atypiques
est d’ailleurs souventévoqué
dans la littérature(voir
parexemple Atkinson,
1994 et Bartkowiak etSzustalewicz, 2000).
Sur les
exemples présentés,
on voit lesavantages
et les limites de la méthode de contrôleproposée.
Pour lesavantages,
onpeut souligner
à nouveau le fait de ne pas affirmer(à tort)
que l’observation 13 dupremier exemple
estatypique
et de résister ainsi à une illusion àlaquelle
il serait difficiled’échapper
autrement. Les inconvénients de la méthode sont évidemment duaux de sesavantages :
tout contrôlepeut
être excessif(c’est
l’éternellequestion
des erreurs depremière
et de secondeespèce).
En
fait,
dans cetarticle,
nous n’avons pas considéré lesproblèmes
depuissance.
Disons
cependant
brièvement que celle-ci est une fonctioncroissante,
d’unepart
de la distance des valeursatypiques
au groupemajoritaire (distance
mesurée au traversde mj -
mo),
d’autrepart
de laprobabilité
pj; defaçon qui peut paraître paradoxale,
si Pj doit être
petite
pour que la méthode deprojection
fonctionne(cf.
Caussinus etRuiz-Gazen, 1993),
laprobabilité
de détection seraplus
faible si pj est troppetite : pratiquement,
il estplus
facile de détecter un groupe d’individusatypiques
semblablesqu’un
seulindividu,
cequi
est finalement naturel car un groupe"pèse" davantage
dansla recherche de la direction
qui
le caractérise. Dans notre secondexemple,
c’estpeut-
être la raison pourlaquelle
l’individu 74 n’est pasjugé atypique (mais
une autre raisonpossible
estsimplement qu’il
ne l’est pas; dans cetexemple réel,
il est évidemmentimpossible
de savoir defaçon certaine).
Déterminer la dimension
significative q
desdonnées,
c’estdégager
lesaspects importants
parrapport
ausimple
bruit.Ayant
donc estimé q par la méthodeproposée
et
projeté
les individus dans le sous-espaceprincipal correspondant à q dimensions,
on
peut
mettre en oeuvre, sur des données deplus petite
dimension sans pour autantperdre
une informationsubstantielle,
toute(autre)
méthode de recherche de structure, parexemple ici,
la méthode des "stalactiteplots"
ou la méthode du"grand
tour"précédemment
citées. Cette dernièrepourrait
avoirl’avantage
de ne pas limiter lesprojections
à des sous-espaces définis pas des axesfactoriels,
tandis que laprécédente
peut fournir des
représentations graphiques complémentaires
utiles.6. Références
ASIMOV D.
(1985),
"The Grand Tour : a tool forviewing
multidimensionaldata",
SIAM J. Sci. Stat.
Comput., vol.6, 1,
128-143.ATKINSON A.C.
(1994),
"Fast very robust methods for the detection ofmultiple outliers",
J. Amer. Statist.Assoc., 89,
1329-1339.ATKINSON, A.C., MULIRA,
H.-M.(1993),
"The Stalactite Plot for the Detection of MultivariateOutliers",
Statistics andComputing, 3,
27-35.BARTKOWIAK
A.,
SZUSTALEWICZ A.(2000),
"Outliers -finding
andclassifying
which
genuine
and whichspurious", Comput. Statist., 15, 1,
3-12.BARNETT
V.,
LEWIS T.(1994),
"Outliers in StatisticalData",
3rdedition, Wiley,
New York.
BESSE
Ph.,
CAUSSINUSH., FERRÉ L.,
FINE J.(1986),
"Someguidelines
forprincipal
componentanalysis",
COMPSTAT86, Physica-Verlag, Heidelberg,
23-30.
BESSE
Ph.,
LE GALLC.,
RAIMBAULTN.,
SARPY S.(2001),
"DataMining
etStatistique" (avec discussion),
Journal de la SociétéFrançaise
deStatistique, 142, 1, 5-95.
CAUSSINUS
H.,
RUIZ-GAZEN A.(1993), "Projection
Pursuit and GeneralizedPrincipal Component Analyses",
In New Directions in Statitical DataAnalysis
and
Robustness,
Eds.Morgenthaler
S. etal.,
BirkhäuseVerlag,
Basel BostonBerlin,
35-46.CAUSSINUS
H.,
RUIZ-GAZEN A.(1995),
"Metricsfor finding typical
structuresby
means of
principal component analysis",
In Data Science and itsApplications,
Eds. Escoufier Y. et
al.,
AcademicPress,
177-192.DAUDIN
J.J.,
DUBYC., TRÉCOURT
P.(1988), "Stability
ofPrincipal Component Analysis by bootstrap method", Statistics, 19,
241-258.DROESBECKE
J.-J.,
FICHET B. et TASSI Ph.(1992),
Modèles pourl’analyse
desdonnées
multidimensionnelles, Economica,
Paris.FRIEDMAN
J.H.,
TUKEY J.W.(1974),
"AProjection
PursuitAlgorithm
for Ex-ploratory
DataAnalysis",
IEEE Trans.Comput., C-23,
881-889.HAKAM S.
(2002),
Tests designification
pourquelques
méthodes deprojections
révélatrices et
applications, Thèse,
Université MohammedV-Agdal,
Rabat.HUBER P. J.
(1985), "Projection
Pursuit"(with discussion),
Ann.Statist., 13,
435- 525.RUIZ-GAZEN A.
(1996),
"A verysimple
robust estimator for adispersion matrix", Comput.
Statist. and DataAnal., 21,
149-162.ROUSSEEUW, P.J.,
VANZOMEREN,
B.C.(1990), "Unmasking
Multivariate Out- liers andLeverage Points",
Journal of the American StatisticalAssociation, 85,
633-639.SIBSON R.
(1984),
"Presentposition
andpotential developments :
somepersonal
views - multivariate
analysis",
J. R. Statist.Soc., A,
198-207.YENYUKOV I.S.