• Aucun résultat trouvé

2008 ). Afin de les classifier, la notion de point de rupture ( breakdown point en anglais)

(Donoho et Huber, 1983) peut ˆetre utilis´ee. Le point de rupture d’un estimateur

corres-pond `a la proportion maximale admissible de valeurs aberrantes dans les donn´ees avant

que cette estimation soit compl`etement corrompue. Par exemple, l’estimateur classique

de la moyenne poss`ede un point de rupture de 0%, ce qui signifie que la pr´esence d’une

seule valeur aberrante est suffisante pour que l’estimation de la moyenne des donn´ees

soit compl´etement erron´ee. Afin de rendre robuste l’ACP aux valeurs aberrantes, les

M-estimateurs (Huber,1964) peuvent ˆetre utilis´es. Ces estimateurs minimisent des fonctions

objectifs plus g´en´erales que l’habituel crit`ere portant sur l’erreur quadratique d’estimation

en moyenne. Cependant le point de rupture des M-estimateurs est limit´e `a

ds1+1

, avec d

s

le nombre de variables consid´er´e. Cette m´ethode est donc peu robuste lorsqu’on

consi-d`ere des syst`emes de grandes dimensions (d

s

important). Dans la suite, on se focalise sur

les m´ethodes robustes poss´edant des points de rupture proches de 50%. Les diff´erentes

m´ethodes robustes peuvent ˆetre regroup´ees de la mani`ere suivante.

Un premier groupe rassemble les m´ethodes o`u l’on remplace la matrice classique de

variance-covariance par une estimation robuste de celle-ci. Dans ce cadre on peut citer

l’es-timateur MCD (Minimum Covariance Determinant) (Rousseeuw, 1987). Cet estimateur

recherche lesh observations d’un jeu de donn´ees (o`u le nombrehest fix´e par l’utilisateur)

qui poss`edent une matrice de variance-covariance ayant le plus petit d´eterminant possible.

En effet, la pr´esence de valeurs aberrantes augmente la variance des donn´ees, donc

per-met d’isoler le d´eterminant de la matrice de variance-covariance le plus petit qui perper-met

de rejeter les valeurs aberrantes. Cependant, cette m´ethode n´ecessite un coˆut en calcul

important (Bernholt et Fischer, 2004) et d´epend d’un param`etre de r´eglage h,

malheu-reusement d´efini par l’utilisateur, qui doit ˆetre optimis´e en fonction du nombre de valeurs

aberrantes (a priori inconnu). Plus r´ecemment, Rousseeuw et Van Driessen (1999) ont

construit un algorithme plus rapide pour cet estimateur appel´e fast-MCD. On peut aussi

citer Caussinus et al. (2003) qui d´efinissent une matrice de variance-covariance “locale”

en ce sens que la forme propos´ee tend `a privil´egier la contribution d’observations proches

au d´etriment d’observations ´eloign´ees dues `a la pr´esence de valeurs aberrantes. Comme

pour la m´ethode MCD, cette m´ethode poss`ede un param`etre de r´eglageβ, qui d´epend du

nombre de valeurs aberrantes a priori inconnu.

Une seconde approche utilise les projections r´ev´elatrices. Ces m´ethodes maximisent une

mesure robuste de la dispersion des donn´ees afin d’obtenir les directions sur lesquelles

projeter les donn´ees (Croux et Ruiz-Gazen, 2005; Hubert et al., 2002; Li et Chen, 1985).

Cependant pour permettre le calcul de cet estimateur, les directions robustes obtenues ne

sont que des approximations des vraies directions.

Les derni`eres approches consistent `a minimiser une mesure robuste des distances

orthogo-nales des observations au sous-espace r´esiduel de l’ACP, similaires aux estimateurs Least

Trimmed Squares (LTS)(Rousseeuw, 1984) ou MM-estimateur (Yohai, 1987; Maronna,

2005). Ces m´ethodes, bas´ees sur des proc´edures it´eratives, sont simples `a mettre en oeuvre.

Cependant, les performances de ces m´ethodes d´ependent de l’initialisation de l’algorithme

de calcul. En effet une bonne initialisation est n´ecessaire afin d’´eviter la convergence des

m´ethodes vers un minimum local.

La pr´esentation qui suit est consacr´ee au probl`eme de d´etection de valeurs aberrantes

dans des donn´ees. Tout d’abord, les caract´eristiques d’une valeur aberrante pour l’ACP

sont rappel´ees. L’estimateur MCD, m´ethode de r´ef´erence pour ses performances (Hubert

et al., 2005), est alors expos´e en d´etail. Cependant, cet estimateur n´ecessite un temps de

calcul important, et une connaissance a priori de la quantit´e de valeurs aberrantes pr´esente

dans les donn´ees (inconnue). C’est la raison pour laquelle nous proposons une nouvelle

m´ethode robuste nomm´ee MMRPCA. Ainsi, un MM-estimateur est utilis´e pour

d´etermi-ner un mod`ele robuste. Cet estimateur est une combinaison de deux M-estimateurs, un

M-estimateur afin d’estimer le mod`ele ACP et un second M-estimateur utilis´e afin

d’esti-mer le param`etre de dispersion des poids attribu´es `a chaque observation. Cet estimateur,

calcul´e avec un algorithme it´eratif, est initialis´e avec un estimateur robuste de la matrice

de variance-covariance qui tend `a privil´egier la contribution d’observations proches au

d´etriment d’observations ´eloign´ees dues `a la pr´esence de valeurs aberrantes. Ensuite les

outils de d´etection de d´efauts sont utilis´es, `a partir du mod`ele robuste, pour trouver les

valeurs aberrantes pr´esentes dans les donn´ees. La d´etermination des valeurs aberrantes

permet alors d’´eliminer leurs influences et estimer ainsi un mod`ele ACP non biais´e. Pour

d´eterminer le nombre de composantes principales, une proc´edure robuste est propos´ee.

La sensibilit´e aux param`etres de r´eglage de cette m´ethode est pr´esent´ee puis la m´ethode

MMRPCA est alors compar´ee en termes de d´etection avec l’estimateur MCD.

2.2 Caract´eristiques d’une valeur aberrante pour l’ACP

Les diff´erents types de valeurs aberrantes sont explicit´es sur la figure 2.1 en consid´erant

un syst`eme `a 3 variables et 2 composantes principales. Ils sont classifi´es en fonction de

leurs effets sur la construction du mod`ele ACP. Ainsi, 2 types d’observations peuvent ˆetre

distingu´es (Hubert et al.,2005) :

– Les observations normales qui appartiennent `a un groupe homog`ene qui se trouve dans

l’espace principal.

– Les valeurs aberrantes qui correspondent aux points poss´edant une projection dans

l’espace r´esiduel importante et qui poss`edent une projection dans l’espace principal

´eloign´ee de la projection des observations normales comme par exemple les observations

2 et 3 de la figure 2.1. De plus, parmi les valeurs aberrantes, on peut diff´erencier les

extrˆemes :

– Les valeurs aberrantes de type I qui poss`edent une projection dans l’espace r´esiduel

faible et qui poss`edent une projection dans l’espace principal ´eloign´ee de la projection

des observations normales comme par exemple les observations 1 et 4 de la figure2.1.

– Les valeurs aberrantes de type II qui poss`edent une projection dans l’espace r´esiduel

importante et qui poss`edent une projection dans l’espace principal similaire `a la

pro-jection des observations normales comme par exemple l’observation 5 de la figure2.1.

5

4

3

2

1

Fig. 2.1 – Illustration des diff´erents types de valeurs aberrantes dans le cas de 3 variables

et de 2 composantes principales

Pour construire un mod`ele robuste aux valeurs aberrantes, il faut minimiser l’influence des

valeurs aberrantes sur le calcul du mod`ele ACP. Les m´ethodes de construction de l’ACP

robuste aux valeurs aberrantes sont alors introduites. La premi`ere m´ethode pr´esent´ee en

d´etail est, une m´ethode de r´ef´erence dans la litt´erature, la m´ethode de minimisation du

d´eterminant de la matrice de variance-covariance (MCD). Un d´efaut peut-ˆetre consid´er´e

comme une valeur aberrante et inversement, dans la suite ces deux termes sont utilis´es

indiff´eremment.

2.3 M´ethode MCD

La m´ethode MCD (Minimum Covariance Determinant) est utilis´ee afin de d´eterminer

une matrice de variance-covariance robuste. Le mod`ele ACP robuste est alors obtenu en

d´ecomposant cette matrice de variance-covariance robuste en valeurs propres et vecteurs

propres.

L’estimateur MCD (Rousseeuw, 1987) vise `a minimiser le d´eterminant de la matrice de

variance-covariance. En effet, la pr´esence de valeurs aberrantes augmente la variance des

donn´ees, donc permet d’isoler le d´eterminant de la matrice de variance-covariance le plus

petit qui permet de rejeter les valeurs aberrantes. Dans son principe, cette m´ethode cherche

h observations, avec h le nombre d’observations consid´er´ees comme “saines”, qui

mini-misent le d´eterminant de la matrice de variance-covariance. Le point de rupture de cette

m´ethode est directement li´e `a la valeur du nombre h. L’algorithme qui d´ecoule de cette

m´ethode est le suivant :

1. Effectuer 500 fois :

(a) S´electionnez un jeu al´eatoire contenant h observations. La valeur de