• Aucun résultat trouvé

3.5 Sélection de variables et 1-SVM

3.5.1 Notre méthode de ltrage MAD e .FS

Dans cette section, nous présentons notre méthode de ltrage que nous avons développée

pour sélectionner les variables les plus pertinentes an d'améliorer la performance de

détection de l'algorithme 1-SVM. Le choix d'une méthode de ltrage est justié par le

temps de calcul rapide de ce type de méthodes. Une autre justication convaincante est

que les méthodes de ltrage permettent de réduire la dimension de l'espace de variables

avant l'apprentissage du modèle, ce qui permet d'éviter le sur-ajustement.

L'idée principale est d'utiliser une méthode de détection univariée pour déterminer le

pourcentage de valeurs aberrantes dans chaque variable. Puis les variables avec un

pour-centage des valeurs aberrantes supérieur à un certain seuil prédéni seront de potentielles

variables discriminantes, tandis que les variables ayant un pourcentage non signicatif

des valeurs aberrantes seront considérées comme non pertinentes. Un avantage important

de cette méthode est qu'elle ne nécessite pas les étiquettes des observations pour faire la

sélection.

Comme approche univariée robuste de détection des valeurs aberrantes, nous avons

uti-lisé la méthode M AD

e

[16] basée sur des estimateurs robustes de la position et la

dis-persion . Pour mieux comprendre le mot robuste, nous introduisons la notion point de

rupture (breakdown point)[27] d'un estimateur qui correspond à la proportion maximale

admissible de valeurs abérrantes dans les données avant que cette estimation soit

complè-tement corrompue. Par exemple, l'estimateur classique de la moyenne et de l'écart-type

possèdent un point de rupture de 0%, ce qui signie que la présence d'une seule valeur

abérrante est susante pour que leur estimation soit complètement erronée. Alors que

la médiane et l'écart absolu à la médiane (Median Absolute Deviation MAD) [39] ont un

point de rupture égale à 50% [45].

Donc la robustesse de la méthode M AD

e

provient du fait qu'elle utilise la médiane et

l'écart absolu à la médiane comme estimateurs respectifs de la position et la dispersion.

En eet ces deux estimateurs ont un point de rupture élevé, et contrairement à la moyenne

et l'ecart-type, les écarts d'un petit nombre (pouvant aller jusqu'à la moitié de la taille

de l'échantillon) de valeurs aberrantes ne sont pas pertinents dans le calcul de ces deux

estimateurs.

3.5.1.1 Ecart absolu à la médiane

En statistique, l'écart absolu à la médiane MAD est une statistique robuste qui mesure

la dispersion d'un échantillon univarié de données. Elle est plus résistante aux valeurs

aberrantes que l'écart-type. Cette statistique est dénie étant la médiane des écarts

absolus à la médiane des observations d'une variablex

.j

:

M AD(j) =mediane

i

(|x

ij

−mediane

j

(x

.j

)|). (3.9)

Dans le but d'utiliser le MAD comme un estimateur consistant ˆσ pour l'estimation de

l'écart-typeσ (i.e.E(ˆσ) =σ, oùE(ˆσ)est l'espérance de σˆ), on prend

ˆ

σ =k×M AD, (3.10)

oùkest un facteur de normalisation constant qui dépend de la distribution des données.

Pour des données suivant une loi normale, k est pris approximativement égal à 1.4826.

Expliquons maintenant le choix de cette valeur. Soit T = (T

1

, . . . , T

n)T

une variable

aléatoire suivant une loi normale N(µ, σ

2

) d'espérance µ et de variance σ

2

, alors la

variable aléatoire Z =

Tσµ

suit la loi normaleN(0,1). La médiane de T converge vers

µquandn tend vers l'inni, et ensuite la probabilitéP(|T−µ| ≤M AD)converge vers

P(|T −µ| ≤mediane(|T−µ|)) =

12

. D'où :

1

2 = P(|Tµ| ≤M AD) =P

|Z| ≤ M AD

σ

(3.11)

= 2F(M AD

σ )1 (3.12)

où F est la fonction de répartition d'une distribution normale centrée réduite N(0,1).

Soit Q l'inverse de F, i.e. Q est la fonction quantile de la loi N(0,1). L'égalité établie

dans (3.11) implique :

F(M AD

σ ) =

3

4 =

M AD

σ =F

−1

(3

4) =Q(

3

4). (3.13)

Finalement, l'Equation (3.10) et l'Equation (3.13) permettent d'établir :

k= σ

M AD =

1

Q(

34

) 1.4826 (3.14)

L'équation (3.14) montre que MAD converge vers σ/1.4826lorsque n tend vers l'inni,

ce qui est équivaut à dire que σˆ = 1.4826×M AD converge vers σ. Autrement dit,

l'espérance de ˆσ pour les grands échantillons distribués suivant une loi normale est

ap-proximativement égale à l'écart-type σ de la population. D'où le facteur k = 1.4826

calibreσˆ dans l'équation (3.10) de sorte qu'il soit un estimateur consistant deσ.

Dans la suite, nous remplaçonsσˆ parM AD

e

pour désigner l'estimateur deσ obtenu en

utilisant le MAD. On a donc :

3.5.1.2 Description de la méthode MAD

e

.FS

La méthode MAD

e

dénit pour un paramètre électrique x

.j

une limite inférieure LL

j

(Lower Limit) et une limite supérieure U L

j

(Upper Limit) telles que toutes les valeurs

situées à l'extérieur de l'intervalle [LL

j

;U L

j

] sont considérées comme aberrantes. Les

limites sont calculées de la façon suivante :

LL

j

=mediane(x

.j

)−3×M AD

e

(j)

U L

j

=mediane(x

.j

) + 3×M AD

e

(j)

où M AD

e

(j) = 1.483×M AD(j).

Cette approche est similaire à la méthode SD (Standard Deviation) qui considère les

valeurs situées à l'extérieur de l'intervalle [¯x±3SD] comme aberrantes, où x¯ et SD

sont respectivement la moyenne et l'ecart-type empiriques de l'échantillon univarié (le

paramètrex

.j

). Cependant, la moyenne et l'écart-type sont remplacés respectivement par

la médiane et leM AD

e

. Puisque cette approche utilise deux estimateurs robustes ayant

un point de rupture élevé, elle ne sera pas aectée par les valeurs aberrantes contrairement

à la méthode SD.

Le pourcentage de valeurs aberrantesOOL

j

(Out Of Limit) du paramètre électriquex

.j

est donné par :

OOL(j) = 100×card({i;x

ij

/[LL

j

;U L

j

]})

n %,

où card() représente le cardinal d'un ensemble.

Avec notre méthode MAD

e

.FS, le sous-ensembleS des paramètres électriques pertinents

sélectionnés est constitué des paramètres électriques dont le pourcentage de valeurs

aber-rantes dépasse un seuilθ

q

, oùθ

q

est le quantile du vecteurOOL= (OOL(1), . . . , OOL(p))

d'ordreq,

S ={x

.j;

OOL(j)> θ

q

}.

Par exemple si nous posons q = 0.75 (i.e. θ

q

est le troixième quartile), nous décidons

alors de retenir le quart des paramètres électriques qui ont le plus grand pourcentage de

valeurs aberrantes. D'une façon plus générale, et pour une valeurq ∈]0,1[, les100(1−q)%

des paramètres les plus aberrants sont considérés commme pertinents et discriminatifs

pour notre méthode de ltrage.