3.5 Sélection de variables et 1-SVM
3.5.1 Notre méthode de ltrage MAD e .FS
Dans cette section, nous présentons notre méthode de ltrage que nous avons développée
pour sélectionner les variables les plus pertinentes an d'améliorer la performance de
détection de l'algorithme 1-SVM. Le choix d'une méthode de ltrage est justié par le
temps de calcul rapide de ce type de méthodes. Une autre justication convaincante est
que les méthodes de ltrage permettent de réduire la dimension de l'espace de variables
avant l'apprentissage du modèle, ce qui permet d'éviter le sur-ajustement.
L'idée principale est d'utiliser une méthode de détection univariée pour déterminer le
pourcentage de valeurs aberrantes dans chaque variable. Puis les variables avec un
pour-centage des valeurs aberrantes supérieur à un certain seuil prédéni seront de potentielles
variables discriminantes, tandis que les variables ayant un pourcentage non signicatif
des valeurs aberrantes seront considérées comme non pertinentes. Un avantage important
de cette méthode est qu'elle ne nécessite pas les étiquettes des observations pour faire la
sélection.
Comme approche univariée robuste de détection des valeurs aberrantes, nous avons
uti-lisé la méthode M AD
e[16] basée sur des estimateurs robustes de la position et la
dis-persion . Pour mieux comprendre le mot robuste, nous introduisons la notion point de
rupture (breakdown point)[27] d'un estimateur qui correspond à la proportion maximale
admissible de valeurs abérrantes dans les données avant que cette estimation soit
complè-tement corrompue. Par exemple, l'estimateur classique de la moyenne et de l'écart-type
possèdent un point de rupture de 0%, ce qui signie que la présence d'une seule valeur
abérrante est susante pour que leur estimation soit complètement erronée. Alors que
la médiane et l'écart absolu à la médiane (Median Absolute Deviation MAD) [39] ont un
point de rupture égale à 50% [45].
Donc la robustesse de la méthode M AD
eprovient du fait qu'elle utilise la médiane et
l'écart absolu à la médiane comme estimateurs respectifs de la position et la dispersion.
En eet ces deux estimateurs ont un point de rupture élevé, et contrairement à la moyenne
et l'ecart-type, les écarts d'un petit nombre (pouvant aller jusqu'à la moitié de la taille
de l'échantillon) de valeurs aberrantes ne sont pas pertinents dans le calcul de ces deux
estimateurs.
3.5.1.1 Ecart absolu à la médiane
En statistique, l'écart absolu à la médiane MAD est une statistique robuste qui mesure
la dispersion d'un échantillon univarié de données. Elle est plus résistante aux valeurs
aberrantes que l'écart-type. Cette statistique est dénie étant la médiane des écarts
absolus à la médiane des observations d'une variablex
.j:
M AD(j) =mediane
i(|x
ij−mediane
j(x
.j)|). (3.9)
Dans le but d'utiliser le MAD comme un estimateur consistant ˆσ pour l'estimation de
l'écart-typeσ (i.e.E(ˆσ) =σ, oùE(ˆσ)est l'espérance de σˆ), on prend
ˆ
σ =k×M AD, (3.10)
oùkest un facteur de normalisation constant qui dépend de la distribution des données.
Pour des données suivant une loi normale, k est pris approximativement égal à 1.4826.
Expliquons maintenant le choix de cette valeur. Soit T = (T
1, . . . , T
n)Tune variable
aléatoire suivant une loi normale N(µ, σ
2) d'espérance µ et de variance σ
2, alors la
variable aléatoire Z =
T−σµsuit la loi normaleN(0,1). La médiane de T converge vers
µquandn tend vers l'inni, et ensuite la probabilitéP(|T−µ| ≤M AD)converge vers
P(|T −µ| ≤mediane(|T−µ|)) =
12. D'où :
1
2 = P(|T−µ| ≤M AD) =P
|Z| ≤ M AD
σ
(3.11)
= 2F(M AD
σ )−1 (3.12)
où F est la fonction de répartition d'une distribution normale centrée réduite N(0,1).
Soit Q l'inverse de F, i.e. Q est la fonction quantile de la loi N(0,1). L'égalité établie
dans (3.11) implique :
F(M AD
σ ) =
3
4 =⇒
M AD
σ =F
−1(3
4) =Q(
3
4). (3.13)
Finalement, l'Equation (3.10) et l'Equation (3.13) permettent d'établir :
k= σ
M AD =
1
Q(
34) ≈1.4826 (3.14)
L'équation (3.14) montre que MAD converge vers σ/1.4826lorsque n tend vers l'inni,
ce qui est équivaut à dire que σˆ = 1.4826×M AD converge vers σ. Autrement dit,
l'espérance de ˆσ pour les grands échantillons distribués suivant une loi normale est
ap-proximativement égale à l'écart-type σ de la population. D'où le facteur k = 1.4826
calibreσˆ dans l'équation (3.10) de sorte qu'il soit un estimateur consistant deσ.
Dans la suite, nous remplaçonsσˆ parM AD
epour désigner l'estimateur deσ obtenu en
utilisant le MAD. On a donc :
3.5.1.2 Description de la méthode MAD
e.FS
La méthode MAD
edénit pour un paramètre électrique x
.june limite inférieure LL
j(Lower Limit) et une limite supérieure U L
j(Upper Limit) telles que toutes les valeurs
situées à l'extérieur de l'intervalle [LL
j;U L
j] sont considérées comme aberrantes. Les
limites sont calculées de la façon suivante :
LL
j=mediane(x
.j)−3×M AD
e(j)
U L
j=mediane(x
.j) + 3×M AD
e(j)
où M AD
e(j) = 1.483×M AD(j).
Cette approche est similaire à la méthode SD (Standard Deviation) qui considère les
valeurs situées à l'extérieur de l'intervalle [¯x±3SD] comme aberrantes, où x¯ et SD
sont respectivement la moyenne et l'ecart-type empiriques de l'échantillon univarié (le
paramètrex
.j). Cependant, la moyenne et l'écart-type sont remplacés respectivement par
la médiane et leM AD
e. Puisque cette approche utilise deux estimateurs robustes ayant
un point de rupture élevé, elle ne sera pas aectée par les valeurs aberrantes contrairement
à la méthode SD.
Le pourcentage de valeurs aberrantesOOL
j(Out Of Limit) du paramètre électriquex
.jest donné par :
OOL(j) = 100×card({i;x
ij∈/[LL
j;U L
j]})
n %,
où card() représente le cardinal d'un ensemble.
Avec notre méthode MAD
e.FS, le sous-ensembleS des paramètres électriques pertinents
sélectionnés est constitué des paramètres électriques dont le pourcentage de valeurs
aber-rantes dépasse un seuilθ
q, oùθ
qest le quantile du vecteurOOL= (OOL(1), . . . , OOL(p))
d'ordreq,
S ={x
.j;OOL(j)> θ
q}.
Par exemple si nous posons q = 0.75 (i.e. θ
qest le troixième quartile), nous décidons
alors de retenir le quart des paramètres électriques qui ont le plus grand pourcentage de
valeurs aberrantes. D'une façon plus générale, et pour une valeurq ∈]0,1[, les100(1−q)%
des paramètres les plus aberrants sont considérés commme pertinents et discriminatifs
pour notre méthode de ltrage.
Dans le document
Détection multidimensionnelle au test paramétrique avec recherche automatique des causes
(Page 89-92)