2.4 Machines à Vecteurs Supports à une classe (1-SVM)
2.4.3 Résultats théoriques
Dans cette section (extraite des résultats théoriques de [76]), l'algorithme 1-SVM est
analysé théoriquement. On commence par l'unicité de l'hyperplan (Proposition 2.4.1).
Ensuite une liaison avec la classication binaire sera établie (Proposition2.4.2). Enn, on
démontre que le paramètreν caractérise les fractions des vecteurs support et des erreurs
de la marge (Proposition2.4.3).
Dénition 2.4.1. Un jeu de données
x
1, . . . , x
n(2.50)
est dit séparable de l'origine s'il existe un vecteur w ∈ H tel que hw, φ(x
i)i > 0 pour
i∈ {1, . . . , n}.
Si on utilise un noyau gaussien, alors n'importe quel jeu de données est séparable après
avoir transformé les données dans l'espace de Hilbert H. En eet, notons tout d'abord
queK(x
i, x
j)>0pour tout i, j, donc le produit scalaire entre toutes les données dans
l'espace transformé est positif, ce qui implique que toutes les données se trouvent dans
le même orthant. De plus, commeK(x
i, x
i) = 1 pour tout i, les données ont toutes une
norme égale à 1. D'où elles sont séparables de l'origine.
Proposition 2.4.1. [76] [hyperplan support]
Si le jeu de données (2.50) est séparable, alors il existe un unique hyperlan support avec
les propriétés suivantes : (i) il sépare toutes les observations de l'origine, et (ii) sa distance
à l'origine est maximale parmi tous ces hyperplans. Pour tout ρ >0, il est déni par
min
w∈H
1
2kwk
2
sous hw, φ(x
i)i ≥ρ, i∈ {1, . . . , n} (2.51)
Preuve. Pour une raison de séparabilité, l'enveloppe convexe des données ne contient pas
l'origine. L'existence et l'unicité de l'hyperplan résulte alors du théorème de l'hyperplan
support (e.g. [9]). En outre, la séparabilité implique qu'il existe eectivement un ρ >0
et w ∈ H tels que hw, φ(x
i)i ≥ ρ pour i ∈ {1, . . . , n}. La distance de l'hyperplan
{z∈ H : hw, zi=ρ}à l'origine est égale àρ/kwk. Par conséquent l'hyperplan optimal
est obtenu en minimisantkwksous ces contraintes, i.e. par la solution de (2.51).
Le résultat suivant illustre la liaison entre la classication à une classe et la classication
binaire.
Proposition 2.4.2. [76][liaison avec reconnaissance de formes ]
(i) Supposons que (w, ρ) soient les paramètres de l'hyperplan support des données
(2.50). Alors(w,0)paramétrise l'hyperplan séparateur optimal des données
étique-tées
{(x
1, 1), . . . , (x
n, 1), (−x
1, −1), . . . , (−x
n, −1)} (2.52)
(ii) Supposons que(w,0)soient les paramètres de l'hyperplan séparateur otpimal
pas-sant par l'origine, des données étiquettées
{(x
1, y
1), . . . , (x
n, y
n)}, (y
i∈ {±1}pour i∈ {1, . . . , n}),
telles que hw, φ(x
i)i est positif si y
i= 1. Supposons de plus que ρ/kwk est la
marge de l'hyperplan optimal. Alors(w, ρ)constituent les paramètres de l'hyperplan
séparateur otpimal des données non étiquettées
{y
1x
1, . . . , y
nx
n}. (2.53)
Preuve. (i). Par construction, la séparation de (2.52) est un problème de points
symé-triques. D'où l'hyperplan séparateur optimal passe par l'origine, car sinon nous pouvons
obtenir un autre hyperplan séparateur optimal en construisant l'hyperplan symétrique
du premier hyperplan par rapport à l'origine. Ce serait en contradiction avec l'unicité de
l'hyperplan séparateur optimal de Vapnick [93].
Ensuite, observons que(−w, ρ)paramétrise l'hyperplan support des données symétriques
par rapport à l'origine, et qu'il est parallèle à l'hyperplan paramétré par(w, ρ).Ceci
four-nit une séparation optimale de deux ensembles de données, avec une distance 2ρ, et un
hyperplan séparateur paramétré par (w,0).
(ii). Par hypothèse,w est le vecteur minimal (minimisant la norme euclidienne)
satisfai-sant y
ihw, φ(x
i)i ≥ρ(notons que le biais est égal à 0). Ainsi, de manière équivalente, il
est le vecteur minimal satisfaisanthw, y
iφ(x
i)i ≥ρ pouri∈ {1, . . . , n}).
Notons que la relation est similaire dans le cas des données non séparables. Dans ce cas,
les observations mal classées en classication binaire (i.e. observations qui sont soit sur
le mauvais coté de l'hyperplan séparateur ou qui se situent dans la marge) s'interprétent
comme des anomalies dans la classication à une classe , i.e. en des observations qui se
situent entre l'hyperplan séparateur et l'origine.
L'utilité de la Proposition 2.4.2 réside dans le fait qu'elle nous permet de réutiliser
cer-tains résultats démontrés en classication binaire ([78]). La proposition suivante
expli-quant l'importance du paramètre ν, est un tel cas.
Proposition 2.4.3. [76][propriétés de ν]
(i) ν est une borne supérieure de la fraction des erreurs d'apprentissage.
(ii) ν est une borne inférieure de la fraction des vecteurs supports.
Preuve. Les parties (i) et (ii) résultent directement de la Proposition 2.4.2 et le fait
que les erreurs d'apprentissage sont traitées de la même manière que dans le problème
d'optimisation pour la classication binaire [78]. L'idée de base est que l'inégalité en
(2.45) impose des contraintes sur la fraction des données qui pourrait avoir α
i= 1/(νl),
i.e. la borne supérieure de la fraction des erreurs d'apprentissage, et sur la fraction des
données qui devraient avoir α
i>0, i.e. les vecteurs supports.
Réduction de dimension
3.1 Compression et sélection de variables
Dans notre travail, nous disposons de données de dimension élevée, puisque les wafers sont
décrits par plusieurs centaines de paramètres électriques. Par conséquent une réduction
de dimension nous paraît indispensable an d'améliorer la performance prédictive de
l'algorithme de classication utilisé.
En apprentissage automatique et en statistique, la réduction de dimension est le
proces-sus de réduction du nombre de variables de l'étude considérée [73]. Il existe deux types
d'approches : la compression de variables et la sélection de variables [69]. Les approches
de sélection de variables essaient de trouver un sous-ensemble optimal des variables an
d'améliorer la qualité de prédiction du modèle d'apprentissage. Les approches de
com-pression de variables transforment les données d'un espace de grande dimension dans
un espace de dimension plus petite. La transformation de données peut être linéaire,
comme l'analyse en composantes principales (ACP), mais de nombreuses techniques de
réduction de dimensionnalité non linéaires existent également [26]. Par exemple, l'ACP à
noyau (kernel PCA) [77] est une généralisation de l'ACP linéaire permettant une
réduc-tion de dimensionnalité non lineaire. Comme dans la méthode SVM (cf. Secréduc-tion2.3.4), la
fonction noyau permet de projeter les données dans un espace de plus grande dimension
de sorte que la varieté devienne linéaire et d'eectuer l'ACP dans cet espace.
Dans ce chapitre, nous présenterons une des techniques les plus connues pour la
com-pression de variables : l'analyse en composantes principales (ACP). L'ACP réalise une
transformation linéaire des données dans un nouvel espace de dimension inférieure, de
telle façon que la variance des données dans cet espace soit maximisée. Nous montrons
comment une ACP contribue à la détection d'anomalies. Enuite nous parlerons des
dif-férentes catégories de sélection de variables, et nous présenterons en particulier deux
méthodes que nous avons spéciquement dévelopées pour une meilleure performance de
détection avec l'algorithme 1-SVM. La première méthode de type ltrage est basée sur un
score calculé avec le ltre MADe, une approche robuste pour la détection univariée des
valeurs aberrantes. La deuxième méthode de type wrapper est une adaptation à
l'algo-rithme 1-SVM de la méthode d'élimination récursive des variables basée sur la variation
du vecteur de poids de l'algorithme SVM.
3.2 Compression de variables : Analyse en Composantes
Dans le document
Détection multidimensionnelle au test paramétrique avec recherche automatique des causes
(Page 75-79)