• Aucun résultat trouvé

2.4 Machines à Vecteurs Supports à une classe (1-SVM)

2.4.3 Résultats théoriques

Dans cette section (extraite des résultats théoriques de [76]), l'algorithme 1-SVM est

analysé théoriquement. On commence par l'unicité de l'hyperplan (Proposition 2.4.1).

Ensuite une liaison avec la classication binaire sera établie (Proposition2.4.2). Enn, on

démontre que le paramètreν caractérise les fractions des vecteurs support et des erreurs

de la marge (Proposition2.4.3).

Dénition 2.4.1. Un jeu de données

x

1

, . . . , x

n

(2.50)

est dit séparable de l'origine s'il existe un vecteur w ∈ H tel que hw, φ(x

i

)i > 0 pour

i∈ {1, . . . , n}.

Si on utilise un noyau gaussien, alors n'importe quel jeu de données est séparable après

avoir transformé les données dans l'espace de Hilbert H. En eet, notons tout d'abord

queK(x

i

, x

j

)>0pour tout i, j, donc le produit scalaire entre toutes les données dans

l'espace transformé est positif, ce qui implique que toutes les données se trouvent dans

le même orthant. De plus, commeK(x

i

, x

i

) = 1 pour tout i, les données ont toutes une

norme égale à 1. D'où elles sont séparables de l'origine.

Proposition 2.4.1. [76] [hyperplan support]

Si le jeu de données (2.50) est séparable, alors il existe un unique hyperlan support avec

les propriétés suivantes : (i) il sépare toutes les observations de l'origine, et (ii) sa distance

à l'origine est maximale parmi tous ces hyperplans. Pour tout ρ >0, il est déni par

min

w∈H

1

2kwk

2

sous hw, φ(x

i

)i ≥ρ, i∈ {1, . . . , n} (2.51)

Preuve. Pour une raison de séparabilité, l'enveloppe convexe des données ne contient pas

l'origine. L'existence et l'unicité de l'hyperplan résulte alors du théorème de l'hyperplan

support (e.g. [9]). En outre, la séparabilité implique qu'il existe eectivement un ρ >0

et w ∈ H tels que hw, φ(x

i

)i ≥ ρ pour i ∈ {1, . . . , n}. La distance de l'hyperplan

{z∈ H : hw, zi=ρ}à l'origine est égale àρ/kwk. Par conséquent l'hyperplan optimal

est obtenu en minimisantkwksous ces contraintes, i.e. par la solution de (2.51).

Le résultat suivant illustre la liaison entre la classication à une classe et la classication

binaire.

Proposition 2.4.2. [76][liaison avec reconnaissance de formes ]

(i) Supposons que (w, ρ) soient les paramètres de l'hyperplan support des données

(2.50). Alors(w,0)paramétrise l'hyperplan séparateur optimal des données

étique-tées

{(x

1

, 1), . . . , (x

n

, 1), (−x

1

, −1), . . . , (−x

n

, −1)} (2.52)

(ii) Supposons que(w,0)soient les paramètres de l'hyperplan séparateur otpimal

pas-sant par l'origine, des données étiquettées

{(x

1

, y

1

), . . . , (x

n

, y

n

)}, (y

i

∈ {±1}pour i∈ {1, . . . , n}),

telles que hw, φ(x

i

)i est positif si y

i

= 1. Supposons de plus que ρ/kwk est la

marge de l'hyperplan optimal. Alors(w, ρ)constituent les paramètres de l'hyperplan

séparateur otpimal des données non étiquettées

{y

1

x

1

, . . . , y

n

x

n

}. (2.53)

Preuve. (i). Par construction, la séparation de (2.52) est un problème de points

symé-triques. D'où l'hyperplan séparateur optimal passe par l'origine, car sinon nous pouvons

obtenir un autre hyperplan séparateur optimal en construisant l'hyperplan symétrique

du premier hyperplan par rapport à l'origine. Ce serait en contradiction avec l'unicité de

l'hyperplan séparateur optimal de Vapnick [93].

Ensuite, observons que(−w, ρ)paramétrise l'hyperplan support des données symétriques

par rapport à l'origine, et qu'il est parallèle à l'hyperplan paramétré par(w, ρ).Ceci

four-nit une séparation optimale de deux ensembles de données, avec une distance 2ρ, et un

hyperplan séparateur paramétré par (w,0).

(ii). Par hypothèse,w est le vecteur minimal (minimisant la norme euclidienne)

satisfai-sant y

i

hw, φ(x

i

)i ≥ρ(notons que le biais est égal à 0). Ainsi, de manière équivalente, il

est le vecteur minimal satisfaisanthw, y

i

φ(x

i)

i ≥ρ pouri∈ {1, . . . , n}).

Notons que la relation est similaire dans le cas des données non séparables. Dans ce cas,

les observations mal classées en classication binaire (i.e. observations qui sont soit sur

le mauvais coté de l'hyperplan séparateur ou qui se situent dans la marge) s'interprétent

comme des anomalies dans la classication à une classe , i.e. en des observations qui se

situent entre l'hyperplan séparateur et l'origine.

L'utilité de la Proposition 2.4.2 réside dans le fait qu'elle nous permet de réutiliser

cer-tains résultats démontrés en classication binaire ([78]). La proposition suivante

expli-quant l'importance du paramètre ν, est un tel cas.

Proposition 2.4.3. [76][propriétés de ν]

(i) ν est une borne supérieure de la fraction des erreurs d'apprentissage.

(ii) ν est une borne inférieure de la fraction des vecteurs supports.

Preuve. Les parties (i) et (ii) résultent directement de la Proposition 2.4.2 et le fait

que les erreurs d'apprentissage sont traitées de la même manière que dans le problème

d'optimisation pour la classication binaire [78]. L'idée de base est que l'inégalité en

(2.45) impose des contraintes sur la fraction des données qui pourrait avoir α

i

= 1/(νl),

i.e. la borne supérieure de la fraction des erreurs d'apprentissage, et sur la fraction des

données qui devraient avoir α

i

>0, i.e. les vecteurs supports.

Réduction de dimension

3.1 Compression et sélection de variables

Dans notre travail, nous disposons de données de dimension élevée, puisque les wafers sont

décrits par plusieurs centaines de paramètres électriques. Par conséquent une réduction

de dimension nous paraît indispensable an d'améliorer la performance prédictive de

l'algorithme de classication utilisé.

En apprentissage automatique et en statistique, la réduction de dimension est le

proces-sus de réduction du nombre de variables de l'étude considérée [73]. Il existe deux types

d'approches : la compression de variables et la sélection de variables [69]. Les approches

de sélection de variables essaient de trouver un sous-ensemble optimal des variables an

d'améliorer la qualité de prédiction du modèle d'apprentissage. Les approches de

com-pression de variables transforment les données d'un espace de grande dimension dans

un espace de dimension plus petite. La transformation de données peut être linéaire,

comme l'analyse en composantes principales (ACP), mais de nombreuses techniques de

réduction de dimensionnalité non linéaires existent également [26]. Par exemple, l'ACP à

noyau (kernel PCA) [77] est une généralisation de l'ACP linéaire permettant une

réduc-tion de dimensionnalité non lineaire. Comme dans la méthode SVM (cf. Secréduc-tion2.3.4), la

fonction noyau permet de projeter les données dans un espace de plus grande dimension

de sorte que la varieté devienne linéaire et d'eectuer l'ACP dans cet espace.

Dans ce chapitre, nous présenterons une des techniques les plus connues pour la

com-pression de variables : l'analyse en composantes principales (ACP). L'ACP réalise une

transformation linéaire des données dans un nouvel espace de dimension inférieure, de

telle façon que la variance des données dans cet espace soit maximisée. Nous montrons

comment une ACP contribue à la détection d'anomalies. Enuite nous parlerons des

dif-férentes catégories de sélection de variables, et nous présenterons en particulier deux

méthodes que nous avons spéciquement dévelopées pour une meilleure performance de

détection avec l'algorithme 1-SVM. La première méthode de type ltrage est basée sur un

score calculé avec le ltre MADe, une approche robuste pour la détection univariée des

valeurs aberrantes. La deuxième méthode de type wrapper est une adaptation à

l'algo-rithme 1-SVM de la méthode d'élimination récursive des variables basée sur la variation

du vecteur de poids de l'algorithme SVM.

3.2 Compression de variables : Analyse en Composantes