• Aucun résultat trouvé

2.6.1.Principe

Le principe des méthodes à noyaux [38] [180] [203] consiste à projeter les données de l'espace ℝ© dans un autre espace de dimension plus élevée (Figure 2.9) où les données qui étaient non linéairement séparables peuvent le devenir. Désignons par F le nouvel espace, la fonction de projection ð ∶ ℝ© ⟶ + est une transformation non linéaire, qui est évaluée implicitement via le produit scalaire.

Figure 2.9 - Projection d’un ensemble de données dans un nouvel espace permettant une séparation plane

Machines d’apprentissage à noyaux

59 A l’aide de la fonction ð on définit une fonction X . , . ∶ ℝ©× ℝ© ⟶ ℝ avec X , = ð . ð pour réaliser la projection. La fonction X , ainsi définie est appelée noyau et elle représente le produit scalaire dans l'espace +. Par exemple le noyau polynomial de degré deux est défini comme suit :

Soit = , F et Φ = F, FF, √2 . F on peut définir : X• , SŽ = 〈 , S〉F

= • . S + F. SFŽF

= F.

S F+ FF. SFF+ 2. . S . F. SF

= 〈ù , ù• SŽ〉 2.83

Pour démontrer l'existence d'une fonction noyau, on se sert souvent du théorème de Mercer [38] qui s'énonce comme suit:

Soit une fonction symétrique X ∶ e × e ⟶ ℝ avec e ⊂ ℝˆ, il existe une fonction ð telle que X , = ð . ð si et seulement si pour toute fonction élément de l'ensemble des fonctions définies sur e, telle que: ú Fˆ existe :

On a

– X , ˆ ˆ ≥ 0 2.84

La positivité de l'intégrale permet de définir l'existence du noyau, qui est un produit scalaire dans un espace de Hilbert.

La condition de Mercer peut être formulée différemment, en considérant la matrice de Gram [11], définie comme la matrice contenant les valeurs calculées par la fonction noyau sur tous les couples de données • , SŽ #, W = 1, … , O . Elle constitue l’entrée de l’algorithme d’apprentissage, qui n’utilise pas la fonction X . , . elle-même mais la matrice K de dimension O × O, telle que

åS= X , S).

La condition de Mercer appliquée à la matrice de Gram s’énonce sous la forme suivante : Une fonction X . , . peut être considérée comme un produit scalaire dans un espace implicite si et seulement si pour tout entier strictement positif O, et pour tout ensemble arbitraire de données , … , ` de taille O, la matrice de Gram å = X• , SŽ ,SU …` est symétrique définie positive,

soit si toutes ses valeurs propres sont positives ou nulles.

2.6.2.Propriétés des noyaux

Les noyaux possèdent un ensemble de propriétés :

Machines d’apprentissage à noyaux

60 Soient x et y deux éléments de l’espace X ⊂ ℝ , la fonction noyau étant symétrique, nous avons la commutativité :

X , = X , 2.85

− Inégalité de Cauchy-Schwartz

Considérons toujours x et y deux éléments de X ⊂ ℝ , nous avons :

[X , ]F= [ð . ð ]F≤ ‖ð ‖F. ‖ð ‖F 2.86

Combinaison de noyaux

Soient X et XF deux noyaux définis de e × e dans ℝ tel que e ⊂ ℝ©. Les fonctions suivantes sont aussi des noyaux :

X , = X , + XF , 2.87 X , = X , .0‡ ∈ ℝà 2.88 X , = X , . XF , 2.89 X , = 0 X , 2.90 X , = •X , Ž 2.91 Avec ∶ ℝ ⟶ ℝ une fonction polynomiale à coefficients positifs.

2.6.3.Exemples de noyaux

Plusieurs noyaux ont été développés, parmi lesquels on peut citer [12] :

− Noyaux polynômiaux

Afin d'élaborer une règle de décision basée sur une statistique polynômiale de degré , on utilise le noyau suivant :

X• , SŽ = 1 + . S ™ 2.92

Les composantes de l'application ù associée sont alors les monômes de degrés inférieurs à constitués des composantes de . Parce qu'ils sont fonction du produit scalaire des observations, de tels noyaux sont dits projectifs.

− Noyaux exponentiels radiaux

Les noyaux de type radial dépendent de la distance ò − SòF entre les observations. Ils ont fait l'objet d'une attention particulière dans la littérature en raison du rôle central qu'ils jouent dans les méthodes d'estimation et de classification [63]. On compte parmi eux le noyau gaussien, défini par :

Machines d’apprentissage à noyaux

61 X• , SŽ = 0 æ− ò − Sò

F

âé 2.93

â est appelée largeur de bande. Ce noyau est caractérisé par un continuum de valeurs propres, ce qui signifie que les composantes de ù ne sont pas en nombre fini.

− Noyaux exponentiels

Les noyaux exponentiels offrent souvent des solutions intéressantes en fournissant une surface de décision linéaire par morceaux dans l'espace des observations.

X• , SŽ = exp æ− ò − Sò âé 2.94

− Noyaux sigmoïdaux

Les noyaux sigmoïdaux peuvent être écrits sous la forme suivante :

X• , SŽ = tanh•oâ. . S+ ⎠2.95

La qualité du noyau dépend des paramètres oâ 0n â , contrairement aux noyaux polynômiaux et exponentiels. S'ils ne sont pas convenablement choisis, il en résulte la perte du cadre rigoureux offert par les espaces de Hilbert.

2.7.

Conclusion

La théorie de l’apprentissage statistique basée sur le principe de minimisation des risques théorique, empirique et structurel a donné naissance à des algorithmes d’apprentissage capables de contrôler d’une façon nouvelle le dilemme biais-variance. Parmi ces algorithmes figurent les SVMs et SVDD, ces méthodes de classification ont montré de bonnes performances dans la résolution de problèmes variés tel que la classification, la régression et la détection.

Dans ce chapitre nous avons exposé la théorie d’apprentissage statistique développée par Vapnik qui a apporté des vues éclairantes sur la généralisation qui n’est autre que la faculté d’un modèle à prédire correctement de nouvelles valeurs et pas seulement à rendre compte du passé. Ces apports font appel à une mesure spécifique de la complexité d’un modèle nommée la VC- dimension. Ensuite, nous avons abordé la formulation mathématique des deux méthodes SVMs et SVDD dans les deux cas mono-class et bi-classes. Nous avons décrit quelques variantes de ces méthodes ainsi que leurs extensions dans le cas multi-classes. Nous avons clôturé ce chapitre en introduisant la notion des fonctions noyaux permettant le passage implicite de l’espace d’origine vers un autre augmenté afin de classifier les données non linéairement séparables.

62

Chapitre III

Optimisation de la séparabilité interclasses

de la machine SVDD

3.1.

Introduction

Ce chapitre introduit trois améliorations du classifieur Support Vector Domain Description (SVDD), qui ont pour objectif l’optimisation de la séparabilité interclasses. La première amélioration vise à réduire le chevauchement qui peut se produire entre les sphères minimales relatives aux différentes classes, car ce chevauchement crée des zones communes, et

Optimisation de la séparabilité interclasses de la machine SVDD

63 par conséquent empêche la classification des nouveaux éléments se trouvant à l’intérieur de ces zones. La deuxième amélioration introduit un nouveau paramètre dans le SVDD, son rôle est d’ajuster les frontières de séparation entre les différentes classes en contrôlant le volume des sphères minimales, l’objectif attendu est l’augmentation du pouvoir séparateur dudit classifieur. La troisième amélioration concerne la fonction de décision utilisée par SVDD qui a pour objectif la discrimination entre les données, ladite fonction est incapable de classer les éléments existant à l’intérieur des zones de chevauchement, ce qui diminue le pouvoir séparateur du SVDD.