Largeur optimale du noyau Gaussien et séparabilité interclasses

interclasses

4.2.1.Problème du choix des paramètres de la fonction noyau

La description de la classe cible dans le SVDD est donnée par une hypersphère dont le volume est minimum contenant la plupart des données positives, et rejetant le maximum des données négatives. Ceci ne peut se faire sans la possibilité de transformer implicitement l'espace de représentation des données en un espace des caractéristiques dont la dimension est plus grande en utilisant les fonctions noyaux [65, 66]. Cependant, il n'existe pas de méthodes théoriques exactes pour déterminer une fonction noyau appropriée. En plus, il n'y a pas de moyen pour la sélection d’une valeur adéquate du (des) paramètre (s) du noyau. Par conséquent, le choix d'un noyau et/ou ces paramètres, qui est un problème de sélection de modèle [67], est essentiel pour assurer une bonne performance puisque la structure géométrique des échantillons dans l’espace des caractéristiques est déterminée par le noyau sélectionné.

L'approche la plus commune et fiable pour la sélection des paramètres d’un noyau est de décider sur une série de paramètres, puis de faire une grille de recherche exhaustive [68] [69] sur cette série pour trouver le meilleur réglage. Toutefois, ce type de recherche est local et sujette à un optimum local. En outre, le réglage de l'intervalle de recherche est un problème. Un intervalle de recherche trop large gaspille le temps de calcul, alors qu’un intervalle de recherche trop petit pourrait rendre le résultat insatisfaisant. A côté de cette technique de la grille de recherche communément adoptée, d'autres techniques sont utilisées dans les SVMs pour la recherche des paramètres du noyau, ces techniques peuvent être classées en deux modèles "Filter" et "Wrapper".

Les modèles dits "Filter" [70] utilisent des techniques statistiques, comme l'analyse en composantes principales (ACP), l'analyse factorielle (FA), l'analyse en composantes indépendantes (ICA), et l'analyse discriminante (DA). D’autres méthodes ont été développées en se basant principalement sur les distances et les mesures de l'information. Chen et Hsieh [71] ont présenté l’analyse sémantique latente (LSA), Gold et al. [72] ont développé une approche bayésienne pour régler les valeurs des hyper-paramètres des SVMs. Chapelle et al. [73] ont proposé un réglage automatique des paramètres multiples en appliquant l’ACP, Glasmachers et al. [76] ont utilisé le rapport rayon-marge comme critère pour régler les paramètres du noyau des SVMs. Xiong et al. [ 77 ] ont proposé d'optimiser une fonction noyau en maximisant une mesure de séparabilité des classes définie comme le rapport entre la trace de la matrice de dispersion interclasses et la trace de la matrice de dispersion intraclasses, qui correspond au critère de séparabilité J4 [78] . Jie Wang et al. [79] ont proposé un algorithme d'optimisation du noyau en

Paramétrage optimal de l’espace des caractéristiques.

88 maximisant le critère de séparabilité des classes J1 [ 78 ] , défini comme étant la trace du rapport entre la matrice de dispersion interclasses et la matrice de dispersion intraclasse, ce qui est équivalent au critère utilisé dans l'analyse discriminante de Fisher [13] [78][80].

Les modèles dits ‘Wrapper’ [74] explorent l'espace des caractéristiques afin de trouver un sous-ensemble optimal de paramètres. Ces modèles appliquent souvent des approches méta- heuristiques pour aider à la recherche de l’espace de caractéristiques adéquat. Bien que les approches méta-heuristiques soient lentes, elles produisent des résultats acceptables.

4.2.2.Formulation mathématique

L’objectif de SVDD est de trouver une hypersphère dont le rayon est minimal contenant la plupart des éléments de la classe positive et excluant la majorité des éléments de la classe négative. On peut remarquer aisément que l’utilisation de cette technique deviendra plus efficace si les éléments de la classe positive sont proches entre eux, et en même temps les éléments de la classe négative sont loin de ceux de la classe positive. Notre approche consiste à trouver un espace de caractéristiques engendré par un noyau RBF dans lequel ces conditions soient vérifiées [101].

Pour que les éléments de la classe positive soient proches entre eux, on minimise la variance intraclasses définie comme :

. A1=_{2O O − 1 T Tòù}1 − ù• SŽòF `

S `

4.1

Pour que les éléments de la classe négative soient éloignés de ceux de la classe positive, on maximise simultanément la variance interclasses définie comme :

. Aà =_{O> T T‖ù}1 − ù ¨ ‖F ?

¨ `

4.2

Dans les deux équations (4.1) et (4.2) les éléments de la classe positive sont numérotés par les indices # et W et les éléments de la classe négative sont numérotés par l’indice b. O et > correspondent respectivement au nombre total des éléments de la classe positive et le nombre total des éléments de la classe négative.

Pour satisfaire les deux contraintes associées aux deux termes (4.1) et (4.2) simultanément, on maximise la formule suivante:

Q = o. . A_à− . . A₁ =_{O> T T‖}o Φ − Φ _¨ ‖F ? ¨ ` − 2O O − 1 TTòΦ − Φ• SŽòF ` S ` 4.3

Paramétrage optimal de l’espace des caractéristiques.

89 Le rôle des deux paramètres α et β est de régler le compromis entre la maximisation du premier terme et la minimisation du second, de l’équation (4.3).

En introduisant le noyau RBF, l’équation (4.3) devient:

Q = 2_{O> T T ´1 − 0 ³}o −‖ −_2Q_F ¨‖F¶µ ? ¨ ` − O O − 1 TTw1 − 0 ¼−ò − Sò F 2QF ½x ` S ` 4.4 ) Q = _{ÂQ = −2}Q _{O> T T ´}o ‖ −_Q_‘¨‖F0 ³−‖ −_2Q_F ¨‖F¶µ ? ¨ ` + O O − 1 TTwò − Sò F Q‘ 0 ¼−ò − Sò F 2QF ½x ` S ` 4.5

La maximisation de Q est effectuée par l’algorithme classique de la descente du gradient.

4.2.3.Résultats obtenus sur des bases standards

Afin de tester l’efficacité de l'algorithme proposé, on analyse le taux de reconnaissance obtenu sur 6 bases standards [75], qui sont : Monks-1, Monks-2, Monks-3, Iris flowers, Wine et Glass.

Dans toutes les expériences on fixe = 1000, on utilise un noyau RBF, on adopte l’approche un contre tous. On calcule le taux de reconnaissance pour les données d’entrainement et de test. Pour évaluer la moyenne et l’écart type on répète l’expérience 20 fois avec les même valeurs des paramètres o et .

Les étapes de l’évaluation de la méthode SVDD avec noyau gaussien de largeur optimale(1)

1. Sélection d’une base de données parmi : Monks-1, Monks-2, Monks-3, Iris, Wine et Glass.

2. Décomposition aléatoire de la base de données en deux sous ensembles d'entrainement (80%) et de test (20%) (voir annexe).

3. Recherche des valeurs de Q : Après avoir fixé les valeurs de o et , on lance l’algorithme de descente de gradient pour trouver la valeur optimale de Q pour chaque classe ;

4. Apprentissage par SVDD : L’exécution de l’algorithme SVDD avec un noyau RBF dont le paramètre Q est celui calculé dans l’étape précédente ;

5. Evaluation du taux de reconnaissance.

Pour prouver l’efficacité de notre méthode on exécute l’algorithme SVDD sur les bases de données Monks-1, Monks-2 et Monks-3 en utilisant un ensemble de valeurs discrètes de Q et Q_F, après on trace la variation du taux de reconnaissance en fonction de Q et Q_F, chaque Q est associée à la iéme classe de la base de données.

Paramétrage optimal de l’espace des caractéristiques.

90 Table 4.1 - Taux de reconnaissance (%) pour les différentes bases de données,

en utilisant les valeurs optimales de σ

Jeux de données α β σ1 σ2 σ3 σ4 σ5 σ6 Taux de reconnaissance en % pour l’ensemble d’entrainement Taux de reconnaissance en % Pour l’ensemble de test Monks-1 0.48 1.00 2.07 5.45 100 83.10 Monks-2 0.53 1.00 0.53 1.01 100 66.07 Monks-3 0.46 1.00 2.54 2.11 100 80.33 Iris 0.49 1.00 1.47 1.32 1.81 100 90.00 Wine 0.70 1.00 214.98 153.23 123.90 100 82.35 Glass 0.80 1.00 0.42 0.55 0.48 1.56 0.01 1.48 100 55.00

Paramétrage optimal de l’espace des caractéristiques.

91 Figure 4.1 - Taux de reconnaissance de l’ensemble d’entrainement et l’ensemble de test,

relatifs aux bases de données Monks-1, Monks-2, Monks-3, en fonction des valeurs de σ1 et σ2

Le tableau 4.1 montre les valeurs choisies pour les deux paramètres o et , les Q optimales des noyaux RBF calculées par la méthode proposée, et les taux de reconnaissance des ensembles d’entrainement et de test obtenus par le classifieur SVDD. D’après ce tableau on remarque que :

- Le taux de reconnaissance pour les six ensembles d’entrainement est égal à 100%, ce qui signifie que lesdits ensembles ont été projetés dans un espace de caractéristiques convenable, par conséquent la méthode proposée génère de bonnes valeurs de Q.

- Le taux de reconnaissance pour les six ensembles de test, diffère d’un ensemble à l’autre, il dépasse 80% pour les jeux de données Monks-1, Monks-3, Iris et Wine, il est égal à 66.07% pour Monks-2 et 55% pour Glass. Généralement, ces résultats montrent que l’exécution du classifieur SVDD avec les Q optimales produit une bonne capacité de généralisation.

La figure 4.1 représente la variation du taux de reconnaissance des jeux de données : Monks-1, Monks-2, et Monks-3, selon les couples Q , Q_F qui varie dans l’ensemble 0.4,0.8, . . ,4 e 0.4,0.8, . . ,4 . L’objectif derrière cette expérience est la recherche exhaustive des valeurs optimales des paramètres Q , Q_F qui donnent les meilleurs taux de reconnaissance obtenus par le classifieur SVDD. D’après la figure on observe que :

- Les taux de reconnaissance des bases d’entrainement Monks-1, Monks-2, et Monks-3 varient respectivement dans les intervalles [93%, 100%], [78%, 100%] et [99.2%, 100%]. Les différences constatées entre les bornes de chaque intervalle montrent que les taux de reconnaissance sont instables et dépendent des valeurs prises par Q et Q_F. Par contre, le taux de reconnaissance obtenu par notre approche est de 100% pour les trois bases. - Le taux de reconnaissance des bases de test : Monks-1, Monks-2, et Monks-3 varient

respectivement dans les intervalles [30%, 90%], [40%, 76.5%] et [30%, 88%]. Malgré que la borne supérieure des intervalles dépasse les résultats obtenus par la méthode

Paramétrage optimal de l’espace des caractéristiques.

92 proposée et qui sont : 83,10% 66,07% et 80,33% cette méthode souffre d’une grande variance, traduite par la grande différence entre les bornes minimum et maximum de chaque intervalle.

La réalisation d’expérience de la grille de recherche a demandé beaucoup de ressource CPU à cause de l’exécution répétitive du classifieur SVDD, qui demande la résolution d’un problème d’optimisation quadratique convexe sous contraintes, en outre l’intervalle {0.4, 0.8,…, 4} a été choisi à titre indicatif après avoir faire plusieurs tests sur d’autres intervalles.

D’après les expériences et les constatations ci-dessus on conclut que la recherche du paramètre du noyau Gaussien par la méthode proposée offre des résultats satisfaisants en un temps de calcul raisonnable.

Dans le document Contribution à l’optimisation de la machine d’apprentissage SVDD application à la détection de spams et de virus informatiques (Page 87-92)