Processus d’apprentissage du SAKM - Self-Adaptive Kernel Machine (SAKM)

4.3 Self-Adaptive Kernel Machine (SAKM)

4.3.3 Processus d’apprentissage du SAKM

win

m t m th

C µφ ε

Π = ≤ 4.37

où εth est le seuil de similarité. Ce seuil est fixé à ε =_th 0, 2. Ce choix est effectué de façon à respecter la contrainte de continuité de la région décrite par chaque classe dans χ.

Motivation : Supposons que la donnée Xt soit proche de la classe Cm. L’affectation de Xt à la classe Cm ne doit se faire que si cette opération n’affecte pas la continuité de la région décrite par cette classe. Considérant la représentation de C_m dans l’espace χ (figure 4.11) et la géométrie du noyau RBF, la contrainte de continuité impose la condition suivante :

t m

X ∈C X_t SV_{win m}_, 2.σ ¹

− ≤ =

Sous cette condition, on a :

, 1 1 exp( 1) 1 0,79 0, 2

t m

µφ ≥ − − − = − ≈

Nous choisissons ainsi de fixer le seuil εth à 0, 2.

4.3.3 Processus d’apprentissage du SAKM

Le processus d’apprentissage de l’algorithme SAKM est constitué des 4 procédures proposées dans la description générique du classifieur dynamique (chapitre 1, partie 1.4). La règle de décision est définie à partir du critère (4.37) et donnée dans le tableau 4.3.

Cas 1 card(Πwin) = 0 Procédure de création Cas 2 card(Πwin) = 1 Procédure d’adaptation Cas 3 card(Πwin) 2 Procédure de fusion Cas 4 Toutes les T données Procédure d’évaluation

Tableau 4.3 : Règle de décision et procédures d’apprentissage du SAKM

4.3.3.1 Procédure de Création : Initialisation de modèle, Création de classes

Au départ, on fait l’hypothèse que la fonction de pré-initialisation est ψ =0 0 (modèle de la classe « vide » par convention). A l’acquisition de la première donnée X1 donnant lieu à la création d’une classe C1, l’initialisation du modèle ψ1 est défini avec les paramètres :

(

1 1

)

1 t , 1, 1,1t et 1t

new new SV Xt

α = = ρ= η

Θ = = = = 4.38

où η est le ratio d’apprentissage (section 4.3.3.2).

2σ , win m SV t X

Figure 4.11: Dans l’espace d’entrée χ, la distance maximale entre les données de chaque classe doit être inférieure au double du rayon du noyau RBF pour conserver la continuité de la classe.

Ensuite, pour chaque nouvelle donnée X_t donnant lieu à la création d’une nouvelle classe

new

C (Cas 1, tableau 4.3), le mécanisme de création est le même. Un modèle ψnew est initialisé avec les paramètres :

(

^t , 1, 1,^t

)

et ^t

new αnew new SV new Xt ρnew η

Θ = = = = 4.39

À l’instant de sa création, la classe Cnew ne contient que la donnée Xt (détectée comme un vecteur support car ψ₀( ) 0X_t = ). Cette donnée correspond donc au seul vecteur support _1,t

new

de la classe C_new à l’instant de sa création. Rappelons que la création de classe entraîne l’incrémentation des ensembles ℑ( )t et Π( )t .

4.3.3.2 Procédure d’Adaptation : Mise à jour de support de distribution

Dans le cas 2 (tableau 4.3), la donnée Xt est suffisamment proche d’une seule classe

win

C pour participer à sa définition. En s’inspirant du NORMA (chapitre 3, section 3.2.2.3), nous proposons une procédure d’adaptation itérative basée sur la technique du gradient. L’objectif recherché à travers cette procédure est l’adaptation du modèle face aux modifications locales et aux évolutions avec glissements. L’élaboration de la procédure d’adaptation du SAKM est effectuée en trois étapes :

Estimation des paramètres t_, j win

α du modèle ψwin par le gradient stochastique en minimisant le Risque Instantané dans l’espace RKHS.

Normalisation des paramètres t_, j win

α afin de respecter la contrainte introduite pour l’estimateur théorique One-Class-SVM (chapitre 2, équation 2.45).

Détermination de l’offset ρ_win en utilisant l’équation de l’hyperplan ∆win dans l’espace RKHS de telle sorte que :

(

)

(

, ,

) [ ]

: t 0 t ^J^m t , t , 1,...,

win win c win win j win c win j win m

SV SV SV c J

ψ ρ α κ

∆ = = ∈ 4.40

La première étape d’estimation des paramètres t_, j win

α est expliquée dans la présentation du NORMA (chapitre 3, section 3.2.2.3). Après la normalisation des α^tj win, et la détermination de

win

ρ , on obtient les formules de mise à jour itératives des paramètres de ψwin :

( )

[ ] ( ) [ ]

( ) [ ]

1 , , _, , 1 , _, 1 , , , 1 1 si , puis resp. 0 si 0 resp. 0 , , m win t t _t

j win j win _t _{j win}

j win J

t t _t

new win m t _{j win}

j J

t t t

win j win c win j win win

j t j t X SV SV c J α η α τ _α α α η ψ _α ρ α κ − − = = = − − < < = = < ≥ = ∈ 4.41

Avec cette procédure d’adaptation, l’apprentissage de la classe C_win est effectué sur une fenêtre exponentielle de taille J_win=max card

( (

C_win

)

,τ

)

, où τ représente le nombre maximal de vecteurs support de la classe. L’intérêt de ce paramètre est de permettre l’évolution de la classe modèle en élaguant les informations obsolètes. Par la même occasion, le nombre de calcul est réduit en limitant l’expansion du modèle. On remarque que lorsque la donnée Xt est acquise à l’intérieur du contour de la classe Cwin (i.e. ψ_m^t−1

( )

X_t ≥0), aucun calcul n’est effectué. Dans le cas contraire, le contour de cette classe est adapté en ajoutant un nouveau vecteur support SVnew win^t , = Xt de poids αnew win^t , (non nul). Si Jm =τ , le plus ancien vecteur support

, t old win

SV est exclu de la fenêtre d’apprentissage.

La procédure d’adaptation du SAKM a la capacité d’effectuer le suivi de classes évolutives. Cette procédure est très rapide mais elle produit des modèles approximatifs. Dans la section 4.3.5, nous démontrerons la convergence théorique de la procédure d’adaptation du SAKM avant d’évaluer la complexité de l’algorithme.

4.3.3.3 Procédure de Fusion : Fusion des classes

La procédure de fusion du SAKM est développée pour traiter les données ambigües (cas 3, tableau 4.3). Lorsque le nombre des données ambigües c'est-à-dire les données partagées par deux ou plusieurs classes dépasse le seuil d’ambiguïtéNamb, ces classes seront fusionnées. En revanche, contrairement à la procédure de fusion dédiée aux prototypes gaussiens (section 4.2.3.3), ici, on n’a pas besoin d’un second critère visant à analyser les modèles candidats à la fusion. En effet, le SAKM utilise des fonctions non-paramétriques capables de modéliser les classes de fusion avec de grandes capacités de généralisation. Il est néanmoins nécessaire de disposer au préalable d’une règle de fusion capable d’estimer convenablement le modèle des classes résultantes de la fusion. En posant Cmerg le modèle d’une classe résultant de la fusion de deux ou plusieurs classes Cwin, nous proposons deux solutions pour l’estimation de Cmerg : - La première solution consiste à déterminer le modèle ψ_merg en le réinitialisant et en appliquant la procédure d’adaptation du SAKM sur l’ensemble des données des classes Cwin :

( )

{

, ( ) 0

}

merg win merg

C = X∈ ∪C ψ X ≥ 4.42

Cette solution non adoptée pour l’AUDyC, ne pose pas de problème de complexité pour le SAKM car sa procédure d’adaptation est très rapide (section 4.3.5.2).

- La seconde solution envisageable consiste à approximer le modèle ψmerg avec la somme des modèles ψwin (sans leurs offsets respectifs) des classes à fusionner :

( )

(

)

1 , win J t

merg j win j win merg

win j

ψ α κ ρ

L’offset ρ_merg est calculé en utilisant l’équation : ψ_merg

( )

X =0. Cependant, en appliquant la seconde solution, le modèle ψmerg n’est pas décrit suivant une fenêtre exponentielle. On peut approcher la fenêtre exponentielle en réarrangeant les paramètres αj merg, suivant un ordre décroissant. De cette façon, au cours de l’adaptation récursive de la classe Cmerg, les vecteurs support SV,jmerg de poids faible sont oubliés au fur et à mesure.

Pour l’algorithme SAKM, nous adoptons la première règle de fusion pour sa simplicité de mise en œuvre et la structure du modèle qu’il offre.

4.3.3.4 Procédure d’Évaluation de la représentativité des classes

Afin d’évaluer la représentativité des classes, deux mécanismes sont proposés dans la description générique de classifieurs. Il s’agit d’une part, de la scission des classes qui présentent de fortes discontinuités dans leur région de définition et d’autre part, l’élimination de classes parasites et obsolètes.

La scission de classes est une procédure difficile à mettre en œuvre pour le SAKM. La difficulté principale réside dans l’élaboration d’un critère permettant de détecter les fortes discontinuités dans les classes. Un tel critère peut être établi en utilisant une heuristique qui recherche dans chaque classe, les données suffisamment proches pour former des groupes homogènes. Cependant, une telle opération serait très complexe en terme de coût de calcul et non utilisable dans les applications en ligne. Afin de ne pas trop accroître la complexité du SAKM, cet algorithme n’est pas doté de procédure de scission. Par ailleurs, l’estimation récursive des modèles est effectuée en minimisant un risque régularisé. Or, Vapnik [1995] montre que si une méthode d’estimation de modèle conduit à la minimisation d’un tel risque, alors elle évite les problèmes d’optima locaux (défauts de modélisation).

En revanche, l’algorithme SAKM est doté d’une procédure d’élimination développée pour la suppression de classes parasites. Cette procédure est basée sur le même principe que celui proposé dans la description générique. De façon périodique, les classes de cardinalité inférieure au seuil Nmin sont éliminées. Le choix de ce seuil dépend du bruit dans les données.

Dans le document Classification Dynamique de données non-stationnaires :<br />Apprentissage et Suivi de Classes évolutives (Page 130-133)