Analyse du Competitive-EM - Fusion et scission de classes

3.4 Fusion et scission de classes

3.4.2 Analyse du Competitive-EM

p m π =απ ; π_q_*= −(1 α π) _m 3.52 * _{( )} * * . . j _m p m d p X X π u a π = − ; * _{( )} * * . . p _m q m d q X X π u a π = − 3.53 2 ( ) * ( *) * ( ) * (1 ) , , m m s p p s q _m s p u a s d a a s d π β π π π − = = ≠ ; 2 ( ) * ( *) * ( ) * (1 )(1 ) , , m m s q q s p _m s q u a s d a a s d π β π π π − − = = ≠

[

1,...,

]

d∈ D , avec D la dimension de l’espace et α β ∈, ,u

[ ]

0,1 des coefficients libres.

( ) ( ) ( )

* ₂ ₂ _{( )} _{( )} _{( )} _{( )} * * * * ₂ ₂ _{( )} _{( )} _{( )} _{( )} * * * T T q _m _m _m _m _m p m d d d d p p T T p _m _m _m _m _m q m d d d d q q u u a a a a u u a a a a π _π β β π π π _π β β π π Σ = Σ + − − + Σ = Σ + − − + 3.54

L’estimation des paramètres de composantes à travers cette opération de scission, nécessite le réglage de trois coefficients (free parameters). Dans les expériences, Zhang & al. [2003] propose de fixer ces coefficients comme suit : α = = =u β 0,5.

3.4.2 Analyse du Competitive-EM

Le Competitive-EM est une amélioration de l’algorithme EM dont la qualité est affectée par les problèmes d’initialisation et de convergence locale. Dans le processus d’apprentissage du Competitive-EM, les critères de détection de convergence locale aident à trouver les régions d’optima locaux en utilisant une mesure de corrélation entre les classes (3.45) et la divergence de Kullback-Leibler (3.47). Les seuils de détection sont choisis de façon expérimentale. Un bon choix de ces seuils est une condition nécessaire pour la convergence vers l’optimum global. Dans le cas du SMEM, les paramètres des composantes concernées par la fusion ou la scission sont plutôt réinitialisés de façon approximative et identique. Concernant le Competitive-EM, les formules (3.49) à (3.51) de la fusion calculent le modèle exact tandis que les formules (3.52) à (3.54) de la scission ne peuvent donner que des modèles approchés. Ceci est dû au fait que la scission de classe fait partie des problèmes dits mal-posés (ill-posed problems) dont la résolution nécessite l’introduction de paramètres libres. En terme de complexité, il est clair que l’algorithme Competitive-EM effectue plus de calculs que l’EM classique, mais il a un coût de calcul moins important que le RJMCMC. L’utilisation du Competitive-EM n’est pas envisageable dans les problèmes de classification dynamique à cause d’une part de sa grande complexité algorithmique et d’autre part, de l’utilisation des probabilités (univers clos). Néanmoins, cet algorithme a des bonnes propriétés de convergence dans un contexte de classification non-supervisé et hors-ligne.

3.5 Conclusion

Dans ce chapitre, les techniques de modélisation adaptative ont été abordées dans l’objectif d’apporter quelques outils servant à la conception d’algorithmes de classification dynamique. Nous avons exposé deux catégories de méthodes récursives proposées pour l’apprentissage incrémental et quelques mécanismes de fusion et de scission introduits pour traiter les problèmes locaux. Les aptitudes de ces méthodes pour la modélisation adaptative de modèles de mélange ou des fonctions d’apprentissage à noyau ont été montrées.

Parmi les méthodes récursives étudiées, la première catégorie est celle qui regroupe les méthodes basées sur le gradient stochastique. L’algorithme du gradient stochastique s’applique aux problèmes d’apprentissage séquentiel dans lequel l’on souhaite estimer des modèles successifs en minimisant ou en maximisant un critère global. La minimisation d’un tel critère est effectuée en appliquant la technique de la descente du gradient tandis que sa maximisation est obtenue en utilisant la technique de la montée du gradient. Le gradient stochastique est une méthode simple et rapide, très utilisée dans les applications en ligne. Ses capacités de mise à jour itérative de modèles de classification ont été montrées à travers les algorithmes incrémentaux de k-means, CEM et le NORMA. Le gradient stochastique converge mais la convergence vers l’optimum global n’est pas garantie. Cette méthode produit des modèles approximatifs qui restent tout de même satisfaisants pour la plupart des problèmes. Les méthodes de mise à jour exactes constituent la seconde catégorie. Ce sont des méthodes convergentes. Leur mise en œuvre est une épreuve quelquefois difficile. Dans ce chapitre, quelques méthodes récursives exactes ont été exposées pour la mise à jour du modèle gaussien et l’estimation itérative de densité à l’aide de méthodes à noyau. Les méthodes récursives exactes sont quelquefois limitées dans les problèmes temps-réel à cause de leur complexité algorithmique trop élevée.

Par ailleurs, dans la dernière partie de ce chapitre, nous avons présenté un mécanisme de fusion et de scission de classes à travers l’étude du Competitive-EM. Développé pour améliorer la convergence de l’algorithme EM, cet algorithme dispose de critères de détection de convergence locale et des opérations de scission et de scission de classes. Les critères de détection sont basés sur une mesure de corrélation et la divergence de Kullback-Leibler. Ces critères sélectionnent l’opération à effectuer pour résoudre certains problèmes d’optima locaux. Les opérations de fusion et de scission du Competitive-EM estiment les modèles optimaux à partir des classes comportant de défauts dans la modélisation avec le mélange gaussien. Cependant, l’utilisation de cet algorithme est réservée à la classification supervisée avec la connaissance a priori de toutes les données. En effet, il se base sur une modélisation probabiliste dans un univers fermé, il ne convient donc pas à l’apprentissage en ligne où la base de données est incomplète. Par ailleurs, les mécanismes de fusion et de scission introduisent un coût de calcul trop important à cause de l’analyse effectuée à chaque itération sur toutes les classes pour la détection de défauts de modélisation.

Après l’étude menée dans le chapitre 2 qui a montré les performances des modèles de mélange ou des fonctions d’apprentissage à noyau, nous venons de présenter dans le chapitre 3 quelques techniques de modélisation adaptative pour la classification de données spatio-temporelles (ou non-stationnaires). Ces deux chapitres, largement consacrés à l’étude bibliographique, ont ainsi apporté des outils de modélisation et des techniques de mise à jour récursive intéressants pour la conception d’algorithmes de classification dynamique. En se basant sur la méthode générique décrite dans la partie 1.4 du chapitre 1, nous proposons dans le chapitre suivant deux algorithmes de classification dynamique.

Chap. 4 : Algorithmes de classification dynamique

4.1 Introduction ... 90 4.2 AUto-adaptive & Dynamical Clustering : nouvelle version... 92 4.3 Self-Adaptive Kernel Machine (SAKM) ... 108 4.4 Synthèse théorique et analyse comparée : AUDyC et SAKM... 121 4.5 Conclusion... 123

4.1 Introduction

Le travail mené jusqu’à présent dans ce mémoire, a montré les difficultés liées à la classification dynamique. L’étude bibliographique a permis de présenter quelques méthodes possédant des propriétés intéressantes pour la classification dynamique. Le présent chapitre a pour but d’étudier deux algorithmes que nous avons développés suivant la description générique de classifieurs dynamiques proposée au chapitre 1 (partie 4.4).

Rappelons tout d’abord les principales difficultés posées par la problématique de la classification de données non-stationnaires (Définition 1.1). L’apprentissage se fait de façon séquentielle. Il s’agit de problèmes de classification en ligne qui nécessitent la mise en œuvre de règles d’apprentissage incrémental. Par ailleurs, on ne dispose d’aucune connaissance a

priori sur les étiquettes des données, ni sur le nombre de classes. La classification se fait en

mode supervisé. A ces difficultés s’ajoute l’évolution temporelle de classes due à la non-stationnarité des données. Une modélisation continue et adaptative de classes est donc nécessaire. Cette modélisation doit permettre le suivi de classes évolutives. De même, la non-stationnarité des données et l’évolution des classes se caractérisent par divers phénomènes dynamiques comme l’apparition des classes, l’évolution de classes, etc. Afin de prendre en compte ces phénomènes, le classifieur dynamique doit être doté de règles d’auto-adaptation.

Les réseaux de neurones, plus particulièrement les réseaux à architectures évolutives ont de grandes capacités de classification en environnement non-stationnaire. Ces capacités sont prouvées à travers l’étude des algorithmes CDL, FMM et ESOM (chapitre 1, partie 1.3). Grâce à leurs principes de création et d’adaptation de neurones, ces algorithmes disposent de capacités d’apprentissage et d’adaptation. Malheureusement, ils sont victimes de problèmes d’optima locaux à cause de leurs modèles de classification. Ces modèles (hyper-cubiques, hyper-sphériques, …) sont généralement des approximations grossières.

L’étude menée dans le chapitre 2 a montré que les modèles de mélange et les fonctions d’apprentissage à noyau sont des modèles statistiques ayant de bonnes performances en

classification. Le modèle de mélange gaussien est un modèle paramétrique donnant des résultats satisfaisants dans la plupart des applications. Quant aux fonctions d’apprentissage à noyau, ce sont des modèles non-paramétriques capables de modéliser des formes complexes. En revanche, les méthodes de classification utilisant ces modèles ne sont pas dotées de règles d’auto-adaptation nécessaires en environnement dynamique. Cette lacune nous a conduit à étudier quelques méthodes récursives de modélisation continue et adaptative (chapitre 3).

Dans le présent chapitre, nous présentons deux algorithmes de classification dynamique. Le processus d’apprentissage de ces algorithmes est illustré sur la figure 4.1.

Figure 4.1: Processus d’apprentissage d’algorithmes de classification dynamique

Ce processus conçu pour un fonctionnement en ligne, est élaboré avec un critère de similarité et quatre procédures d’apprentissage : procédure de création, procédure d’adaptation, procédure de fusion et procédure d’évaluation. A chaque fois qu’une

nouvelle donnée se présente, le critère de similarité permet de choisir la procédure adéquate pour la mise à jour du modèle de classification. Ensuite, la procédure d’évaluation analyse la représentation des classes créées. Cette procédure est constituée d’un mécanisme de scission de classes et d’un mécanisme d’élimination de classes parasites. Après l’élimination d’une classe, les données de cette classe sont stockées dans un ensemble de rejet Xrej. Ces données sont à nouveau présentées au processus d’apprentissage sauf les plus vieilles qui sont éliminées définitivement. La difficulté majeure de la conception des algorithmes réside dans la définition d’un critère de similarité adéquat et la mise en œuvre des procédures d’apprentissage à partir du modèle choisi. Ces procédures doivent être élaborées dans l’objectif de conférer à l’algorithme des capacités d’auto-adaptation.

Le présent chapitre est organisé en deux parties principales :

♦ La première partie présente l’AUDyC (Auto-Adaptive & Dynamical Clustering). Cet algorithme est basé sur une technique de modélisation inspirée du modèle de mélange gaussien. Les classes y sont décrites suivant une approche multimodale.

♦ La seconde partie est consacrée à l’étude de l’algorithme SAKM (Self-Adaptive

Kernel Machine). Cet algorithme modélise les classes de la partition dynamique en

s’appuyant sur les fonctions d’apprentissage à noyau.

Pour chacun de ces algorithmes, on présente d’abord le modèle de classification. Ensuite, un critère de similarité est défini spécifiquement à chaque modèle de classification. Les différentes procédures d’apprentissage sont ensuite détaillées. Nous terminons par l’étude de la convergence et la complexité de chacun des deux algorithmes.

Dans le document Classification Dynamique de données non-stationnaires :<br />Apprentissage et Suivi de Classes évolutives (Page 105-110)