• Aucun résultat trouvé

La problématique de classification dans un environnement dynamique présente des difficultés complexes et variées. Outre les problèmes de traitement en ligne des données, de nombreuses difficultés sont liées à la non-stationnarité des données. Les algorithmes se trouvent confronter aux problèmes d’apparition de nouvelles classes, de modifications locales et d’évolutions, aux phénomènes de fusion et de scission de classes, et d’élimination des informations obsolètes et parasites. En plus de ces difficultés, ces algorithmes doivent fonctionner en environnement bruité en recherchant des performances optimales et en respectant les contraintes du problème.

La plupart des algorithmes développés jusqu’à présent pour la classification des données non-stationnaires sont conçus en utilisant les techniques de réseaux de neurones pour leurs capacités à faire évoluer leurs architectures. Ces algorithmes présentent des limitations concernant principalement leurs méthodes de modélisation inadéquates lorsque la distribution des données est inconnue. En effet, l’utilisation des modèles cubiques ou hyper-sphériques pose des problèmes d’optima locaux. La qualité de modélisation se trouve ainsi fortement affectée dans des situations où les modèles de classes ne s’adaptent pas à la structure des données. En environnement non-stationnaire, le processus d’apprentissage des algorithmes neuronaux CDL, FMMC et ESOM permet la construction de classes et adapte leurs modèles aux déformations locales. Cependant, ces algorithmes n’ont pas d’aptitudes à modéliser dynamiquement les classes évolutives. De même, malgré leurs architectures constructives et incrémentales, ces algorithmes neuronaux ne sont pas aptes à prendre en compte tous les phénomènes dynamiques en environnement de données non stationnaires. La plupart des inconvénients des algorithmes précédemment exposés sont inhérents à leurs principes de mise en œuvre et à leurs techniques de modélisation.

L’analyse de la problématique et l’étude bibliographique ont permis d’orienter nos travaux de recherche. En s’inspirant des propriétés des algorithmes neuronaux à architectures évolutives, nous avons proposé une description générique de classifieurs dynamiques disposant d’un processus d’apprentissage avec des capacités d’auto-adaptation. Cette description est formalisée en 4 procédures spécifiques : création, adaptation, fusion et évaluation. La règle de décision du classifieur est basée sur un critère de similarité permettant la classification des données. Néanmoins, le développement d’algorithmes suivant cette description générique suppose que le modèle de classification soit bien choisi pour s’adapter à la distribution des données et permettre la modélisation adaptive des classes évolutives.

Afin d’atteindre ces objectifs et combler les lacunes de modélisation constatées dans les algorithmes exposés dans la partie 1.3 de ce chapitre, nous avons orienté nos recherches vers d’autres méthodes de modélisation plus performantes. C’est ainsi que le chapitre 2 présente les modèles de mélange qui sont des méthodes statistiques puissantes et les méthodes à noyau qui ont récemment montré des performances théoriques intéressantes et des résultats attractifs en classification. Dans le chapitre 3, des techniques de mise à jour récursives seront étudiées afin d’élaborer des procédures d’apprentissage incrémental et de modélisation dynamique pour les modèles de mélange et les fonctions d’apprentissage à noyau. L’ensemble des outils ainsi étudiés permettra de proposer dans le chapitre 4, deux nouveaux algorithmes dédiés à la classification dynamique de données non-stationnaires.

Chap. 2 : Modèles de mélange et Méthodes à noyau

2.1 Introduction ... 37 2.2 Modèles de mélange pour la classification ... 39 2.3 Méthodes à noyau pour la classification ... 49 2.4 Conclusion... 62

2.1 Introduction

La partie 1.2 du chapitre 1 consacrée à la problématique de la classification dynamique, a montré les besoins de méthodes de modélisation performantes pour représenter la partition de données non-stationnaires. La plupart des modèles utilisés dans la littérature se heurte à des problèmes d’optima locaux pouvant affecter considérablement la qualité de la classification. Ces problèmes sont principalement dus à une mauvaise adéquation entre le modèle de classification et la distribution des données. Les données étant distribuées suivant une loi de densité de probabilité inconnue, définir un modèle de classification s’adaptant parfaitement à la distribution des données n’est pas une tâche facile. Le présent chapitre a pour objet la modélisation de données spatiales (non temporelles). La problématique d’évolution du modèle de classification ne sera traitée qu’ultérieurement avec l’introduction du facteur temps.

Dans le contexte de classification de données spatiales, il existe de nombreuses méthodes de modélisation pour représenter les classes. On peut les regrouper en deux grandes approches :

- L’approche paramétrique se base sur une approximation de la loi de densité de

probabilité P supposée inconnue. L’objectif consiste à reconstituer cette loi de densité P à partir d’un ensemble de lois possibles

{

ϕ

( )

}

, Θ est le paramètre de la densité. On suppose qu’il existe un paramètre optimal Θopt tel que quelque soit la donnée X de l’espace χ, on ait

( ) (

, opt

)

P X X Θ . De cette façon, la modélisation de classes est effectuée avec des modèles dont les éléments mathématiques sont relativement bien maîtrisés comme le modèle gaussien par exemple. En classification, il existe plusieurs méthodes d’estimation de densités paramétriques [Govaert, 2003; McLachlan & Peel, 2000]. Ces méthodes sont pour la plupart basées sur le principe du maximum de vraisemblance ou de l’estimation bayésienne. Cependant, la probabilité P étant inconnue, rien ne garantit qu’elle appartient à la famille des lois

{

ϕ

( )

}

. Pour les distributions complexes, le modèle de classification n’est pas à l’abri des problèmes d’optima locaux.

- L’approche non-paramétrique ne fait aucune hypothèse simplificatrice sur la

modèle a priori pour représenter les classes. L’estimation non-paramétrique de la fonction de densité est effectuée à l’aide des méthodes telles que le k Plus Proches Voisins (k-PPV) [Cover & Hart, 1967], les noyaux de Parzen [Saint-Jean, 2001], … etc. Cette approche convient à la modélisation de classes de distributions complexes. Cependant, la mise en œuvre de ces méthodes nécessite généralement l’utilisation d’une mesure de similarité (exemple : distance euclidienne) pour déterminer l’appartenance des données aux classes. En réalité, la structure des classes dépend de la nature de cette mesure, il s’agit donc d’un modèle supposé.

Dans la majorité des problèmes de classification, les méthodes statistiques se sont imposées grâce à leurs meilleurs formalismes mathématiques et les solutions intéressantes qu’elles offrent dans la plupart des problèmes. Ce chapitre est consacré à l’étude de deux méthodes statistiques : les modèles de mélange et les SVM et méthodes à noyau.

1. Les modèles de mélange (finis) [Govaert, 2003] : Définis avec un formalisme très

général, les modèles de mélange sont des outils très performants pour la modélisation de diverses densités. L’estimation du modèle de classification optimale se fait généralement à l’aide de méthodes de maximisation du critère de vraisemblance. La plupart des travaux menés jusqu’à présent, se basent sur une approche paramétrique et apportent des solutions adéquates dans un contexte de classification automatique (Clustering) et non-supervisée. Il existe également des méthodes d’estimation de modèles de mélange non-paramétriques [Pilla & al., 2001]. En lien avec la problématique de notre étude, les modèles de mélanges ont connu ces dernières années quelques avancées en apprentissage séquentiel.

2. Les SVM et méthodes à noyau [Schölkopf & Smola, 2002] : Ces méthodes sont les

plus récentes et parmi les plus exploitées actuellement en classification. A travers ces méthodes, les classes sont modélisées à l’aide de fonctions d’apprentissage à noyau. Considérées comme des modèles non-paramétriques, ces fonctions ont la capacité de représenter des formes très complexes. A partir des modèles à noyau, sont développées les techniques SVM1 (Séparateurs à Vaste Marge) qui sont des outils puissants dont les performances en classification sont très attractives. Les SVM se basent sur le principe de minimisation de risque formalisé par Vapnik dans le cadre général de la théorie de l’apprentissage statistique. Les SVM ont d’excellentes capacités de généralisation prouvées dans [Vapnik, 1998]. Initialement utilisées pour l’apprentissage supervisé, les SVM et méthodes à noyau sont aujourd’hui utilisés dans une grande variété de problèmes allant jusqu’à la classification en ligne.

Le présent chapitre est organisé en deux grandes parties :

La première partie est consacrée aux modèles de mélange. Nous commençons par donner quelques notions essentielles sur la classification par partition. Ensuite, nous définissons les modèles de mélange dans le cadre de la classification de données spatiales et

1

L’acronyme SVM (Support Vector Machines) est littéralement traduit par l’expression "Machines à Vecteurs de Support" dont le sens est très vague en français. Certains auteurs ont alors adopté la traduction de "Séparateurs à Vaste Marge" qui nous semble également plus interprétative.

décrivons le cas particulier du modèle de mélange gaussien. Après ces définitions, nous présentons le principe de maximisation du critère de vraisemblance sur lequel sont basées les méthodes d’estimation. Enfin, pour terminer cette partie, nous décrivons l’algorithme CEM (Classificatoire EM : Expectation-Maximisation) en utilisant le modèle mélange gaussien.

Dans la deuxième partie, les SVM et méthodes à noyau sont étudiés. Nous commençons par présenter le formalisme des fonctions à noyau servant à la construction de modèles d’apprentissage en classification. Ce formalisme est suivi par un exposé succinct sur la théorie d’apprentissage statistique de Vapnik. Après ces concepts théoriques de base, le principe des méthodes SVM est brièvement décrit dans le contexte de la classification. Enfin, nous détaillons la méthode d’estimation de densité à l’aide des méthodes à noyau. Quelques propriétés intéressantes de cette méthode sont illustrées à la fin de cette partie.