Diversité pour génération des classifieurs

Chapitre 2. La Diversité pour la Construction et la Sélection d’Ensemble de

2.2 Diversité pour génération des classifieurs

La construction d'un ensemble de classifieurs peut être réalisée en adoptant différentes stratégies [Wang 2006]. La diversité entre les classifieurs peut être obtenue en utilisant (1) différents modèles de classification et la même base d'apprentissage; (2) le même modèle de classification et différentes données d'apprentissage; (3) différents modèles utilisant différents types de sorties de classifieur.

Certains auteurs [Golestani 2007] ont proposé de diviser ces méthodes de création en différentes catégories. Sharkey [1997] a montré que les quatre aspects suivants peuvent être manipulés pour créer des ensembles de réseaux de neurones: les paramètres initiaux, les données d’apprentissage, la topologie des réseaux et l'algorithme d’apprentissage. Plus

récemment, Gacquer [2008a] a proposé que les méthodes de création peuvent être catégorisées en trois groupes selon les différents niveaux de la construction :

 Le niveau Données : les différences entre les classifieurs à ce niveau s'effectuent sur les exemples d’apprentissage eux-mêmes. Des traitements peuvent être appliqués de différentes façons à la base de données d’apprentissage en utilisant différentes sources de données, différentes méthodes de prétraitement ou différentes méthodes d'échantillonnage.

 Le niveau Classifieur : il désigne les modifications apportées à l’algorithme d’apprentissage utilisé en lui-même. Ces modifications peuvent être appliquées en utilisant différents types de classifieurs [Gacquer 2008b], différentes architectures des classifieurs [Galán 2002] et différentes initialisations de paramètres d'apprentissage.

 Le niveau Superviseur : ce niveau concerne la méthode d’agrégation utilisée pour fusionner les réponses des membres de l’ensemble afin d’obtenir une décision final. Dans les sous sections suivantes, nous présentons les principales méthodes de création d'un ensemble de classifieurs qui sont divisées en quatre groupes suivant les catégorisations de Gacquer [2008a] et de Sharkey [1997].

2.2.1 Échantillonner les données d’apprentissage

Ce groupe contient des méthodes qui construisent des ensembles de classifieurs en faisant varier les données d'apprentissage afin de générer différentes sous bases d’entrainement des membres de l'ensemble. Les méthodes de construction ensembliste suivantes sont des exemples de ce type d'approche.

2.2.1.1 Bagging

Le Bagging [Breiman 1996a], signifiant « Bootstrap Aggregating », a été l'une des premières méthodes proposées pour la création d'un ensemble de classifieurs. La technique Bagging redéfinit l'ensemble d'apprentissage pour chaque classifieur. Elle consiste à générer plusieurs versions de la même base de données d’apprentissage (appelés bootstraps) et utiliser chacun d’eux pour entraîner un membre de l’ensemble en utilisant le même algorithme d’apprentissage. Les différents bootstraps sont construits par tirages aléatoires avec remise des exemples de l'ensemble de données d’apprentissage d'origine.

Ainsi, les sorties des classifieurs sont ensuite combinées par un vote majoritaire ou tout autre règle de fusion. . La figure 2.1 illustre le principe de cet algorithme. Il est prévu que 63,2% des données originales d’apprentissage seront inclus dans chaque bootstrap [Breiman 1996a].

Description schématique de l’apprentissage et la combinaison d’un

Figure 2.1.

ensemble de classifieurs par la méthode Bagging [Gacquer 2008a].

Breiman [1996a ; 1996b ; 1997] signale qu’il est important que le type de classifieur de base doit être instable pour que le Bagging fonctionne efficacement. Un algorithme de classification instable est sensible aux changements des données d'apprentissage. Une légère modification sur la base d’apprentissage peut avoir un impact important sur le comportement d’un classifieur instable.

2.2.1.2 Boosting

Boosting est un algorithme itératif attribuant des poids à chaque exemple de la base d’apprentissage afin de se focaliser sur les exemples « difficiles » (i.e. les exemples mal classés par les classifieurs précédents). À chaque itération, l'algorithme de Boosting augmente les poids des échantillons mal classés de sorte que le classifieur suivant se concentre en priorité sur ces exemples difficiles. La décision finale est donc obtenue par la combinaison des sorties de tous les classifieurs générés à chaque itération. Ces classifieurs sont généralement combinées par un vote majoritaire ou par un vote pondéré. La figure 2.2 décrit le fonctionnement de cet algorithme.

Plusieurs études comparatives [Breiman 1996a ; Schapire 1998 ; Bauer 1999] ont montré que le Boosting exige moins d’instabilité que le Bagging parce que cette dernière permet d’engendrer de beaucoup plus grands changements dans l’ensemble d’apprentissage.

Apprentissage et agrégation de classifieurs par la méthode Boosting

Figure 2.2.

[Gacquer 2008a].

2.2.2 Modifier l’espace de représentation

Ces méthodes construisent des ensembles de classifieurs en modifiant l'ensemble original de caractéristiques. L'objectif est de fournir une vue partielle et différente des données d'apprentissage à chaque membre de l'ensemble pour les amener à être différents les uns des autres [Tsymbal 2005]. L'une des méthodes ensemblistes les plus réussies dans cette catégorie est la méthode proposée par Ho [1998], nommée Random Subspace. Cette approche consiste à modifier les données d'apprentissage comme le Bagging et le Boosting. Cependant, ces modifications sont réalisées sur l'espace des caractéristiques.

2.2.2.1 Random Subspace

Random Subspace consiste à construire un ensemble de classifieurs sur la base d’une méthode de classification et d’une sélection aléatoire des sous-espaces de représentation. Supposons que est la dimension de l’espace de représentation initial, la méthode RSS consiste à tirer aléatoirement membres parmi afin d’obtenir un sous-espace de caractéristiques ( ). La dimension d’un sous-espace de représentation est fixe et chaque caractéristique ne peut être sélectionnée qu'une seule fois. Chaque sous-espace de

représentation est utilisé pour entrainer un classifieur individuel en utilisant le même algorithme d’apprentissage. Les sorties des classifieurs sont généralement combinés par la règle de vote majoritaire. Ho [1998] a montré que l’utilisation d’un grand nombre de classifieurs reposant sur des espaces de petite dimension peut être préférable à l’apprentissage d’un classifieur unique dans l’espace initial. La figure 2.3 illustre l’application de cette procédure à l’induction de forêts de décision [Bernard 2009].

Illustration du principe de la méthode Random Subspace pour un ensemble

Figure 2.3.

d’arbres de décision [Bernard 2009].

2.2.3 Manipuler les membres de l'ensemble

Dans les méthodes de ce niveau, la structure ou les paramètres de l'architecture du classifieur sont variés. Ces méthodes tentent de générer des classifieurs diversifiés en utilisant différents modèles de classification [Ruta 2005], différentes architectures de classifieurs [Roli 2001] ou différentes configurations des paramètres de l'algorithme d'apprentissage [Zhu 2004], tout en conservant les même données d'apprentissage. Par exemple, différents poids initiaux peuvent être attribués à des réseaux de neurones individuels [Kolen 1991] ou différentes sélections fractionnées peuvent être appliquées aux arbres de décision [Kwok 1990 ; Liu 2008], etc. afin de composer un ensemble de 15 classifieurs hétérogènes, Ruta et Gabrys [Ruta 2005] ont utilisé 15 algorithmes d'apprentissage, à savoir : le discriminant quadratique, les réseaux de neurones, le kPPV, les arbres de décision et d'autres.

2.2.4 Manipuler les sorties

Ce groupe contient des méthodes basées sur la manipulation des sorties des exemples d'apprentissage. Ces méthodes tentent de construire un ensemble de divers classifieurs en utilisant différentes représentations des sorties. Dans la technique, de codage des sorties, utilisée par Dietterich et Bakiri [Dietterich 1994], un problème multi-classes est transformé en un ensemble de problèmes binaires. À chaque itération, une nouvelle division binaire de la base de données d'apprentissage est utilisée pour former un nouveau classifieur. Un autre exemple est la méthode proposée par Breiman [2000], qui introduit le bruit pour modifier certaines classes des exemples d'apprentissage.

Dans le document Approches Ensemblistes de Classification et Sélection des Prédicteurs pour la Reconnaissance de Formes (Page 54-59)