Ensembles d'apprentissage articiel

Les ensembles d'apprentissage articiel désignent une très vaste famille d'algorithmes d'apprentissage supervisé dont le concept de base consiste en la combinaison des dé-cisions de plusieurs apprenants pour former la décision nale. Selon Valentini et al. [Valentini and Masulli, 2002], la considération des opinions de plusieurs apprenants peut améliorer la performance du système global.

L'utilisation des méthodes d'ensemble est motivée par les raisons suivantes :

• Si la performance d'un modèle de prédiction sur les données utilisées lors de la phase

d'apprentissage est élevée, cela ne signie pas que le modèle possède une bonne ca-pacité de généralisation (la performance de prédiction du modèle sur de nouvelles données diérentes des données d'apprentissage). Combiner plusieurs classieurs qui ont traité diérents sous-ensembles de données peut améliorer la capacité de géné-ralisation du système [Polikar, 2006]. Imaginons par exemple le cas d'un diagnostic médical ; consulter les opinions de diérents experts médecins est meilleur que suivre le diagnostic d'un seul médecin qui peut avoir une expérience diérente de celles des autres médecins [Polikar, 2006].

• Dans certain cas, le volume de données est très important pour être traité par un seul

classieur. Ainsi, répartir les données en des sous-ensembles moins volumineux peut réduire la complexité de la tâche d'apprentissage et la rendre plus ecace et rapide.

• Si nous avons diérents ensembles de données fournis par plusieurs sources diérentes,

alors il s'avère impossible de traiter des données de sources et natures diérentes par un même classieur. Dans ce cas, chaque ensemble de données peut être traité par un classieur diérent ; les sorties de chaque classieur sont ensuite combinées.

• L'un des principaux avantages des méthodes d'ensemble est la diversité. La diversité

a été dénie dans [Prudhomme and Lallich, 2007] comme étant la capacité des dif-férents apprenants d'un ensemble à ne pas commettre les mêmes erreurs lors de la prédiction. La diversité est surtout obtenue lorsque des classieurs de types diérents sont utilisés et combinés pour traiter un seul problème.

Nous distinguons trois catégories de méthodes d'ensembles. Dans la première catégo-rie, plusieurs classieurs de types diérents sont appliqués sur les données d'apprentis-sage et les décisions des diérents classieurs sont combinées pour former la décision

nale. En eet, le choix du meilleur classieur pour un problème donné n'est pas tou-jours évident. Pour cette raison, diérents types de classieurs sont considérés. Selon Dietterich [Dietterich, 2000], un modèle de classication très performant peut être gé-néré par la combinaison de plusieurs classieurs moins performants. Dans le travail de [Lazkano and Sierra, 2003] par exemple, les auteurs ont proposé un classieur hybride qui combine les réseaux bayésiens avec l'algorithme des plus proches voisins. Dans la deuxième catégorie de méthodes d'ensemble, le même type de classieur est utilisé, mais en xant à chaque fois des paramètres diérents. Cette méthode est surtout utile pour les classieurs qui sont très dépendants à certains paramètres d'entrée. Par exemple, dans les réseaux de neurones par rétro-propagation, les poids initiaux du réseau sont xés aléatoirement et ce choix aecte considérablement le résultat de la rétro-propagation [Kolen and Pollack, 1991] . Dans [Maclin and Shavlik, 1995], il a été démontré que la com-binaison de plusieurs réseaux de neurones avec des poids diérents pour chaque réseau peut améliorer la capacité de prédiction et de généralisation de ces systèmes. Finalement, la troisième catégorie consiste à utiliser le même type de classieur mais cette fois-ci avec une projection diérente des données d'entrée pour chaque classieur.

Nous nous intéressons dans le cadre de cette thèse à la troisième catégorie où la même méthode d'apprentissage est utilisée sur une projection diérente de données. L'idée de ce type de méthodes d'ensembles consiste à répartir l'information entre plusieurs appre-nants, chaque apprenant réalise la phase d'apprentissage sur l'information qui lui a été fournie, et les opinions "individuelles" des diérents apprenants sont ensuite combinées pour atteindre une décision nale. L'information à répartir entre plusieurs apprenants peut correspondre aux exemples d'apprentissage, aux attributs descriptifs ou encore aux classes. Nous décrivons par la suite quelques travaux de cette catégorie de méthodes d'en-sembles selon le type d'information à répartir.

2.1.1 Manipulation des exemples d'apprentissage

Cette méthode consiste à utiliser le même algorithme d'apprentissage plusieurs fois, chaque fois avec un sous-ensemble diérent des données d'apprentissage. Cette méthode est spécialement intéressante pour les algorithmes d'apprentissage instables : les algo-rithmes dont la décision varie de façon importante en réponse à de petits changements dans les données d'apprentissage [Dietterich, 2000]. Le Bagging [Breiman, 1996] et le Boosting [Freund, 1995] sont parmi les méthodes d'ensemble les plus connues qui manipulent les données d'apprentissage. La méthode Bagging consiste à construire L sous-ensembles de données sélectionnées aléatoirement de l'ensemble de départ. La sélection se fait d'une ma-nière aléatoire avec remplacement ; c.à.d, les sous-ensembles construits peuvent contenir des données dupliquées et d'autres données peuvent être omises (oubliées). La méthode Boosting quant à elle génère les sous-ensembles de données en se basant sur la performance des classieurs en série. En d'autres termes, elle choisit chaque sous-ensemble d'apprentis-sage de manière à favoriser les instances qui ont été mal-classiées par les classieurs

précé-dents. L'algorithme AdaBoost [Freund and Schapire, 1996] est le plus fameux algorithme de l'approche Boosting. La méthode Boosting a été appliquée dans le contexte des SCBRF dans plusieurs travaux tels que [Amouzadi and Mirzaei, 2010], [Del Jesus et al., 2004] et [Homann, 2001]. En particulier, les auteurs dans [Amouzadi and Mirzaei, 2010] pro-posent d'utiliser l'algorithme Adaboost pour combiner plusieurs classieurs "faibles" ap-pelés en série et d'adopter l'algorithme génétique pour chaque classieur.

2.1.2 Manipulation des attributs descriptifs

La deuxième possibilité consiste à considérer la totalité des exemples d'apprentissage mais en considérant une partie des attributs descriptifs pour chaque classieur. L'idée est de partitionner l'ensemble des attributs descriptifs en des sous-groupes d'attributs et de traiter chaque sous-groupe par un classieur. Cette méthode est intéressante surtout dans le cas de problèmes de grandes dimensions où les algorithmes d'apprentissage ne sont pas capables de traiter un nombre volumineux d'attributs.

Parmi les méthodes ensemblistes basées sur le partitionnement en des groupes d'attri-buts, nous citons la méthode Random Subspace [Ho, 1998, Skurichina and Duin, 2002]. Cette méthode considère plusieurs classieurs où chaque classieur traite un sous-ensemble d'attributs sélectionnés aléatoirement. Random Subspace a été utilisée dans [Cordon et al., 2008] en combinaison avec la méthode Bagging pour construire un mo-dèle de règles oues. Les tests expérimentaux dans [Cordon et al., 2008] ont montré que l'utilisation des méthodes d'ensemble donne lieu à des résultats intéressants en globalité. Cependant, l'utilisation de Random Subspace n'a pas toujours donné de bons résultats, et les auteurs ont armé que la sélection aléatoire des attributs n'est pas toujours signi-cative et qu'une heuristique de sélection comme par exemple l'information mutuelle peut être plus intéressante. Ainsi, an de choisir les meilleurs classieurs parmi tous les classi-eurs générés, les auteurs dans [Cordon et al., 2008] ont proposé un algorithme génétique pour sélectionner l'ensemble optimal de classieurs dans le but de garder un compromis entre la bonne performance et la réduction de la complexité du système. D'autres tra-vaux ont utilisé les algorithmes d'optimisation multi-objectifs (Multi-Objective Evolutio-nary Algorithm : MOEA) pour sélectionner un ensemble compact des classieurs générés [Nojima and Ishibuchi, 2006, Cao et al., 2011]. Les objectifs cherchés dans ces méthodes consistent à réduire la taille des classieurs combinés et garantir la diversité (en éliminant les classieurs similaires). Pour ce faire, les auteurs de [Nojima and Ishibuchi, 2006] ont proposé un critère de sélection basé sur l'entropie et les auteurs de [Cao et al., 2011] ont proposé une méthode d'élagage des classieurs à base de la réduction d'erreur (reduce-error based ensemble pruning Method).

SIFCO [Soua et al., 2013] est une autre méthode d'apprentissage supervisé ensembliste qui utilise une recherche de corrélation linéaire entre les attributs numériques pour for-mer les sous-ensembles d'attributs. Chaque groupe d'attributs corrélés est traité par un classieur (un système d'apprentissage à base de règles oues) et les sorties des diérents

classieurs sont ensuite combinées pour former un modèle de prédiction nal. L'intuition de cette méthode est que le traitement des attributs corrélés en bloc constitue une synthèse de l'information portée par une partie des données ; la redondance de l'information contri-bue à la réduction du bruit présent sur chaque attribut [Soua et al., 2013]. La même idée de partitionner l'ensemble des attributs en des sous-groupes d'attributs en utilisant une recherche de corrélation linéaire a été utilisée dans la méthode SUCRAGE [Borgi, 1999]. Cette méthode utilise deux méthodes de raisonnement non-ou (raisonnement exact et raisonnement approximatif) pour construire des règles de classication non-oues.

Dans [Prudhomme and Lallich, 2007], une autre méthode d'ensemble a été proposée qui, contrairement à SIFCO, partitionne les attributs en des groupes non-corrélés. Le but de ce travail est d'utiliser une carte auto-organisatrice (Self Organizing Map : SOM) pour chaque groupe d'attributs ; ces cartes fournissent une représentation diérente et pertinente des données. Enn, la prédiction est réalisée par un vote des diérentes cartes. Ces diérentes méthodes permettent ainsi de contourner les problèmes liés aux espaces de grandes dimensions tout en conservant la totalité des attributs.

2.1.3 Manipulation des sorties

Dans ce troisième type de méthodes d'ensemble, la répartition des données entre les apprenants se fait par répartir les classes qui représentent les sorties d'un problème de classication. Plusieurs méthodes d'ensemble ont été proposées an de simplier le traitement des problèmes ayant un nombre important de classes [Krawczyk et al., 2015, Galar et al., 2011]. Il s'agit de combiner des classieurs avec des représentations diérentes et plus simples de l'attribut Classe. La méthode ECOC (Error Correcting Output Code) représente l'une des méthodes les plus caractéristiques de cette catégorie de méthodes [Dietterich and Bakiri, 1995]. Elle se base sur la combinaison de L classieurs binaires ; chaque classieur traite un sous-problème de deux méta-classes où chaque méta-classe consiste en une combinaison de la moitié des classes d'origine sélectionnées aléatoirement. Les auteurs dans [Dietterich and Bakiri, 1995] montrent que cette technique améliore la performance de l'algorithme d'arbre de décision C4.5 ainsi que les réseaux de neurones par rétro-propagation dans plusieurs problèmes de classication. Une deuxième méthode appartenant à cette catégorie de méthodes d'ensemble consiste à traiter une classe par rapport aux autres (one-against-all class binarization). Cette méthode consiste à transfor-mer un problème de C classes en C sous-problèmes binaires ; chaque sous-problème utilise les exemples de sa classe comme des exemples positifs et les exemples de toutes les autres classes comme des exemples négatifs. Cette technique a été proposée dans le cadre des réseaux de neurones dans [Ou and Murphey, 2007] et dans le cas des machines à vecteur de support (SVM) dans [Rifkin and Klautau, 2004].

Dans le document Apprentissage par Regroupement d'Attributs dans les Systèmes d'Inférence Floue (Page 61-65)

Ensembles d'apprentissage articiel

2.1.1 Manipulation des exemples d'apprentissage

2.1.2 Manipulation des attributs descriptifs

2.1.3 Manipulation des sorties