• Aucun résultat trouvé

Chapitre 2. La Diversité pour la Construction et la Sélection d’Ensemble de

2.6 Sélection dynamique de classifieurs

2.6.1 Définition de la région de compétence

Généralement, les régions locales de compétence sont définies à l'aide de la technique kPPV [Woods 1997, Ko 2008], via des méthodes de clustering (par exemple K-Means) [Kuncheva 2000 ; Soares 2006], en utilisant les décisions des classifieurs de base [Giacinto 2001b ; Cavalin 2012 ; Cavalin 2013] ou par l'utilisation d'une fonction potentielle [Woloszynski 2011]. Dans tous les cas, un ensemble d'exemples étiquetés, qui peut être la base d’apprentissage ou de validation, est requis. Cet ensemble est appelé la base de données de la sélection dynamique (dynamic selection dataset , ) [Cruz 2017 ; Oliveira 2017].

2.6.1.1 Clustering

Dans les techniques qui utilisent le clustering pour définir la région de compétence [Kuncheva 2000 ; Soares 2006 ; de Souto 2008 ; Lin 2014], la première étape consiste à partitionner la base en groupes ou en clusters. Ensuite, la compétence de chaque classifieur est estimée pour tous les clusters. Au cours de la phase de généralisation, pour chaque exemple de test , la distance entre et le centre de chaque cluster est calculée et le cluster le plus proche à est choisis comme sa région de compétence . La compétence des classifieurs est ensuite mesurée sur cette région de compétence.

L'avantage de l'utilisation de la technique de clustering est que tous les classements et sélections des classifieurs sont estimés pendant la phase d’apprentissage. Pour chaque cluster, l'EdC est défini a priori. Ainsi, les techniques de sélection dynamique basées sur le clustering sont beaucoup plus rapides pendant de la phase de généralisation. En outre, seulement la distance entre l’échantillon de test et le centre de chaque cluster doit être estimée, plutôt que toutes les instances de DSEL.

2.6.1.2 K-Plus proches voisins (kPPV)

Dans le cas de la technique kPPV [Woods 1997 ; Ko 2008], les plus proches voisins de l'exemple de test sont estimés à l'aide de la base . Ensuite, les compétences des classifieurs de base sont évaluées en ne tenant compte que les instances appartenant à cette région de compétence.

L'avantage d'utilisation de kPPV par rapport au clustering est que la technique kPPV permet une estimation plus précise de la région locale, ce qui conduit à des configurations

62

différentes d'EdC selon la classification des nouvelles instances [Soares 2006 ; de Souto 2008]. Cependant, cette approche contrairement au clustering est plus couteuse en temps de calcul, puisque la distance entre l’exemple et le doit être calculée avant d'estimer les compétences des classifieurs. Ce problème apparait en particulier lorsqu'il s'agit d'une base de données de grande taille [Cruz 2015].

2.6.1.3 Modèle de fonction potentielle

Ces méthodes sont inspirées du travail de Rastrigin et Erenstein [Rastrigin 1981], qui est l'un des premiers travaux concernant la sélection dynamique de classifieurs. Ils diffèrent de la majorité des autres techniques de la sélection dynamque en ce qui concerne le calcul de la compétence des classifieurs. Plutôt que d'utilisation de voisinage de l'échantillon de test pour l'estimation de la compétence, les techniques basées sur un modèle de fonction potentielle utilisent tous l'ensemble de données de sélection dynamique ( ).

Cependant, l'influence de chaque point de données est pondérée par sa distance euclidienne à l’échantillon en utilisant un modèle de fonction potentielle. Généralement, une fonction potentielle gaussienne est considérée (équation 2.16). Par conséquent, les points qui sont plus proches de l'échantillon ont une grande influence sur l'estimation de la compétence des classifieurs.

( ) ( ( ) ) (2.16)

Plusieurs techniques de sélection ont été proposées en utilisant le modèle de fonction potentiel: sélection dynamique d'ensemble de classifieurs basé sur la divergence de Kullback-Leibler (DES-KL) [Woloszynski 2012], la technique basée sur le classifieur de référence randomisé (Randomized Reference Classifier, RRC) [Woloszynski 2012] et les méthodes DCS basées sur les fonctions logarithmiques et exponentielles [Woloszynski 2009].

L’utilisation de ces méthodes pour définir les régions de compétence présente l'avantage de ne pas nécessiter de définir de la taille du voisinage a priori car la fonction potentielle ( ) est utilisée pour réduire l'influence de chaque point de donnée en se basant sur sa distance euclidienne à l’échantillon à classer. Cependant, son inconvénient est

63

le coût de calcul augmenté puisque toutes les données de la base , et pas seulement le voisinage de , sont utilisées pour estimer la compétence des classifieurs candidats.

2.6.1.4 Espace de décisions

Les techniques de sélection de cette catégorie sont basées sur le comportement de l’ensemble de classifieurs en utilisant les prédictions des classifieurs comme informations. Ils sont inspirés de l'espace de connaissance du comportement (BKS) [Huang 1995], souvent appelé «espace de décisions», car il est basé sur les décisions prises par les classifieurs de base [Giacinto 2001b ; Cavalin 2013].

Un aspect important de cette classe de techniques est la transformation des exemples de test et d'apprentissage en profils de sortie. Cette transformation peut être effectuée en utilisant les décisions difficiles des classifieurs de base (par exemple, les étiquettes de classe prédites), comme dans la méthode BKS, ou en utilisant les probabilités postérieures estimées des classifieurs de base, comme suggéré dans [Giacinto 2001b ; Cavalin 2013]. Le profil de sortie d'un échantillon est noté ̅ * ̅ ̅ ̅ + où chaque ̅ est la décision obtenue par le classifieur ( ) pour l’exemple .

Ensuite, la région de compétence est calculée par la similarité entre le profil de sortie ̅, et les profils de sortie des échantillons de la base . L'ensemble avec les profils de sortie les plus similaires, noté , est utilisé pour estimer le niveau de compétence des classifieurs de base. Des exemples de techniques qui utilisent une région de compétence définie dans l'espace de décision sont : le comportement de classifieur multiple (Multiple

Classifier Behavior, MCB) [Giacinto 2001b], les k-plus proches profils de sorties (K- Nearest Output Profiles, KNOP) [Batista 2011 ; Cavalin 2013] et META-DES [Cruz

2015].