La fusion de classifieurs par vote - Modélisation des signatures temporelles

7.3 Modélisation des signatures temporelles

8.1.2 La fusion de classifieurs par vote

Rencontrer une étape de fusion de classifications en post-traitement s’avère assez fréquent. En effet, elle permet de combiner les décisions issues de différents classifieurs. Il devient alors possible de séparer la tâche de classification en réduisant le volume de données traitées par chaque classifieur, ou de laisser libre cours à différents classifieurs pour choisir les primitives utilisées. La complexité de la règle de fusion permet d’exploiter simplement les étiquettes ou alors d’associer une pondération afin d’influencer la décision du vote.

On retrouve également les votes dans les ensembles de classifieurs, afin de choisir l’étiquette associée à l’échantillon en fonction des résultats des différents classifieurs de l’ensemble. Par exemple, leRFexploite un

Vote Majoritaire (VM)pour fusionner la décision de chaque arbre.

• Une indépendance vis-à-vis du volume de données.

• L’assurance d’une meilleure performance par rapport à chaque classifieur individuellement. • L’utilisation de classifieurs faibles, souvent excellents en fouille de données.

• La possibilité de réunir des classifieurs spécialisés. • Une grande liberté dans la fonction de décision.

L’indépendance vis-à-vis du volume de données

La quantité d’échantillons d’apprentissage disponibles constitue un facteur important dans le cadre de la classification, dans la mesure où le choix du classifieur utilisé dépend souvent de celui-ci. La grande liberté des systèmes de vote permet de gérer indifféremment ces problèmes car il exploite les résultats de classification. Dans le cas d’un jeu d’apprentissage peu fourni, l’utilisation des approches de boostrapping (comme le

bagging) assure la diversité des différents classifieurs, tout en excluant les configurations médiocres [Hashem,

1997,Marcialis and Roli, 2003].

Au contraire, dans le cas d’un jeu d’apprentissage volumineux, une approche consiste à réaliser un par- titionnement de l’espace des primitives [Rastrigin and Erenstein, 1981] afin que chaque classifieur ne traite qu’une seule partition. Une règle de combinaison [Polikar, 2012] permet alors de fusionner les décisions de chaque classifieur.

L’assurance d’une meilleure performance

Nous retrouvons ici une propriété partagée avec les ensembles de classifieurs et notamment le RF : le respect de la règle d’indépendance entre les votants permet d’assurer que le résultat du vote sera toujours meilleur que le résultat de chacun des votants pris individuellement [Clemen, 1989,Xu et al., 1992]. Ce prédicat a été prouvé analytiquement par [Tumer and Ghosh, 1996] dans le cadre de la fusion par unVMde réseau de neurones linéaires.

Les classifieurs faibles, des ressources à exploiter

Les classifieurs dits “faibles” comme les arbres de décisions, constituent des alternatives intéressantes pour la fouille de données. En effet, ils permettent d’identifier les primitives discriminantes, mais ne disposent pas de capacités de généralisation suffisantes les rendant rapidement peu performants. Cependant, dans le cadre d’un système de vote ils représentent une source d’informations très utile, car la composition des primitives exploitées permet de moduler l’influence de ce classifieur lors de la prise de décision [Quinlan, 1993]. Nous avons déjà abordé l’utilité des classifieurs faibles lors de la présentation desRFdans le chapitre 2.2.1.

La spécialisation de classifieur

Généralement, dans le cadre d’une classification à plusieurs classes, nous essayons d’éviter la spécialisation du classifieur. On parle de classifieur spécialisé lorsque celui-ci est très performant pour la détection d’une seule classe. En effet, ce genre de spécialisation se fait au détriment de toutes les autres classes. Cependant, dans le cadre d’un système de vote, spécialiser un classifieur peut représenter un avantage. En effet, nous

savons que certaines configurations offrent à des classifieurs la possibilité de reconnaître très précisément une classe donnée au détriment des autres [Wolpert, 2002]. Une règle de fusion exploitant cette information lors de la prise de décision, permet alors d’extraire le meilleur de chaque classifieur. Cette approche repose donc sur une complémentarité forte entre les différents classifieurs inclus dans le vote.

La règle de décision

La règle de fusion constitue le coeur d’un système de vote, permettant de rassembler les différents résultats des classifieurs afin de fournir une étiquette à un échantillon. On retrouve trois catégories de fonction de décision :

1. La fusion des étiquettes, chaque électeur vote pour une seule classe.

2. L’utilisation d’une fonction de support, chaque électeur associe un poids à son vote. 3. L’utilisation d’un classifieur entraîné sur la sortie des classifieurs électeurs.

Les règles de fusion d’étiquettes représentent les approches les plus simples. Elles dépendent de la notion de majorité, divisée en trois règles distinctes :

• L’unanimité : tous les votants indiquent la même étiquette

• La majorité simple : plus de la moitié des votants ont choisi cette étiquette

• LeVote Majoritaire(VM) : l’étiquette est choisie par le plus de votants

Ces règles rappellent la situation initiale des théories de Condorcet et Borda, elles ne traduisent pas l’ordre de préférence des différents votants. C’est pourquoi, on leur préfère l’utilisation d’une fonction de support.

Une fonction de support permet d’associer un poids à chaque votant. On trouve une grande diversité de poids dans la littérature : la confiance d’un classifieur dans sa décision [Van Erp et al., 2002], ou utiliser une pondération spécifique en fonction du classifieur [Wozniak and Jackowski, 2009], par exemple. L’utilisation d’une fonction de support permet de considérer l’intégralité des étiquettes au moment de la prise de décision. L’idée générale consiste à associer à chaque classe un score, avant la fusion des différents résultats. Ainsi, on se rapproche de la méthode de Borda, utilisée par exemple dans [Ho et al., 1994] afin de fournir un poids à chaque classe en fonction de son classement réalisé par le classifieur. Ainsi, il est possible de réaliser un vote par probabilité, qui donne un ordre de préférence par le biais de poids relatifs entre les classes. Là encore on retrouve une grande variété de sources potentielles de scores, en exploitant par exemple les probabilités a posteriori [Biggio et al., 2007].

On retrouve également des méthodes d’agrégations exploitant diverses règles, comme l’identifiant du classifieur (et donc sa spécificité) seul, ou combiné avec la liste des primitives utilisées, ou de manière plus complexe en mélangeant les informations d’étiquettes de classe, l’identifiant du classifieur et des primitives utilisées [Wozniak and Jackowski, 2009].

Enfin, des approches proposent de formuler le choix d’une fonction de décision optimale comme un pro- blème de classification [Inoue and Narihisa, 2002,Hashem, 1997]. À propos de ce principe, [Shlien, 1990] propose d’exploiter l’approche de Demspter-Shafer, qui exploite des connaissances a posteriori sur la performance du classifieur associé, pour combiner des arbres de décision. Une autre approche consiste à sélection- ner le sous-ensemble optimal de classifieurs à l’aide d’algorithme de fouille de données [Opitz and Shavlik, 1996,Ruta and Gabrys, 2005].

Dans le document Méthodes d'exploitation de données historiques pour la production de cartes d'occupation des sols à partir d'images de télédétection et en absence de données de référence de la période à cartographier (Page 135-138)