Problème de sélection d’attributs en classification

1.3 Problèmes étudiés

1.3.2 Problème de sélection d’attributs en classification

Aujourd’hui, dans de nombreux domaines scientifiques, nous avons besoin de su- perviser des systèmes de plus en plus complexes. Ces systèmes contiennent en effet des données en très grandes quantités. Le traitement de cette masse de données pose de nombreux problèmes, en particulier pour les algorithmes d’apprentissage qui construisent des modèles de prédiction pour de la classification d’individus. Une trop grande quan- tité de données peut donc conduire à la construction d’un modèle de mauvaise qualité ou avec du sur-apprentissage, c’est-à-dire que le modèle construit risque d’être spé- cifique aux données d’entrées. Cela est dû à l’existence de données non significatives qui créent du bruit et ainsi rendent le modèle incapable de faire de la prédiction sur de nouvelles données. Pour remédier à ce problème, nous utilisons la sélection d’attributs comme une phase préliminaire à la phase d’apprentissage, ce qui permet de filtrer les données pertinentes des données non pertinentes. Cette réduction des données permet donc aux méthodes d’apprentissage de découvrir de meilleurs modèles de prédiction. (Voir Figure1.5).

S´election d’attributs

Apprentissage Pr´ediction

FIGURE1.5 – Positionnement de la phase de Sélection d’attributs pour la création d’un modèle de prédiction.

1.3.2.1 Définition du problème

Dans un problème de classification, un ensemble d’observations déjà labellisé est utilisé pour apprendre un modèle de prédiction qui servira à labelliser les nouvelles observations. La sélection d’attributs a pour objectif de choisir les informations pertinentes d’un problème pour aider à la classification. Dans ce contexte, nous appellerons l’ensemble des données une instance qui est représentée par d observations. Chaque observation i est caractérisée par n attributs et un label. Ainsi, une instance est donc représentée par :

— Une matrice A de d lignes et n colonnes qui représentent la valeur de chaque at- tribut pour chaque observation.

— Un vecteur C de taille d qui représente les labels de chaque observation D’où la représentation suivante d’une instance :

A =    a11 · · · a1n .. . . .. ... ad 1 · · · ad n    , C =    c1 .. . cd    (1.14)

où ci∈ {1, ..., k} avec k le nombre de classes.

Ces données sont ensuite divisées en deux ensembles. Le premier, appelé ensemble d’apprentissage qui permet à la méthode d’optimisation d’apprendre un modèle de pré- diction, et le second, appelé ensemble de validation, est utilisé pour évaluer la robustesse du modèle de prédiction sur des nouvelles observations.

1.3.2.2 Approches de résolution

Les approches de résolution du problème de sélection d’attributs se divisent en trois type d’approches en fonction de la façon dont elles combinent l’algorithme de recherche et le classifieur. Ces trois types d’approches sont : les méthodes filtrantes, les méthodes enveloppantes et les méthodes embarquées.

Les méthodes filtrantes initiées parPUDIL et HOVOVICOVA [1998], sélectionnent les attributs indépendamment du modèle utilisé. Ainsi, les attributs les moins intéressants sont supprimés, et les attributs les plus pertinents sont conservés pour être utilisés pour la création du modèle de prédiction. Ce mécanisme est représenté par la Figure1.6.

Ensemble de tous les attributs

S´election du meilleur sous-ensemble

Classifieur Qualit´e + Meilleur sous ensemble d’attributs

FIGURE1.6 – Représentation d’une méthode filtrante.

Ces méthodes peuvent s’apparenter aux heuristiques des méthodes d’optimisation. Elles sont très efficaces en temps de calcul et sont de plus robustes au sur-apprentissage. Cependant, elles ne tiennent pas compte de la corrélation entre les attributs (c’est-à-dire les relations entre les attributs). Elles ont donc comme inconvénient de sélectionner des attributs redondants.

Les méthodes enveloppantes initiées parKOHAVIet JOHN[1997], évaluent des sous- ensembles d’attributs qui permettent, contrairement à la méthode précédente, de te- nir compte des corrélations entre les attributs. Ainsi dans cette approche, chaque sous- ensemble d’attributs passe par un classifieur qui évalue la qualité de prédiction avec l’ensemble d’apprentissage. Ensuite, le meilleur sous-ensemble trouvé pendant la pro- cédure de recherche est évalué sur l’ensemble de validation. Cette méthode est présen- tée par la Figure1.7.

L’avantage de ce type de méthode est d’être capable de gérer les corrélations entre les attributs et donc de trouver les relations importantes entre les attributs. Cependant, ces approches génèrent souvent des modèles de prédiction avec du sur-apprentissage, c’est-à-dire que le modèle de prédiction est spécialisé sur les observations de l’ensemble d’apprentissage et peut donc réaliser de mauvaises prédictions sur des nouvelles don- nées. De plus, le temps d’exécution de ces méthodes peut devenir coûteux en fonc-

Ensemble de

tous les attributs Sous-ensemble d’attributs Classifieur Qualit´e + Meilleur sous-ensemble Evaluation du sous-ensemble

Ensemble d’apprentissage _{Ensemble de validation}

FIGURE1.7 – Représentation d’une méthode enveloppante.

tion du classifieur utilisé et de la taille de l’instance si cette dernière possède un grand nombre d’observations et/ou d’attributs.

Les méthodes embarquées présentées par LAL et collab. [2004] sont des approches proches des méthodes enveloppantes. La différence est qu’elles utilisent les informations internes au classifieur (exemple : le vecteur de poids dans les classifieurs SVM - machines à vecteur de support) pour le processus de sélection du sous-ensemble d’attributs. Ces approches sont bien plus rapides en temps de calcul que les méthodes enveloppantes et sont aussi robustes au sur-apprentissage. Le principal inconvénient de ces approches est lié à l’utilisation de son propre classifieur, cela nécessite donc de dé- finir a priori ce qu’est une bonne sélection, ce qui empêche une utilisation facile de ces approches.

Dans le cadre de ces travaux de thèses, nous avons souhaité faire de l’intégration de connaissances dans une méthode d’optimisation combinatoire. Ainsi la méthode qui sera évoquée dans cette thèse fait partie des approches enveloppantes.

1.3.2.3 Jeux de données

Les expérimentations de ces travaux des thèses ont été menées sur six instances de la littérature. Le Tableau1.3détaille les informations de ces instances.

Nom Attributs |T| |V| Référence

Schizophrenia 410 56 30 SILVAet collab.[2014] Colon 2000 62 32 ZHUet collab.[2007] Breast 24481 78 26 ZHUet collab.[2007] Arcene 10000 100 100 GUYONet collab.[2006]

DNA 180 1400 600 GUERRA-SALCEDOet WHITLEY[1999] Madelon 500 2000 600 GUYONet collab.[2004]

TABLEAU1.3 – Description des instances : Attributs est le nombre total d’attributs, |T| est le nombre d’observations de l’ensemble d’apprentissage, |V| est le nombre d’observations de l’ensemble de validation.

Toutes ces instances sont des instances binaires (deux labels) équilibrées, c’est-à- dire qu’il y a un nombre équivalent d’observations pour chaque label.

1.3.2.4 État de l’art

De nombreuses métaheuristiques ont été développées pour la sélection d’attributs en classification. YANG et HONAVAR [1998] utilisent notamment un algorithme géné- tique pour une conception automatique d’un réseau de neurones pour la classification de patterns. EMMANOUILIDISet collab. [2000] tentent une approche multi-objectif du problème de sélection d’attributs avec un algorithme génétique qui utilise un opérateur de croisement spécifique pour préserver les parties des solutions prometteuses pour conserver une bonne performance. OLIVEIRA et collab.[2006] utilisent aussi un algorithme génétique multi-objectif, mais à deux niveaux, le premier consiste à choisir un classifieur parmi un ensemble donné pour trouver le meilleur classifieur, puis dans la seconde étape d’évaluer la sélection d’attributs selon deux approches : une approche supervisée et une approche non supervisée.HAMDANIet collab.[2007] tentent une approche en utilisant l’algorithme NSGA-II pour résoudre le problème de sélection d’attributs.

DUVALet collab.[2009] se servent d’un algorithme mémétique pour une approche embarquée en utilisant SVM comme classifieur et en combinant un opérateur de croisement spécifique et une recherche locale dédiée à l’algorithme qui utilise les informations fournies par SVM pour améliorer les résultats. La sélection d’attributs non supervi- sée, bien que rapide, a comme inconvénient de négliger la détection de corrélation entre les attributs. Pour résoudre ce problème,CAIet collab.[2010] utilisent des techniques de Clustering pour réaliser une sélection d’attributs non supervisés performante.GHEYAS

et SMITH[2010] proposent un algorithme hybride permettant de combiner la forte ca- pacité au Recuit Simulé à éviter d’être piégé dans les minima locaux et la forte efficacité de convergence des opérateurs de croisement des algorithmes génétiques.

CERVANTEet collab.[2012] etXUEet collab.[2013] utilisent un algorithme à essaim de particules multi-objectif pour résoudre la sélection d’attributs. INBARANI et collab.

[2015] proposent d’utiliser une recherche harmonique (Harmony search) qui permet une convergence plus rapide que les algorithmes à descente de gradient. Récemment,

AZIZet HASSANIEN[2016] ont proposé un algorithme inspiré de la nature, Cuckoo Search qui permet de traiter des données avec une grande dimensionnalité pour la sélection d’attributs.

Le Tableau1.4représente quelques méta-heuristiques pour la résolution de la sélec- tion d’attributs de la littérature classées par ordre chronologique. La première colonne donne le type d’algorithme, la seconde le type d’approche et la dernière la référence.

Dans le document Extraire et exploiter la connaissance pour mieux optimiser (Page 39-42)