• Aucun résultat trouvé

Le problème de sélection de variables est crucial dans le domaine de l'apprentissage

statis-tique et plus particulièrement dans le cadre de la classication supervisée. La complexité

de nombreuses techniques de classication dépend fortement du nombre des variables

décrivant les instances de données. La sélection de variables joue un rôle important en

classication lorsqu'un grand nombrepde variables sont disponibles. Certaines variables

pouvent être peu signicatives, redondantes ou non pertinentes au regard de l'application

considérée. Les méthodes de sélection de variables consistent à retenir un sous-ensemble

optimal de m variables parmi les p >> mvariables disponibles qui améliore les

perfor-mances de l'algorithme de classication .

Généralement, une méthode de sélection de variables repose principalement sur les trois

composantes suivantes :

Un algorithme de recherche permettant d'explorer l'espace des combinaisons de

va-riables.

Un critère d'évaluation pour mesurer la pertinence des sous-ensembles potentiels de

variables.

Une condition d'arrêt pour arrêter la procédure de recherche.

Dans la sélection de variables, nous nous intéressons à la réduction de la dimension de

l'espace des variables explicatives, sans pour autant transformer ses composantes comme

dans les méthodes d'analyse factorielle (compression de variables).

D'un point de vue industriel, la sélection des variables (les paramètres électriques

per-tinents) devrait permettre d'eectuer un diagnostic des wafers anormaux. Ce diagnostic

a pour but d'apporter plus de connaissances sur la raison de l'anomalie en dénissant

des signatures de ces wafers basées sur les paramètres électriques les plus pertinents. La

détermination de la source ou raison d'anomalie (localisation de défauts) nous permet

de remonter à la cause (root cause) et ensuite remettre le processus dans un état de

fonctionnement normal après avoir eectué un correctif adapté.

D'un point de vue statistique, la sélection d'un sous-ensemble de variables pertinentes

permettrait d'améliorer la performance de détection des méthodes de classication,

d'ac-célérer le temps de calcul de ces méthodes et enn de comprendre le processus sous-jacent

ayant généré ces données [37]. Nous améliorons ainsi notre connaissance du phénomène

de causalité entre les descripteurs (les paramètres électriques) et la variable à prédire

(l'état de fonctionnement des wafers), ce qui est fondamental si nous voulons interpréter

les résultats pour en assurer la reproductibilité.

Dans la littérature du Machine Learning, trois catégories de méthodes existantes pour la

sélection de variables sont considérées et présentées dans les revues bibliographiques de

[10,37,49] :

1. les méthodes de ltrage,

2. les méthodes de type wrapper,

3. les méthodes de type embedded.

Chaque méthode de sélection de variables est répartie dans une de ces trois catégories

selon le type du critère de sélection et la façon dont il est pris en compte dans la procédure

de classication.

Les méthodes de ltrage

Les méthodes de ltrage utilisent les propriétés statistiques des variables an de ltrer les

variables non informatives. Ces méthodes sélectionnent des sous-ensemble de variables

comme une étape de pré-traitement, indépendamment du prédicteur choisi. Dans ce

type de méthodes, les critères d'évaluation sont fondés uniquement sur les données et

sont donc totalement indépendants du discriminateur utilisé. Les variables alors sont

ltrées avant le processus d'apprentissage et de classication. Diérentes fonctions sont

utilisées pour dénir les critères d'évaluation. Certaines sont basées sur des mesures

de distance probabilistes (ex : distance de Mahalanobis), d'autres sont fondées sur les

mesures d'information (ex : entropie) ou de dépendance (ex : coecient de corrélation

de Pearson, information mutuelle, score de Fisher).

Le principal avantage des méthodes de ltrage est leur ecacité calculatoire et leur

ro-bustesse face au surapprentissage (ou surajustement). Malheureusement, ces méthodes

ne tiennent pas compte des interactions qui peuvent exister entre les variables et tendent

à sélectionner des variables comportant de l'information redondante plutôt que

complé-mentaire [37]. De plus, elles ne tiennent pas compte de la performance des méthodes de

classication appliquées dans une deuxième étape.

Les méthodes de type wrapper

Les méthodes de type wrapper consistent en l'évaluation de la performance de

sous-ensembles de variables de manière successive, prenant ainsi en compte les interactions

entre variables. Ainsi, l'algorithme de sélection entoure (wrapp) la méthode de

clas-sication qui évalue la performance. En fait, la machine d'apprentissage est considérée

comme une boîte noire et la méthode de sélection se prête à l'utilisation de cette machine.

Plus précisement, Ces méthodes consistent à utiliser les résultats de prédiction de la

mé-thode d'apprentissage an d'évaluer l'utilité relative des sous-ensembles de variables. Par

exemple, la méthode SVM-RFE (Recursive Feature Elimination with SVM) [38] est une

méthode wrapper basée sur un score calculé à partir de l'algorithme SVM.

La recherche d'un tel sous-ensemble de variables optimal requiert certaines dénitions au

préalable [37] : comment rechercher dans l'espace des variables tous les sous-ensembles

possibles, comment évaluer la performance de prédiction d'une méthode d'apprentissage

pour guider la recherche, quand arrêter l'algorithme. Bien entendu, une recherche

ex-haustive est un problème NP-dicile et incalculable lorsquepest grand ; il nécessite des

approximations des calculs d'optimisation. Le risque de surapprentissage est grand si le

nombre d'observationsnest insusant et le nombre de variables à sélectionner doit être

choisi par l'utilisateur. Enn, le plus grand désavantage de ces méthodes est le temps de

calcul qui devient vite important dès quep est grand.

John et al. [46] prétendent que la stratégie wrapper est supérieure à la stratégie ltre

en terme de performance de classication, puisqu'elle utilise les performances prédictives

de l'algorithme de classication comme critère d'évaluation de la pertinence du

sous-ensemble de variables.

Les méthodes de type embedded

Les méthodes de type embedded incorporent la sélection de variables lors du processus

d'apprentissage, sans étape de validation, pour maximiser la qualité de l'ajustement et

minimiser le nombre de variables. Fan and Li [31,32] ont démontré qu'on pourrait

ga-rantir une meilleur performance de l'algorithme d'apprentissage en faisant la sélection

des variables et l'estimation du modèle simultanément. Ces méthodes consistent

géné-ralement à pénaliser la fonction objective du problème d'optimisation de l'algorithme

d'apprentissage. On cite par exemple les méthodes de minimisation avec une pénalité

de type L

1

qui ont attiré beaucoup d'attention. Tibshirani [89] a proposé le lasso (least

absolute shrinkage and selection operator), une méthode de moindres carrés pénalisée

par la norme L

1

, pour la sélection des variables dans les modèles linéaires et les

mo-dèles linéaires généralisés. Les SVM pénalisés par la norme L

1

(1-norm SVM) ont été

considérés pour accomplir la tache de sélection des variables dans SVM [13,103] .

En utilisant la méthode d'apprentissage comme une boîte noire, les méthodes de type

wrapper sont remarquablement universelles et simples. Mais les méthodes de type

embed-ded peuvent être plus ecaces à plusieurs égards. Tout d'abord ils feraient un meilleur

usage des données disponibles en n'ayant pas besoin de partager les données

d'appren-tissage en un échantillon d'apprend'appren-tissage et un échantillon de validation. Ensuite ces

méthodes seraient bien plus avantageuses en terme de temps de calcul que les méthodes

de type wrapper car elles évitent le réapprentissage du prédicteur pour tout sous-ensemble

de variables sélectionné. Finalement, elles seraient robustes face au problème de

surajus-tement.