Le problème de sélection de variables est crucial dans le domaine de l'apprentissage
statis-tique et plus particulièrement dans le cadre de la classication supervisée. La complexité
de nombreuses techniques de classication dépend fortement du nombre des variables
décrivant les instances de données. La sélection de variables joue un rôle important en
classication lorsqu'un grand nombrepde variables sont disponibles. Certaines variables
pouvent être peu signicatives, redondantes ou non pertinentes au regard de l'application
considérée. Les méthodes de sélection de variables consistent à retenir un sous-ensemble
optimal de m variables parmi les p >> mvariables disponibles qui améliore les
perfor-mances de l'algorithme de classication .
Généralement, une méthode de sélection de variables repose principalement sur les trois
composantes suivantes :
Un algorithme de recherche permettant d'explorer l'espace des combinaisons de
va-riables.
Un critère d'évaluation pour mesurer la pertinence des sous-ensembles potentiels de
variables.
Une condition d'arrêt pour arrêter la procédure de recherche.
Dans la sélection de variables, nous nous intéressons à la réduction de la dimension de
l'espace des variables explicatives, sans pour autant transformer ses composantes comme
dans les méthodes d'analyse factorielle (compression de variables).
D'un point de vue industriel, la sélection des variables (les paramètres électriques
per-tinents) devrait permettre d'eectuer un diagnostic des wafers anormaux. Ce diagnostic
a pour but d'apporter plus de connaissances sur la raison de l'anomalie en dénissant
des signatures de ces wafers basées sur les paramètres électriques les plus pertinents. La
détermination de la source ou raison d'anomalie (localisation de défauts) nous permet
de remonter à la cause (root cause) et ensuite remettre le processus dans un état de
fonctionnement normal après avoir eectué un correctif adapté.
D'un point de vue statistique, la sélection d'un sous-ensemble de variables pertinentes
permettrait d'améliorer la performance de détection des méthodes de classication,
d'ac-célérer le temps de calcul de ces méthodes et enn de comprendre le processus sous-jacent
ayant généré ces données [37]. Nous améliorons ainsi notre connaissance du phénomène
de causalité entre les descripteurs (les paramètres électriques) et la variable à prédire
(l'état de fonctionnement des wafers), ce qui est fondamental si nous voulons interpréter
les résultats pour en assurer la reproductibilité.
Dans la littérature du Machine Learning, trois catégories de méthodes existantes pour la
sélection de variables sont considérées et présentées dans les revues bibliographiques de
[10,37,49] :
1. les méthodes de ltrage,
2. les méthodes de type wrapper,
3. les méthodes de type embedded.
Chaque méthode de sélection de variables est répartie dans une de ces trois catégories
selon le type du critère de sélection et la façon dont il est pris en compte dans la procédure
de classication.
Les méthodes de ltrage
Les méthodes de ltrage utilisent les propriétés statistiques des variables an de ltrer les
variables non informatives. Ces méthodes sélectionnent des sous-ensemble de variables
comme une étape de pré-traitement, indépendamment du prédicteur choisi. Dans ce
type de méthodes, les critères d'évaluation sont fondés uniquement sur les données et
sont donc totalement indépendants du discriminateur utilisé. Les variables alors sont
ltrées avant le processus d'apprentissage et de classication. Diérentes fonctions sont
utilisées pour dénir les critères d'évaluation. Certaines sont basées sur des mesures
de distance probabilistes (ex : distance de Mahalanobis), d'autres sont fondées sur les
mesures d'information (ex : entropie) ou de dépendance (ex : coecient de corrélation
de Pearson, information mutuelle, score de Fisher).
Le principal avantage des méthodes de ltrage est leur ecacité calculatoire et leur
ro-bustesse face au surapprentissage (ou surajustement). Malheureusement, ces méthodes
ne tiennent pas compte des interactions qui peuvent exister entre les variables et tendent
à sélectionner des variables comportant de l'information redondante plutôt que
complé-mentaire [37]. De plus, elles ne tiennent pas compte de la performance des méthodes de
classication appliquées dans une deuxième étape.
Les méthodes de type wrapper
Les méthodes de type wrapper consistent en l'évaluation de la performance de
sous-ensembles de variables de manière successive, prenant ainsi en compte les interactions
entre variables. Ainsi, l'algorithme de sélection entoure (wrapp) la méthode de
clas-sication qui évalue la performance. En fait, la machine d'apprentissage est considérée
comme une boîte noire et la méthode de sélection se prête à l'utilisation de cette machine.
Plus précisement, Ces méthodes consistent à utiliser les résultats de prédiction de la
mé-thode d'apprentissage an d'évaluer l'utilité relative des sous-ensembles de variables. Par
exemple, la méthode SVM-RFE (Recursive Feature Elimination with SVM) [38] est une
méthode wrapper basée sur un score calculé à partir de l'algorithme SVM.
La recherche d'un tel sous-ensemble de variables optimal requiert certaines dénitions au
préalable [37] : comment rechercher dans l'espace des variables tous les sous-ensembles
possibles, comment évaluer la performance de prédiction d'une méthode d'apprentissage
pour guider la recherche, quand arrêter l'algorithme. Bien entendu, une recherche
ex-haustive est un problème NP-dicile et incalculable lorsquepest grand ; il nécessite des
approximations des calculs d'optimisation. Le risque de surapprentissage est grand si le
nombre d'observationsnest insusant et le nombre de variables à sélectionner doit être
choisi par l'utilisateur. Enn, le plus grand désavantage de ces méthodes est le temps de
calcul qui devient vite important dès quep est grand.
John et al. [46] prétendent que la stratégie wrapper est supérieure à la stratégie ltre
en terme de performance de classication, puisqu'elle utilise les performances prédictives
de l'algorithme de classication comme critère d'évaluation de la pertinence du
sous-ensemble de variables.
Les méthodes de type embedded
Les méthodes de type embedded incorporent la sélection de variables lors du processus
d'apprentissage, sans étape de validation, pour maximiser la qualité de l'ajustement et
minimiser le nombre de variables. Fan and Li [31,32] ont démontré qu'on pourrait
ga-rantir une meilleur performance de l'algorithme d'apprentissage en faisant la sélection
des variables et l'estimation du modèle simultanément. Ces méthodes consistent
géné-ralement à pénaliser la fonction objective du problème d'optimisation de l'algorithme
d'apprentissage. On cite par exemple les méthodes de minimisation avec une pénalité
de type L
1qui ont attiré beaucoup d'attention. Tibshirani [89] a proposé le lasso (least
absolute shrinkage and selection operator), une méthode de moindres carrés pénalisée
par la norme L
1, pour la sélection des variables dans les modèles linéaires et les
mo-dèles linéaires généralisés. Les SVM pénalisés par la norme L
1(1-norm SVM) ont été
considérés pour accomplir la tache de sélection des variables dans SVM [13,103] .
En utilisant la méthode d'apprentissage comme une boîte noire, les méthodes de type
wrapper sont remarquablement universelles et simples. Mais les méthodes de type
embed-ded peuvent être plus ecaces à plusieurs égards. Tout d'abord ils feraient un meilleur
usage des données disponibles en n'ayant pas besoin de partager les données
d'appren-tissage en un échantillon d'apprend'appren-tissage et un échantillon de validation. Ensuite ces
méthodes seraient bien plus avantageuses en terme de temps de calcul que les méthodes
de type wrapper car elles évitent le réapprentissage du prédicteur pour tout sous-ensemble
de variables sélectionné. Finalement, elles seraient robustes face au problème de
surajus-tement.
Dans le document
Détection multidimensionnelle au test paramétrique avec recherche automatique des causes
(Page 84-87)