Sélection globale de variables - Développement et mise en place d'une méthode de classification

Les méthodes de sélection globale des variables cherchent à découvrir des variables pertinentes, au sens d'un certain critère, dans un jeu de données. Ces méthodes sont gé-néralement basées sur des critères de sélection dénis sur les variables ou sur des sous-espaces de variables [Mitra et al. 2002; I. Guyon 2003; Alelyani et al. 2013]. Cette famille d'approches nécessite généralement la dénition des étapes essentielles d'évaluation de la pertinence d'une variable, de la procédure de recherche des variables pertinentes ainsi que d'un critère d'arrêt. Cette procédure, couramment utilisée en apprentissage supervisé, est guidée par la connaissance d'une variable cible (les étiquettes des données par exemple). Au sens de la classication, on dira qu'une variable ou qu'un groupe de variables est per-tinent si sa suppression ne dégrade pas les performances de classication. On distingue en apprentissage non-supervisé trois types de méthodes de sélection globale des variables : les approches "Filtres", les approches "enveloppantes" ou "symbioses" et les approches "intégrées".

3.3.1 Approches "Filtres"

Ces méthodes sélectionnent les variables indépendamment de la classication. Elles se basent généralement sur des scores dénis pour chaque variable à partir d'un certain critère qui repose généralement sur les propriétés des données. Les variables ayant des scores élevés sont ensuite utilisées pour la classication. De nombreux critères de sélection des variables sont proposés pour cette catégorie d'approches. Zhao et Liu [2007]; He et al. [2005]

dénissent des scores sur les variables grâce à la laplacienne d'une matrice de similarité entre les individus. Ils proposent dans la méthode SPECtral feature selection (SPEC) d'estimer la pertinence des variables par décomposition spectral de la matrice de similarité S entre les individus dont les entrées sont dénies à l'aide d'une fonction noyau S(zi, z_i0) = exp(−^||zi−z_i0||2

2σ2 ). Les auteurs construisent ensuite un graphe G sur la matrice S dont la matrice laplacienne L et sa version normalisée ˜L1 servent ensuite de base aux calculs des poids des variables. Motivés par la théorie des graphes qui stipule que la structure d'un graphe est contenue dans son spectre, les auteurs dénissent des poids sur les variables zj

à l'aide de la fonction : φ(zj) = ^z^{j T}^Lz^˜ ^j

zj TDzj =PN −1

i=1 α²_iλ_i où λi est un vecteur propre de la matrice ˜L et αi le cosinus de l'angle formé par le vecteur propre associé à la valeur propre λi et la variable zj. Les quantités φ(zj) fournissent ainsi des scores sur les variables qui permettent de choisir les t variables pertinentes pour la classication.

Dash et Liu [2000] utilisent la notion d'entropie pour dénir des scores sur les variables. Les auteurs quantient la contribution des variables à l'entropie globale E de la matrice Z dénie par : E(z¹, . . . , z^p) = −^X z1 . . .^X zp P (z¹, . . . , z^p)log(P (z¹, . . . , z^p))

avec P (z1, . . . , z^p) désignant la probabilité jointe du point (z1, . . . , z^p). Ils calculent pour chaque variable j, le score Ej de l'ensemble V − {zj},

E_j(z¹, . . . , z^p) = −^X

. . .^X

P (z¹, . . . , z^j−1, z^j+1. . . , z^p)log(P (z¹, . . . , z^j−1, z^j+1. . . , z^p)) Les variables les moins pertinentes pour la classication qui sont celles ayant les scores Ej

les plus faibles sont alors supprimées.

L'inconvénient principal de ces méthodes reste le choix du seuil pour les scores. Ce problème est surmonté par les méthodes "Symbioses".

3.3.2 Approches "Symbioses"

Contrairement aux approches ltres qui ignorent totalement l'inuence des variables sélectionnées sur la performance de l'algorithme d'apprentissage, les approches "symbioses ou enveloppantes" utilisent l'algorithme d'apprentissage comme une fonction d'évaluation de la qualité des variables sélectionnées. Elles commencent par sélectionner un sous-espace des variables. Puis, elles évaluent les performances d'une méthode de classication sur

1. L = D − W ; ˜L = D−1

2LD⁻¹2, où D la matrice diagonale des degrés du graphe et W la matrice d'adjacence du graphe G

l'ensemble sélectionné. Ce processus est répété plusieurs fois jusqu'à l'obtention du sous-ensemble de variables donnant la meilleure partition au sens d'un certain critère. Les ap-proches symbioses classiques étant très coûteuses en temps, Dash et Liu [2000] proposent la version symbiose de leur approche ltre à travers un processus itératif en p itérations dé-nies par application d'une méthode de classication sur l'ensemble Z0

j(N × j). Z0

j contient les j premières variables ayant les scores les plus élevés dénis par le critère d'entropie. Puis, ils évaluent les performances de la classication à l'aide du critère d'inertie. Le pro-cessus s'arrête à l'étape t lorsque ∀j tel que 1 < t < j ≤ p les performances de classication sur la matrice Z0

j restent stables.

Pour surmonter l'indépendance des variables sélectionnées par rapport à la classication dans les approches ltres et diminuer le temps de calcul des approches symbioses les ap-proches dites intégrées ont été développées.

3.3.3 Approches "Intégrées"

Ces méthodes exécutent la sélection de variables pendant le processus de l'apprentis-sage. Le sous-ensemble de variables ainsi sélectionnées sera choisi de façon à optimiser le critère d'apprentissage utilisé. Ainsi, Huang et al. [2005] proposent une extension de la méthode des K-moyennes dans laquelle, les poids dénis sur chaque variable en tenant compte de sa dispersion dans la classe servent à sélectionner les variables pertinentes pour la classication.

Dans une approche plus directe, Witten et Tibshirani [2010] intègrent dans l'algorithme des K-moyennes un processus de sélection des variables. Les auteurs dénissent une nouvelle fonction objectif (relation 3.3) des K-moyennes dont la maximisation est équivalente à la minimisation du critère d'inertie 2.6 présentée dans la section 2.3.2 :

J = p X j=1   1 N N X i=1 N X i0=1 d(z_i^j, z^j_i0) − K X k=1 1 n_k X i,i0∈c_k d(z_i^j, z^j_i0)   (3.3)

où nk est le nombre d'observations dans la classe k. Un vecteur poids β = (β1, . . . , βp) inclus dans la relation 3.3 dénit des scores sur les variables. Le problème consiste donc à optimiser la relation suivante :

max c1,...,cK,β p X j=1 βj   1 N N X i=1 N X i0=1 d(z_i^j, z_i^j0) − K X k=1 1 n_k X i,i0∈c_k d(z_i^j, z_i^j0)   (3.4)

où β est assujetti aux contraintes ||β||2 ≤ 1, ||β||1 ≤ s et βj ≥ 0 ∀j. Le choix idéal du paramètre s conduit à un vecteur binaire pour β et les variables non-inuentes ne sont pas prises en compte dans l'algorithme.

Remarquons que si les paramètres βj sont tous identiques la relation 3.4 est identique au critère des K-moyennes classique. La solution du problème convexe 3.4 relativement aux poids βi est donnée par :

β = ^δ(J⁺^{, ∆)}

||δ(J₊, ∆)|| (3.5)

où x+ est la partie positive de x et ∆ = 0 si ||β|| < s et ∆ > 0 sinon, donc ||β||1 = s. δ est un opérateur de seuil déni par δ(x, c) = sign(x)(|x−c|)+. Algorithmiquement, l'approche de sélection des variables pour du "sparse clustering" inclut une étape supplémentaire de calcul des paramètres β dans l'algorithme des K-moyennes. Basée sur le même principe de dénition des poids β, Witten et Tibshirani [2010] ont aussi proposé la méthode "sparse hierachical clustering" qui permet de faire de la sélection de variables en classication hié-rarchique ascendante.

Dans le document Développement et mise en place d'une méthode de classification multi-blocs : application aux données de l'OQAI. (Page 77-80)