Un nouvel algorithme de s´ election : Fisher-based Selection of Feature Clusters (FSFC)

l’apprentissage automatique

A. Un nouvel algorithme de s´ election : Fisher-based Selection of Feature Clusters (FSFC)

Eu égard aux bonnes performances de l’approche Fisher, nous nous sommes attachés à l’am´ e-liorer de manière à prendre en compte la contrainte de non-redondance des attributs sélectionnés.

L’id´ee du nouvel algorithme s’inspire du fonctionnement des algorithmes d´ecrits dans [Campedel et Moulines, 2005] et [Mitra et al., 2002].

Dans sa version la plus simple, FSFC se d´eroule en deux temps :

– dans un premier temps, nous effectuons un “clustering” des différents attributs (toutes classes confondues) afin de composer une organisation de ces attributs dans laquelle ceux qui présentent des distributions de valeurs similaires se retrouvent dans les mêmes clusters ; – ensuite, nous effectuons dans chaque cluster une sélection ded_c attributs à l’aide de l’ASA

Fisher.

Du fait que le sous-ensemble d’attributs résultant se compose d’éléments issus de différents clusters, on peut s’attendre à ce que la contrainte de non-redondance soit mieux respectée, puisque les attributs regroupés dans les mêmes clusters sont potentiellement redondants.

En l’absence d’attributs “bruités” et pour une répartition uniforme de la redondance par groupes de variables, on peut se contenter de représenter les attributs pardclusters pour ensuite sélectionner (au moyen de l’algorithme Fisher) d_c = 1 attribut dans chaque cluster, obtenant ainsi les dattributs recherchés. Cependant, dans nombre de situations, en l’occurrence dans le contexte de descripteurs audio, il est nécessaire de prendre en compte les deux faits suivants :

– un certain nombre d’attributs ne sont pas toujours pertinents et peuvent être considérés comme bruités, par suite si d_c attributs sont systématiquement sélectionnés dans chaque cluster, il suffit qu’il y ait des clusters de bruit pour que des attributs bruités soient prélevés ;

– il peut y avoir, parmi les attributs pertinents, des clusters d’attributs redondants de tailles très différentes : typiquement on peut retrouver quelques clusters comprenant une dizaine d’attributs et d’autres en regroupant plus d’une cinquantaine. Il en résulte que pour ne pas négliger la contrainte de séparabilité, nous avons intérêt à prélever un plus grand nombre d’attributs à partir des clusters de plus grande taille.

Par conséquent, une version plus élaborée de l’algorithme qui essaie de prendre en compte ces

VI-7. Variations sur les Algorithmes de S´election des Attributs 105

deux points est propos´ee :

– d’abord, nous effectuons le clustering en nous fixant un nombre de clustersM_c supérieur au nombredd’attributs attendus en sortie ;

– ensuite, nous s´electionnons, dans chaque cluster C_i (par Fisher), un nombred_c_i d’attributs d´ependant de la taille du cluster, pour obtenir D_c =_M_c

i=1d_c_i attributs s´electionn´es (d <

D_c < D) ;

– enfin nous gardons d attributs parmi les D_c ainsi sélectionnés en employant encore l’ap-proche Fisher.

En fait, le choix du nombre de clusters M_c permet de contrôler les valeurs de S et H du sous-ensemble d’attributs sélectionné. Une valeur M_c élevée (à la limite M_c = D) permet de préserver une valeur de S élevée (obtenue par Fisher simple), par contre un faible nombre de clusters fait augmenter l’entropie de représentation H puisqu’on diminue la redondance, mais au détriment de la séparabilité (surtout pour un mauvais choix des d_c_i).

En pratique, nous choisissons le nombre de clusters de manière à obtenir le meilleur compromis S etH. Le choixM_c = ³₂ds’est avéré fournir des résultats satisfaisants, dans des tests pr´ elimi-naires réalisés sur le corpus de développement. Pour ce qui est du choix de d_c_i, nous choisissons d_c_i =

card(Ci) d

attributs par cluster.

Pour le clustering, nous exploitons l’algorithme agglomératif décrit dans la section V-3. Deux critères de proximité ont été envisagés : la distance de Bhattacharryya et la divergence (cf.

section V-3-B), en faisant ici l’hypothèse de “gaussianité” des densités de probabilité régissant les distributions des attributs. Cette hypothèse de “gaussianité” permet de simplifier les calculs (autrement assez complexes, eu égard au nombre élevé d’attributs de départ : 162 dans ces expériences, et 543 au total). De plus, en vertu du théorème de la limite centrale [Dudaet al., 2001], elle est peu pénalisante étant donné le nombre élevé d’observations pour chaque attri-but (provenant de toutes les classes d’instruments). D’ailleurs nous exploitons directement la moyenne et la covariance empiriques des attributs dans le calcul des distances.

Nous avons ainsi effectué le clustering des 162 attributs considérés en visant 60 clusters et en utilisant la distance de Bhattacharryya et la divergence. Un coefficient de corrélation cophénétique plus élevé a été trouvé avec la distance de Bhattacharryya (0.81), donc un meilleur clustering. Ensuite, un attribut a été sélectionné par cluster en utilisant l’ASA Fisher. Enfin, 40 attributs parmi les 60 ainsi trouvés ont été retenus (par Fisher également).

106 VI. S´election automatique des attributs

Algorithme 5 FSFC

Entrées: X←[x^T₁, . . .x^T_o, . . .x^T_l ]^T //Exemples d’apprentissage d,M_c //Nombre d’attributs à sélectionner et nombre de clusters //Initialisation

S ← {} //Sous-ensemble des attributs s´electionn´es

C_i //Clusters obtenus par clustering des attributs en M_c clusters i← 1

S={ }

tant que i < M_c faire S_i← S´election ded_c_i =

card(Ci) d

attributs `a partir du cluster C_i par Fisher S ← S

i←i+ 1 ﬁn tant que

S ← Sélection ded attributs à partir de S par Fisher Sorties: S //Sélection dedattributs.

M´ethode κ-NN (κ=489) GMM (M=8) SVM (lin) Moy S H

FSFC 64.0 63.6 69.1 65.6 0.044 2.7

Fisher 62.7 62.5 68.8 64.7 0.045 2.5

IRMFSP 63.1 59.4 69.2 63.9 0.045 2.9

MUTINF 61.2 60.3 65.2 62.2 0.040 2.5

SVM-RFE 60.3 57.3 67.4 61.7 0.040 2.8

Tab. VI.7 Performances des différentes sélections comparées à celles de FSFC.

VI-7. Variations sur les Algorithmes de S´election des Attributs 107

Nous présentons dans le tableau VI.7 les résultats pour la même tâche de classification que précédemment, obtenus avec la nouvelle approche FSFC en comparaison avec ceux obtenus en utilisant les autres ASA. Nous indiquons également les valeurs de séparabilité et d’entropie de représentation.

L’approche proposée réalise les meilleures performances moyennes en terme de taux de recon-naissance. Avec le classificateur SVM, FSFC est au même niveau que IRMFSP (aux intervalles de confiances près). FSFC est supérieur à tous les autres ASA avec les deux autres classificateurs κ-NN et GMM (cela n’est pas reflété par les valeurs deHetS correspondant à FSFC et IRMFSP).

Par rapport à l’approche Fisher, nous observons un meilleur compromis séparabilité et entropie de représentation avec FSFC.

Dans le document The DART-Europe E-theses Portal (Page 117-120)