• Aucun résultat trouvé

Un nouvel algorithme de s´ election : Fisher-based Selection of Feature Clusters (FSFC)

Dans le document The DART-Europe E-theses Portal (Page 117-120)

l’apprentissage automatique

A. Un nouvel algorithme de s´ election : Fisher-based Selection of Feature Clusters (FSFC)

Eu ´egard aux bonnes performances de l’approche Fisher, nous nous sommes attach´es `a l’am´ e-liorer de mani`ere `a prendre en compte la contrainte de non-redondance des attributs s´electionn´es.

L’id´ee du nouvel algorithme s’inspire du fonctionnement des algorithmes d´ecrits dans [Campedel et Moulines, 2005] et [Mitra et al., 2002].

Dans sa version la plus simple, FSFC se d´eroule en deux temps :

– dans un premier temps, nous effectuons un “clustering” des diff´erents attributs (toutes classes confondues) afin de composer une organisation de ces attributs dans laquelle ceux qui pr´esentent des distributions de valeurs similaires se retrouvent dans les mˆemes clusters ; – ensuite, nous effectuons dans chaque cluster une s´election dedc attributs `a l’aide de l’ASA

Fisher.

Du fait que le sous-ensemble d’attributs r´esultant se compose d’´el´ements issus de diff´erents clusters, on peut s’attendre `a ce que la contrainte de non-redondance soit mieux respect´ee, puisque les attributs regroup´es dans les mˆemes clusters sont potentiellement redondants.

En l’absence d’attributs “bruit´es” et pour une r´epartition uniforme de la redondance par groupes de variables, on peut se contenter de repr´esenter les attributs pardclusters pour ensuite s´electionner (au moyen de l’algorithme Fisher) dc = 1 attribut dans chaque cluster, obtenant ainsi les dattributs recherch´es. Cependant, dans nombre de situations, en l’occurrence dans le contexte de descripteurs audio, il est n´ecessaire de prendre en compte les deux faits suivants :

– un certain nombre d’attributs ne sont pas toujours pertinents et peuvent ˆetre consid´er´es comme bruit´es, par suite si dc attributs sont syst´ematiquement s´electionn´es dans chaque cluster, il suffit qu’il y ait des clusters de bruit pour que des attributs bruit´es soient pr´elev´es ;

– il peut y avoir, parmi les attributs pertinents, des clusters d’attributs redondants de tailles tr`es diff´erentes : typiquement on peut retrouver quelques clusters comprenant une dizaine d’attributs et d’autres en regroupant plus d’une cinquantaine. Il en r´esulte que pour ne pas n´egliger la contrainte de s´eparabilit´e, nous avons int´erˆet `a pr´elever un plus grand nombre d’attributs `a partir des clusters de plus grande taille.

Par cons´equent, une version plus ´elabor´ee de l’algorithme qui essaie de prendre en compte ces

VI-7. Variations sur les Algorithmes de S´election des Attributs 105

deux points est propos´ee :

– d’abord, nous effectuons le clustering en nous fixant un nombre de clustersMc sup´erieur au nombredd’attributs attendus en sortie ;

– ensuite, nous s´electionnons, dans chaque cluster Ci (par Fisher), un nombredci d’attributs d´ependant de la taille du cluster, pour obtenir Dc =Mc

i=1dci attributs s´electionn´es (d <

Dc < D) ;

– enfin nous gardons d attributs parmi les Dc ainsi s´electionn´es en employant encore l’ap-proche Fisher.

En fait, le choix du nombre de clusters Mc permet de contrˆoler les valeurs de S et H du sous-ensemble d’attributs s´electionn´e. Une valeur Mc ´elev´ee (`a la limite Mc = D) permet de pr´eserver une valeur de S ´elev´ee (obtenue par Fisher simple), par contre un faible nombre de clusters fait augmenter l’entropie de repr´esentation H puisqu’on diminue la redondance, mais au d´etriment de la s´eparabilit´e (surtout pour un mauvais choix des dci).

En pratique, nous choisissons le nombre de clusters de mani`ere `a obtenir le meilleur compromis S etH. Le choixMc = 32ds’est av´er´e fournir des r´esultats satisfaisants, dans des tests pr´ elimi-naires r´ealis´es sur le corpus de d´eveloppement. Pour ce qui est du choix de dci, nous choisissons dci =

card(Ci) d

attributs par cluster.

Pour le clustering, nous exploitons l’algorithme agglom´eratif d´ecrit dans la section V-3. Deux crit`eres de proximit´e ont ´et´e envisag´es : la distance de Bhattacharryya et la divergence (cf.

section V-3-B), en faisant ici l’hypoth`ese de “gaussianit´e” des densit´es de probabilit´e r´egissant les distributions des attributs. Cette hypoth`ese de “gaussianit´e” permet de simplifier les calculs (autrement assez complexes, eu ´egard au nombre ´elev´e d’attributs de d´epart : 162 dans ces exp´eriences, et 543 au total). De plus, en vertu du th´eor`eme de la limite centrale [Dudaet al., 2001], elle est peu p´enalisante ´etant donn´e le nombre ´elev´e d’observations pour chaque attri-but (provenant de toutes les classes d’instruments). D’ailleurs nous exploitons directement la moyenne et la covariance empiriques des attributs dans le calcul des distances.

Nous avons ainsi effectu´e le clustering des 162 attributs consid´er´es en visant 60 clusters et en utilisant la distance de Bhattacharryya et la divergence. Un coefficient de corr´elation coph´en´etique plus ´elev´e a ´et´e trouv´e avec la distance de Bhattacharryya (0.81), donc un meilleur clustering. Ensuite, un attribut a ´et´e s´electionn´e par cluster en utilisant l’ASA Fisher. Enfin, 40 attributs parmi les 60 ainsi trouv´es ont ´et´e retenus (par Fisher ´egalement).

106 VI. S´election automatique des attributs

Algorithme 5 FSFC

Entr´ees: X[xT1, . . .xTo, . . .xTl ]T //Exemples d’apprentissage d,Mc //Nombre d’attributs `a s´electionner et nombre de clusters //Initialisation

S ← {} //Sous-ensemble des attributs s´electionn´es

Ci //Clusters obtenus par clustering des attributs en Mc clusters i← 1

S={ }

tant que i < Mc faire Si S´election dedci =

card(Ci) d

attributs `a partir du cluster Ci par Fisher S ← S

Si

i←i+ 1 fin tant que

S ← S´election ded attributs `a partir de S par Fisher Sorties: S //S´election dedattributs.

ethode κ-NN (κ=489) GMM (M=8) SVM (lin) Moy S H

FSFC 64.0 63.6 69.1 65.6 0.044 2.7

Fisher 62.7 62.5 68.8 64.7 0.045 2.5

IRMFSP 63.1 59.4 69.2 63.9 0.045 2.9

MUTINF 61.2 60.3 65.2 62.2 0.040 2.5

SVM-RFE 60.3 57.3 67.4 61.7 0.040 2.8

Tab. VI.7 Performances des diff´erentes s´elections compar´ees `a celles de FSFC.

VI-7. Variations sur les Algorithmes de S´election des Attributs 107

Nous pr´esentons dans le tableau VI.7 les r´esultats pour la mˆeme tˆache de classification que pr´ec´edemment, obtenus avec la nouvelle approche FSFC en comparaison avec ceux obtenus en utilisant les autres ASA. Nous indiquons ´egalement les valeurs de s´eparabilit´e et d’entropie de repr´esentation.

L’approche propos´ee r´ealise les meilleures performances moyennes en terme de taux de recon-naissance. Avec le classificateur SVM, FSFC est au mˆeme niveau que IRMFSP (aux intervalles de confiances pr`es). FSFC est sup´erieur `a tous les autres ASA avec les deux autres classificateurs κ-NN et GMM (cela n’est pas refl´et´e par les valeurs deHetS correspondant `a FSFC et IRMFSP).

Par rapport `a l’approche Fisher, nous observons un meilleur compromis s´eparabilit´e et entropie de repr´esentation avec FSFC.

Dans le document The DART-Europe E-theses Portal (Page 117-120)