l’apprentissage automatique
A. Un nouvel algorithme de s´ election : Fisher-based Selection of Feature Clusters (FSFC)
Eu ´egard aux bonnes performances de l’approche Fisher, nous nous sommes attach´es `a l’am´ e-liorer de mani`ere `a prendre en compte la contrainte de non-redondance des attributs s´electionn´es.
L’id´ee du nouvel algorithme s’inspire du fonctionnement des algorithmes d´ecrits dans [Campedel et Moulines, 2005] et [Mitra et al., 2002].
Dans sa version la plus simple, FSFC se d´eroule en deux temps :
– dans un premier temps, nous effectuons un “clustering” des diff´erents attributs (toutes classes confondues) afin de composer une organisation de ces attributs dans laquelle ceux qui pr´esentent des distributions de valeurs similaires se retrouvent dans les mˆemes clusters ; – ensuite, nous effectuons dans chaque cluster une s´election dedc attributs `a l’aide de l’ASA
Fisher.
Du fait que le sous-ensemble d’attributs r´esultant se compose d’´el´ements issus de diff´erents clusters, on peut s’attendre `a ce que la contrainte de non-redondance soit mieux respect´ee, puisque les attributs regroup´es dans les mˆemes clusters sont potentiellement redondants.
En l’absence d’attributs “bruit´es” et pour une r´epartition uniforme de la redondance par groupes de variables, on peut se contenter de repr´esenter les attributs pardclusters pour ensuite s´electionner (au moyen de l’algorithme Fisher) dc = 1 attribut dans chaque cluster, obtenant ainsi les dattributs recherch´es. Cependant, dans nombre de situations, en l’occurrence dans le contexte de descripteurs audio, il est n´ecessaire de prendre en compte les deux faits suivants :
– un certain nombre d’attributs ne sont pas toujours pertinents et peuvent ˆetre consid´er´es comme bruit´es, par suite si dc attributs sont syst´ematiquement s´electionn´es dans chaque cluster, il suffit qu’il y ait des clusters de bruit pour que des attributs bruit´es soient pr´elev´es ;
– il peut y avoir, parmi les attributs pertinents, des clusters d’attributs redondants de tailles tr`es diff´erentes : typiquement on peut retrouver quelques clusters comprenant une dizaine d’attributs et d’autres en regroupant plus d’une cinquantaine. Il en r´esulte que pour ne pas n´egliger la contrainte de s´eparabilit´e, nous avons int´erˆet `a pr´elever un plus grand nombre d’attributs `a partir des clusters de plus grande taille.
Par cons´equent, une version plus ´elabor´ee de l’algorithme qui essaie de prendre en compte ces
VI-7. Variations sur les Algorithmes de S´election des Attributs 105
deux points est propos´ee :
– d’abord, nous effectuons le clustering en nous fixant un nombre de clustersMc sup´erieur au nombredd’attributs attendus en sortie ;
– ensuite, nous s´electionnons, dans chaque cluster Ci (par Fisher), un nombredci d’attributs d´ependant de la taille du cluster, pour obtenir Dc =Mc
i=1dci attributs s´electionn´es (d <
Dc < D) ;
– enfin nous gardons d attributs parmi les Dc ainsi s´electionn´es en employant encore l’ap-proche Fisher.
En fait, le choix du nombre de clusters Mc permet de contrˆoler les valeurs de S et H du sous-ensemble d’attributs s´electionn´e. Une valeur Mc ´elev´ee (`a la limite Mc = D) permet de pr´eserver une valeur de S ´elev´ee (obtenue par Fisher simple), par contre un faible nombre de clusters fait augmenter l’entropie de repr´esentation H puisqu’on diminue la redondance, mais au d´etriment de la s´eparabilit´e (surtout pour un mauvais choix des dci).
En pratique, nous choisissons le nombre de clusters de mani`ere `a obtenir le meilleur compromis S etH. Le choixMc = 32ds’est av´er´e fournir des r´esultats satisfaisants, dans des tests pr´ elimi-naires r´ealis´es sur le corpus de d´eveloppement. Pour ce qui est du choix de dci, nous choisissons dci =
card(Ci) d
attributs par cluster.
Pour le clustering, nous exploitons l’algorithme agglom´eratif d´ecrit dans la section V-3. Deux crit`eres de proximit´e ont ´et´e envisag´es : la distance de Bhattacharryya et la divergence (cf.
section V-3-B), en faisant ici l’hypoth`ese de “gaussianit´e” des densit´es de probabilit´e r´egissant les distributions des attributs. Cette hypoth`ese de “gaussianit´e” permet de simplifier les calculs (autrement assez complexes, eu ´egard au nombre ´elev´e d’attributs de d´epart : 162 dans ces exp´eriences, et 543 au total). De plus, en vertu du th´eor`eme de la limite centrale [Dudaet al., 2001], elle est peu p´enalisante ´etant donn´e le nombre ´elev´e d’observations pour chaque attri-but (provenant de toutes les classes d’instruments). D’ailleurs nous exploitons directement la moyenne et la covariance empiriques des attributs dans le calcul des distances.
Nous avons ainsi effectu´e le clustering des 162 attributs consid´er´es en visant 60 clusters et en utilisant la distance de Bhattacharryya et la divergence. Un coefficient de corr´elation coph´en´etique plus ´elev´e a ´et´e trouv´e avec la distance de Bhattacharryya (0.81), donc un meilleur clustering. Ensuite, un attribut a ´et´e s´electionn´e par cluster en utilisant l’ASA Fisher. Enfin, 40 attributs parmi les 60 ainsi trouv´es ont ´et´e retenus (par Fisher ´egalement).
106 VI. S´election automatique des attributs
Algorithme 5 FSFC
Entr´ees: X←[xT1, . . .xTo, . . .xTl ]T //Exemples d’apprentissage d,Mc //Nombre d’attributs `a s´electionner et nombre de clusters //Initialisation
S ← {} //Sous-ensemble des attributs s´electionn´es
Ci //Clusters obtenus par clustering des attributs en Mc clusters i← 1
S={ }
tant que i < Mc faire Si← S´election dedci =
card(Ci) d
attributs `a partir du cluster Ci par Fisher S ← S
Si
i←i+ 1 fin tant que
S ← S´election ded attributs `a partir de S par Fisher Sorties: S //S´election dedattributs.
M´ethode κ-NN (κ=489) GMM (M=8) SVM (lin) Moy S H
FSFC 64.0 63.6 69.1 65.6 0.044 2.7
Fisher 62.7 62.5 68.8 64.7 0.045 2.5
IRMFSP 63.1 59.4 69.2 63.9 0.045 2.9
MUTINF 61.2 60.3 65.2 62.2 0.040 2.5
SVM-RFE 60.3 57.3 67.4 61.7 0.040 2.8
Tab. VI.7 Performances des diff´erentes s´elections compar´ees `a celles de FSFC.
VI-7. Variations sur les Algorithmes de S´election des Attributs 107
Nous pr´esentons dans le tableau VI.7 les r´esultats pour la mˆeme tˆache de classification que pr´ec´edemment, obtenus avec la nouvelle approche FSFC en comparaison avec ceux obtenus en utilisant les autres ASA. Nous indiquons ´egalement les valeurs de s´eparabilit´e et d’entropie de repr´esentation.
L’approche propos´ee r´ealise les meilleures performances moyennes en terme de taux de recon-naissance. Avec le classificateur SVM, FSFC est au mˆeme niveau que IRMFSP (aux intervalles de confiances pr`es). FSFC est sup´erieur `a tous les autres ASA avec les deux autres classificateurs κ-NN et GMM (cela n’est pas refl´et´e par les valeurs deHetS correspondant `a FSFC et IRMFSP).
Par rapport `a l’approche Fisher, nous observons un meilleur compromis s´eparabilit´e et entropie de repr´esentation avec FSFC.