Comparaison des performances des s´ elections

l’apprentissage automatique

B. Comparaison des performances des s´ elections

Nous nous intéressons maintenant aux performances comparées des ASA et de la trans-formation par PCA. Dans un premier temps nous évaluons ces performances en considérant les résultats de classification par κ-NN, GMM et SVM en moyenne, et en variant le nombre d’attributs sélectionnés d, ensuite nous les ´etudierons en rapport avec chaque classificateur.

1) Performances relatives des s´elections

Nous observons, à partir des résultats du tableau VI.3, que les meilleures performances moyennes sont obtenues avec les algorithmes Fisher et MUTINF. Un examen des critères heuristiques révèle que ces deux algorithmes réalisent les valeurs de S les plus élevées, mais que les valeurs

VI-6. Comparaison du comportement des Algorithmes de S´election d’Attributs 101

d’entropie de représentation sont les plus faibles. Ainsi, de meilleures performances moyennes sont obtenues en privilégiant des attributs permettant une bonne séparabilité des classes, même si ceux-ci sont redondants entre eux. Nous verrons dans la suite que ce comportement varie en fonction des classificateurs.

Le tableau VI.4 donne les temps CPU relatifs au déroulement des différents ASA. L’approche Fisher s’avère nettement avantageuse car elle réalise un excellent compromis performances-complexité. Soulignons que l’algorithme SVM-RFE présente une complexité largement sup´ e-rieure à celles des autres approches alors même qu’il n’exploite qu’un sous-échantillon des données d’apprentissage. De plus, sur les mêmes sous-échantillons, cette approche (la plus

élaborée) ne fournit pas ici de meilleurs résultats que les approches les plus simples.

ASA Temps CPU

Fisher 4.4s

IRMFSP 6mn 27s MUTINF 9mn 51s SVM-RFE 5j 7h 31mn 30s

Tab. VI.4 Complexité des ASA. Les algorithmes sont implémentés en Matlab (MUTINF et SVM-RFE sont disponibles dans la toolbox Spider [Spider, ] qui reprend une implémentation en C des SVM [LibSVM, ]). Les calculs ont été effectués sur des machines ayant 2.5GHz de CPU et 2Go de RAM.

“j” : jour, “h” : heure, “mn” : minute, “s” : seconde. Sous-´echantillon 8×5000 (RN) pour SVM-RFE, et

echantillon complet pour les autres ASA.

Enfin, il est intéressant de noter que, de fa¸con générale, de meilleurs résultats sont obtenus avec un ASA plutôt qu’avec une transformation par PCA. Comme nous l’avons signalé, la PCA exprime les attributs dans une base efficace pour la représentation des données et non pour la séparabilité des données de classes différentes.

2) Performances en relation avec la dimension cible

De nombreuses expériences préliminaires ont été menées pour déterminer un choix convenable de d. Nous avons observ´e que des améliorations significatives, en termes de taux de reconnais-sance, sont obtenues en augmentant la valeur de d à partir de 20. Au delà de 40, le gain en performances devient peu significatif par rapport à la complexité. Nous retenons donc les valeurs d= 20 etd= 40 comme valeurs extrêmales. Il est évident qu’un réglage plus fin peut s’avérer

102 VI. S´election automatique des attributs

utile pour r´ealiser un bon compromis performances/complexit´e.

Nous donnons dans le tableau VI.5 les performances obtenues pourd= 20 attributs s´ election-nés en comparaison avec celles correspondant aux sélections précédentes de d = 40 attributs (à partir de 162), toujours en moyenne sur les 3 classificateurs κ-NN, GMM et SVM avec les mêmes réglages.

Nous observons d’abord une dégradation générale des performances avec tous les ASA. Cela traduit le fait que le choixd=40 est un choix plus convenable pour notre schéma de classification.

Au-delà de ce fait, nous remarquons, pour l’approche MUTINF une dégradation beaucoup plus nette des résultats (8% de baisse pour MUTINF contre moins de 2% de baisse en moyenne pour Fisher, IRMFSP et SVM-RFE). MUTINF s’avère beaucoup moins efficace pour une sélection avec un plus petit rapport _D^d. Les 20 attributs classés en premier par MUTINF sont donc moins performants que ceux classés par les autres méthodes.

Au contraire, SVM-RFE exhibe la moins forte baisse de performances : en réduisant le nombre d’attributs sélectionnés de moitié, le taux de reconnaissance moyen chute de seulement 0.6%.

d=40 d=20

Tab. VI.5 Taux de reconnaissance moyens (κ-NN,GMM et SVM) relatifs aux différentes sélections pourd=20. Normalisation µσ; sous-échantillon 8×5000 (RN) pour SVM-RFE, et échantillon complet

pour les autres ASA.

3) Performances en relation avec les classiﬁcateurs

Le tableau VI.6 présente les résultats de classification obtenus pour chaque ASA (avecd=40), classificateur par classificateur.

D’abord, nous remarquons la supériorité du classificateur SVM indépendamment de l’ASA utilisé, ainsi que des performances optimales assez proches avec les κ-NN et les GMM (respec-tivement 63.5% et 63.2% en utilisant MUTINF).

Ensuite, nous notons clairement la mise en valeur des s´elections IRMFSP et SVM-RFE par

VI-6. Comparaison du comportement des Algorithmes de S´election d’Attributs 103 Classiﬁcateur κ-NN (κ=489) GMM (M=8) SVM (lin)

PCA ^∞^{, mn-mx} ^{QV, mn-mx} ^{QV, mn-mx}

Tab. VI.6 Performances des différentes sélections en relation avec les classificateurs en utilisant la normalisation et l’échantillon donnant les meilleures performances (indiqués dans la première ligne de

chaque cellule) etd=40. En gras : meilleur classiﬁcateur pour chaque ASA.

la classification SVM. En effet, les meilleurs résultats de classification sont obtenus avec l’ASA IRMFSP (69.2%) suivi par les ASA Fisher (68.8%) et SVM-RFE (67.4%) en association avec les SVM. En revanche, associées à la classification par GMM, les approches IRMFSP et SVM-RFE donnent les résultats les moins satisfaisants, alors qu’elles sont des plus performantes dans un schéma de classification par SVM. Nous mettons ici en évidence un lien entre la méthode de sélection et le classificateur utilisé.

En examinant les critères heuristiques (cf.dernières colonnes du tableau VI.7), on peut réaliser que IRMFSP et SVM-RFE présentent les valeurs d’entropie de représentation H parmi les plus

élevées (significatives, nous le rappelons, d’un sous-ensemble d’attributs moins redondant). L’ap-proche IRMFSP produit une sélection d’attributs présentant une même valeur de séparabilité S que l’approche Fisher (S=0.045) mais la première réalise une valeur deH plus grande (grâce

a la phase d’orthogonalisation intervenant dans l’algorithme). Il en est de même pour les ASA MUTINF et SVM-RFE : SVM-RFE réalise un meilleur compromis séparabilité-entropie. La classification par SVM semble la mieux à même d’exploiter un tel compromis, si bien que les approches IRMFSP et SVM-RFE se retrouvent dans le “trio de tête” (avec l’approche Fisher) dans un schéma de classification par SVM.

104 VI. S´election automatique des attributs

VI-7. Variations sur les Algorithmes de S´ election des Attributs

A. Un nouvel algorithme de s´election : Fisher-based Selection of Feature

Dans le document The DART-Europe E-theses Portal (Page 113-117)