• Aucun résultat trouvé

2 Dimension reduction

2.2 Spectral band and feature selection

2.2.2 Diff´ erentes m´ ethodes d’optimisation

a chaque attribut, on estime le mod`ele du classifieur SVM multi-noyaux, puis on utilise les poids estim´es associ´es `a chacun de ces noyaux comme des mesures de l’importance des diff´erents attributs.

M´ethodes d’´elagage : Les importances individuelles des attributs peuvent ensuite ˆetre utilis´ees pour la s´election d’attributs par des m´ethodes d’´elagage. Ces m´ethodes utilisent dans un premier temps l’int´egralit´e des attributs disponi bles pour entraˆıner un classifieur, avant d’en ´eliminer progressivement tout en main-tenant `a peu pr`es `a l’identique la performance du mod`ele de classification obtenu. Par exemple, l’algorithme SVM-RFE (SVM - Recursive Feature Elimination) propos´e par (Guyon et al., 2002) est une m´ethode embed-ded de s´election d’attributs bien connue qui estime l’importance des diff´erents attributs s´electionn´es au sein d’un mod`ele SVM, c’est-`a-dire leur influence dans ce mod`ele. On part d’une situation o`u tous les attributs sont pris en compte dans le mod`ele, puis on ´elimine progressivement les attributs les moins importants au sens de ce crit`ere. Cette approche SVM-RFE lie donc compl`etement le score de pertinence des attributs et le processus d’optimisation.

Mesure de la qualit´e du mod`ele, de sa performance de g´en´eralisation : Contrairement aux exemples pr´ec´edents pour lesquels on calculait des importances associ´ees aux bandes individuelles, d’autres approchesembedded mesurent directement la pertinence d’un jeu d’attributs. Ainsi, dans (Fr¨ohlich et al., 2003; Pal, 2009) la marge d’un classifieur SVM est utilis´ee `a la mani`ere d’une mesure de s´eparabilit´e comme crit`ere pour com-parer des jeux d’attributs. Dans le mˆeme ordre d’id´ee, le taux de bonne classification des ´echantillons OOB d’un classifieur Forˆet Al´eatoire peut aussi ˆetre consid´er´e comme un tel crit`ere (Breiman, 2001). Ces scores se calculent sur des jeux de bandes et mesurent la g´en´eralisation du mod`ele fourni par le classifieur. Ils peuvent donc constituer une alternative int´eressante aux mesures de s´eparabilit´e de type filtre et aux scores de type wrapper.

Enfin, on peut citer un cas d’approcheembeddedli´ee `a un algorithme de d´em´elange, et non pas `a un classifieur:

Zare and Gader (2007) int`egrent directement la s´election des bandes les plus utiles au sein d’un algorithme de d´em´elange incluant la d´etection d’endmembers et la d´etermination de leur abondance. Pour ce faire, des mesures d’importance associ´ees aux diff´erentes bandes ainsi qu’un terme de parcimonie, i.e., p´enalisant la s´election d’un nombre trop important de bandes, sont introduits comme contrainte dans la fonction objectif de l’algorithme. Cette approche est tr`es sp´ecifique `a la donn´ee hyperspectrale et au d´em´elange, c’est-`a-dire

`

a des cas de figures o`u l’on traite des ´echantillons qui ne sont pas purs.

Des approches hybrides

La limite entre ces trois familles de m´ethodes de s´election d’attributs reste parfois floue. Par ailleurs, des crit`eres appartenant `a diff´erentes familles peuvent ˆetre utilis´es conjointement. Par exemple, Est´evez et al.

(2009) et Li et al. (2011) s´electionnent des attributs `a l’aide d’une approchewrapper (taux de bonne classifi-cation) respectivement guid´ee ou associ´ee `a des crit`eres de type filtre (information mutuelle entre les bandes s´electionn´ees et avec les diff´erentes classes).

2.2.2 Diff´erentes m´ethodes d’optimisation

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

Table 1: R´ecapitulatif de diff´erents crit`eres de s´election d’attributs issus de l’´etat de l’art.

Filtres

Non supervis´es :

Scores d’importances individuelles :

ACP ou ACI ou corr´elation inter-bandes (Chang et al., 1999; Du et al., 2003), (Hasanlou and Samadzadegan, 2010) (Chang and Wang, 2006)

Scores calcul´es pour un jeu d’attributs :

Information mutuelle (Mart´ınez-Us´o et al., 2007; Le Moan et al., 2011) Combinaison lin´eaire de bandes (Du and Yang, 2008)

Autre :

SVC (Support Vector Clustering) (Campedel et al., 2004) M´ethode fond´ee sur la corr´elation inter-bandes (Chang and Wang, 2006) Supervis´es :

Scores d’importances individuelles :

ReliefF (Kira and Rendell, 1992; Kononenko et al., 1997)

Autres mesures fond´ees sur la corr´elation

ou l’information mutuelle (Hall and Holmes, 2003)

Scores calcul´es pour un jeu d’attributs : Mesures de s´eparabilit´e :

Mesures de s´eparabilit´e : distance de Bhattacharyya ou

distance de Jeffries-Matusita (Bruzzone and Serpico, 2000; Herold et al., 2003) (De Backer et al., 2005),(Serpico and Moser, 2007), (Zhang et al., 2007)

Minimum Estimated Abundance Covariance (Yang et al., 2012) Corr´elation `a la v´erit´e terrain :

Information mutuelle (Battiti, 1994; Guo et al., 2008)

(Est´evez et al., 2009; Sotoca and Filiberto, 2010) (Cang and Hongnian, 2012)

Wrapper

Taux de bonne classification obtenu par :

Classifieur SVM (Est´evez et al., 2009; Li et al., 2011)

(Yang et al., 2007; Zhuo et al., 2008) Classifieur par maximum de vraisemblance (Zhang et al., 2007; Fauvel et al., 2014) Classifieur Random Forests (D´ıaz-Uriarte and De Andres, 2006)

D´etecteur de cibles (Minet et al., 2010)

Embedded

Mod`ele de r´egularisation :

L1-SVM (Zhu et al., 2004)

Lasso (Tibshirani, 1996; Tuia et al., 2014a)

Autres mod`eles de r´egularisation (Ma and Huang, 2008; Tuia et al., 2014b) S´election directe lors de l’apprentissage :

Classifieur Random Forests (Breiman, 2001)

Classifieur Arbre de d´ecision (Breiman et al., 1984) Mesure d’importance individuelle des attributs :

Importances d’attributs fournies par Random Forests (Breiman, 2001)

SVM multi-noyaux (Tuia et al., 2010)

M´ethodes d’´elagage:

SVM-RFE (Guyon et al., 2002)

Performance de g´en´eralisation :

Marge d’un SVM (Fr¨ohlich et al., 2003; Pal, 2009)

Erreur OOB d’un classifieur Random Forests (Fr¨ohlich et al., 2003; Pal, 2009)

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

Table 2: R´ecapitulatif avec avantages et inconv´enients des diff´erentes familles de crit`eres de s´election d’attributs issus de l’´etat de l’art.

Filtres

Non supervis´es :

Scores d’importances individuelles : Avantage : Rapide.

Inconv´enient : S´election par tri, mais sans prise en compte des redondances entre attributs s´electionn´es, avec pour cons´equence des solutions non parcimonieuses. Donc plutˆot pour guider la recherche.

Scores calcul´es pour un jeu d’attributsetcombinaison lin´eaire de bandes :

Avantage : S´election des attributs `a la fois les plus repr´esentatifs et les moins redondants entre eux.

Inconv´enient : Comment pond´erer ces deux termes ?

Inconv´enient : Pas n´ecessairement la meilleure solution (parcimonie/performance) pour un probl`eme de classification pr´ecis.

Supervis´es :

Scores d’importances individuelles : Avantage : Rapide.

Inconv´enient : S´election par tri, mais sans prise en compte des redondances entre attributs s´electionn´es, avec pour cons´equence des solutions non parcimonieuses.

Scores calcul´es pour un jeu d’attributs : Mesures de s´eparabilit´e :

Avantage : Rapide. Donne de g´en´eralement de bons r´esultats. Prise en compte des redondances entre attributs s´electionn´es.

Inconv´enient : Mod´elisation des classes par une loi statistique param´etrique sous-jacente (ex : gaussienne).

Corr´elation `a la v´erit´e terrain : Avantage : Plutˆot rapide.

Avantage : S´election des attributs `a la fois les plus corr´el´es `a la v´erit´e terrain et les moins redondants entre eux.

Inconv´enient : Comment pond´erer ces deux termes ?

Wrapper

Avantage : Donne de bons r´esultats, en particulier pour le classifieur utilis´e pour le score.

Avantage : Prise en compte `a la fois des redondances entre attributs s´electionn´es et de leur performance.

Inconv´enient : Temps de calcul plus ou moins long selon le classifieur utilis´e Inconv´enient : Risque d’ˆetre plus d´ependant du classifieur utilis´e

Embedded

Mod`ele de r´egularisation :

Avantage : Bons r´esultats. Rapide. Prise en compte des redondances entre attributs s´electionn´es.

Inconv´enient : Formulation plus verrouill´ee (plus difficile d’y introduire d’autres contraintes) Inconv´enient : M´ethode d’optimisation sp´ecifique, pas g´en´erique

S´election directe lors de l’apprentissage : Avantage : Rapide.

Inconv´enient : Pas parcimonieux.

Mesure d’importance individuelle des attributs / m´ethode d’´elagage :

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

de trouver une solution ”proche” de la solution optimale tout en ne visitant qu’un nombre raisonnable de configurations vont ˆetre utilis´ees. On peut g´en´eralement distinguer ces m´ethodes d’optimisation en m´ethodes s´equentielles ou incr´ementales et m´ethodes stochastiques.

Strat´egies s´equentielles ou incr´ementales

Ces m´ethodes vont consister `a progressivement rajouter ou retirer des attributs au jeu d’attributs s´electionn´es.

Plusieurs de ces m´ethodes sont pr´esent´ees dans (Pudil et al., 1994). Par exemple, la m´ethodeSequential For-ward Search(SFS) commence par s´electionner un attribut puis ajoute progressivement `a la s´election l’attribut non encore s´electionn´e permettant `a la nouvelle s´election d’optimiser le crit`ere de s´election. A l’inverse, la m´ethode Sequential Backward Search (SBS) commence par s´electionner l’ensemble des attributs puis sup-prime progressivement de la s´election le plus mauvais attribut au sens du crit`ere de s´election. Les algorithmes d’optimisation (l, p) sont un compromis entre ces m´ethodes, ajoutant alternativementlnouveaux attributs et en retirantpde la s´election. Des variantes de ces strat´egies comme les algorithmesSequential Forward Float-ing Search (SFFS) ou Sequential Backward Floating Search (SBFS) ont ´et´e propos´ees (Pudil et al., 1994):

ces approches dites ”flottantes” autorise la remise en question la s´election d’attributs obtenue au niveau pr´ec´edent, et donc dans une certaine mesure d’´eviter de figer d’embl´ee les attributs s´electionn´es. Serpico and Bruzzone (2001) proposent une autre variante de ces m´ethodes SFS et SBS avec l’algorithmeSteepest Ascent (SA).

Dans le cas de notre probl´ematique de conception d’un capteur, on souhaite finalement ˆetre parcimonieux en s´electionnant un nombre de bandes tr`es limit´e par rapport `a la donn´ee initiale. Il semble donc plus pertinent d’utiliser des approches ascendantes comme les algorithmes SFS, SA ou SFFS qui ajoutent progressivement des attributs `a la s´election, plutˆot que des approches descendantes (SBS ou SBFS) qui partent de l’int´egralit´e des attributs et les ´eliminent progressivement.

Par ailleurs, on utilisera plus volontiers une approche ”flottante” comme SFFS, qui remet en question les s´elections obtenues aux ´etapes pr´ec´edentes, et ´evitent donc de figer d’embl´ee `a chaque niveau les attributs d´ej`a s´electionn´es, alors que l’ajout de nouveaux attributs peut avoir pour cons´equence de trouver une con-figuration encore meilleure en changeant certains attributs s´electionn´es pr´ec´edemment.

Algorithmes stochastiques

Les algorithmes stochastiques font faire intervenir le hasard dans leur exploration de l’espace des solutions.

Ce caract`ere en partie al´eatoire d’initialisation et de recherche d’une solution peut donc permettre de proposer diff´erentes solutions de qualit´e ´equivalente `a partir d’un mˆeme jeu de donn´ees.

Plusieurs algorithmes d’optimisation stochastique ont ´et´e mis en œuvre pour la s´election d’attributs. On peut notamment citer :

• les algorithmes g´en´etiques (AG)(Li et al., 2011; Est´evez et al., 2009; Fr¨ohlich et al., 2003; Zhuo et al., 2008; Minet et al., 2010);

• l’algorithmeParticle Swarm Optimization (PSO) (Yang et al., 2007, 2012);

• l’algorithmeClonal Selection(Zhang et al., 2007);

• l’algorithme des colonies de fourmis (Zhou et al., 2009) ;

• le recuit simul´e (De Backer et al., 2005; Chang et al., 2011).

Parmi ces diff´erentes heuristiques, les algorithmes g´en´etiques et PSO sont parmi ceux qui sont les plus utilis´es.

L’algorithme PSO semble ˆetre l’un des plus rapides et ˆetre apte `a fournir de bons r´esultats. Les algorithmes g´en´etiques donnent g´en´eralement de bons r´esultats. Ils pr´esentent aussi l’avantage de pouvoir prendre en compte facilement des contraintes compl´ementaires pour guider la recherche d’une solution (Est´evez et al., 2009).

Prise en compte de la corr´elation entre bandes

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

d’attributs prennent en compte le fait que des groupes d’attributs sont fortement corr´el´es pour guider et acc´el´erer leur processus de s´election d’attributs.

Ainsi, la clusterisation ou le regroupement de bandes est donc parfois mis en œuvre conjointement avec une m´ethode de s´election de bandes individuelles. Par exemple, Li et al. (2011) regroupent d’abord les bandes adjacentes corr´el´ees au sens de leur information mutuelle conditionnelle. La s´election de bandes est ensuite effectu´ee, avec la contrainte qu’une seule bande soit s´electionn´ee par cluster. Su et al. (2011) effectuent une clusterisation des diff´erentes bandes en appliquant l’algorithme des k-moyennes `a la matrice de corr´elation des bandes. Ensuite, les clusters les moins homog`enes et les bandes trop diff´erentes de la bande repr´esentante du cluster auxquelles elles appartiennent sont progressivement ´elimin´ees.

Mart´ınez-Us´o et al. (2007); Jia et al. (2012) commencent par rassembler les attributs ”corr´el´es” puis s´electionne l’attribut le plus repr´esentatif (au sens de l’information mutuelle pour (Mart´ınez-Us´o et al., 2007)) de chaque cluster.