• Aucun résultat trouvé

ANR HYEP 2014-

2.2.1 Different families

Les m´ethodes de s´election d’attributs (et en particulier le crit`ere de s´election) sont souvent distingu´ees en 3 cat´egories : ”filtres”, ”wrapper ” and ”imbriqu´ees (embedded)”. Un r´ecapitulatif d’un certain nombre d’approches de la litt´erature tri´ees selon cette grille est pr´esent´e dans le tableau 1. Dans le cas des filtres, on peut ´egalement distinguer les cas supervis´es et non supervis´es, selon que la notion de classes est prise en compte ou non.

Filtres

Les m´ethodes de type filtre utilisent un crit`ere de s´election d’attribut ind´ependant de tout classifieur.

Ainsi, de nombreuses m´ethodes de s´election d’attributs vont calculer pour chaque attribut un score d’importance individuelle, classer les attributs en fonction de ce score puis n’en conserver que les n meilleurs. De tels scores, calcul´es pour chaque attribut, peuvent ˆetre supervis´es ou non. Par exemple, le score utilis´e par l’algorithme

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

mesurant la corr´elation des bandes avec la v´erit´e terrain (Hall and Holmes, 2003) sont des scores supervis´es. Ces mesures d’importance ne prennent toutefois pas en compte les d´ependances entre attributs s´electionn´es. Aussi un jeu d’attributs s´electionn´es comme ´etant les n meilleurs attributs d’apr`es ces mesures ne constituera pas forc´ement une solution optimale, ou du moins ne sera pas parcimonieuse.

Des m´ethodes non supervis´ees vont d´eriver de tels scores d’importance individuelle des attributs `a partir du r´esultat d’une d´ecomposition en ACP comme par exemple (Chang et al., 1999). Les bandes les plus corr´el´ees `

a l’ensemble des autres sont alors progressivement retir´ees. Du et al. (2003); Hasanlou and Samadzadegan (2010) emploient des approches similaires, mais en utilisant l’ACI au lieu de l’ACP. D’autres approches non supervis´ee exploitent ´egalement les r´esultats d’une ACP en s´electionnant les attributs les plus semblables aux premi`eres composantes principales (Kandasamy et al., 2009b,a).

Il est aussi possible de calculer des scores de pertinence, non plus pour chaque attribut ind´ependamment des autres, mais directement pour des jeux compos´es de plusieurs attributs. Ces mesures permettent donc de comparer des jeux d’attributs s´electionn´es entre eux, et pas uniquement des attributs individuels.

Ainsi, dans le cas non supervis´e, Chang and Wang (2006) proposent encore une autre approche consistant `

a minimiser une ´energie contrainte (constrained energy minimization) afin de s´electionner un sous-ensemble d’attributs les moins corr´el´es entre eux.

Dans le cas supervis´e, des mesures de s´eparabilit´e comme celle de Fisher (1936), celle de Bhattacharrya ou celle de Jeffries-Matusita (JM) permettent de mesurer la capacit´e d’une bande ou d’un ensemble de bandes `

a discriminer diff´erentes classes (Bruzzone and Serpico, 2000; Herold et al., 2003; De Backer et al., 2005; Serpico and Moser, 2007). D’autres mesures existent, comme par exemple Minimum Estimated Abundance Covariance (MEAC) propos´ee par (Yang et al., 2012) et li´ee `a la capacit´e du jeu de bandes s´electionn´ees `a bien d´em´elanger diff´erentes sources.

D’autres mesures statistiques issues de la th´eorie de l’information, comme la divergence, l’entropie ou l’information mutuelle, sont aussi utilis´ees pour s´electionner les meilleurs jeux de bandes, `a la fois pour des probl`emes non supervis´es comme dans (Mart´ınez-Us´o et al., 2007; Le Moan et al., 2011) ou dans des probl`emes supervis´es comme dans (Battiti, 1994; Guo et al., 2008; Est´evez et al., 2009; Sotoca and Filib- erto, 2010; Cang and Hongnian, 2012). Dans le cas non supervis´e, on va ainsi s’efforcer de s´electionner un jeu d’attributs les plus repr´esentatifs possible du jeu de donn´ee initial, tout en ´etant les moins redondants entre eux. Ainsi, Mart´ınez-Us´o et al. (2007) commencent par regrouper les bandes les plus ”corr´el´ees” puis s´electionne la bande la plus repr´esentative de chaque groupe. Pour r´epondre `a un probl`eme de visualisa- tion de la donn´ee hyperspectrale, Le Moan et al. (2011) souhaitent s´electionner 3 bandes appartenant aux domaines rouge, vert et bleu du spectre, sous la contrainte que les 3 bandes s´electionn´ees soient les moins ”corr´el´ees” possible entre elles. Dans des cas supervis´es, Battiti (1994); Guo et al. (2008); Est´evez et al. (2009); Sotoca and Filiberto (2010); Cang and Hongnian (2012) s´electionnent des attributs les plus corr´el´es `

a la v´erit´e terrain (i.e., aux diff´erentes classes) et les moins redondants entre eux. La difficult´e est alors de r´eussir `a pond´erer ces deux crit`eres.

Une autre mani`ere de mesurer la similarit´e entre bandes spectrales est l’OPD (Orthogonal Projection Diver- gence) utilis´ee par Du and Yang (2008) : la similarit´e entre bandes est mesur´ee par l’erreur entre une bande et sa mod´elisation par combinaison lin´eaire des bandes d´ej`a s´electionn´ees. Une m´ethode de s´election non supervis´ee peut donc consister `a s´electionner les bandes de mani`ere incr´ementale, de fa¸con `a ne conserver que les bandes les plus diff´erentes au sens de l’OPD.

Enfin, une derni`ere m´ethode propos´ee dans (Campedel et al., 2004) utilise l’algorithme de Support Vector Clustering (un algorithme de classification non supervis´ee) en l’appliquant aux attributs afin d’identifier ceux qui sont les plus caract´eristiques.

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

dans (Kandasamy et al., 2009b; Minghelli-Roman, 2010) avec une mesure de SAM ou mˆeme un d´etecteur de cibles dans (Minet et al., 2010; Minet, 2011).

Les score de type wrappers peuvent ˆetre utilis´es pour la s´election d’attributs en association avec diff´erentes m´ethodes d’optimisation. Ils conduisent g´en´eralement `a s´electionner des jeux d’attributs r´eduits mais per- mettant d’atteindre de tr`es bonnes performances de classification. N´eanmoins, ces solutions peuvent aussi parfois manquer de g´en´ericit´e et ˆetre trop d´ependantes du classifieur `a partir duquel est calcul´e le score wrapper utilis´e pour la s´election d’attributs. On pourra alors risquer d’obtenir de moins bons r´esultats si l’on utilise ensuite ce jeu d’attributs avec un autre classifieur.

Les temps de calculs sont g´en´eralement plus importants lorsque l’on utilise des scores de type wrapper : ceux- ci n´ecessitent en effet `a la fois de r´ealiser l’apprentissage d’un classifieur, de classifier un jeu d’´echantillons t´emoins suivant ce mod`ele et d’´evaluer la qualit´e de la classification obtenue.

Embedded

Les m´ethodes de s´election d’attributs de type ”imbriqu´e” ou ”embedded” sont ´egalement li´ees `a un classi- fieur, mais `a la diff´erence d’une m´ethode wrapper, le score mesurant la pertinence, la performance du jeu d’attributs s´electionn´es sera diff´erent d’une simple mesure de la qualit´e de la classification. En g´en´eral, avec ce type d’approche, la s´election d’attributs est effectu´ee directement lors de la phase d’apprentissage. On peut distinguer plusieurs types de m´ethodes de s´election d’attributs embedded (Tang et al., 2014).

Mod`eles de r´egularisation : Certaines approches se fondent sur des mod`eles de r´egularisation. Un classifieur est entraˆın´e de mani`ere `a optimiser une fonction objectif qui comprend un terme d’attache aux donn´ees (i.e., qui minimise le taux d’erreur de classification) et un terme de r´egularisation qui va p´enaliser davantage le mod`ele au fur et `a mesure que celui-ci utilise un nombre important d’attributs, ou qui va contraindre les coefficients attribu´es `a certains attributs dans le mod`ele `a rester les plus faibles. Les attributs avec les coef- ficients les plus proches de 0 sont alors ´elimin´es. Des exemples de ce type d’approches sont pr´esent´es dans (Ma and Huang, 2008; Tuia et al., 2014b,a). Des m´ethodes de s´election d’attributs comme le L1-SVM (Zhu et al., 2004) ou le LASSO (Least Absolute Shrinkage and Selection Operator ) (Tibshirani, 1996; Tuia et al., 2014a) font partie de ce type d’approches. Ces diff´erentes approches ont l’avantage d’ˆetre efficaces et rapi- des. En revanche, il est plus difficile de les modifier par exemple pour y int´egrer simplement des contraintes compl´ementaires. Crit`ere de s´election d’attributs et m´ethode d’optimisation y sont ´egalement compl`etement li´es.

M´ecanisme d’apprentissage menant spontan´ement une s´election d’attributs : D’autres classifieurs s´electionnent d’embl´ee les attributs lors de la phase d’apprentissage, de part la nature mˆeme de leur m´ethode d’apprentissage. Ainsi, les Forˆets Al´eatoires (Breiman, 2001) (et certains arbres de d´ecision) peuvent ˆetre consid´er´es comme des m´ethodes de s´election d’attributs. En effet, pour ces classifieurs, seuls les attributs les plus discriminants (par exemple au sens du crit`ere d’impuret´e de Gini (Breiman, 2001)) sont utilis´es lors du d´ecoupage d’un nœud. Cette s´election d’attributs `a la vol´ee ´elimine les attributs les moins utiles mais n’est pas pour autant n´ecessairement parcimonieuse : elle ne garantit pas de ne pas conserver des attributs redondants (en partic- ulier du fait de l’utilisation de sous-ensembles d’attributs choisis al´eatoirement dans le cas des RF).

Mesures d’importance des attributs : Outre cette s´election d’attributs utiles lors de l’apprentissage, les Forˆets Al´eatoires fournissent ´egalement une mesure d’importance des diff´erents attributs au sein de son mod`ele (Breiman, 2001). Cette importance est calcul´ee pour chaque attribut `a partir des ´echantillons Out-Of-Bag (OOB), c’est-`a-dire non pris en compte pour la construction d’un arbre de la forˆet. Ainsi, pour chaque arbre et pour un attribut donn´e, on va permuter al´eatoirement ses valeurs pour tous les ´echantillons OOB. On calcule alors la diff´erence entre le taux de bonne classification de ces ´echantillons OOB avant et apr`es cette permu- tation. L’importance d’un attribut est alors estim´ee en moyennant ces diff´erences sur l’ensemble des arbres de la forˆet (Breiman, 2001). Les probl`emes d´ej`a rencontr´es pour les mesures d’importance individuelle des attributs de type filtre sont ´egalement pr´esents, mais dans une moindre mesure. En effet, l’importance indi-

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

d’une bande aura tendance `a diminuer si celle-ci est tr`es corr´el´ee avec de nombreuses autres bandes (Genuer et al., 2010).

Le score utilis´e par les SVM-RFE peut aussi ˆetre consid´er´e comme une mesure d’importance individuelle des attributs (Guyon et al., 2002). Une autre approche embedded pour la s´election d’attributs associ´ee `a un classifieur SVM multi-noyau a ´et´e propos´ee par (Tuia et al., 2010): on associe alors un noyau diff´erent `

a chaque attribut, on estime le mod`ele du classifieur SVM multi-noyaux, puis on utilise les poids estim´es associ´es `a chacun de ces noyaux comme des mesures de l’importance des diff´erents attributs.

M´ethodes d’´elagage : Les importances individuelles des attributs peuvent ensuite ˆetre utilis´ees pour la s´election d’attributs par des m´ethodes d’´elagage. Ces m´ethodes utilisent dans un premier temps l’int´egralit´e des attributs disponi bles pour entraˆıner un classifieur, avant d’en ´eliminer progressivement tout en main- tenant `a peu pr`es `a l’identique la performance du mod`ele de classification obtenu. Par exemple, l’algorithme SVM-RFE (SVM - Recursive Feature Elimination) propos´e par (Guyon et al., 2002) est une m´ethode embed- ded de s´election d’attributs bien connue qui estime l’importance des diff´erents attributs s´electionn´es au sein d’un mod`ele SVM, c’est-`a-dire leur influence dans ce mod`ele. On part d’une situation o`u tous les attributs sont pris en compte dans le mod`ele, puis on ´elimine progressivement les attributs les moins importants au sens de ce crit`ere. Cette approche SVM-RFE lie donc compl`etement le score de pertinence des attributs et le processus d’optimisation.

Mesure de la qualit´e du mod`ele, de sa performance de g´en´eralisation : Contrairement aux exemples pr´ec´edents pour lesquels on calculait des importances associ´ees aux bandes individuelles, d’autres approches embedded mesurent directement la pertinence d’un jeu d’attributs. Ainsi, dans (Fr¨ohlich et al., 2003; Pal, 2009) la marge d’un classifieur SVM est utilis´ee `a la mani`ere d’une mesure de s´eparabilit´e comme crit`ere pour com- parer des jeux d’attributs. Dans le mˆeme ordre d’id´ee, le taux de bonne classification des ´echantillons OOB d’un classifieur Forˆet Al´eatoire peut aussi ˆetre consid´er´e comme un tel crit`ere (Breiman, 2001). Ces scores se calculent sur des jeux de bandes et mesurent la g´en´eralisation du mod`ele fourni par le classifieur. Ils peuvent donc constituer une alternative int´eressante aux mesures de s´eparabilit´e de type filtre et aux scores de type wrapper.

Enfin, on peut citer un cas d’approche embedded li´ee `a un algorithme de d´em´elange, et non pas `a un classifieur: Zare and Gader (2007) int`egrent directement la s´election des bandes les plus utiles au sein d’un algorithme de d´em´elange incluant la d´etection d’endmembers et la d´etermination de leur abondance. Pour ce faire, des mesures d’importance associ´ees aux diff´erentes bandes ainsi qu’un terme de parcimonie, i.e., p´enalisant la s´election d’un nombre trop important de bandes, sont introduits comme contrainte dans la fonction objectif de l’algorithme. Cette approche est tr`es sp´ecifique `a la donn´ee hyperspectrale et au d´em´elange, c’est-`a-dire `

a des cas de figures o`u l’on traite des ´echantillons qui ne sont pas purs.

Des approches hybrides

La limite entre ces trois familles de m´ethodes de s´election d’attributs reste parfois floue. Par ailleurs, des crit`eres appartenant `a diff´erentes familles peuvent ˆetre utilis´es conjointement. Par exemple, Est´evez et al. (2009) et Li et al. (2011) s´electionnent des attributs `a l’aide d’une approche wrapper (taux de bonne classifi- cation) respectivement guid´ee ou associ´ee `a des crit`eres de type filtre (information mutuelle entre les bandes s´electionn´ees et avec les diff´erentes classes).