• Aucun résultat trouvé

ANR HYEP 2014-2017 Deliverable WP 2.1

1.2 Supervised classification

1.2.1 Main families

Diff´erents algorithmes de classification supervis´ee existent. Parmi ceux utilis´es de mani`ere g´en´erale en t´el´ed´etection, on peut citer de mani`ere non exhaustive les suivants :

Classification bay´esienne avec le classifieur par maximum de vraisemblance (Maximum Likelihood ou ML) ou sa variante par Maximum A Posteriori (MAP) (Trias-Sanz, 2006; Trias-Sanz and Boldo, 2005; Fauvel et al., 2014);

S´eparateurs `a Vaste Marge (SVM) ou Support Vector Machines (Boser et al., 1992; Cortes and Vapnik, 1995; Vapnik, 1998; Belousov et al., 2002; Melgani and Bruzzone, 2004; Camps-Valls and Bruzzone, 2005; Tuia et al., 2010; Li et al., 2011; Fauvel, 2012; Fauvel et al., 2012a; Roussel, 2012) ;

R´egression logistique(Borges et al., 2006; Pal, 2012);

Import Vector Machines (IVM)(Zhu and Hastie, 2005; Braun et al., 2012; Roscher et al., 2012a,b);

Arbres de D´ecisionsouDecision Tree(DT) (Breiman et al., 1984)

Forˆets Al´eatoires ou Random Forests(RF)(Breiman, 2001; Pal, 2005; Cheung-Wai Chan, 2008;

Genuer, 2010; Criminisi and Shotton, 2013)

R´eseaux de neurones artificiels(Le Cun et al., 1998; Riedmiller and Braun, 1993; Atkinson et al., 1997; Kavzoglu and Mather, 2003; Hu et al., 2015).

Les m´ethodes fondamentales sont discut´ees en d´etails dans un certain nombre d’ouvrages traitant de l’analyse de donn´ees (Bishop, 2006).

1.2.2 Classifiers dedicated to high-dimension data and in particular to hyperspectral data Le ph´enom`ene de fl´eau de la dimension ou ph´enom`ene de Hughes (Hughes, 1968) d´esigne le fait qu’au del`a d’un certain nombre d’attributs, le fait d’ajouter de nouveaux attributs pour d´ecrire les ´echantillons `a classer n’am´eliore pas la classification, mais risque au contraire de la d´egrader. Toutefois, si les classifieurs classiques comme par exemple les classifieurs bay´esiens sont sensibles `a ce ph´enom`ene, les approches plus modernes comme les SVM, les IVM ou les RF y sont peu sensibles (Melgani and Bruzzone, 2004; Camps-Valls and Bruzzone, 2005; Braun et al., 2012) et parviennent malgr´e tout `a produire de bons r´esultats, sauf dans des cas o`u tr`es (trop) peu de donn´ees d’apprentissage sont disponibles (Pal and Foody, 2010). Ces classifieurs sont

´

egalement capables dans une certaine mesure de g´erer des variabilit´es intra-classe importantes, autrement dit des classes d’aspect variable.

Ainsi, dans la litt´erature, les m´ethodes de type SVM avec noyau sont souvent adopt´ees (Camps-Valls and Bruzzone, 2009). D’autres m´ethodes utilis´ees plus g´en´eralement pour les donn´ees de grande dimension, dont la donn´ee hyperspectrale, sont par exemple les m´ethodes fond´ees sur des graphes (Camps-Valls et al., 2007) : chaque pixel est consid´er´e comme un nœud d’un graphe, tandis que les arˆetes portent des mesures de similarit´e entre nœuds. Le probl`eme de classification devient alors un probl`eme de coupe de graphe. Ces m´ethodes peu-vent s’adapter `a un apprentissage semi-supervis´e ainsi qu’`a l’introduction directe d’une r´egularisation spatiale.

D’autres approches plus originales et adapt´ees au traitement de donn´ees de grandes dimensions et de diff´erentes modalit´es (spectral, texture, etc.) ont ´et´e propos´ees. On citera par exemple, l’approche pro-pos´ee par (Li et al., 2014) qui consiste `a construire une repr´esentation par dictionnaire des ´echantillons d’apprentissage, puis utilise ce mod`ele pour classer de nouveaux ´echantillons : un ´echantillon se voit affecter la classe pour laquelle il est le mieux mod´elisable `a partir de ces dictionnaires. Une autre m´ethode origi-nale propos´ee par (Chiang et al., 2014) s’inspire des m´ethodes d’interpolation de type krigeage. Les valeurs d’appartenance aux diff´erentes classes valent 1 ou 0 pour les ´echantillons d’apprentissage. L’algorithme

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

1.2.3 Methods specific to hyperspectral data

Certains classifieurs sont plus sp´ecifiques `a la donn´ee hyperspectrale. Il s’agit notamment des classifieurs fond´es sur les mesures suivantes :

• Angle spectral ou Spectral Angle Mapper (SAM) (Price, 1994). Il consiste ˜A calculer l’angle entre deux spectres. Plus cet angle est faible, plus les deux spectres se ressemblent. Le spectre ˜A classer se voit donc affecter la classe du spectre dont il est le plus proche au sens du SAM. Ce classifieur offre l’avantage de faire preuve d’une bonne robustesse aux variations d’intensit´e, et est donc relativement ind´ependant des conditions d’illuminations de la sc`ene. L’angle spectral se calcule comme suit (avec 2 spectres~aet~b, i.e., 2 vecteurs de dimensionN,N d´esignant le nombre de bandes).

SAM(~a,~b) =cos−1

• Mesure ”Spectral Information Divergence” ou SID (Chang, 2000). Elle trouve son origine dans les mesures de dissimilarit´e entre distributions statistiques, et notamment la formule de Kullback-Leibler.

SID(~a,~b) =

• Mesure nomm´ee SID-SAM et combinant les deux mesures pr´ec´edentes du SAM et du SID (Du et al., 2004).

SID(~a,~b)·sin

SAM(~a,~b)

. (3)

Un exemple d’utilisation r´ecente de cette mesure est donn´e par Mende et al. (2011).

• Mesures de corr´elation entre certaines parties du spectre (Van der Meer and Bakker, 1998).

Dans le cas de l’analyse de donn´ees hyperspectrales, certaines m´ethodes tr`es sp´ecifiques fond´ees sur des connaissances expert existent ´egalement (comme le syst`eme Tetracorder (Clark et al., 2003) pour la car-act´erisation de certains min´eraux, ou (Heiden et al., 2007; Mohammadi, 2012) pour diff´erents mat´eriaux urbains). Elles se fondent sur des analyses des spectres d’un point de vue plus physique et prennent notam-ment en compte la pr´esence de comportements particuliers le long du spectre comme par exemple des bandes d’absorption sp´ecifiques `a certains compos´es, ainsi que la profondeur de ces bandes d’absorption.

Ainsi, Clark et al. (1992, 2003) identifient des min´eraux dans les images hyperspectrales par comparaison des spectres avec les spectres de l’image au voisinage de bandes sp´ecifiques identifi´ees pr´ealablement pour chaque min´eral par des experts. Sont alors compar´ees `a la fois la forme du spectre et la profondeur de cette bande d’absorption, par la m´ethode de ”Spectral Feature Fitting” (SFF) (Clark et al., 1992). L’approche d’Heiden et al. (2007) utilise quant `a elle dans un processus de classification supervis´ee (SVM) un certain nombre d’indices d´ecrivant diff´erentes caract´eristiques spectrales (position et profondeur des bandes d’absorption, ratio entre bandes, aire sous la courbe dans certains domaines spectraux), initialement identifi´ees par analyse

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

la courbe, (Heiden et al., 2007)). Ce type d’indice peut en effet s’av´erer plus discriminant que les bandes originales pour certains ph´enom`enes.

1.2.4 Classifier ensembles

Il est aussi possible de combiner plusieurs classifieurs de mani`ere `a construire un ensemble de classi-fieurs permettant d’obtenir de meilleurs r´esultats. Un ensemble de classifieurs se pr´esente en effet comme l’aggr´egation de plusieurs classifieurs (que l’on peut proposer moins complexe que si l’on se limite ˜A un seul classifieur), soit diff´erents, soit entraˆın´es `a partir d’´echantillons diff´erents (bagging), soit sur des attributs diff´erents. Le label finalement attribu´e `a un ´echantillon `a classer est souvent obtenu par vote majoritaire de ces diff´erents classifieurs. L’utilisation d’ensemble de classifieurs permet g´en´eralement d’am´eliorer les r´esultats et notamment le degr´e de g´en´eralisation du mod`ele.

Les Forˆets Al´eatoires, en tant qu’aggr´egation d’arbres de d´ecision, s’inscrivent au sein des m´ethodes d’ensemble de classifieurs.

Dans le cas de donn´ees hyperspectrales, plusieurs m´ethodes sp´ecifiques ont ´et´e propos´ees. Ainsi, Prasad and Bruce (2008); Ceamanos et al. (2010); Bigdeli et al. (2013); Bruce (2014) proposent de d´efinir par classifica-tion non supervis´ee un certain nombre de groupes de bandes corr´el´ees. Un classifieur SVM est alors associ´e

`

a chacun de ces groupes de bandes.

Les techniques de typerandom subspace (Ho, 1998) consistent `a construire un ensemble de classifieurs en du-pliquant un mˆeme classifieur, mais cette fois en l’entraˆınant `a partir de sous-ensemble de bandes s´electionn´ees al´eatoirement. L’introduction dans le processus de s´election al´eatoire de ces jeux de bandes d’un a priori sur leur pertinence am´eliore les r´esultats et l’efficacit´e de ce type d’approche (Yang et al., 2010).

1.2.5 Multi-kernel and multi-modal approaches

Ainsi qu’il a ´et´e dit, les classifieurs de type SVM sont tr`es utilis´es pour la classification de donn´ees hyper-spectrales (Melgani and Bruzzone, 2004; Camps-Valls and Bruzzone, 2005). Le classifieur SVM a ´et´e con¸cu

`

a l’origine pour des probl`emes de classification pour lesquels les classes sont lin´eairement s´eparables dans l’espace des attributs. La solution propos´ee pour pouvoir traiter des probl`emes non lin´eairement s´eparables

`

a l’aide des SVM consiste `a transformer au moyen d’une fonction non-lin´eaireφles donn´ees de mani`ere `a les reprojeter dans un espace de plus grande dimension, dans lequel le probl`eme devient lin´eairement s´eparable.

En pratique, cette projection ne se calcule pas de mani`ere explicite, mais s’effectue par le biais de l’utilisation d’une fonction noyau (suivant les conditions de Mercer). Une multitude de noyaux sont possibles. Le noyau gaussien ou RBF (radial basis function )K(a,b) = exp−γka−bk2 apparaˆıt comme l’un des plus utilis´es dans la litt´erature. Le param`etreγ permet de param´etrer l’´ecart-type de la gaussienne et la fid´elit´e `a l’ensemble d’apprentissage. Il s’agit de bien le choisir, car, tout comme la contrainte C de tol´erance de g´en´eralisation du classifieur, il a un impact sur la qualit´e de la classification. En pratique, ces deux param`etres sont g´en´eralement d´etermin´es conjointement par validation crois´ee (Hsu et al., 2003), ce qui peut prendre un peu de temps. On notera toutefois que d’autres m´ethodes plus rapides pour l’optimisation de ces param`etres existent (Fauvel, 2012; Li et al., 2012).

D’autres noyaux sont ´egalement utilis´es, comme les noyaux polynomiaux ou sigmo¨ıdes existent ´egalement (Hsu et al., 2003). On pourra aussi noter que des noyaux reprenant la fonction du SAM ont ´et´e propos´es sp´ecifiquement pour les donn´ees hyperspectrales (Mercier and Lennon, 2003; Fauvel et al., 2006b; Fauvel, 2007).

Par ailleurs, l’utilisation de noyaux composites, c’est-`a-dire de la somme de plusieurs noyaux ´el´ementaires est ´egalement possible. On parle de SVM multi-noyaux, comme par exemple pour int´egrer connaissances spatiales et spectrales.

Ainsi, l’approche propos´ee par (Ceamanos et al., 2010) commence par d´efinir par classification non supervis´ee un certain nombre de groupes de bandes corr´el´ees puis `a mettre en œuvre un SVM multi-noyaux au sein

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

alors d’utiliser un noyau par attribut : on parle alors de SVM `a noyaux multiples (Tuia et al., 2010; Gu et al., 2012).

Les approches multi-noyaux ont souvent ´et´e utilis´ees pour une meilleure fusion de donn´ees h´et´erog`enes comme par exemple des mesures spectrales brutes, des indices spectraux d´eriv´es, des informations de texture ou de formes (profils morphologiques) (Dell’Acqua et al., 2004; Borghys et al., 2005; Camps-Valls et al., 2006;

Fauvel, 2007; Fauvel et al., 2012a,b; Zhang et al., 2012), et mˆeme des informations issues d’autres capteurs, comme par exemple des donn´ees LiDAR aux images optiques multispectrales (Gu et al., 2015).

1.2.6 Probabilistic outputs - classifier confidence

La plupart des classifieurs ne se limitent pas `a produire un simple ´etiquettage, mais vont ´egalement fournir des mesures d’appartenance aux diff´erentes classes. Ainsi, pour chaque ´echantillon `a classer, on obtient une mesure d’appartenance `a chaque classe, la classe finalement attribu´ee `a l’´echantillon ´etant celle pour laquelle cette mesure d’appartenance est optimale.

De telles mesures sont notamment fournies par les classifieurs suivants :

• Forˆets Al´eatoires : ce classifieur construit un ensemble d’arbres de d´ecisions qui attribue chacun un label `a l’´echantillon `a classer. Le label finalement attribu´e est celui qui re¸coit le plus grand nombre de votes. A chaque classe possible est donc associ´e le nombre de votes qu’elle a re¸cue.

• S´eparateurs `a Vaste Marge : diff´erents mod`eles ont ´et´e propos´es afin de fournir des probabilit´es d’appartenances aux diff´erentes classes (Platt, 2000; Xu et al., 2014)

• Classification bay´esienne : la classification s’effectue en affectant `a chaque pixel sa classe la plus prob-ables. On dispose donc d’embl´ee des probabilit´es d’appartenance aux classes.

• Angle Spectral (SAM), SID et SID-SAM : pour ces diff´erentes m´ethodes, la classification s’effectue en affectant `a chaque descripteur la classe la plus proche au sens d’une certaine distance avec les descripteurs de r´ef´erence. On dispose donc d’embl´ee d’une mesure d’appartenance aux diff´erentes classes.

• Une m´ethode originale s’inspirant des m´ethodes d’interpolation de type krigeage a ´et´e propos´ee dans (Chiang et al., 2014). Les valeurs d’appartenance aux diff´erentes classes valent 1 ou 0 pour les

´echantillons d’apprentissage. L’algorithme interpole ensuite les valeurs d’appartenance aux classes pour tout nouvel ´echantillon `a partir de ces valeurs.

1.2.7 Semi-supervised classification and active learning

Un probl`eme fr´equemment rencontr´e en t´el´ed´etection concerne la disponibilit´e de faibles nombres d’´echantillons d’apprentissage. Plusieurs approches ont ´et´e propos´ees pour pallier `a cette difficult´e.

Apprentissage semi-supervis´e

L’apprentissage semi-supervis´e consiste `a calculer le mod`ele de classification `a la fois `a partir d’´echantillons la-bellis´es et non labellis´es. Il s’agit alors de renforcer les ´echantillons d’apprentissage par d’autres informations extraites automatiquement de l’image. On pourra par exemple citer la m´ethode propos´ee par (Camps-Valls et al., 2007) qui se fonde sur une mod´elisation `a l’aide de graphes. Chaque pixel est consid´er´e comme un nœud du graphe, tandis que les arˆetes portent des mesures de similarit´e entre nœuds, le probl`eme de classifi-cation devenant alors un probl`eme de coupe de graphe. Ces m´ethodes peuvent s’adapter `a un apprentissage

ANR HYEP Syst`emes urbains durables (DS0601) – 2014

´

etape, on classifie les donn´ees, puis renforcer le mod`ele en proposant de r´ecup´erer de nouveaux ´echantillons d’apprentissage parmi les ´el´ements class´es avec la confiance la plus faible (Rajan et al., 2008; Tuia et al., 2009; Joshi et al., 2009; Shi et al., 2012; Ghariani et al., 2014). La s´election est souvent coupl´ee ˜A des crit`etes de diversit´e spatiale ou spectrale pour un bon ´echantillonnage des nouveaux ´el´ements ins´er´es dans le jeu d’apprentissage.

Adaptation de domaine

Ces m´ethodes peuvent ˆetre mises en œuvre dans les cas o`u l’on dispose d’un bon jeu de donn´ees d’apprentissage sur une image, et que l’on doit classer une nouvelle image (sur une zone diff´erente, ou sur la mˆeme zone mais acquise `a une autre date) pour laquelle on dispose d’un jeu de donn´ees d’apprentissage plus limit´e. En simplifiant, les m´ethodes d’adaptation de domaines consistent alors `a proposer une transformation `a appliquer

`

a l’ancien jeu de donn´ees d’apprentissage pour pouvoir les utiliser conjointement avec les nouvelles donn´ees d’apprentissage afin d’estimer un mod`ele pour la classification des nouvelles images. Parmi ces approches, on peut notamment citer (Courty et al., 2014; Matasci et al., 2015).