• Aucun résultat trouvé

En 2016, Tuia et al. [Tuia et al., 2016] ont réalisé une revue de la bibliographie de l’adaptation de domaine appliquée à la télédétection. Dans cet article, ils catégorisent l’adaptation de domaine selon quatre grands axes :

1. Adaptation semi-supervisée de classifieur 2. Adaptation de classifieur par apprentissage actif

3. Extraction de primitives invariantes 4. Adaptation des données

Il est possible, pour adapter les classifieurs et/ou les données, de combiner les méthodes issues de différentes catégories. De manière générale, les méthodes d’adaptation de classifieur sont très appréciées lorsque le coût d’apprentissage sur le domaine Source est important ; il en est de même pour les distorsions entre les domaines. À l’inverse, on utilise les méthodes d’adaptation de données lorsque les distorsions sont moins importantes et les coûts d’apprentissage faibles. Nous avons décidé, pour cette revue de la littérature, de suivre la catégorisation initiale réalisée par les auteurs en y intégrant des travaux postérieurs.

4.2.1

Adaptation semi-supervisée de classifieur

En classification, une approche semi-supervisée est une méthode qui consiste à mélanger des échantillons étiquetés et non étiquetés, lors de l’apprentissage. Il s’agit exactement du même principe en adaptation de domaine. Le principe vise à entraîner un classifieur sur le domaine Source, en utilisant des informations issues du domaine Cible pour pondérer les règles de décision. En général, les étiquettes du domaine Cible ne sont jamais disponibles. On réalise l’adaptation par estimation de ressemblance, corrélation ou autres mesures statistiques entre les deux domaines. Pour ce type d’approches, on ne cherche plus à étiqueter le domaine Cible mais à identifier les échantillons les plus pertinents dans les deux domaines.

Les travaux présentés par [Bruzzone and Prieto, 2001] sont précurseurs des approches semi-supervisées pour l’adaptation de domaine. Cette méthode consiste à exploiter un classifieur par Maximum de Vraisem- blance paramétrique entraîné sur le domaine Source. L’innovation consiste à calculer les distributions des classes dans une nouvelle image et de les utiliser pour mettre à jour ces paramètres. Cette approche a rapi- dement montré ces limites, d’une part en étant moins performante que la version supervisée d’un classifieur par Maximum de Vraisemblance, et d’autre part en n’étant pas exploitable pour des images provenant de capteurs ou de scènes différents. Ces travaux ont néanmoins mis en évidence que la complexité du problème lié à l’OCS offre des gains moins importants que ceux observés dans d’autres disciplines, comme la vision par ordinateur, par exemple. Rapidement, dans [Bruzzone and Cossu, 2002] les auteurs ont proposé une amélioration de cette approche, en exploitant une cascade de classifieurs. Une cascade de classifieurs consiste à l’entraînement de plusieurs classifieurs. L’enchaînement permet d’intégrer à chaque classifieur les sorties du classifieur précédent. La différence dans le cadre de l’adaptation de classifieur, réside dans l’ajout d’échan- tillons du domaine Cible à chaque nouvelle étape. Les résultats de chaque classifieur sont ensuite combinés pour mettre à jour la carte d’occupation du sol. Ces approches sont performantes. Néanmoins elles traitent essentiellement des zones d’études restreintes (étendue géographique), mais également en termes de classes d’OCS.

Ces deux approches ont ouvert la voie aux méthodes semi-supervisées. De nombreuses déclinaisons de ces approches existent en modifiant les classifieurs utilisés, exploitant lesSéparateurs à Vaste Marge (SVM)

[Bruzzone et al., 2006,Sun et al., 2013], les arbres de décision [Rajan et al., 2006], le principe étant toujours d’introduire des échantillons des deux domaines lors de l’apprentissage.

Des méthodes proposent d’estimer les distorsions entre les domaines et d’intégrer ces mesures lors de l’apprentissage de classifieurs. Les SVM sont sensibles à ce type d’informations. Les travaux de [Chi and Bruzzone, 2007] proposent de mettre à jour la fonction de coût utilisée dans le calcul de l’hyperplan de séparation du SVM, celle-ci étant estimée à partir d’échantillons des deux domaines simultanément. Dans

la même idée, les travaux présentés dans [Gomez-Chova et al., 2008] réalisent une régularisation duSVMà partir d’un graphe Laplacien non normalisé.

Ces travaux intéressants d’un point de vue méthodologique, présentent néanmoins plusieurs désavan- tages liés à la problématique abordée et sa composante opérationnelle. La plupart d’entre eux sont fondés sur des approches itératives. Chaque itération intègre de nouveaux échantillons du domaine Cible au jeu d’apprentissage. La phase d’apprentissage peut alors devenir extrêmement chronophage. La possibilité d’ex- ploiter plusieurs domaines Source semble aussi complexe. Elle requiert le renouvellement de l’apprentissage du classifieur initial à chaque ajout d’un nouveau domaine Source.

L’adaptation d’unRFpeut s’avérer aussi complexe à mettre en oeuvre : cela requiert d’agir sur chaque cri- tère de séparation au sein de chaque feuille. Le coût d’apprentissage lié auRFn’est pas un critère déterminant qui contraint l’utilisation de ces techniques semi-supervisées.

4.2.2

Adaptation de classifieur par apprentissage actif

L’apprentissage actif (ou Active Learning en anglais) désigne les méthodes impliquant une interaction de l’utilisateur lors du processus. Le principe de cette approche permet à une quantité minimale d’étiquettes d’améliorer grandement les méthodes semi-supervisées. L’utilisateur intervient alors pour étiqueter les échan- tillons du domaine Cible [Matasci et al., 2012,Jun and Ghosh, 2008,Rajan et al., 2008], et peut également être responsable de la réalisation d’une nouvelle itération ou de l’arrêt de l’algorithme. On peut envisager une sélection d’échantillons sur de petites zones, mais la sélection manuelle représente une charge de travail conséquente pour la classification de grandes étendues. Dans cette optique, des travaux proposent des aides à la sélection fondées sur la détection de changements, la mesure de similarité ou d’entropie voire même du clustering [Alajlan et al., 2014,Persello et al., 2014,Stumpf et al., 2012]. Néanmoins, le clustering ne repré- sente pas une méthode fiable pour traiter des jeux de données à grande dimension. En effet, les algorithmes exploitent en grande partie la distance euclidienne, qui perd en fiabilité quand le nombre de dimensions augmentent.

La notion de vastes étendues est également un critère important. Dans les travaux cités, elle désigne une zone couverte par une tuile Landsat qui au demeurant est moindre qu’une emprise Sentinel-2.

En suivant les notations introduites par [Li and Sethi, 2006], le quintuplet (C, L, S, U, Q) définit un ap- prentissage actif. Dans ce quintuplet, C est un classifieur, L le jeu d’échantillons étiquetés d’apprentissage, S est l’utilisateur en charge de déterminer les étiquettes des échantillons retenus dans l’ensemble des non éti- quetés U. Les échantillons U sont triés selon le critère Q. C’est le critère Q qui différencie une simple stratégie d’échantillonnage et l’apprentissage actif. Les sorties du classifieur C impactent généralement l’estimation Q. Par exemple, les échantillons capables de devenir des vecteurs support dans le cadre d’unSVM constituent l’ensemble U, la distance à l’hyperplan séparateur servant de critère de tri [Mitra et al., 2004]. Un autre exemple consiste à exploiter la mesure de confiance fournie par le classifieur [Demir et al., 2010,Tuia et al., 2009]. Le premier échantillon de U est sélectionné puis étiqueté.

Cependant, inclure un seul échantillon par itération soulève un problème majeur d’efficacité car chaque ajout implique une nouvelle phase d’apprentissage. De plus, n’ajouter qu’un seul échantillon par itération n’exclut pas l’ajout d’information fortement corrélées par rapport à l’itération précédente. En fonction du classifieur la redondance d’information peut dégrader ses performances. Pour palier ce problème il est d’usage d’ordonner les échantillons U par groupes. Chaque groupe répond à un critère de diversité minimum, et celui présentant une diversité maximale est sélectionné. De nombreux travaux portent leur intérêt autour de

l’estimation du critère de diversité, exploitant les mesures fournies par les classifieurs [Demir et al., 2010] ou en mesurant la similarité entre échantillons d’un même groupe [Di and Crawford, 2011].

La finalité de nos travaux de thèse vise la classification de la France entière (+100 tuiles Sentinel-2), et donc une approche complètement automatique. De même, sur un volume de données important, il n’est pas envisageable d’itérer des apprentissages et des classifications très nombreux. Bien que ces approches semblent très prometteuses vis-à-vis des approches semi-supervisées, l’interaction avec l’utilisateur est tota- lement rédhibitoire dans le contexte de ces travaux.

4.2.3

Sélection de primitives invariantes

La sélection de primitives invariantes est la troisième catégorie d’adaptation de domaine. Dans la littérature, elle se concentre sur un cas bien particulier : l’utilisation d’images issues de capteurs différents ou dépendantes de conditions d’acquisitions différentes. En effet, elle cherche à corriger les effets de variations liés à l’angle de vue du satellite, de l’illumination de la scène au moment de l’acquisition et des distorsions géométriques [Izquierdo-Verdiguier et al., 2013].

On peut définir l’invariance d’une primitive p comme la préservation de ces propriétés lors de l’application d’une transformation quelconque T . Ainsi on obtient toujours T (p) = p. L’identification des primitives inva- riantes porteuses des informations discriminantes pour l’OCS, ou les informations spatiales associées, devient l’objectif principal à atteindre [Bruzzone and Persello, 2009]. La principale difficulté résulte de l’identification des données discriminantes pour ces deux aspects à la fois.

Les variations induites par un changement d’angle ou d’illumination se cumulent aux distorsions déjà présentées dans la section 2.1.3, complexifiant l’utilisation de telles données. Dans la mesure où les images constituant les séries temporelles sont corrigées de ces effets et exprimées en réflectance de surface, ces problèmes ne nous concernent pas directement.

4.2.4

Adaptation de données

L’adaptation de données constitue une des approches les plus utilisée dans la littérature. Elle permet de cor- riger les distorsions entre les domaines afin d’extraire les informations du domaine Source et les appliquer au domaine Cible sans difficulté. Cette catégorie regroupe un ensemble d’algorithmes à complexité de calcul et d’utilisation variables. Des méthodes très simples existent, fondées sur l’adaptation d’histogrammes [Inamdar et al., 2008], à partir de l’histogramme des deux images, nous définissons une fonction permettant de trans- former la distribution du domaine Cible à partir de l’histogramme du domaine Source. Cette approche reste très limitée pour des images de grande dimension (nombreux canaux et grande étendue), ou pour des zones d’études hétérogènes. Une autre approche consiste à projeter les deux domaines dans un seul en exploitant

l’ Analyse en Composantes Principales (ACP) ou l’ Analyse Canonique des Corrélations (ACC) [Nielsen,

2007,Volpi et al., 2015]. Généralement, ces deux méthodes constituent la première alternative considérée lorsque nous cherchons à réaliser une réduction de dimension ou une projection de données.

Dans une autre optique, des travaux tentent de conserver l’information de géométrie lors de la projec- tion [Gonzalez et al., 2015,Montoya-Zegarra et al., 2013,Yang and Crawford, 2016]. Cette information est importante, car représentative de la diversité de la classe au sein de la parcelle. Ces méthodes reposant sur une comparaison pixel à pixel, demeurent très sensibles au changement d’OCS, ce qui introduit une distor- sion supplémentaire. Pour palier ce type de problèmes, il existe des méthodes de projection fondées sur les

distributions dans les séries temporelles [Tuia and Camps-Valls, 2016] mais elles exploitent les étiquettes dans les deux domaines.

Des approches d’alignement de séries temporelles ont été proposées comme laDynamic Time Warping

(ou déformation temporelle dynamique en français) (DTW)[Petitjean et al., 2011], ou exploitant les variétés

1(manifold) [Tuia et al., 2014]. Ces méthodes sont associées à un coût de calcul proportionnel aux dimensions

des séries temporelles.

Récemment le Transport Optimal [Courty et al., 2017] a été utilisé comme méthode d’adaptation de domaine avec succès. Le principe de cette approche est de transporter à moindre coût l’intégralité des échan- tillons du domaine Source vers le domaine Cible. Un classifieur entrainé sur les échantillons du domaine Source transportés est donc applicable aux échantillons du domaine Cible.