• Aucun résultat trouvé

4.3 Autres approches d’exploitation de l’historique

4.3.2 Mise à jour des cartes d’occupation des sols

Les méthodes de détection de changements ouvrent une opportunité intéressante : la mise à jour des cartes antérieures pour produire la carte du millésime attendu. En effet, rappelons ici que tout pixel non associé à un changement détecté conserve sa classe d’OCS, réduisant ainsi l’effort déployé pour prédire la carte du domaine Cible.

La littérature offre de nombreuses approches, proposant des stratégies variées pour la partie détection, mais également pour prédire les classes des pixels soumis à un changement. Il n’existe, à notre connaissance, aucune méthode n’exploitant pas l’adaptation de domaine afin de réaliser une mise à jour d’une carte exis- tante. En effet, les études présentées exploitent un ou plusieurs algorithmes de détection de changements voire d’adaptation de domaine, introduits préalablement. Dans [Bruzzone and Marconcini, 2009] les auteurs proposent un algorithme d’adaptation de domaine semi-supervisé qui incorpore et remplace au fil des itéra- tions les échantillons du domaine Source par des échantillons du domaine Cible. Dans ces travaux, les auteurs reformulent la problématique de mise à jour pour réduire la problématique à un simple problème d’adapta- tion de domaine, ne réduisant pas l’effort de production. Dans le même esprit, dans [Bahirat et al., 2012] les auteurs exploitent des mesures de probabilités a posteriori pour émettre des hypothèses sur les différences entre les classes des deux domaines. Une fois formulées, ces hypothèses sont validées après corrections des distorsions, grâce à une adaptation de domaine, afin de les exploiter et prédire la carte du domaine cible.

Les travaux de [Chen et al., 2012a], proposent un algorithme itératif de mise à jour exploitant une détection de changements et plusieurs étapes de classification. L’intérêt de cette étude réside dans l’intégration du voisinage lors de la détection de changements, limitant la détection de pixels isolés (bordure ou autres).

Plus récemment, un protocole de mise à jour visant, non pas la carte, mais les données de référence a été proposé par [Paris et al., 2019]. Exploitant une carte existante, en l’occurrenceCLC, les auteurs parviennent à corriger les étiquettes d’une donnée de référence obsolète, permettant ainsi une classification supervisée d’une série temporelle. Dans cette approche, ils exploitent la diversité au sein d’une parcelle identifiée par la donnée de référence pour choisir l’étiquette la plus pertinente. Néanmoins, on relève un coût important, appliquant un facteur 10 aux temps de traitement d’un simpleRFqu’ils compensent par un gain équivalent enPGd’environ 13%.

4.4

Synthèse

Au travers de ces quatre catégories d’algorithmes constituant l’adaptation de domaine pour la télédétection, on relève une très grande diversité des solutions possibles. Dans leur revue [Tuia et al., 2016] les auteurs proposent également un guide pour la sélection des méthodes en fonction de la problématique retenue. Par exemple, l’apprentissage actif et les approches semi-supervisées sont fortement recommandés lorsque un classifieur est disponible pour le domaine Source et que son coût d’apprentissage s’avère important. Dans le cas où les distributions par classes dans les deux domaines peuvent être connues, on privilégie les méthodes fondées sur l’alignement des variétés (manifold). En d’autres termes, on conçoit les adaptations de classifieurs

afin de gérer les fortes disparités entre les domaines, comme la situation multi-capteurs ou dans le cas de coûts d’apprentissage élevés.

Pour les méthodes privilégiant l’adaptation de données et la sélection de primitives, le choix d’une méthode dépend essentiellement de la configuration du problème. Si les distorsions entre les domaines relèvent d’une moindre importance, les approches ACPet ACC seront performantes pour un coût acceptable. À l’inverse elles seront pénalisées dans le cas où les distorsions s’avèrent importantes ou trop complexes : non linéaires car la distance euclidienne ne constitue pas une mesure pertinente dans un cas à grande dimension (ce qui est le cas avec les séries temporelles). Cette revue donne un conseil utile, à savoir la possibilité d’exploiter des étiquettes dans le domaine Cible garantissant de meilleures performances, car cela permet souvent d’impacter l’adaptation réalisée.

Ces dernières années, les travaux publiés concernent essentiellement l’amélioration des méthodes exis- tantes, en proposant des combinaisons, avec un intérêt prononcé pour des méthodes d’apprentissage actif et de l’intégration de l’apprentissage profond (deep learning) [Postadjian et al., 2018] dans ces approches. Néan- moins, il semble que les solutions aux problèmes à forte dimensionnalité (spectrale, temporelle ou spatiale) se révèlent assez rares dans la littérature.

Au cours de cette étude de la bibliographie, notre second constat vient contraster la variété des méthodes proposées. En effet, trois zones sont principalement exploitées dans ces travaux : l’université de Pavia, la zone

Indian Pine et le delta de Okavango en Botswana. Ces jeux de données se révèlent très représentatifs des

distorsions nécessitant de réaliser une adaptation de domaine. Pour les jeux de données Pavia et Indian Pine, les images présentent de nombreuses dimensions en raison de leur acquisition par deux capteurs aéroportés hyperspectraux ROSIS et AVIRIS. La différence avec notre zone d’étude ne réside plus alors dans le nombre de dimensions à traiter, mais par l’information qu’elles apportent. En effet, les images aéroportées représentent une scène pour une date d’acquisition unique. Alors que la série temporelle transcrit l’évolution de la zone sur une année complète, les distorsions observées couvrent alors l’intégralité des deux années.

De même, lors de l’évaluation des méthodes de détection de changements, nous avons constaté que les principales zones d’études focalisent les forêts et comparent des acquisitions monodates.

La plupart des méthodes de détection de changements considèrent deux images correspondantes à deux vues différentes de la même scène. Les méthodes traitant les séries temporelles sont rares, et requièrent en priorité leurs décompositions par saison pour un suivi annuel, ou se contentent d’images successives en grand nombre sur un pas de temps restreint. Ce découpage saisonnier peut représenter un obstacle à une production opérationnelle à grande échelle, car il multiplie alors les étapes de traitements, d’apprentissages et de classifications.

Les approches de mises à jour des cartes d’OCS souffrent malheureusement des mêmes contraintes, puis- qu’elles reposent sur des méthodes d’adaptation de domaine ou de détection de changements. L’approche proposée par [Paris et al., 2019] semble prometteuse mais n’a pas pu être abordée au cours de cette thèse.

Une attention particulière doit être apporté quant aux choix des méthodes abordés, en terme de complexité de mise en oeuvre et de coûts de traitements. En effet, l’utilisation combinée de séries temporelles annuelles Formosat-2 et d’au moins 17 classes d’OCS ne représente qu’un aperçu de la complexité de la tâche lorsque les données Sentinel-2 seront exploitées sur une zone étendue.

Du point de vue méthodologique, le sujet de la thèse et les données utilisées nous amène à privilégier les méthodes d’adaptation de données potentiellement associées à une approche de détection de changements. Les coûts d’apprentissage du RFminimisent l’intérêt de l’adaptation de classifieurs. De même, l’interaction

CHAPITRE

5

Analyse Canonique des Corrélations

Face aux très nombreuses approches existantes dans la revue de littérature, nous avons choisi de focaliser nos travaux sur les méthodes d’adaptation de données, afin de réduire les distorsions entre les domaines et ainsi améliorer les performances de la classification naïve. Par conséquent, nous avons choisi de nous intéresser à l’Analyse Canonique des Corrélations(ACC) car cet algorithme permet d’étudier d’une part une solution de projection de données très simple à mettre en place, et d’autre part un algorithme de détection de changements.

5.1

Introduction

L’Analyse Canonique des Corrélations(ACC) publiée pour la première fois en 1936 par Hotelling [Hotelling,

1936] constitue une des approches d’analyse statistique les plus utilisées dans de nombreux domaines d’ap- plications : économie, médecine, génétique, entre autres. Une rapide analyse bibliométrique met en avant pas moins de 10000 publications en rapport avec l’ACC lors des cinq dernières années.

L’ACC partage des points communs avec l’ACP, notamment pour la construction d’un ensemble de nouvelles primitives descriptives, ainsi qu’avec la régression linéaire, pour la nature des données. L’objectif général de l’ACC consiste à déterminer les relations existantes entre deux groupes de variables quantitatives observées sur le même évènement, en exploitant la corrélation entre celles-ci.

L’analyse des relations entre deux groupes de variables représente la principale caractéristique de l’ACC, la plaçant comme méthode centrale de la statistique descriptive multidimensionnelle. En effet, elle généralise plusieurs autres approches. Par exemple, la régression linéaire multiple qui permet de donner une explication d’une variable quantitative par un groupe d’autres variables. Elle devient un cas de l’ACC lorsque l’un des deux groupes considérés ne comporte qu’une seule variable. D’autres cas particuliers existent, comme l’analyse factorielle discriminante [Benzecri, 1977] ou l’analyse factorielle des correspondances [Escofier-Cordier, 1969]. L’ACPreprésente également un cas particulier de l’ACC, obtenu si chaque groupe ne contient qu’une seule variable quantitative. Dans ce chapitre nous ne nous intéressons qu’à la formulation classique de l’ACC qui

ne considère que deux groupes de variables quantitatives : le domaine Source et le domaine Cible représentés par leur série temporelle respective.