• Aucun résultat trouvé

La Section 1.3 a montré le potentiel des méthodes de classification supervisée pour l’ob- tention de cartes d’occupation des sols à partir de séries temporelles d’images satellitaires à hautes résolutions. Cependant, les méthodes proposées sont loin d’être opérationnelles et de nombreux défis restent à relever. Ce chapitre décrit les problématiques et les ob-

jectifs spécifiquement abordés dans cette thèse. L’organisation du manuscrit y est aussi détaillée.

1.4.1

Défis

Afin d’obtenir des cartes d’occupation des sols précises avec des temps de production et de mise à jour réduits – par exemple avec une mise à jour annuelle comme recommandée par le GCOS (Tableau 1.1) –, l’utilisation de méthodes d’apprentissage supervisé est incontournable (Section 1.3.2). Cependant, le traitement des nouvelles séries temporelles d’images satellitaires à hautes résolutions, comme celles fournies par Sentinel-2, implique la gestion de grands volumes de données jamais étudiés auparavant. Ainsi, la mise en place d’une chaîne de traitement automatique est très complexe, et nécessite de répondre a plusieurs défis.

La Figure 1.12 détaille le processus de classification supervisée de la Figure ??. L’étape d’apprentissage supervisé s’appuie sur des échantillons d’apprentissage décrits par l’infor- mation extraite des images satellitaires et l’occupation des sols extraite des données de référence. L’objectif de cette étape est de construire un modèle de classification à partir des échantillons d’apprentissage. Le modèle sera ensuite utilisé pour déterminer la classe d’occupation des sols de chaque pixel des images satellitaires. Ainsi, la qualité de la carte produite dépend principalement de la qualité des données en entrée (satellitaires et de référence), et du choix de l’algorithme de classification.

BD Donn´ees de r´ef´erence Donn´ees satellitaires Extraction des ´echantillons d’apprentissage ´ Echantillons d’apprentissage Apprentissage supervis´e Mod`ele de classification Classification

Carte d’occupation des sols

Figure 1.12 – Processus de classification supervisée.

Concernant les algorithmes de classification, le développement de l’intelligence artifi- cielle a permis plusieurs évolutions : les méthodes sont rapides à mettre en œuvre, adaptées pour prendre en compte un grand nombre d’échantillons et efficaces pour travailler dans

des espaces de grande dimension25. Ces méthodes de classification ont été appliquées avec

succès pour la cartographie de l’occupation des sols [Khatami et al.,2016], mais rarement

en utilisant la totalité de l’information fournie par les nouvelles séries temporelles d’images satellitaires. Les algorithmes de classification actuels peuvent donc souffrir des variabilités spatiales et temporelles de ces données.

Ces nouvelles données satellitaires questionnent alors les choix : 1. de l’algorithme de classification,

2. des données à fournir en entrée du système de classification pour

— exploiter correctement l’information spectro-temporelle des séries temporelles, — prendre en compte la variabilité des paysages sur de grandes étendues.

25. La dimension d’un problème de classification est donnée par le nombre de variables qui décrit les échantillons.

En effet, le choix de l’algorithme de classification ainsi que son paramétrage sont essen- tiels. De plus, les performances des algorithmes vont fortement dépendre des données satellitaires utilisées. Comme vu dans la Section 1.2.3, la combinaison des hautes résolu- tions spatiale, spectrale et temporelle induit une description fine des occupations des sols, particulièrement pour la végétation. Plus spécifiquement, la présence de plusieurs bandes spectrales et de plusieurs dates d’acquisition interroge le choix des données satellitaires fournies en entrée du système de classification. De plus, la stabilité des algorithmes peut se détériorer à cause de la variabilité des paysages induite par la taille des superficies ana- lysées lors de la classification sur de grandes étendues. Si les échantillons d’apprentissage sont spatialement restreints, l’ajout d’une information supplémentaire aux bandes spec- trales pourrait aider à limiter les effets climatiques, topographiques et atmosphériques.

Outre le choix des données satellitaires à fournir en entrée du système de classification, l’importance des données de référence pour la production automatique des cartes le plus tôt possible dans l’année a été montrée à la Section 1.3.2. Cependant, la collecte de ces données sur de grandes étendues est difficile.

Une première possibilité pour obtenir un jeu de données de qualité est de réaliser des enquêtes terrain ou de la photo-interprétation sur des images aériennes ou à très haute résolution spatiale acquises sur la même période temporelle que les images à classifier. Ces données coûteuses sont en plus longues à produire, alors que les données satellitaires sont

traitées en quasi-temps réel26. Et même si les procédures de vérification et de production

assurent des données de référence de grande qualité, ces données sont susceptibles de contenir des erreurs dues à l’humain ou l’informatique. Par ailleurs, ces procédures sont difficilement applicables sur de grandes étendues.

Une seconde stratégie consiste à utiliser des bases de données déjà existantes et pro- duites sur de grandes étendues. Par exemple, l’information de cartes d’occupation des sols des années précédentes, de données institutionnelles, gouvernementales ou encore de données collaboratives peut être utilisée. Ces données couvrant généralement de grandes surfaces permettent l’extraction d’un grand nombre d’échantillons d’apprentissage. Ce- pendant, l’évolution constante des paysages – étalement urbain, rotation des cultures, ou encore déforestation – conduit à la présence d’erreurs lorsque ces données plus ou moins datées sont utilisées pour la classification de séries temporelles de l’année en cours.

Bien que ces problèmes soient connus, l’utilisation d’échantillons imparfaits a rarement été pris en compte dans le domaine de la télédétection. Ainsi, l’influence de ces imperfec- tions sur les performances de classification est inconnue. Et aucune stratégie adaptée à la grande dimension des séries temporelles d’images satellitaires, visant à prendre en compte ces données imparfaites, n’existe.

1.4.2

Objectifs

L’objectif général de la thèse vise à améliorer la production des cartes d’occupation des sols à partir des nouvelles séries temporelles d’images satellitaires comme celles fournies par les capteurs Sentinel-2.

Le premier objectif consiste à étudier le choix du classifieur en lien avec les données satellitaires, les données de référence et la surface de la zone d’étude. Plus spécifiquement, le choix du classifieur est discuté ainsi que les données à fournir en entrée du système de classification. De plus, ces choix sont testés lors de la classification sur de grandes étendues.

26. Une image Sentinel-2 corrigée des effets atmosphériques (Section 3.2) est par exemple produite en moins de 48 heures par le pôle de données et de services surfaces continentales Theia.

Finalement, l’influence des échantillons d’apprentissage erronés sur les performances de l’algorithme de classification est quantifiée.

Le second objectif consiste à proposer un cadre méthodologique pour prendre en compte les données de référence imparfaites dans le processus de classification. En par- ticulier, ces travaux s’intéressent aux cas où la donnée de référence est soit ancienne par rapport à l’acquisition des données satellitaires soit contaminée par des échantillons erronés. Dans ce contexte, une méthodologie est proposée pour filtrer les données erro- nées avant l’étape d’apprentissage supervisé. Les données imparfaites sont tout d’abord identifiées, puis traitées afin de réduire leur impact sur le processus de classification.

1.4.3

Organisation du manuscrit

Selon les objectifs présentés dans la Section 1.4.2, ce manuscrit est divisé en cinq parties :

Partie I. Cette première partie décrit donc le contexte des travaux de thèse. Après avoir présenté brièvement les enjeux autour de la cartographie de l’occupation des sols, l’apport des séries temporelles pour la classification de l’occupation des sols est présenté. Puis, les approches de production des cartes d’occupation des sols exis- tantes sont décrites. Enfin, les défis, les objectifs et l’organisation du manuscrit sont détaillés.

Partie II. La deuxième partie présente les méthodes et les données utilisées. Le Chapitre 2 est dédié aux méthodes de classification, notamment celles utilisées pour la classification de séries temporelles. Une description technique des algorithmes de classification utilisés dans ce manuscrit est aussi fournie. Le Chapitre 3 présente les données satellitaires et les données de référence utilisées au cours de ces travaux. Les pré- traitements appliqués sur l’ensemble des données sont aussi décrits.

Partie III. Dans la troisième partie, la stabilité et la robustesse des algorithmes de classification pour la cartographie de l’occupation des sols sur de grandes étendues sont étudiées. Le Chapitre 4 est dédié aux problématiques concernant le choix de l’algorithme de classification et des données à fournir en entrée du système de classification. Au cours de ce chapitre, différentes expérimentations sont réalisées notamment pour attester de la stabilité des algorithmes de classification lors de la cartographie sur de grandes étendues. Le Chapitre 5 s’intéresse quant à lui à la robustesse des al- gorithmes de classification lorsque des données de référence imparfaites sont utili- sées. Plusieurs configurations de classification – nombre de classes, type de données, nombre d’échantillons – sont testées afin d’évaluer quantitativement l’influence de ces données imparfaites sur les performances de classification.

Partie IV. La quatrième partie est consacrée à la prise en compte des données de référence imparfaites dans le processus de classification. Le Chapitre 6 s’intéresse en particulier à la détection de ces données imparfaites. Une méthode de détection est proposée et comparée avec les méthodes de l’état-de-l’art. Puis, le Chapitre 7 propose un cadre méthodologique afin de prendre en compte les données imparfaites dans le processus de classification. L’impact du processus proposé sur les performances de la classification est évalué.

Partie V. La dernière partie contient le Chapitre 8 présentant la conclusion générale. Ce der- nier permet de résumer les principaux résultats du manuscrit, et de souligner les conclusions les plus importantes. Les perspectives méthodologiques et applicatives sont aussi discutées.

Deuxième partie

Méthodes et données

Chapitre 2

Classification supervisée de séries

temporelles d’images satellitaires

Sommaire

2.1 Introduction à l’apprentissage supervisé . . . . 28