Temps de calcul - Analyse des coûts de production

9.2 Analyse des coûts de production

9.2.3 Temps de calcul

Le dernier critère considéré consiste à évaluer les temps de calcul requis pour exploiter les méthodes en fonction de la taille de l’historique. Nous ne pouvons pas, en situation réelle, stocker l’intégralité de l’historique en

permanence. Dans le cadre des seules données Sentinel-2, sur l’ensemble de la France métropolitaine par exemple, nous comptabilisons le volume de données en centaine de teraoctets, uniquement pour les images de réflectances. Ainsi, déployer une des méthodes proposées requiert de produire à nouveau une partie des données de l’historique, notamment les séries temporelles avec leurs indices spectraux et les classifications. Néanmoins, on peut aisément envisager que les MT, matrices de confusion et données de référence soient conservés. Dans cette optique, la table9.3évalue le coût d’exploitation de la méthode indiquée en ligne. Nous considérons un historique de taille N, et chaque opération coûte une unité.

Une unité d’apprentissage a correspond au coût de calcul requis pour entraîner un classifieur quelconque. Une unité de classification c correspond au coût de ce classifieur pour traiter une série temporelle annuelle quelconque. Une unité de post-traitement p correspond à un parcours pixel par pixel de l’emprise totale de la série temporelle. Dans cette étape de post-traitement, on retrouve les opérations de validation, par exemple pour déterminer les fonctions de masse de la fusion Dempster-Shafer, l’estimation de la MT mais également un processus de vote comme le VM. Un ensemble de votants de même nature (par exemple les étiquettes) est considéré comme une image unique à plusieurs canaux, chaque canal représentant un votant.

Pour le jeu de données Formosat-2, l’analyse des ressources utilisées, temps de calcul ramenés sur un unique processeur, a mis en avant les relations suivantes :

• c = 3 × a • p = a

Table 9.3 : Évaluation des coûts de production des différentes méthodes

Méthode Apprentissage Classification Post-Traitement Temps (en fonction de a)

Supervisé a c 0 4a Naïf a c 0 4a TO 2a c 0 5a ACC a c 0 4a MAJ N a N c p (4N + 1)a VM, VP N a N c p (4N + 1)a VC N a 2N c 2p (7N + 2)a

Correction non-décisions N a N c 2p (4N + 2)a

Dempster-Shafer N a (N2_{− N )c} _{(N (N − 1) + 1)p} _{(N + 3(N}2_{− N ) + (N (N − 1)) + 1)a}

Classifieur Unique N a c 0 (4N + 1)a

Classifieur Bayésien N a 2N c 2p (7N + 2)a

Cette table met en avant que la fusion par Dempster-Shaffer constitue l’approche la plus coûteuse. En effet, elle requiert N apprentissages (un par domaine Source), N2_{− N} _{classifications pour générer les cartes}

naïves nécessaires, ainsi que celles pour l’estimation des masses. Enfin elle requiert N(N − 1) validations pour obtenir les matrices de confusion moyennes, puis une étape de fusion par vote pondéré qui ne parcourt qu’une pile de votants.

Le classifieur bayésien représente également un algorithme très coûteux. L’origine de ce coût provient de l’exploitation de la MT, qui contraint d’avoir accès aux cartes supervisées pour générer la clef de transition, et aux classifications naïves qui constituent les votants. Viennent ensuite les méthodes de vote qui exploitent les classifications naïves, qui exigent autant de classifications et d’apprentissages que de domaines Source.

Le classifieur unique présente l’avantage de ne comporter qu’une seule étape de classification, par rapport aux systèmes de vote.

La figure9.5 représente le coût sur l’axe des abscisses et de la PG en ordonnées. Les différentes valeurs de coût sont calculées à partir des équations de score présentées dans la table9.3.

Les arcs de cercle sont centrés sur le point optimal (0, 1) et intersectent respectivement le point (triangle) de la classification supervisée (bleu), celui de la classification après TO (vert) et naïve (rouge). Ainsi l’espace entre l’arc de cercle et ce point idéal représente une amélioration du coût et de la performance de la méthode vis-à-vis de la référence (arc de cercle). Cette représentation permet de visualiser que malgré les étapes requises pour estimer un transport cohérent celui-ci constitue une amélioration de la classification naïve. Les différentes méthodes présentées dans la table 9.3sont représentées par les lettres colorées. La couleur de la lettre indique le nombre d’années exploitées dans l’historique. Pour des raisons de clarté, certaines approches ne sont pas représentées dans ce graphe, car le couple coût et performances et très proches d’une autre méthode, par exemple le VP et le VM avec MT.

Cette représentation met en évidence le coût proportionnel de la fusion par Dempster-Shafer, imposé par le grand nombre de classifications et de validations croisées pour estimer les matrices de confusion moyennes.

0 30a 63a 95a 127a

Coût (a = coût d'un apprentissage) 0.4 0.5 0.6 0.7 0.8 0.9 1.0 Précision Globale VM VC SC Bayésien MAJ VMTRG Dempster-Shafer Sup TO Naïf

année années années années années années

Figure 9.5 : Évaluation des performances pour différentes méthodes en fonction du temps d’un apprentissage (en fonction de a) et différents nombre d’années utilisées.

Au cours de ce chapitre nous avons proposé un ensemble de critères : la dépendance à l’historique, la sensibilité à la qualité des données, ainsi que la précision de classification en fonction des coûts de calculs. Ces critères ont pour but de guider l’utilisation des différentes méthodes en fonction de la situation particulière que nous souhaitons traiter.

Cinquième partie

Mise en oeuvre des méthodes pour

une production opérationnelle sur de

CHAPITRE

10 Production sur des grandes étendues avec Sentinel-2

Les expérimentations menées au cours de cette thèse exploitent des séries temporelles annuelles Formosat- 2. Ce jeu de données nous offre des images avec des résolutions spatiales et temporelles adéquates pour la production de cartes d’OCS. Cependant, la zone d’étude reste relativement restreinte avec une emprise de 24km × 24km. Au cours de ce chapitre, nous présenterons les résultats des tests de déploiement de la plupart des méthodes proposées, sur un jeu de données Sentinel-2 couvrant le sud de la France métropolitaine continentale. L’objectif de ce chapitre est de démontrer le passage à l’échelle des méthodes, tout en identifiant les contraintes. Le passage à l’échelle a été réalisé en fin de thèse, limitant ainsi le nombre d’expérimentations possibles.

10.1 iota

En télédétection, l’utilisation de données sur de très grandes étendues (par rapport à l’emprise d’une image) demeure un défi. En effet, il faut gérer de nombreux aspects, tels que le recouvrement entre les tuiles, causés par le découpage en segments des acquisitions et la projection en zones UTM, ou encore la différence de dates d’acquisition entre les différentes images couvrant l’intégralité de l’étendue choisie. La complexité de ces problèmes croît avec celle-ci, car le nombre de tuiles augmente proportionnellement à la taille de la zone d’étude, comme le montre la figure 10.1. Cette figure, illustre le recouvrement entre les tuiles et le nombre de tuiles que nous allons exploiter dans ce chapitre (en vert). Le carré bleu au représente l’étendue couverte par les données Formosat-2, exploitées jusqu’à présent.

Dans cette optique, le CESBIO a développé la chaîne de traitement Infrastructure pour l’Occupation

des sols par Traitement Automatique Incorporant les Orfeo Toolbox Applications (iota2₎ 1_{. La chaîne de}

traitement, développée en python, se compose de différents modules et classes, qui la rendent adaptable aux besoins spécifiques d’un utilisateur, pour ajouter la gestion d’un nouveau capteur par exemple. Nous utilisons

6 1 0 0 0 0 0 6 1 0 0 0 0 0 6 2 0 0 0 0 0 6 2 0 0 0 0 0 6 3 0 0 0 0 0 6 3 0 0 0 0 0 6 4 0 0 0 0 0 6 4 0 0 0 0 0 6 5 0 0 0 0 0 6 5 0 0 0 0 0 6 6 0 0 0 0 0 6 6 0 0 0 0 0 300000 300000 400000 400000 500000 500000 600000 600000 700000 700000 800000 800000 900000 900000 1000000 1000000 1100000 1100000

Figure 10.1 : Illustration des tuiles Sentinel-2 exploitées dans ce chapitre. Les effets de la projection sur les zones UTM est clairement visible. Le carré bleu représente la zone couverte par Formosat-2.

ici des données Sentinel-2 dont le traitement est pris en charge par iota2_.

Centrée sur un noyau de classification standard,iota2 _{facilite la gestion de données multi-tuiles d’images}

satellites [Inglada et al., 2017].

La première étape consiste à recenser toutes les images disponibles en fonction de la liste des tuiles que nous souhaitons traiter. Ces images constituent les séries temporelles annuelles. Ces images doivent être assorties d’un masque de validité (nuage, saturation, bord). Nous exploitons ceux-ci lors de l’étape de ré-échantillonnage temporel, obligatoire dans le cadre d’une utilisation multi-tuile. En effet, celui-ci assure l’homogénéisation des dates d’acquisition sur l’ensemble de la zone d’étude. Ainsi entre deux tuiles, les dates d’acquisitions virtuelles sont identiques, ce qui assure la cohérence des primitives.

La chaîneiota2_{réalise la plupart des traitements concernant les images tuile par tuile. Néanmoins elle offre}

la possibilité de gérer des régions éco-climatiques. L’intérêt de ces régions, pour la production de cartes d’OCS, réside dans l’hypothèse qu’au sein d’une même entité, le climat, et surtout son impact sur la végétation, demeurent homogènes. Ainsi, la tâche du classifieur s’en trouve facilitée, en évitant les fortes variations des profils temporels pour ces classes. De même, les modes de fonctionnement et de culture humains demeurent liés au climat et leur position géographique. Ainsi dans une région éco-climatique de montagne nous attendons à voir des toits d’ardoises et non de tuiles comme dans les zones de plaines. Ces différences sont visibles depuis un satellite, mais restent difficiles à gérer pour un classifieur, en raison de différence de signature spectrale de ces matériaux pour une même classe d’OCS. L’exploitation des régions éco-climatiques permet donc de simplifier ces problématiques.

À partir des régions éco-climatiques et des séries temporelles ré-échantillonnées, nous entraînons les diffé- rents classifieurs, à raison d’un par région. Une fois les phases d’apprentissage terminées, nous réalisons tuile par tuile la classification de l’intégralité de la zone d’étude. Puis nous fusionnons les différentes cartes pour constituer la carte sur l’emprise définie par la liste des tuiles fournies en entrée deiota2_.

Enfin, nous calculons les métriques (cf section 2.3.1) pour obtenir une évaluation statistique de la carte ainsi produite.

Dans son fonctionnement normal,iota2_{exploite la classification supervisée. Ainsi, en dehors de la gestion}

des différentes tuiles nous retrouvons la chaîne de traitement présentée dans la figure2.6.

Dans le document Méthodes d'exploitation de données historiques pour la production de cartes d'occupation des sols à partir d'images de télédétection et en absence de données de référence de la période à cartographier (Page 163-169)