• Aucun résultat trouvé

5.5 Une difficulté majeure : l’effet de la pente . . . 132 5.6 Conclusions préliminaires . . . 133 5.7 Références . . . 134

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

Introduction

Le chapitre précédent nous a permis d’affiner notre stratégie de machine learning, sur les points suivants :

— La bande L contient plus d’informations structurelles sur le volume des forêts bo-réales. De ce fait, pour ces forêts, le choix de données bande L est le plus adapté à notre méthode d’upscaling qui vise à décrire de manière la plus complète la struc-ture 3D de la forêt.

— Les méthodes générales de réseaux de neurones, qui préfigurent la mise en oeuvre de deep learning, se sont révélées très prometteuses, a minima pour apprendre la hauteur de canopée.

— Si l’on souhaite avoir des données complémentaires pour décrire la structure, il est nécessaire d’apprendre sur des descripteurs en sortie, additionnels à la hauteur de canopée.

— Les méthodes de deep learning aujourd’hui ne pourront être mises en place de ma-nière effective, que lorsque les données pourront être collectées et annotées en plus grand nombre ; ce sera notamment le cas lorsque nous pourrons exploiter les résul-tats de la mission Tandem-L. La campagne Biomass sera peut être moins adaptée à cette démarche mais pourra servir, moyennant quelques adaptations, à initier le déploiement d’une telle méthode d’apprentissage "à très grande échelle" : un jeu d’apprentissage pourra être constitué, pour l’ensemble de la zone couverte par le satellite, partout où les données LIDAR seront disponibles.

Suite à ces conclusions, ce chapitre traite de l’application des méthodes de machine learning, spécifiquement pour les données relatives aux Laurentides, les seules pour les-quelles à la fois les données PolInSAR complètes en bande L et des données LIDAR onde complète étaient disponibles pendant la thèse.

Nous proposons la combinaison de plusieurs méthodes pour apprendre, à partir des données PolInSAR, un ensemble de descripteurs tridimensionnels de la forêt.

Le choix de nos descripteurs PolInSAR est confronté à d’autres descripteurs de bas niveau : nous comparons les résultats obtenus avec nos descripteurs choisis, avec les ré-sultats obtenus sur des variables d’entrée plus conventionnelles ou moins porteuses de sens physique.

Enfin, nous analysons les résultats obtenus sur les différents produits générés et les principales sources d’erreurs.

5.1 Mise en place de la méthode complète

5.1.1 Tests de différents descripteurs PolInSAR

Le chapitre précédent a montré les capacités d’une méthode de type SVM à évaluer les hauteurs d’arbres, à l’aide d’une description de la forme de cohérence en sept paramètres. Les méthodes de deep learning ne peuvent être appliquées facilement en l’état en ré-utilisant cette description, car il est impossible de bénéficier alors de réseaux pré-entraînés ; et nos données d’apprentissage ont des volumes trop limités pour entraîner un tel réseau du début à la fin. Par contre, nous avons vu qu’il est possible d’envisager d’utiliser des méthodes de types réseaux de neurone classiques, tels que les perceptrons.

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

Il est dans tous les cas légitime de s’interroger sur le besoin de mettre en entrée des pa-ramètres descripteurs porteurs d’un sens physique, par rapport à un apprentissage mené sur des variables plus simples en amont du réseau.

Afin de souligner l’utilité de la description de la forme de cohérence en 7 paramètres, nous allons comparer notre méthode à un perceptron entraîné à l’aide d’autres jeux de paramètres PolInSAR. Nous avons envisagé ainsi quatre ensembles de descripteurs alter-natifs, résumés dans le tableau 5.1.

Les deux premiers ensembles de descripteurs correspondent aux cohérences expri-mées dans la base polarimétrique d’origine, soit en coordonnées polaires (ρ et φ) soit en coordonnées cartésiennes (γx etγy) respectivement. Pour tenir compte des paramètres géométriques d’acquisition, le paramètre kz est ajouté en tant que septième paramètre de l’ensemble : en effet toutes les phasesφ des points mesurées peuvent être reliées à une dimension physique de hauteur ce paramètre kzsuivant l’équationφ = kzz. Ce paramètre est un paramètre qui ne dépend pas de la forêt mais uniquement du capteur radar, il ne peut être déduit des données LIDAR ; pour cette raison il nous semble donc indispensable de le donner comme information au réseau d’apprentissage.

Les deux autres jeux de paramètres alternatifs remplacent les cohérences interféro-métriques de la base lexicographique, par celles qui sont exprimées dans une base de vecteurs propres : elles correspondent aux valeurs propres de la matrice qui permet de générer l’ensemble de cohérence : A = T12T12T12. Ces trois valeurs propres, (λ123) sont à nouveau exprimées en coordonnées polaires (|λi|,∠λi) et cartésiennes (λiXiY), et kzest ajouté comme septième paramètre.

Pauli Pauli Valeurs propres Valeurs propres Jeu de 7

Cartésien polaires cartésien polaire paramètres

γx Hh ρHh λ1X1| γmean γy Hh φHh λ1Y ∠λ1 θmean/kz γx Hv ρHv λ2X2| α/kz γy Hv φHv λ2Y ∠λ2 λmax γx Vv ρVv λ3X3| λmi n γy Vv φVv λ3Y ∠λ3 Rp kz kz kz kz Ra

TABLEAU5.1 – Les différents ensembles de descripteurs considérés pour l’apprentissage

Ces cinq jeux de descripteurs ont donc été utilisés en entrée de notre réseau de neu-rones pour la suite, et la qualité des résultats qu’ils apportent est analysée dans la suite.

5.1.2 Les sorties de l’apprentissage : une description complète de la

struc-ture en 3D

Le chapitre 2 a montré que plusieurs descripteurs 3D de forêt issus des profils LIDAR pouvaient être associés afin d’estimer la biomasse. Plus généralement, plus l’information de sortie est riche, plus les applications potentielles sont nombreuses.

La forme d’onde LIDAR contient différents types d’informations structurelles. Lorsque nous étudions la forme d’onde LIDAR de bas en haut, le premier maximum notable cor-respond à la contribution du sol. Sa forme est similaire à une fonction gaussienne, et sa largeur dépend de l’état du terrain et de la pente locale. La partie supérieure du signal

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

correspond à la contribution de la végétation. À partir de la séparation entre la contri-bution du sol et la contricontri-bution de la canopée, nous pouvons déduire trois composantes principales de la structure forestière, qui sont celles que nous choisissons dans la suite : la hauteur de l’arbre, la couverture de la canopée et la complexité de la distribution verticale.

La hauteur de la canopée

La hauteur de la canopée ou RH100 est fournie par LVIS avec les données délivrées. Dans la méthode implémentée par LVIS, la contribution du sol est d’abord recherchée, à partir du premier maximum local, celui situé le plus loin du capteur. Si un seul maximum local est trouvé, alors le capteur conclut à l’absence de végétation.

Les données sont délivrées avec les mises en garde suivantes sur les potentiels cas d’échec d’une telle estimation :

— lorsque le retour du sol est faible devant des retours de canopée, l’algorithme sélec-tionne la hauteur d’une couche réfléchissante plus élevée au sein de la canopée. — en présence de trop de bruit de fond, ce bruit peut être pris comme un écho de sol — la réponse du sol n’est pas clairement identifiable, c’est-à-dire que la réflexion la

plus basse se confond avec les réflexions des couches supérieures. Cet effet est ag-gravé par la pente du sol et la rugosité de la surface.

Ensuite, l’estimation de RH100 s’effectue en partie à partir de l’estimation de l’écho de sol. Toute erreur dans l’estimation de sol se répercute donc dans celle de la hauteur. D’autres erreurs additionnelles peuvent entacher l’estimation de la hauteur RH100. Aussi, il est clair que l’amélioration des méthodes d’interprétation de la forme d’onde peut per-mettre une meilleure précision des données. Or, l’enregistrement numérique de la forme de l’impulsion laser de retour signifie nous pouvons facilement appliquer nos propres méthodes d’estimation.

Pour ces raisons, nous avons proposé une méthode d’estimation de RH100 alterna-tive à celle choisie aujourd’hui par les fournisseurs de données LVIS. Nous choisissons d’estimer la hauteur du sol et celle de la canopée à partir de la décomposition gaussienne des profils LIDAR lissés, suivant les méthodes classiques exposées au chapitre 2 ?. Une fois l’écho de sol identifié, comme correspondant au maximum de la gaussienne située le plus bas, alors RH100 est estimé comme étant la valeur pour laquelle la totalité de l’énergie transmise, intégrée entre la hauteur du sol et celle de la canopée, correspond à l’énergie émise.

Nous avons analysé les différences entre ces deux types d’estimation. Sur les Lauren-tides, notre hauteur RH100 calculée est très corrélée avec le produit donné par le JPL, comme le montre l’histogramme en figure 5.1.

Les différences apparaissent lorsque l’on rencontre des difficultés pour déterminer la hauteur du sol. En effet, il arrive parfois que le signal du sol et de la canopée ne forment qu’une couche unique, et il est alors complexe de les séparer. Dans notre étude, lorsque la décomposition gaussienne juge qu’il n’existe qu’une seule couche, on conclut à l’ab-sence de végétation. Pourtant en pratique, il est possible de ne voir qu’un seul maximum local dans le profil en présence de végétation, par exemple en présence d’un sol de pente élevée, ou d’une végétation très dense qui masque la réponse de sol. La figure 5.2 illustre cette difficulté d’estimation. Dans cet exemple, la décomposition gaussienne aboutit à la superposition de deux fonctions : l’une qui représente un sol de faible contribution, et l’autre une canopée dense de 15 m de hauteur. Ce qui en résulte est une erreur d’estima-tion de plus de 6m.

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

FIGURE5.1 – Comparaison entre le RH100 délivré par LVIS et celui calculé à partir de la décompo-sition gaussienne

Par ailleurs, notons que cette définition de hauteur, liée au RH100, correspond physi-quement à la hauteur du point culminant parmi tous les échos contenus dans l’empreinte LIDAR. Cependant, il est possible de considérer d’autres définitions pour la hauteur de ca-nopée dans la littérature : par exemple la hauteur maximale moyennée sur l’empreinte, et la hauteur de Lorey, définie comme la moyenne des hauteurs des arbres pondérées par la surface de leur couronne. Cette dernière hauteur n’est pas déductible d’un LIDAR onde complète large empreinte.

FIGURE5.2 – Cas d’évaluation de RH100 entraînant une différence majeure entre les différentes méthodes d’estimation. Signal filtré en rouge, décomposition gaussienne en noir, hauteur du sol calculée en bleu, et hauteur RH100 fournie par LVIS en rouge foncé, hauteur RH100 calculée par nos soins en vert

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

Couverture forestière : le plan horizontal

Il existe également plusieurs paramètres forestiers pour décrire la densité de surface occupée par de la végétation. En anglais, il faut prendre garde au fait que la terminologie est délicate entre les concepts de canopy cover ou canopy closure, qui ne se réfèrent pas exactement aux mêmes définitions, mais sont parfois utilisés indistinctement.

En toute rigueur :

La canopy cover ou crown cover, ou couverture de canopée est la fraction de sur-face au sol couverte par la projection verticale des périmètres de la couronne des arbres. La couverture de canopée est communément exprimée en pourcentage de la superficie totale du sol ; par exemple, à 50% de la couverture de la canopée, la moitié de la superficie totale du sol est couverte par la projection verticale des cou-ronnes des arbres.

La canopy closure, ou fermeture de canopée, constitue une mesure ponctuelle de la couverture de canopée. Elle est la proportion de l’hémisphère du ciel obscurcie par la végétation lorsqu’elle est vue d’un seul point (JENNINGSet collab.[1999]). Elle est mesurée sur le terrain avec un densimètre sphérique.

Ces deux paramètres sont représentés sur la figure 5.3.

FIGURE5.3 – Les notions de canopy closure et canopy cover - (c) [KORHONENet collab.,2006]

La grandeur qui nous intéresse par la suite est celle de canopy cover : elle s’interprète facilement comme la proportion de sol occupée par les arbres, et plusieurs travaux s’at-tachent à la retrouver à partir des profils lidar. Pour cela, nous considérons le rapport entre la puissance du sol et celle des retours de la canopée. Ces grandeurs sont représentées sur la figure 5.4.

Le rapport entre ces deux puissances n’est pas directement égale à la couverture vé-gétale. En effet, lorsque la forêt est éclairée par le faisceau laser, les couches les plus pro-fondes de la végétation et du sol reçoivent moins de photons ou d’énergie laser que les couches supérieures. Dans BROLLYet collab.[2016],AHMEDet collab.[2013] etHOLLIN

-GERet collab.[2010], la formule empirique suivante (équation 5.1) a été proposée, pour relier la couverture de la canopée aux puissances AGdu sol et AC de la canopée :

Canopy Cover = AC AC+ 2AG

(5.1) La figure 5.5 montre la couverture de canopée dans une portion du parc des Lauren-tides calculée à partir de cette formule appliquée aux données LVIS.

Le type de profil vertical

La répartition verticale est la forme de la densité verticale de la canopée. Pour une hau-teur et une couverture de canopée donnée, la distribution verticale permet de montrer

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

FIGURE5.4 – Puissance des retours du sol (AGen rouge) et de la canopée (ACen vert)

FIGURE5.5 – Couverture de canopée estimée sur les Laurentides. Vert foncé : fermeture élevée ; Vert clair : fermeture faible

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

comment sont réparties les différentes couches de végétation. Cette information est in-téressante à plusieurs points de vue. Un profil vertical complexe, constitué de nombreux maxima, comme ceux mesurés au Gabon, nous laissent penser que la forêt est consti-tuée de nombreuses couches différentes, et donc de nombreuses espèces qui cohabitent. Au contraire, une profil simple laisse à penser qu’on est en présence d’une seule espèce majoritaire ; dans ce cas, il est encore possible de différencier les espèces par l’asymétrie de leur profil : les formes de répartition verticale entre un sapin ou un arbre à feuilles caduques sont significativement différentes, et la connaissance de l’espèce de ces arbres peut nous aider à améliorer la précision de l’évaluation de la biomasse.

C’est la raison pour laquelle nous avons décidé d’utiliser un algorithme de clustering pour apprendre des classes de profils verticaux, en associant à chaque forme d’onde une classe particulière. Cette association est effectuée en considérant le profil de hauteur de la canopée CHP seulement, normalisé en hauteur et en puissance. Ces classes sont alors indépendantes de la hauteur et de la couverture de canopée, les deux premiers critères utilisés précédemment pour la description de la structure 3D de la forêt.

La méthode de regroupement utilisée est le partitionnement spectral ou spectral clus-teringVONLUXBURG[2007] (implémentée par le module sklearn.cluster.SpectralClustering en python). Cette méthode nécessite de spécifier le nombre de clusters que l’on souhaite obtenir. Elle fonctionne bien pour un petit nombre de clusters, mais n’est pas conseillée pour de trop grand nombres.

Cette méthode a été comparée et préférée à d’autres algorithmes de clustering clas-siques, comme celle des K-means, qui a donné en pratique des classes trop proches.

Le partitionnement spectral utilise les vecteurs propres d’une matrice de similarités des profils LIDAR, en vue de partitionner l’ensemble des profils dans un espace de plus faible dimension. On se ramène alors un problème de partitionnement de graphe pour lequel les noeuds d’un même groupe sont similaires et les noeuds appartenant à des groupes différents sont dissimilaires. Dans notre problème, si N est le nombre de profils observés, la matrice de similarité S est une matrice de taille N× N, calculée par S = BBt, où B est une matrice contenant l’empilement de tous les profils observés de taille L. B est donc une matrice de taille N× L.

Sur les données des Laurentides, nous avons décidé de considérer trois classes de pro-fils de hauteur de canopée. Dans la figure 5.6 sont représentées les 3 classes. L’axe des abscisses est l’axe des hauteurs normalisées entre 0 et 1, représentant respectivement le bas et le haut de la couche de canopée. L’axe des ordonnées représente la proportion des photons transmis, normalisée pour que la puissance du signal soit égale à 1.

Ce regroupement a été effectué sur une zone de 3 km x 3 km. Dans la forêt des Lau-rentides, la diversité des arbres et des espèces est faible ; les classes sont proches les unes des autres et c’est la raison pour laquelle nous les avons décrites en trois catégories seule-ment. Dans une forêt plus complexe comme celle du Gabon, nous pensons qu’il serait préférable de choisir un nombre de classes plus élevé.

Au final, ces trois types de descripteurs : hauteur totale, couverture horizontale, et type de profil vertical, permettent de décrire la forêt suivant trois axes différents, synthétisés sur la figure 5.7.

A partir de ces trois axes, il est notamment possible d’avoir une estimation de la bio-masse plus fiable qu’à partir de la simple hauteur RH100 traditionnellement estimée par les méthodes d’inversion en PolInSAR. Au même titre que certaines équations allomé-triques font intervenir un facteur de forme, il est possible d’envisager une équation allo-métrique faisant intervenir le type de profil vertical et la couverture de canopée.

bio-CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

FIGURE5.6 – Trois classes de répartition verticale en forêt boréale

FIGURE5.7 – Les trois axes de descriptions de la forêt

masse à partir de 3 prédicteurs : le type de profil (ou sa conversion en facteur de forme), la couverture de canopée et la hauteur. Toutefois, selon de nombreux travaux dont ceux deCHAVEet collab.[2005], l’estimation de la biomasse d’un arbre s’accompagne toujours d’une erreur dont la plus grande partie est liée au choix de l’équation allométrique. AUssi, le trop faible nombre de points de mesure de biomasse en correspondance avec nos don-nées (de l’ordre de la dizaine), nous est paru insuffisant pour proposer une telle équation de manière fiable.

5.1.3 Les choix des outils de machine learning

Nous avons vu au chapitre 3 qu’il existe plusieurs critères à considérer lors du choix d’un algorithme d’apprentissage. Parmi eux, la précision, le temps de l’apprentissage, la linéarité, le nombre de fonctionnalités et le nombre de paramètres en sortie. La plupart des problèmes peuvent être divisés en trois classes générales :

CHAPITRE 5. UN SCHÉMA DE FUSION SUR LES LAURENTIDES : ANALYSE ET RÉSULTATS

sont mieux traités par des modèles simples comme les arbres de décision, la régres-sion linéaire, la régresrégres-sion logistique et Bayes naïve.

— Des problèmes clairement définis avec des ensembles de données de taille intermé-diaire, et un nombre de fonctionnalités gérable. Les méthodes d’ensemble, comme les arbres de décision et les forêts aléatoires sont habituellement les modèles les plus performants sur ces problèmes.

— Des problèmes complexes avec des grands ensembles de données et un grand nombre de fonctionnalités. C’est le domaine de l’apprentissage en profondeur. Différents types de réseaux de neurones sont nettement supérieurs à d’autres algorithmes dans ce domaine.

Dans cette thèse, nous abordons trois problèmes d’estimation : hauteur de l’arbre, couverture de la canopée et type de distribution verticale. Les deux premiers sont consi-dérés comme des problèmes de régression (estimation continue) tandis que le dernier est

Documents relatifs