Le Deep Learning - Prédire la structure des forêts à partir d'images PolInSAR par apprentissage

3.5.1 Un prolongement des réseaux de neurones . . . 75 3.5.2 Les travaux de deep learning en télédétection . . . 76

3.6 Conclusions Préliminaires . . . 78 3.7 Références . . . 79

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

3.1 Qu’est ce que l’apprentissage ?

L’apprentissage automatique (ou machine learning) est un processus qui crée un mo-dèle à partir d’un jeu de données d’entraînement, dans le but, par exemple, de classifier, mesurer ou prendre des décisions sur de nouvelles données.

On distingue deux cadres d’apprentissage :

— La démarche d’apprentissage supervisé, qui consiste à analyser un jeu de données empiriques, appelée base de données d’entraînement. Ces données sont étiquetées ou labellisées, c’est à dire associées à une description ou information, afin de pou-voir caractériser un nouveau jeu de données inconnu. L’algorithme apprend ainsi à partir de milliers ou de millions d’exemples étiquetés : il cherche la relation qui permet de relier les données aux labels.

— L’apprentissage non supervisé, où l’algorithme doit opérer en l’absence d’annota-tions.

La démarche supervisée est illustrée sur la figure 3.1. Dans une grande image, nous considérons disposer d’un certain nombre de vignettes, auxquelles sont associées un la-bel ou information. Dans notre exemple, ce lala-bel est un type d’espèce végétale : bouleau, pin, sapin. A partir de ces vignettes, l’algorithme d’apprentissage doit élaborer une fonc-tion d’inférence, qui prend en entrée une vignette image, et fournit en sortie un label (ici, la classe de végétation). Une fois cette étape d’apprentissage terminée, dès lors que l’on présente une nouvelle vignette image à l’ordinateur, l’application de la fonction d’infé-rence donnera l’espèce qu’elle pense lui être associée.

FIGURE3.1 – Exemple schématique de la fonction d’apprentissage

La fonction d’inférence, qui permet de passer d’un signal à un label, peut corres-pondre à plusieurs types de tâches : il peut s’agir d’effectuer une classification binaire (détection) ou multi-classes, la régression d’une variable continue ou l’ estimation d’une probabilité d’appartenance à une classe, ou encore l’ordonnancement de données ou ranking.

Ces différents types de fonctions sont illustrés sur la figure 3.2. En pratique dans le cas des enjeux en relation avec cette thèse, l’apprentissage pourra être appliqué à une fonction de détection (détection d’un gisement d’hydrocarbure dans le sol sous-couvert végétal par exemple) ; à une fonction de classification (réaliser une image de différentes classes d’espèces végétales en présence) ; à une fonction de régression : estimer un para-mètre spécifique, comme la hauteur de la couche végétale, ou une fonction d’ordre

(ran-CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

king), dans laquelle la sortie pourra correspondre au numéro de la classe végétale la plus probable.. D’autres exemples sont possibles.

FIGURE3.2 – Exemples pour les différentes fonctions d’inférence possibles

Pour cette thèse, on s’intéressera à un problème d’estimation de différents paramètres représentatifs de la structure 3D de végétation à partir de données Radar PolInSAR et LI-DAR. Il s’agira par exemple d’estimer la hauteur de la végétation. Pour cela, on exploitera le fait que les données disponibles permettent d’obtenir une telle grandeur à partir de différents descripteurs calculés sur ces données. Puisque le Lidar offre une meilleure pré-cision d’estimation des paramètres mais une moins bonne couverture spatiale, contraire-ment aux données radar, l’approche consistera à établir par apprentissage un modèle de type régression entre les descripteurs calculés dans la donnée Lidar et ceux obtenus sur la donnée Radar. Dans ces conditions, la base d’apprentissage sera constituée des don-nées radar qui seront labellisées par le biais des dondon-nées Lidar. Le label sera la valeur des descripteurs Lidar utiles pour les grandeurs que l’on souhaite estimer. Une fois ce mo-dèle déterminé, on pourra inférer sur l’image radar entière ce qui permettra d’estimer les valeurs de paramètres recherchés aux endroits non couverts par le Lidar.

Pour cette démarche, la difficulté essentielle est d’établir un modèle entre des infor-mations reliées à des mesures physiques différentes (LIDAR et PolInSAR). Cela pose no-tamment la question du choix des descripteurs les plus pertinents qui permettent de re-montrer aux paramètres représentatifs de la structure 3D de végétation.

Dans la littérature, il existe une grande diversité d’approches en machine learning. Le choix d’une méthode dépend du problème adressé, notamment du type de modèle d’inférence à déterminer. On distingue notamment les approches selon la complexité du modèle : spécifique ou généraliste. Un autre critère important est la taille de la base d’ap-prentissage. Trop petite, elle ne permet pas par exemple d’envisager les méthodes de deep learning. Par la suite, seules les méthodes les plus intéressantes pour notre problème se-ront exposées, en explicitant leurs avantages et inconvénients, ainsi que les difficultés rencontrées en pratique.

Les méthodes testées sont de quatre types : • Les SVM

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

• Le perceptron : un réseau de neurones multi-couches. • Les Random forests

• Le deep learning à travers les réseaux convolutionnels CNN (Convolutional Neural Networks)

3.2 Les Support Vector Machine

3.2.1 Généralités

Les algorithmes de type Support Vector Machine (SVM) ont été introduits parBOSER

et collab. [1992]. Ils se sont révélés être une excellente méthode en reconnaissance de formes (pattern recognition) par apprentissage statistiqueVAPNIK[1998],CRISTIANINIet SHAWE-TAYLOR[2000].

Une méthode de type SVM répond à un problème de classification en deux classes, de manière supervisée. Dès lors qu’on dispose d’un ensemble de données de départ ap-partenant à deux catégories distinctes, le SVM permet de déterminer à quelle catégorie appartient une nouvelle donnée. La résolution de ce problème passe donc par la déter-mination d’une frontière séparatrice entre les deux catégories.

De part sa conception, une approche de type SVM est applicable au cas de données linéairement séparables pour des problèmes de classification binaire. Le principe de base est de trouver une frontière qui sépare au mieux les données entre les deux catégories. Mathématiquement, il peut exister une infinité de séparatrices linéaires capables de parer deux ensembles de données (voir figure ci-dessous) ; pour trouver celle qui les sé-pare au mieux, on choisit la frontière avec la marge la plus grande, celle qui maximise la distance entre les points d’entraînement et cette frontière. Les points d’entraînement les plus proches de la frontière sont appelés vecteurs support, et c’est d’eux que les SVM tirent leur nom : SVM signifie Support Vector Machine, ou Machines à Vecteur Support en français.

Par la suite, nous détaillons l’approche SVM. Nous verrons également les extensions qui permettent de généraliser l’approche au cas de problèmes de classification multi-classes et dans le cas de données non linéairement séparables.

3.2.2 Hyperplan séparateur

D’un point de vue formel, la résolution des différents problèmes par les SVM passe par la construction d’une fonction h, qui à un vecteur d’entrée x fait correspondre une sortie y binaire par y = h(x).

Dans le cas simple où il s’agit de discriminer deux ensembles de vecteurs appartenant àRNpar une fonction linéaire, on a alors l’équation suivante :

h(x) =ωt

x + ω0 (3.1)

avec x = (x1, ..., xN)^t etω = (ω1, ...,ωN)^t. Le vecteurω est appelé vecteur de poids, et le scalaireω0est appelé biais.

Avec cette définition, h(x) = 0 est l’équation d’un hyperplan affine, appelé hyperplan séparateur. Si h(x) est positif ou nul, alors x est d’un côté de l’hyperplan affine et appar-tient à la première catégorie, sinon x est de l’autre côté de l’hyperplan, et donc apparappar-tient à la seconde catégorie. Le signe de h(x) nous permettra donc de décider du label associé.

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

Le but de l’algorithme SVM est d’apprendre la fonction h(x) à partir d’un ensemble d’apprentissage. Considérons donc un ensemble d’apprentissage, qui contient tout un ensemble de p vecteurs descripteurs x_k, ainsi que leurs labels l_k associé. Dans un cas de classification binaire, on décide que le label l_k vaut 1 si x_k appartient à la première catégorie, et -1 si x_kappartient à la seconde catégorie. Alors, si le SVM est correctement entraîné, on a toujours l_kh(x_k) ≥ 0, c’est-à-dire :

l_k(ωt

x_k+ ω0) ≥ 0 : ∀xk, k ∈ R^N× [1, p] (3.2)

3.2.3 L’hyperplan optimal de marge maximale

La recherche de ce plan n’est pas évident et dans le cas d’un problème linéairement séparable, il existe une infinité d’hyperplans qui permettent de séparer les données. Le principe des SVM repose sur le fait qu’il a été démontré qu’il existe un unique hyperplan optimal, défini comme l’hyperplan qui maximise la marge entre les échantillons et l’hy-perplan séparateur. La marge est la distance entre l’hyl’hy-perplan et les échantillons les plus proches. Ces derniers sont appelés vecteurs supports, d’où le nom de SVM. L’hyperplan qui maximise la marge est donné par :

argmax ω,ω0 min k ©||x − xk|| : x ∈ R^N,ωt x + ω0= 0ª (3.3)

FIGURE3.3 – L’hyperplan optimal (en rouge) avec la marge maximale. Les échantillons entourés sont des vecteurs supports - Par Sylenius, Wiki Commons, CC BY-SA 3.0

Le problème d’optimisation de la marge peut se ré-écrire :

argmax ω,ω0 min k l_k(ωtx_k+ ω0) |ω| ^(3.4)

Même si l’hyperplan optimal est unique, il existe plusieurs couples (ω,ω0) qui dé-crivent ce même hyperplan, et on peut donc ne considérer que l’unique paramétrage (ω,ω0) tel que les vecteurs support vérifient l_s(ωtx_s+ ω0) = 1

Par conséquent, le problème d’optimisation peut se ramener au problème suivant : maximiser_|_ω|¹ sous la contrainte ∀k,lk(ωtx_k+ ω0) ≥ 1

Ce genre de problème se ramène à un problème d’optimisation quadratique, et il existe de nombreuses méthodes pour le résoudre, comme celle des multiplicateurs de La-grange, qui permet de trouverω. On en déduit ensuite ω0tel que min

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

3.2.4 Les cas non linéairement séparables : l’utilisation de Kernel

La majorité des problèmes rencontrés ne sont pas des problèmes linéairement sépa-rables. Pour répondre à ces cas, l’idée est de changer l’espace des données en passant dans un espace de dimension supérieure, éventuellement infinie où il existerait une dis-crimination linéaire. La démarche consiste alors à trouver la marge optimale à partir des données placées dans leur nouvel espace de représentation.

On définit pour ce faire une transformation non linéaire :Φ:RN→ K On recherche alors l’hyperplan :

l_k(ωtΦ(x_k) + ω0) ≥ 0 : ∀x, k ∈ R^N× [1, p] (3.5) Le problème de résolution de cette minimisation est qu’elle implique un produit sca-laire entre vecteurs dans l’espace de redescription, de dimension élevée, ce qui est coû-teux en termes de calculs. Pour résoudre ce problème, on utilise une optimisation connue sous le nom de Kernel trick, ou astuce du noyau en français, qui consiste à utiliser une fonction noyau, qui vérifie :

K(xi, xj) =Φ(xi)^t·Φ(xj) (3.6) Seule la fonction noyau intervient dans les calculs, et non pas la fonctionΦ. Cette mé-thode est appelée kernel trick. La fonction noyau doit respecter certaines conditions, elle doit correspondre à un produit scalaire et pour cela doit être symétrique, semi-définie po-sitive. Les noyaux les plus couramment utilisés sont les noyaux polynomiaux, gaussiens, laplacien, ou rationnels. Chacun possède des avantages et inconvénients, et il convient donc de les choisir au cas par cas pour son problème. Cependant, il existe des ensembles qui sont non séparables, quelles que soient les transformations qu’on lui fasse subir : en d’autres termes il n’existe pas toujours de fonction noyau satisfaisante qui permettent de séparer les données.

La figure 3.4 illustre un exemple de création de frontière non linéaire, qui, suite à un changement d’espace de représentation, devient linéairement séparable.

FIGURE3.4 – Exemple d’une frontière non linéaire entre 2 ensembles - illustration Wiki Creative Commons CC BY-SA 4.0 by Alineasky

3.2.5 Du cas binaire au cas multi-classes, puis à la régression

Dans le cas précédent, nous avons explicité le principe des SVM pour des méthodes à deux classes. Pour pouvoir traiter un problème à plus de deux classes, on peut étendre le principe du SVM binaire en suivant deux méthodes : le Un contre Tous one versus all ou le Un contre Un one versus one, tous deux explicités ci-dessous.

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

Le one versus one revient à considérer tous les classifieurs comparant deux classes pos-sibles. Tous les duels entre deux classes sont donc évalués, et le résultat de classification sera la classe majoritairement votée. L’inconvénient de cette méthode est que le nombre de paires à considérer est proportionnel au carré du nombre de catégories, aussi le temps de calcul peut croître considérablement en fonction du nombre de classes.

Le one versus all consiste à créer une classification SVM binaire par classe. Pour chaque classe, on considère le SVM entre cette classe et l’ensemble de toutes les autres classes réunies. Pour classer une nouvelle entrée, on regarde à quelle catégorie elle est le plus susceptible d’appartenir. L’inconvénient de cette seconde méthode est que, quand le dés-équilibre entre la quantité de données de deux catégories est trop grand, un SVM obtient de moins bons résultats.

Les SVM sont à l’origine conçus pour fonctionner dans le cadre de la classification. Mais ils peuvent aussi être adaptés au cas de la régression, en gardant les mêmes carac-téristiques qui s’appuient sur la notion de marge maximale. Dans ce cas, l’ensemble des données d’apprentissage comprend des variables prédictives x et des valeurs de réponses observées y. Au lieu de valoir -1 ou 1 les etiquettes y peuvent maintenant prendre n’im-porte quelle valeur réelle.

On appelle ces techniques parfois SVR pour Support Vector Regression. L’objectif est de trouver une fonction, toujours décrite par les paramètres ω et ω0 , qui permette a chaque point d’entraînement d’être aussi varié que possibleSMOLAet SCHÖLKOPF[2004].

Dans le cas linéaire, l’équation à résoudre revient à la maximisation de 1/ |ω| avec : ½ ωt

x + ω0− y ≤ ²

ωtx − ω0+ y ≤ ² ^(3.7)

où y est un label désormais continu de l’échantillon x et² un paramètre seuil. Comme dans le cas des SVM pour la classification, il est alors possible de généraliser la méthode à des régressions non-linéaires en utilisant des fonctions noyaux.

En pratique, il existe plusieurs implémentations des SVR : la formulation²-SVR, ν-SVR et SVR linéaire.

L’implémentation du SVR linéaire (LinearSVR dans les modules python de scikit-learn) propose une implémentation plus rapide que les SVR, mais ne considère que le cas du noyau linéaire décrit ci-dessus.²-SVR peut traiter le cas de noyaux différents, où le pa-ramètre² garde la même signification que dans l’équation 3.7 : il spécifie une forme de "tube" ou marge de largeur epsilon, dans lequel aucune pénalité n’est associée dans la fonction de perte d’entraînement, pour tous les points qui se situent à une distance de la valeur réelle inférieure à². Enfin, ν-SVR (module NuSVR) implémente une formula-tion légèrement différente que la méthode²-SVR. Il s’agit d’une version où le paramètre ν contrôle le nombre de vecteurs supports : c’est un paramètre entre 0 et 1, et il est prouvé qu’il est une limite supérieure sur la fraction des erreurs d’entraînement et une borne inférieure de la fraction des vecteurs de support.

Dans la suite de notre étude, nous avons privilégié la méthode²-SVR.

3.2.6 Exemple d’utilisation de SVM pour l’étude des forêt en imagerie

SAR

Les SVM sont des outils largement répandus en classification d’images, y compris de télédétection. En imagerie SAR, les algorithmes de type SVM ont été beaucoup utili-sés pour la classification de terrain (FUKUDAet HIROSAWA[2001],MOUNTRAKISet collab.

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

[2011],TANet collab.[2007]). La raison de ce succès réside d’abord dans la facilité d’im-plémentation de cette méthode, et dans sa rapidité d’exécution associée à de bons scores. La forêt fait partie des domaines d’étude investigués par les SVM appliqués aux images SAR. La plupart de ces travaux mettent à profit l’information polarimétrique dans la clas-sification. Ainsi, MAGHSOUDI et collab. [2013] comparent le choix de nombreux para-mètres SAR polarimétriques pour la classification des espèces d’arbres de forêts boréales. Plusieurs résultats de décompositions polarimétriques sont utilisées en entrée du classi-fieur, notamment ceux issus des décompositions de Krogager, Huygen, H/A/α, Freeman ou Touzi.

Les résultats de classification par SVM sont meilleurs que ceux des classifications non-paramétriques basées sur les distributions de Wishart des matrices de cohérence pola-rimétrique. Il est aussi intéressant de remarquer que le score de classification plafonne avec le nombre de paramètres d’entrée, autour de cinq. Ceci tend à démontrer qu’il est préférable de partir de descripteurs pertinents en entrée du SVM afin de maximiser les performances de la classification.

Les travaux de MÜLLER et collab. [2015] se rapprochent beaucoup de la démarche proposée dans cette thèse : ils concernent encore une problématique de classification d’espèce végétale, à partir de données radar ou optique, en utilisant des données LI-DAR comme données d’entraînement. Cependant, les étiquettes associées demeurent simples : il s’agit de classifier les données en parcelles végétalisées ou non, à partir des profils LIDAR CHM (définis au chapitre 2). Plusieurs tests sont fait sur des descripteurs issus des intensités optiques, des intensités polarimétriques radar, ou de la combinaison des deux capteurs. Les résultats de classifications sont meilleurs lorsque tous les descrip-teurs sont utilisés, avec dans ce cas un taux de bonne classification supérieur à 99 %. Par contre, les scores sont beaucoup moins bons dès lors qu’il s’agit d’essayer de différencier des classes de végétation par leur hauteurs déduites des profils LIDAR.

Ces résultats ont été confortés par nos travaux : les intensités polarimétriques pures sont très peu corrélées aux hauteurs de végétation. Il ne semble donc pas judicieux d’ap-prendre des paramètres structurels 3D uniquement à partir des intensités polarimétriques ; l’information interférométrique est réellement nécessaire.

Les travaux qui utilisent les SVM sur des données radar de forêts à des fins de régres-sion sont beaucoup plus rares. Parmi eux, il faut mentionnerNEUMANNet collab.[2012], où les SVM sont appliqués aux coefficients de rétrodiffusion d’images polarimétriques et interférométriques en bande P et L, dans le but de prédire la biomasse en forêt boréale. Les conclusions de ces travaux sont multiples : l’utilisation des trois canaux polarimé-triques améliore la précision de mesure, notamment en permettant d’estimer les contri-butions relatives entre sol et volume ; la bande P donne de meilleurs résultats que la bande L, notamment parce que la biomasse contenue dans ces forêts est majoritairement celle provenant des troncs, et que la bande P y est plus corrélée que la bande L.

Par ailleurs, les auteurs comparent les précisions obtenues pour différents types d’ap-prentissage : SVM, random forest, régression linéaire multiple par rapport à des méthodes paramétriques. Les méthodes d’estimation non paramétriques n’ont pas amélioré l’esti-mation de la RMSE obtenue sur la biomasse, mais semblerait donner des distributions de biomasses plus réalistes.

A notre connaissance, il n’y a pas d’autres travaux appliquant les SVM à des données radar, dans une optique de régression, que ce soit pour l’estimation de la biomasse ou la hauteur de canopée.

En conclusion, les SVM sont des outils qui ont fait leur preuve à de nombreuses re-prises pour des problématiques de classification d’images de télédétection. Ils donnent

CHAPITRE 3. L’APPRENTISSAGE AUTOMATIQUE EN TÉLÉDÉTECTION

des résultats tout à fait encourageants, notamment lorsque les ensembles d’entraînement ne sont pas immenses. Mais les SVM ont été très rarement utilisés à des fins d’estimation de biomasse ou de paramètre 3D ; par ailleurs, nous n’avons pas trouvé dans la littéra-ture de travaux qui tentent d’apprendre un ensemble multidimensionnel de descripteurs LIDAR à partir de données PolInSAR.

3.3 Les Perceptrons

3.3.1 Les Réseaux de Neurones

Les réseaux neuronaux sont une approche informatique basée sur une grande collec-tion d’unités neuronales ou neurones artificiels. Leur architecture s’inspire de la façon souple dont un cerveau effectue des tâches à l’aide de groupes de neurones biologiques reliés par des axones.

Chaque unité neuronale est connectée à beaucoup d’autres, et les liens peuvent être contraignants ou inhibiteurs sur l’état d’activation des unités neuronales connectées. Chaque unité neuronale individuelle peut avoir une fonction de sommation qui combine les va-leurs de toutes ses entrées. Il peut y avoir une fonction de seuil ou de limitation sur chaque

Dans le document Prédire la structure des forêts à partir d'images PolInSAR par apprentissage de descripteurs LIDAR (Page 80-98)