HAL Id: hal-02801404
https://hal.archives-ouvertes.fr/hal-02801404v2
Submitted on 6 Jun 2016
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries
temporelles d’images satellite à haute résolution
Maïlys Lopes, Stéphane Girard, Mathieu Fauvel
To cite this version:
Maïlys Lopes, Stéphane Girard, Mathieu Fauvel. Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries temporelles d’images satellite à haute résolution.
48èmes Journées de Statistique organisées par la Société Française de Statistique, May 2016, Mont-
pellier, France. �hal-02801404v2�
Divergence de Kullback-Leibler en grande dimension pour la classification des prairies ` a partir de s´ eries temporelles d’images satellite ` a
haute r´ esolution
Ma¨ılys Lopes 1 , St´ ephane Girard 2 & Mathieu Fauvel 1
1 DYNAFOR, Universit´ e de Toulouse, 31320 Auzeville-Tolosane, France - mailys.lopes@toulouse.inra.fr, mathieu.fauvel@ensat.fr
2 Inria Grenoble Rhˆ one-Alpes & LJK, 38334 Saint-Ismier, France - stephane.girard@inria.fr
R´ esum´ e. Les nouvelles missions satellite offrent des s´ eries temporelles d’images ` a haute r´ esolution spatiale. Des outils statistiques appropri´ es sont requis afin de g´ erer la grande dimension des donn´ ees face au faible nombre d’´ echantillons de r´ ef´ erence. L’objectif de cette
´ etude est de construire un mod` ele permettant la classification d’objets non-homog` enes du paysage, les prairies, ` a partir d’une s´ erie temporelle d’un indice de v´ eg´ etation spectral. La m´ ethode propos´ ee utilise la divergence de Kullback-Leibler adapt´ ee ` a la grande dimension pour calculer la distance entre chaque paire de prairies. Elle permettra la classification ` a l’´ echelle de l’objet avec un ´ echantillon de petite taille et un nombre de variables ´ elev´ e.
Mots-cl´ es. Grande dimension, Divergence de Kullback-Leibler, Classification, T´ el´ ed´ etection
Abstract. New satellite missions offer dense satellite image time series with high spatial resolution. Appropriate statistical tools are required to cope with the high dimension of the data and the small number of control samples. The aim of this study is to build a model that enables the classification of grasslands, non-homogeneous objects of the landscape, from a spectral vegetation index time series. The method uses the Kullback- Leibler divergence adapted to high dimension to compute the distance between each couple of grasslands. This model makes possible the classification at the object scale with a small sample size and a high number of variables.
Keywords. High dimension, Kullback-Leibler divergence, Classification, Remote sensing
1 Introduction
Les prairies sont un habitat semi-naturel d’int´ erˆ et pour les ´ ecologues car elles abritent une importante biodiversit´ e. Les ´ ev` enements de nature anthropiques, comme la fauche et/ou le pˆ aturage perturbent le cycle naturel, la structure et la composition de la v´ eg´ etation.
Pour ces raisons, il est important d’identifier les types de pratiques dans chaque parcelle
afin de pr´ edire leurs effets sur la biodiversit´ e.
Dans ce contexte, la t´ el´ ed´ etection apparaˆıt comme un outil adapt´ e pour caract´ eriser les prairies ` a l’´ echelle du paysage grˆ ace ` a la large couverture spatiale et la fr´ equence de revisite ´ elev´ ee des capteurs satellite. Cependant, le signal r´ efl´ echi par les prairies est plus difficile ` a interpr´ eter compar´ e aux couvertures v´ eg´ etales monosp´ ecifiques comme les cultures, car les prairies sont compos´ ees d’esp` eces diverses, vari´ ees et m´ elang´ ees. Ce sont donc des objets non-homog` enes. De plus, les prairies sont des ´ el´ ements relativement petits du paysage (de l’ordre de l’hectare) qui n´ ecessitent des images ` a haute r´ esolution spatiale pour ˆ etre d´ etectables [1]. Etant donn´ e leur cycle ph´ enologique et la ponctualit´ e des ´ ev` enements anthropiques (e.g., fauche), des s´ eries temporelles tr` es denses couvrant le cycle de v´ eg´ etation sont n´ ecessaires pour identifier les types de conduite agricole [2].
Le but de cette ´ etude est d’identifier les types de pratiques dans les prairies en utilisant des s´ eries temporelles ` a haute r´ esolution temporelle d’un indice de v´ eg´ etation spectral.
La principale contrainte en t´ el´ ed´ etection est le faible nombre d’´ echantillons de r´ ef´ erence compar´ e au grand nombre de variables.
Les approches classiques de classification op` erent pixel par pixel. Il en r´ esulte plusieurs classes au sein d’une mˆ eme parcelle, ce qui n’est pas r´ ealiste, surtout dans le cas de modes de conduite qui sont d´ efinis ` a l’´ echelle de la prairie. Cela conduit ` a travailler ` a l’´ echelle de la parcelle, avec la contrainte qu’il ne s’agit pas d’un objet homog` ene dans le cas des prairies.
La premi` ere contribution de la m´ ethode pr´ esent´ ee est de prendre en compte la variabilit´ e spectrale dans une prairie. Nous avons consid´ er´ e que la distribution de l’indice de v´ eg´ etation des pixels dans une prairie donn´ ee peut ˆ etre mod´ elis´ ee par un distribution gaussienne.
Puis, la divergence de Kullback-Leibler a ´ et´ e utilis´ ee pour calculer la distance entre chaque paire de prairies. Pour faire face ` a la petite taille de l’´ echantillon de r´ ef´ erence compar´ e au nombre de variables temporelles, un mod` ele parsimonieux gaussien est propos´ e en seconde contribution. Il s’agit d’une premi` ere ´ etape pour faire de la classification supervis´ ee et non supervis´ ee.
2 Jeu de donn´ ees
Le jeu de donn´ ees est compos´ e de 52 parcelles situ´ ees au sud de Toulouse, s’´ etendant sur 44000 km 2 . Trois modes de conduite ont ´ et´ e identifi´ es sur cet ´ echantillon : une fauche (34 parcelles), pˆ aturage (10 parcelles) et mixte (fauche puis pˆ ature, 8 parcelles). L’enquˆ ete a ´ et´ e effectu´ ee en 2015 aupr` es des agriculteurs en les questionnant sur l’historique de la prairie.
Les donn´ ees satellite sont issues d’une s´ erie de 17 images Formosat-2 acquises en
2013. Ce sont des donn´ ees multispectrales (4 bandes) dot´ ees d’une r´ esolution spatiale
de 8 m` etres. Sur chaque image, nous avons calcul´ e un indice de v´ eg´ etation, l’Indice de
V´ eg´ etation par Diff´ erence Normalis´ ee (NDVI). Le NDVI refl` ete l’activit´ e photosynth´ etique
de la v´ eg´ etation. Ainsi, chaque pixel x de la prairie est represent´ e par un vecteur de R 17 .
3 Divergence de Kullback-Leibler en grande dimension pour la classification
3.1 KLD sym´ etris´ ee
La distribution de la r´ eflectance des pixels des prairies est mod´ elis´ ee par une distribution gaussienne, i.e. la densit´ e des pixels x est, conditionnellement ` a la prairie g i , une distribution gaussienne. Pour calculer la similarit´ e entre les distributions de deux prairies, nous avons utilis´ e la divergence de Kullback-Leibler (KLD) [3] sym´ etris´ ee. La KLD sym´ etris´ ee entre deux distributions gaussiennes peut s’´ ecrire :
KLD(g i , g j ) = 1 2 h
Tr
Σ −1 i Σ j + Σ −1 j Σ i
+ (µ i − µ j ) > Σ −1 i + Σ −1 j
(µ i − µ j ) i
− d (1) o` u d est le nombre de variables, Tr est l’op´ erateur de la trace, µ i et Σ i sont le vecteur moyen et la matrice de covariance de la prairie g i . Ils sont estim´ es par leurs ´ equivalents empiriques ˆ µ i = n 1
i
P n
il=1 x l et ˆ Σ i = n 1
i
P n
il=1 (x l − µ ˆ i )(x l − µ ˆ i ) > avec n i le nombre de pixels dans la prairie g i .
Malheureusement, le nombre de pixels utilis´ es dans l’estimation est petit compar´ e au nombre de variables. La Figure ?? montre que le nombre de pixels de la plupart des prairies est inf´ erieur au nombre de param` etres ` a estimer. Ainsi, la matrice de covariance n’est pas inversible pour ces prairies. De plus, pour les autres prairies, les matrices de covariance estim´ ees dans l’´ eq.(1) sont mal conditionn´ ees, provoquant l’instabilit´ e num´ erique de leur inverse. Pour faire face ` a ce probl` eme, des d´ eveloppements statistiques sp´ ecifiques sont consid´ er´ es dans le paragraphe suivant.
3.2 Divergence de Kullback-Leibler en grande dimension (HDKLD)
Dans ce travail, un mod` ele parcimonieux est utilis´ e pour mod´ eliser la distribution gaussienne des prairies [4]. Ce mod` ele suppose que les derni` eres (les plus petites) valeurs propres de la matrice de covariance sont ´ egales. Selon ce mod` ele, la matrice de covariance de la prairie g i peut s’´ ecrire :
Σ i = Q i Λ i Q > i + λ i I d (2) o` u : Q i =
q i1 , . . . , q ip
i, Λ i = diag h
λ i1 − λ i , . . . , λ ip
i− λ i i
, I d est la matrice identit´ e de taille d, q ij , λ ij sont les j emes valeurs/vecteurs propres de la matrice de covariance Σ i , j ∈ {1, . . . , d} tels que λ i1 ≥ . . . ≥ λ id , p i est le nombre de valeurs propres non ´ egales, et λ i est la valeur propre multiple correspondant au bruit (derni` eres et ´ egales valeurs propres).
Suivant ce mod` ele, l’inverse de la matrice de covariance peut ˆ etre calcul´ ee explicitement :
Σ −1 i = −Q i V i Q > i + λ −1 i I d (3)
avec V i = diag h
1 λ
i− λ 1
i1
, . . . , λ 1
i
− λ 1
ipi
i
, et l’´ eq.(1) peut s’´ ecrire : HDKLD(g i , g j ) = 1
2 h
− kΛ
1 2
j Q > j Q i V
1 2
i k 2 F − kΛ
1 2
i Q > i Q j V
1 2
j k 2 F +λ −1 i Tr
Λ j
−λ j Tr V i
+λ −1 j Tr Λ i
−λ i Tr V j
−kV i
12Q > i (µ i −µ j )k 2 −kV j
12Q > j (µ i −µ j )k 2 + λ i + λ j
λ i λ j
k(µ i − µ j )k 2 + λ 2 i + λ 2 j λ i λ j
d i
− d (4) o` u kLk 2 F = Tr(L > L) est la norme de Frobenius.
3.3 Estimation
Les param` etres de l’´ eq.(4) sont estim´ es pour chaque prairie g i ` a partir du vecteur moyen et la matrice de covariance empiriques tels que [4] :
— ˆ λ i = Tr( ˆ Σ
i)−
P
j≤pi