• Aucun résultat trouvé

Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries temporelles d'images satellite à haute résolution

N/A
N/A
Protected

Academic year: 2021

Partager "Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries temporelles d'images satellite à haute résolution"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-02801404

https://hal.archives-ouvertes.fr/hal-02801404v2

Submitted on 6 Jun 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries

temporelles d’images satellite à haute résolution

Maïlys Lopes, Stéphane Girard, Mathieu Fauvel

To cite this version:

Maïlys Lopes, Stéphane Girard, Mathieu Fauvel. Divergence de Kullback-Leibler en grande dimension pour la classification des prairies à partir de séries temporelles d’images satellite à haute résolution.

48èmes Journées de Statistique organisées par la Société Française de Statistique, May 2016, Mont-

pellier, France. �hal-02801404v2�

(2)

Divergence de Kullback-Leibler en grande dimension pour la classification des prairies ` a partir de s´ eries temporelles d’images satellite ` a

haute r´ esolution

Ma¨ılys Lopes 1 , St´ ephane Girard 2 & Mathieu Fauvel 1

1 DYNAFOR, Universit´ e de Toulouse, 31320 Auzeville-Tolosane, France - mailys.lopes@toulouse.inra.fr, mathieu.fauvel@ensat.fr

2 Inria Grenoble Rhˆ one-Alpes & LJK, 38334 Saint-Ismier, France - stephane.girard@inria.fr

R´ esum´ e. Les nouvelles missions satellite offrent des s´ eries temporelles d’images ` a haute r´ esolution spatiale. Des outils statistiques appropri´ es sont requis afin de g´ erer la grande dimension des donn´ ees face au faible nombre d’´ echantillons de r´ ef´ erence. L’objectif de cette

´ etude est de construire un mod` ele permettant la classification d’objets non-homog` enes du paysage, les prairies, ` a partir d’une s´ erie temporelle d’un indice de v´ eg´ etation spectral. La m´ ethode propos´ ee utilise la divergence de Kullback-Leibler adapt´ ee ` a la grande dimension pour calculer la distance entre chaque paire de prairies. Elle permettra la classification ` a l’´ echelle de l’objet avec un ´ echantillon de petite taille et un nombre de variables ´ elev´ e.

Mots-cl´ es. Grande dimension, Divergence de Kullback-Leibler, Classification, T´ el´ ed´ etection

Abstract. New satellite missions offer dense satellite image time series with high spatial resolution. Appropriate statistical tools are required to cope with the high dimension of the data and the small number of control samples. The aim of this study is to build a model that enables the classification of grasslands, non-homogeneous objects of the landscape, from a spectral vegetation index time series. The method uses the Kullback- Leibler divergence adapted to high dimension to compute the distance between each couple of grasslands. This model makes possible the classification at the object scale with a small sample size and a high number of variables.

Keywords. High dimension, Kullback-Leibler divergence, Classification, Remote sensing

1 Introduction

Les prairies sont un habitat semi-naturel d’int´ erˆ et pour les ´ ecologues car elles abritent une importante biodiversit´ e. Les ´ ev` enements de nature anthropiques, comme la fauche et/ou le pˆ aturage perturbent le cycle naturel, la structure et la composition de la v´ eg´ etation.

Pour ces raisons, il est important d’identifier les types de pratiques dans chaque parcelle

afin de pr´ edire leurs effets sur la biodiversit´ e.

(3)

Dans ce contexte, la t´ el´ ed´ etection apparaˆıt comme un outil adapt´ e pour caract´ eriser les prairies ` a l’´ echelle du paysage grˆ ace ` a la large couverture spatiale et la fr´ equence de revisite ´ elev´ ee des capteurs satellite. Cependant, le signal r´ efl´ echi par les prairies est plus difficile ` a interpr´ eter compar´ e aux couvertures v´ eg´ etales monosp´ ecifiques comme les cultures, car les prairies sont compos´ ees d’esp` eces diverses, vari´ ees et m´ elang´ ees. Ce sont donc des objets non-homog` enes. De plus, les prairies sont des ´ el´ ements relativement petits du paysage (de l’ordre de l’hectare) qui n´ ecessitent des images ` a haute r´ esolution spatiale pour ˆ etre d´ etectables [1]. Etant donn´ e leur cycle ph´ enologique et la ponctualit´ e des ´ ev` enements anthropiques (e.g., fauche), des s´ eries temporelles tr` es denses couvrant le cycle de v´ eg´ etation sont n´ ecessaires pour identifier les types de conduite agricole [2].

Le but de cette ´ etude est d’identifier les types de pratiques dans les prairies en utilisant des s´ eries temporelles ` a haute r´ esolution temporelle d’un indice de v´ eg´ etation spectral.

La principale contrainte en t´ el´ ed´ etection est le faible nombre d’´ echantillons de r´ ef´ erence compar´ e au grand nombre de variables.

Les approches classiques de classification op` erent pixel par pixel. Il en r´ esulte plusieurs classes au sein d’une mˆ eme parcelle, ce qui n’est pas r´ ealiste, surtout dans le cas de modes de conduite qui sont d´ efinis ` a l’´ echelle de la prairie. Cela conduit ` a travailler ` a l’´ echelle de la parcelle, avec la contrainte qu’il ne s’agit pas d’un objet homog` ene dans le cas des prairies.

La premi` ere contribution de la m´ ethode pr´ esent´ ee est de prendre en compte la variabilit´ e spectrale dans une prairie. Nous avons consid´ er´ e que la distribution de l’indice de v´ eg´ etation des pixels dans une prairie donn´ ee peut ˆ etre mod´ elis´ ee par un distribution gaussienne.

Puis, la divergence de Kullback-Leibler a ´ et´ e utilis´ ee pour calculer la distance entre chaque paire de prairies. Pour faire face ` a la petite taille de l’´ echantillon de r´ ef´ erence compar´ e au nombre de variables temporelles, un mod` ele parsimonieux gaussien est propos´ e en seconde contribution. Il s’agit d’une premi` ere ´ etape pour faire de la classification supervis´ ee et non supervis´ ee.

2 Jeu de donn´ ees

Le jeu de donn´ ees est compos´ e de 52 parcelles situ´ ees au sud de Toulouse, s’´ etendant sur 44000 km 2 . Trois modes de conduite ont ´ et´ e identifi´ es sur cet ´ echantillon : une fauche (34 parcelles), pˆ aturage (10 parcelles) et mixte (fauche puis pˆ ature, 8 parcelles). L’enquˆ ete a ´ et´ e effectu´ ee en 2015 aupr` es des agriculteurs en les questionnant sur l’historique de la prairie.

Les donn´ ees satellite sont issues d’une s´ erie de 17 images Formosat-2 acquises en

2013. Ce sont des donn´ ees multispectrales (4 bandes) dot´ ees d’une r´ esolution spatiale

de 8 m` etres. Sur chaque image, nous avons calcul´ e un indice de v´ eg´ etation, l’Indice de

V´ eg´ etation par Diff´ erence Normalis´ ee (NDVI). Le NDVI refl` ete l’activit´ e photosynth´ etique

de la v´ eg´ etation. Ainsi, chaque pixel x de la prairie est represent´ e par un vecteur de R 17 .

(4)

3 Divergence de Kullback-Leibler en grande dimension pour la classification

3.1 KLD sym´ etris´ ee

La distribution de la r´ eflectance des pixels des prairies est mod´ elis´ ee par une distribution gaussienne, i.e. la densit´ e des pixels x est, conditionnellement ` a la prairie g i , une distribution gaussienne. Pour calculer la similarit´ e entre les distributions de deux prairies, nous avons utilis´ e la divergence de Kullback-Leibler (KLD) [3] sym´ etris´ ee. La KLD sym´ etris´ ee entre deux distributions gaussiennes peut s’´ ecrire :

KLD(g i , g j ) = 1 2 h

Tr

Σ −1 i Σ j + Σ −1 j Σ i

+ (µ i − µ j ) > Σ −1 i + Σ −1 j

i − µ j ) i

− d (1) o` u d est le nombre de variables, Tr est l’op´ erateur de la trace, µ i et Σ i sont le vecteur moyen et la matrice de covariance de la prairie g i . Ils sont estim´ es par leurs ´ equivalents empiriques ˆ µ i = n 1

i

P n

i

l=1 x l et ˆ Σ i = n 1

i

P n

i

l=1 (x l − µ ˆ i )(x l − µ ˆ i ) > avec n i le nombre de pixels dans la prairie g i .

Malheureusement, le nombre de pixels utilis´ es dans l’estimation est petit compar´ e au nombre de variables. La Figure ?? montre que le nombre de pixels de la plupart des prairies est inf´ erieur au nombre de param` etres ` a estimer. Ainsi, la matrice de covariance n’est pas inversible pour ces prairies. De plus, pour les autres prairies, les matrices de covariance estim´ ees dans l’´ eq.(1) sont mal conditionn´ ees, provoquant l’instabilit´ e num´ erique de leur inverse. Pour faire face ` a ce probl` eme, des d´ eveloppements statistiques sp´ ecifiques sont consid´ er´ es dans le paragraphe suivant.

3.2 Divergence de Kullback-Leibler en grande dimension (HDKLD)

Dans ce travail, un mod` ele parcimonieux est utilis´ e pour mod´ eliser la distribution gaussienne des prairies [4]. Ce mod` ele suppose que les derni` eres (les plus petites) valeurs propres de la matrice de covariance sont ´ egales. Selon ce mod` ele, la matrice de covariance de la prairie g i peut s’´ ecrire :

Σ i = Q i Λ i Q > i + λ i I d (2) o` u : Q i =

q i1 , . . . , q ip

i

, Λ i = diag h

λ i1 − λ i , . . . , λ ip

i

− λ i i

, I d est la matrice identit´ e de taille d, q ij , λ ij sont les j emes valeurs/vecteurs propres de la matrice de covariance Σ i , j ∈ {1, . . . , d} tels que λ i1 ≥ . . . ≥ λ id , p i est le nombre de valeurs propres non ´ egales, et λ i est la valeur propre multiple correspondant au bruit (derni` eres et ´ egales valeurs propres).

Suivant ce mod` ele, l’inverse de la matrice de covariance peut ˆ etre calcul´ ee explicitement :

Σ −1 i = −Q i V i Q > i + λ −1 i I d (3)

(5)

avec V i = diag h

1 λ

i

λ 1

i1

, . . . , λ 1

i

λ 1

ipi

i

, et l’´ eq.(1) peut s’´ ecrire : HDKLD(g i , g j ) = 1

2 h

− kΛ

1 2

j Q > j Q i V

1 2

i k 2 F − kΛ

1 2

i Q > i Q j V

1 2

j k 2 F−1 i Tr

Λ j

−λ j Tr V i

−1 j Tr Λ i

−λ i Tr V j

−kV i

12

Q > ii −µ j )k 2 −kV j

12

Q > ji −µ j )k 2 + λ i + λ j

λ i λ j

k(µ i − µ j )k 2 + λ 2 i + λ 2 j λ i λ j

d i

− d (4) o` u kLk 2 F = Tr(L > L) est la norme de Frobenius.

3.3 Estimation

Les param` etres de l’´ eq.(4) sont estim´ es pour chaque prairie g i ` a partir du vecteur moyen et la matrice de covariance empiriques tels que [4] :

— ˆ λ i = Tr( ˆ Σ

i

)−

P

j≤pi

ˆ λ

ij

d−p

i

,

— ˆ λ ij , q ˆ ij sont les premiers valeurs/vecteurs propres de ˆ Σ i , j ∈ {1, . . . , p i }. Ainsi, seul les p i premiers valeurs/vecteurs propres sont n´ ecessaires et l’estimation instable des vecteurs propres associ´ es aux petites valeurs propres est ´ evit´ ee,

— ˆ p i correspond au nombre de valeurs propres n´ ecessaires pour atteindre un pourcentage de variance t donn´ e,

P

piˆ i=1

λ ˆ

i

P

d i=1

λ ˆ

i

≥ t, t ´ etant r´ egl´ e durant l’apprentissage lors de la classification.

3.4 Utilisation de (HD)KLD en classification

La mesure (HD)KLD est une semi-m´ etrique, i.e., elle ne satisfait que les trois premiers axiomes d’une m´ etrique [5] : (HD)KLD(g i , g j ) ≥ 0, (HD)KLD(g i , g i ) = 0 et (HD)KLD(g i , g j ) = (HD)KLD(g j , g i ). Cette semi-m´ etrique peut ˆ etre transform´ ee en une fonction noyau d´ efinie positive en l’introduisant dans une fonction de base radiale [6] :

K(g i , g j ) = exp

(HD)KLD(g σ

i

,g

j

)

2

avec σ ∈ R + . Ce noyau peut ensuite ˆ etre utilis´ e en en tant que fonction noyau de SVM pour la classification supervis´ ee.

4 Premiers r´ esultats sur simulations

Afin de valider le mod` ele construit, nous avons tout d’abord proc´ ed´ e ` a une simulation

num´ erique. Au cours de 100 r´ ep´ etitions, deux prairies g i et g j ont ´ et´ e simul´ ees avec les

param` etres suivants. La dimension d est ´ egale ` a 17. Le nombre de pixels dans chaque

prairie est tir´ e al´ eatoirement avec une probabilit´ e ´ egale parmi les d´ eciles du nombre de

pixels dans chaque prairie r´ eelle (Figure ??). p i et p j sont tir´ es al´ eatoirement suivant une

loi uniforme discr` ete sur {1, 2, 3}. Les vecteurs moyens µ i et µ j sont simul´ es par des lois

(6)

Figure 1 – Boxplot des erreurs quadratiques pour KLD et HDKLD. Les ´ el´ ements aberrants de KLD ne sont pas affich´ es.

uniformes continues d-dimensionnelles standard, car le NDVI d’une prairie est compris entre 0 et 1. Les matrices de covariance Σ i et Σ j sont g´ en´ er´ ees al´ eatoirement ` a partir des

´ eq. (2) et (3) par la m´ ethode suivante :

— G´ en´ eration d’une matrice M i al´ eatoire Gaussienne de taille (d, d),

— D´ ecomposition M i = Q i R i avec Q i une matrice orthonormale,

— G´ en´ eration de Λ i comme ´ etant une matrice diagonale de taille (p i , p i ) avec sur la diagonale un vecteur simul´ e par la loi p i -dimensionnelle exp(−U [0, 3]),

— λ i est tir´ e al´ eatoirement suivant exp(−U [15, 20]) .

Pour chaque r´ ep´ etition, KLD (´ eq. 1) et HDKLD (´ eq. 4) sont calcul´ es. Le boxplot des erreurs quadratiques des deux m´ ethodes est montr´ e sur la Figure 1. La racine carr´ ee des erreurs quadratiques normalis´ ees est RMSD = 2.32 pour KLD, et RMSD = 0.092 pour HDKLD. Ce r´ esultat pr´ eliminaire montre l’instabilit´ e de KLD face aux donn´ ees de grande dimension. En revanche, HDKLD semble bien adapt´ ee ` a ce type de donn´ ees et donne une bonne estimation de la distance r´ eelle.

5 Perspectives

La m´ ethode sera appliqu´ ee sur le jeu de donn´ es r´ eelles. Le noyau pr´ esent´ e au paragraphe 3.4 sera utilis´ e avec un SVM. Ainsi, les deux m´ ethodes pourront ˆ etre compar´ ees au travers d’une classification supervis´ ee sur le jeu de donn´ ees.

R´ ef´ erences

[1] Corbane, C., Lang, S., Pipkins, K., Alleaume, S., Deshayes, M., Garc´ıa Mill´ an, V.E.,

Strasser, T., Vanden Borre, J., Toon, S. and F¨ orster, M. (2015). Remote sensing

for mapping natural habitats and their conservation status new opportunities and

(7)

challenges, International Journal of Applied Earth Observation and Geoinformation, vol. 37, pp. 7 - 16, Special Issue on Earth observation for habitat mapping and biodiversity monitoring.

[2] Schuster, C., Schmidt, T., Conrad, C.,Kleinschmit, B. and F¨ orster, M. (2015).

Grassland habitat mapping by intra-annual time series analysis comparison of RapidEye and TerraSAR-X satellite data, International Journal of Applied Earth Observation and Geoinformation, vol. 34, pp. 25 - 34.

Eilers, P.H.C. (2003). A perfect smoother, Analytical Chemistry, vol. 75, no. 14, pp.

3631-3636.

[3] Kullback, S. (1987). Letter to the editor : The Kullback-Leibler distance, The American Statistician, vol. 41, no. 4, pp. 340-341.

[4] Bouveyron, C., Girard, S. and Schmid, C. (2007). High-dimensional discriminant analysis, Communications in Statistics - Theory and Methods, vol. 36, no. 14, pp.

2607-2623.

[5] Aboumoustafa, K.T. and Ferrie, F.P. (2012). A note on metric properties of some divergence measures : The Gaussian case, in Proc. of the 4th ACML, JMLR W&CP, pp. 1-15.

[6] Haasdonk, B. and Bahlmann, C. (2004). Learning with distance substitution kernels, in Pattern Recognition, Rasmussen, C., B¨ ulthoff, H., Sch¨ olkopf, B. and Giese, M.

Eds., vol. 3175 of Lecture Notes in Computer Science, pp. 220-227.

Références

Documents relatifs

We perform a Fisher-matrix analysis to forecast the constraining power of eROSITA on the  cold dark matter (CDM) cosmology and, simultaneously, on the X-ray scaling relations

We propose two statistical classifiers for encrypted Internet traffic based on Kullback Leibler divergence and Euclidean distance, which are computed using the flow and packet

The ’global’ spectral analysis approach is applied to experimen- tal vibration signals generated by different types and sizes of bearing faults, for different operating points..

In this study, a statistical model is proposed to identify grassland management practices using time series of a spec- tral vegetation index (NDVI) with high temporal

The first is a reference emissions forecast that includes no specific climate policy (Reference). Then three global participation scenarios include the international policy in our

Dans le contexte de la préparation des futures missions spatiales d’observation de la Terre telles que Ven µ s ou Sentinel–2 et de la multiplication des satellites à haute

The investigation consisted of: (1) reviewing literature to obtain information on the development of ASTM El19 and the unexposed surface temperature rise criteria,

Ahmadi S, Wu YS, Li M, Ip W, Lloyd-Kuzik A et al (2019) Aug- mentation of CFTR function in human bronchial epithelial cells via SLC6A14-dependent amino acid uptake: implications for