• Aucun résultat trouvé

7.3 Etudes comparatives

7.3.1 Mod`eles gaussien, GMM et LDA

7.3.1.2 Mod`ele gaussien

Ici, nous nous plac¸ons tout d’abord dans une hypoth`ese d’ind´ependance des pixels d’une mˆeme r´egion, c’est-`a-dire que nous ne tenons pas compte de l’´eventuelle d´ependan- ce locale entre un pixel et ses voisins, et donc, entre les pixels adjacents de deux classes diff´erentes. Cette hypoth`ese forte a ses limites en classification automatique car elle con- duit g´en´eralement `a des effets “poivre et sel” dans les images classifi´ees. Nous avons d´ej`a ´et´e confront´es `a ce probl`eme dans le chapitre 4, lors de l’apprentissage automa- tique `a l’aide des cartes CORINE Land Cover. Nous y avions alors palli´e en utilisant des m´ethodes contextuelles apr`es la classification, telles que les champs de Markov.

Nous faisons de plus, une hypoth`ese de stationnarit´e des processus al´eatoires. En d’autres termes, une classe Cs, s = 1, . . . S, repr´esent´ee dans l’image par ns r´egions

Rs

i, i = 1, . . . nsse caract´erisera par sa probabilit´e a priori psconstante dans toute l’image,

et aura pour chaque r´egion, la mˆeme probabilit´e conditionnelle de classe p(x | s), x ´etant toute mesure faite en un pixel de l’image.

Sous l’hypoth`ese de stationnarit´e des distributions, nous supposons de plus que les donn´ees pour chaque classe suivent une loi gaussienne. La gaussianit´e de chaque classe peut ˆetre v´erifi´ee `a l’aide des crit`eres de normalit´e comme le trac´e des histogrammes, ou des tests statistiques. Pour cette derni`ere approche, plusieurs tests ont ´et´e propos´es dans la litt´erature pour juger de l’ad´equation d’un ensemble de donn´ees `a la loi normale unidi- mensionnelle [Jarque & Bera, 1987], ou multidimensionnelle [Mardia, 1970; Smith & Jain, 1988]. En effet, pour les donn´ees `a plusieurs dimensions, les tests de normalit´e indivi- duellement pour chaque variable ne sont pas suffisants pour d´eterminer la multinorma- lit´e, mˆeme si chaque variable a une distribution gaussienne. Un r´ecapitulatif de ces tests mettant en ´evidence les avantages et inconv´enients de chacun d’eux est pr´esent´e dans [Srivastava & Mudholkar, 2003].

Parmi les diff´erentes approches statistiques d´evelopp´ees pour tester la multinormalit´e d’un ensemble de donn´ees, les tests de Mardia [Mardia, 1970], bas´es sur les coefficients d’assym´etrie (skewness) et d’aplatissement (kurtosis) multidimensionnels, sont tr`es cou- rants dans la litt´erature. Des travaux men´es par Romeu et Ozturk [Romeu & Ozturk, 1993] et Bogdan[Bogdan, 1999] montrent que ces tests de multinormalit´e sont parmi les meilleurs en termes de performance.

Tests de multinormalit´e de Mardia Pour les donn´ees unidimensionnelles, les tests sta- tistiques de normalit´e bas´es sur les coefficients d’assym´etrie et d’aplatissement, comme celui de Jarque-Bera [Jarque & Bera, 1987], utilisent les moments d’ordre 3 et 4 d’une variable centr´ee r´eduite pour d´ecrire ces grandeurs. Dans le cas multidimensionnel, les statistiques d’assym´etrie et d’aplatissement ont ´et´e introduites par Mardia et appliqu´ees pour tester la multinormalit´e d’un ensemble de donn´ees [Mardia, 1970].

Soit X = {x1, x2. . . xN}, un ´echantillon al´eatoire de taille N , obtenu `a partir d’une dis-

tribution de dimension p. La matrice des distances de Mahalanobis D = (dij)s’exprime

comme suit :

dij = (xi− x)0S−1(xj− x) et d2i = (xi− x)0S−1(xi− x) (7.8)

o `u i, j = 1, . . . N , x ´etant la moyenne de X et S sa matrice de variance covariance. Partant de cette matrice, les mesures d’assym´etrie et d’aplatissement multidimension- nels, not´ees respectivement β1,pet β2,psont d´efinies comme :

β1,p= 1 N2 N X i=1 N X j=1 d3ij et β2,p = 1 N N X i=1 d4i (7.9)

Pour une loi normale multidimensionnelle, β1,p = 0 et β2,p = p(p + 2). Soient les

statistiques S et K suivantes : S = N 6β1,p et K = √ N(β2,p− p(p + 2)) p8p(p + 2) (7.10)

Si les donn´ees sont issues d’une distribution multinormale, la statistique S suit asymp- totiquement une distribution du χ2 `a p(p+1)(p+2)6 degr´es de libert´e et la statistique K suit asymptotiquement une loi normale N (0, 1). Le but est de tester l’hypoth`ese nulle H0que

les donn´ees suivent une distribution multinormale. En pratique, cette hypoth`ese est re- jet´ee `a un certain seuil α si S est sup´erieur `a la valeur critique donn´ee par la distribution du χ2 `a p(p+1)(p+2)6 degr´es de libert´e, ou si K est sup´erieur `a la valeur critique donn´ee par la loi normale centr´ee r´eduite.

Application aux donn´ees Afin de tester la gaussianit´e des donn´ees d’apprentissage, nous avons dans un premier temps, observ´e leurs histogrammes pour v´erifier s’ils sont en forme de “cloche”. Ce crit`ere subjectif, permet cependant d’avoir une id´ee des ´eventuelles distributions non gaussiennes. La figure 7.15 montre un exemple d’histogrammes de la bande infrarouge pour quelques classes.

Parmi tous les histogrammes, celui de la classe mer (figure 7.15(a)) est le seul qui a une forme tr`es proche de celle de la distribution gaussienne, tandis que celui des ports par exemple (figure 7.15(b)), bimodal, s’en ´eloigne fortement. Nous pouvons en conclure que la mod´elisation de la classe mer par une loi normale est moins abusive que l’utilisa- tion de la mˆeme loi pour mod´eliser les ports. Par ailleurs, les formes des histogrammes de certaines classes telles que les montagnes (figure 7.15(c)) et les zones urbaines (figure 7.15(d)), sans vraiment ˆetre similaires `a la courbe gaussienne, n’en sont pas compl`etement diff´erentes. Nous ne pouvons donc rien en d´eduire.

Dans tous les cas, nous avons besoin d’effectuer des tests compl´ementaires, plus objectifs, et tenant compte du fait que nos donn´ees sont multidimensionnelles. Nous avons donc ´eprouv´e la multinormalit´e des donn´ees d’apprentissage de chaque classe s´emantique, `a l’aide des tests de Mardia. Au del`a du fait que nous souhaitons savoir pour quelles classes l’hypoth`ese de multinormalit´e est v´erifi´ee, le but est aussi de faire un ordonnancement des diff´erentes classes, en fonction de la similarit´e de leur distribution avec la loi multinormale. Ceci afin d’´evaluer le “degr´e d’erreur” caus´e par l’acceptation de l’hypoth`ese gaussienne, qui pourrait se ressentir dans la classification. Le tableau 7.6 indique les valeurs des statistiques S et K, ainsi que les valeurs critiques donn´ees par les distributions associ´ees, pour un seuil α = 0.001 et la d´ecision de rejet ou de non rejet de l’hypoth`ese nulle.

Nous constatons que l’hypoth`ese nulle n’est pas rejet´ee uniquement pour la classe mer. En d’autres termes, l’hypoth`ese que les donn´ees de la classe mer suivent une loi normale multidimensionnelle n’est pas rejet´ee au niveau significatif α = 0.001. En effet, la statistique S est bien inf´erieure `a la valeur critique pour l’assym´etrie, et la valeur absolue de K est inf´erieure `a la valeur critique pour l’aplatissement. Ce r´esultat corrobore celui des histogrammes.

7.3. ETUDES COMPARATIVES 147

(a) (b)

(c) (d)

FIG. 7.15 – Histogrammes de la bande infrarouge pour les classes mer (a), ports (b), mon- tagnes (c) et zones urbaines (d).

TAB. 7.6 – R´esultats des tests d’assym´etrie (S) et d’aplatissement (K) de Mardia, avec un seuil α = 0.001. L’hypoth`ese nulle H0 est rejet´ee (respectivement pas rejet´ee) lorsqu’elle

est ´egale `a 1 (respectivement 0) au niveau significatif α.

α = 0.001, valeur critique asym´etrie = 45.31 et valeur critique aplatissement = 3.09

CA EV GB ME MT PO ZR ZU

S 306.01 9.96 ×103 449.46 17.75 108.53 973.85 433.07 7.99 ×103 K 13.38 349.97 9.84 -2.68 0.18 30.68 8.75 211.28

H0 1 1 1 0 1 1 1 1

En outre, pour les montagnes, la statistique K = 0.18 est bien inf´erieure `a la valeur cri- tique pour l’aplatissement (3.09), cependant S = 108.53 est sup´erieure `a la valeur critique pour l’assym´etrie (45.31). L’hypoth`ese de multinormalit´e est donc rejet´ee. Mais, par rap- port aux autres classes (carri`eres, espaces verts, grands bˆatiments, ports, zones r´esidentielles et zones urbaines) pour lesquelles aucune des deux conditions n’est satisfaite, nous pouvons affirmer que la distribution de la classe des montagnes est plus proche de la loi multinor- male que ne le sont celles des six autres classes.

Ainsi, la v´erification de l’ad´equation de la distribution de nos donn´ees `a la loi normale multidimensionnelle montre que la distribution de la classe mer est tr`es similaire `a celle de la gaussienne, viennent ensuite celle des montagnes, et des autres classes.