• Aucun résultat trouvé

Chapitre 2 : Approche théorique et méthodologique de la Télédétection et du SIG pour

2.1. Classification de l’occupation des sols à l’aide des images multi-spectrales

2.1.1. Méthodologies de classification de l’occupation du sol

La classification de l’occupation du sol à l’aide d’images satellites peut être considérée

comme une combinaison entre le traitement d'image numérique et les techniques de

classification pour analyser l’occupation du sol [Bektat et Goksen,. 2004]. Le traitement des

images est réalisé pour l'amélioration de la qualité de celle-ci tandis que la classification est

un processus d'attribution des pixels d'une image à des classes (catégories) de l’occupation du

sol [Lu and Weng,. 2007].

De nombreuses méthodes sont proposées et certaines telles que l'analyse des images et la

reconnaissance des échantillonnages sont appliquées. La performance d’une classification

dépend de la compréhension des données, des méthodes de classification et des expériences

des analyseurs [Landgrebe,. 2002 ; Smith,. 2012]. De ce fait, l'analyseur doit choisir une

méthode optimale de classification pour bien accomplir une tâche spécifique, car une méthode

ne peut pas être appliquée efficacement pour la classification dans toutes les situations. Il est à

noter que chaque méthode ne convient que pour quelques caractéristiques d’une ou de

certaines images et pour quelques circonstances de chaque étude [Perumal, 2010]. En effet, il

y a deux méthodes principales de classification : la classification non-supervisée et la

classification supervisée ; méthodes que nous présenterons ci-dessous.

a. Classification non-supervisée

Cette méthode est généralement utilisée lorsqu’on ne dispose que de peu d’informations sur

les données et la région de l’étude. Les résultats d’une classification n'ont de sens que si les

classes peuvent être convenablement interprétées [Eastman,. 2003 ; Richards et Jia,. 2006]. La

classification non-supervisée est effectuée automatiquement sur la base d’algorithmes et de

seuil du rayonnement pour déterminer les groupes de pixels qui a la même valeur spectrale.

Elle est réalisée le plus souvent en utilisant les méthodes de regroupement. On affecte ensuite

des classes thématiques aux groupes spectraux déterminés. La précision des résultats de cette

méthode ne dépend que des algorithmes des logiciels utilisés [Eastman,. 2003 ; Babykalpana

et ThanushKodi,. 2010]. Cependant, cette méthode permet aussi aux utilisateurs de spécifier

certains paramètres pour déceler des tendances statistiques inhérentes aux données. Ces

paramètres peuvent êtres le seuil du rayonnement, et le nombre de classes minimum et

maximum [Richards et Jia,. 2006 ; Eastman,. 2003 ; Xiong Liu,. 2002]. L’avantage de la

méthode de classification non-supervisée revient à son automatisme. Ellepermet de réduire le

temps de calcul et fournit aussi des résultats totalement impartiaux. Différentes méthodes de

classification non supervisées existent, mais on rencontre plus souvent deux méthodes : Isodata et

K-Means [ITT Inc., 2008].

(1) Méthode ISODATA : cette méthode est basée sur la technique d’analyse itérative des

données. Elle autorise la fusion entre des nuages proches, la division d’un nuage à

variance élevée et la suppression de nuage de petite taille dans le processus des

itérations [Tou et Gonzalez, 1974]. Cette méthode calcule les moyennes de N classes

et les distribue dans l’espace des données par les itérations successives. Elle va

affecter les pixels restants aux centres de classes sur la base de leur distance minimum.

A chaque itération, les moyennes de N classes sont recalculées et les pixels sont

reclassés. Les calculs continueront jusqu’à ce que le taux de pixels changeant dans

chaque classe soit inférieur au seuil fixé [ITT Inc,. 2008].

Approche théorique et méthodologique de la Télédétection et du SIG pour la modélisation de

l’évolution de l’occupation du sol

39

(2) Méthode K-Means : Pour appliquer cette méthode, il faut fixer le nombre de classes k

a priori, avant toute analyse. On tire de façon aléatoire (uniforme) « k » centres de

classes parmi les « n » individus. Ensuite, on affecte chacun des individus au centre le

plus proche possible (au plus proche voisin) [Tou et Gonzalez, 1974]. Chaque centre

est considéré comme le barycentre des groupes d’individus obtenus. Le « nouveau »

centre d’une classe correspond au barycentre des individus appartenant à cette classe

[ITT Inc,. 2008]

b. Classification supervisée

Cette méthode est la procédure la plus souvent utilisée pour l’analyse quantitative des

données de télédétection. On identifie sur l’image des surfaces assez homogènes

représentatives des thèmes qu’on souhaite discriminer. Les signatures spectrales de ces

surfaces serviront comme références pour classer l’ensemble de l’image en utilisant des

algorithmes de classification appropries [Richards et Jia,. 2006]. La classification supervisée

est basée sur l'idée que l'utilisateur peut définir les pixels d'échantillon de chaque catégorie

dans une image. Ces échantillons sont considérés comme les pixels références pour la

classification de tous les autres pixels de l'image [Eastman,. 2003]. L’avantage de cette

méthode repose sur sa capacité à utiliser les connaissances de l’homme dans le processus de

classification, ce qui laisse plus de souplesse pour l’amélioration des résultats. Cette méthode

a cependant quelques inconvénients : un besoin humain important, la précision du résultat

dépend de la connaissance des personnes qui effectuent la classification.

Dans la méthode de classification supervisée, la précision des résultats obtenus dépend de

l'algorithme de classification car plusieurs algorithmes ont été développés et les données

finales peuvent différer. Ainsi, le choix de l'algorithme dépendra de chaque classification ou

d’un domaine spécifique. Afin de bien choisir un algorithme de classification, il est important

d’évaluer la performance des différents algorithmes de classification.

(1) Algorithme Parallélépipède(AP)

C’est une méthode de classification supervisée très simple. Elle se base sur l'inspection des

histogrammes des canaux spectraux individuels des données des formations disponibles

[Richards et Jia,. 2006]. Cependant, cette méthode présente certains inconvénients.

Premièrement, elle ne peut pas classifier des pixels qui sont à l’extérieur des parallélépipèdes.

Dexièmrement, il peut y avoir recouvrement des parallélépipèdes par les échantillons de

différentes catégories. Par conséquent, il y a des échantillons qui ne peuvent pas être séparés

[Perumal,. 2010, Richards et Jia,. 2006].

(2) Distance Minimale (DMin)

L’algorithme DMin est basé sur la détection de la distance spectrale minimale entre le

vecteur mesuré du pixel candidat et le vecteur moyen de chaque échantillon. Ensuite, il

affecte le pixel candidat à la classe ayant la distance spectrale minimale. Il est effectué en

plaçant un pixel dans la classe qui est la plus proche du vecteur moyen [Perumal,. 2010 ;

Eastman,. 2003]. La classification par le DMin est fortement recommandée et est utilisée dans

plusieurs applications de classification des images [Richards et Jia,. 2006].

(3) Angle Spectral (AS)

Cet algorithme est utilisé pour comparer directement les spectres d'une image à un

spectre connu. Il est une classification spectrale à base physique qui utilise un angle à

n-dimensions pour correspondre aux pixels des spectres de référence. Cet algorithme détermine

la similitude spectrale entre deux spectres en calculant l'angle entre les spectres, les traitant

Approche théorique et méthodologique de la Télédétection et du SIG pour la modélisation de

l’évolution de l’occupation du sol

40

comme des vecteurs dans un espace avec la dimensionnalité égale au nombre de bandes

[Richards et Jia,. 2006 ; Perumal,. 2010].

(4) Réseau de Neurones Artificiel (RNA)

Le Réseau de Neurones Artificiel (RNA) est appliqué pour améliorer la précision de la

classification en raison de leur structure distribuée [Yuan et al,. 2009; Zhou et Yang,.2008 ;

Cetin et al,. 2004]. Le RNA a été initialement conçu pour la reconnaissance de forme et des

outils d'analyse de données qui imitent le stockage de neurones et les opérations d'analyse du

cerveau. Les approches du RNA ont des avantages distincts par rapport aux méthodes de

classification statistique car ils sont non-paramétriques et nécessitent peu ou aucune

connaissance a priori du modèle de distribution des données d'entrée [Paola et Schowengerdt,.

1997]. Les autres avantages du RNA comprennent le calcul parallèle, la capacité d'estimer la

relation non linéaire entre les données d'entrée et les résultats souhaités, et la capacité de

généralisation rapide [Yuan et al,. 2009].

(5) Distance de Mahalanobis (DMaha)

La distance de Mahalanobis est une direction sensible classificatrice à distance qui

utilise les statistiques pour chaque classe. La DMaha est basée sur la règle de décision de

distance minimale qui calcule la distance spectrale entre le vecteur de mesure pour le pixel

candidat et le vecteur de la moyenne pour chaque échantillon par utilisation des matrices de

variance et de covariance [Campbell,. 2001 ; Perumal,. 2010 ; Richards et Jia,. 2006 ;

Eastman,. 2003].

(6) Maximum de Vraisemblance (MV)

L’algorithme de MV est basé sur la théorie des probabilités bayésiennes ; il est un des

algorithmes le plus utilisés pour la classification supervisée [Eastman, 2003]. Il utilise des

échantillons pour déterminer les caractéristiques des catégories de l’occupation du sol, qui

deviennent des centres dans l'espace multi-spectral. Autrement dit, au lieu d'affecter un

vecteur spectral à la catégorie dont le centre de gravité est le plus proche, elle se base sur une

analyse statistique de la distribution des vecteurs spectraux de l'échantillon pour définir des

zones de probabilité équivalente autour de ces centres. La probabilité d'appartenance à

chacune des classes est calculée pour chaque vecteur spectral et le vecteur est affecté à la

classe pour laquelle la probabilité est la plus élevée. Un avantage considérable de cette

méthode est qu'elle fournit pour chaque pixel, en plus de la classe à laquelle il a été affecté, un

indice de certitude lié à ce choix.

La classification par maximum de vraisemblance est basée sur la règle de décision de

maximum de vraisemblance de Bayes [Richards,. 1999 ; Bartels et Wei., 2006 ; Richards et

Jia,. 2006]. Cette règle est traduit par la formule (1) [Hasyim et al,. 2011] :

Où:

Cj=Matrice de covariance de la classe wj avec la dimension ρ ; μj= le vecteur de la classe

wj ; x = désigne le déterminant ; P [xi│wj]= la probabilité de la coexistence [ou intersection]

des événements x et w ; [xi- μj]T = vecteur transposé [xi- μj].

En appliquant cette règle, un échantillon de l'image est affecté à une certaine classe, si la

distance entre les valeurs des paramètres de cet échantillon et la valeur moyenne de la classe

est maximale. Cette règle n'est pas basée sur la physique des mécanismes de diffusion et

permet de classifier des images indépendantes [Richards et Jia,. 2006].

Approche théorique et méthodologique de la Télédétection et du SIG pour la modélisation de

l’évolution de l’occupation du sol

41

c. Estimations de la performance des méthodes de classification de l’occupation du sol

Sur la performance de deux méthodes de classification non-supervisée et supervisée, certaines

études ont montré que la classification supervisée est plus performante que celle

non-supervisée [Xiong Liu,. 2002 ; Hasmadi,. 2009 ; Guerra et al,. 2010]. La précision des

résultats par la classification non-supervisée sont normalement faibles. Cela peut provoquer

une confusion dans les résultats de classification induisant au final des erreurs [Richards et

Jia,. 2006], tandis que les résultats à l’aide de la classification supervisée sont satisfaisants,

proches et compatibles avec la superposition d'images originales [Xiong Liu,. 2002 ; Guerra

et al,. 2010 ].

Concernant la performance des algorithmes de la classification supervisée, les scientifiques

tels que Parumal et Akgün ont testé les différentes techniques ci-dessus sur des images

Landsat [Akgün,. 2004 ; Perumal, 2010]. Nous avons également validé ces techniques avec

nos propres images Landsat qui couvrent le bassin versant de l’Ain.

Parmi ces algorithmes, l’AP et l’AS ne sont pas très utilisés car ils laissent plusieurs pixels

non-classifiés et peuvent également avoir des chevauchements entre les pixels d’entraînement

[Perumal, 2010]. Une autre limitation de l’AP et l’AS est que les probabilités d'appartenance à

des classes ne sont pas pris en compte [Akgün et al,. 2004 ; Campbell,. 2001].

La classification à l’aide de l’algorithme de DMin se trouve être la moins précise [Campbell,.

2001 ; Perumal, 2010]. Les cartes dérivées semblaient plus fiables que les cartes produites par

l’algorithme parallélépipède [Akgün et al,. 2004].

Dans une étude de Gholami publiée en 2010, trois méthodes de classification (MV, DMaha et

DMin) ont été analysées dans la partie occidentale de la province d'Ispahan en Iran. Dans

cette étude, les images satellites sont appliquées pour extraire l’occupation du sol (avec 4

catégories : l'agriculture d'irrigation, l'agriculture sèche, les jardins et les zones urbaines). Les

erreurs et l’indice « Kappa » de ces cartes ont été calculés pour évaluer la précision de ces 3

méthodes. Les précisions sont respectivement de 53.13%, 56.64% et 48.44% [Gholami et al,.

2010].

Dans une autre étude publiée en 2009, Al-Ahmadi et Hames ont comparé aussi ces méthodes

(MV, DMaha et DMin) pour trois régions en Royaume d'Arabie Saoudite (Wadi Thara, Wadi

Al Hamid et Wadi Al Jawf). La précision obtenue est la plus élevée pour l’algorithme MV et

la plus basse pour l’algorithme DMin. A titre d’exemple, la précision globale de trois

algorithmes pour trois régions étudiées est de 84%, 80% et 74% (Wadi Thara) ; de 74.51%,

68.63% et 62.75% (Wadi Al Hamid) ; de 80.77%, 73.08% et 65.38% (Wadi Al Jawf).

Les études de Frinelle (2001) et de Cetin (2004) ont comparé les deux méthodes en

l’occurrence MV et RNA [Frinelle et Moody,. 2001 ; Cetin et al,. 2004]. Cetin et ses

collègues ont montré que la précision de ces deux méthodes est pratiquement équivalente.

Cependant, Frinelle et Moody ont montré que la précision de la technique MV est plus élevée

que celle de RNA.

Dans le cadre de notre étude, nous avons également comparé deux méthodes de MV et de

RNA pour le bassin versant de l’Ain, en utilisant l’image Landsat ETM. Les résultats obtenus

montrent que les valeurs de précision sont respectivement de 98% (K=0.974), et de 71.5%

(K=0.63).

L’analyse des avantages, des inconvénients et la performance pour les deux approches de

classification (supervisée et non-supervisée), ainsi que l’estimation de la précision des

algorithmes de classification supervisée montrent que l’algorithme de Maximum de

Approche théorique et méthodologique de la Télédétection et du SIG pour la modélisation de

l’évolution de l’occupation du sol

42

Vraisemblance sera le mieux adapté à notre étude. Par conséquent, nous avons choisi la

méthode de classification supervisée avec l’algorithme de Maximum de Vraisemblance (MV)

pour la classification de l’occupation des sols du bassin versant de l’Ain.

2.1.2. Données utilisées pour la classification de l’occupation des sols