Chapitre III. La sélection automatique de données de grande dimension pour la classification
4. Extension du problème de sélection
4. Extension du problème de sélection
En plus de la sélection temporelle, nous pouvons ajouter une sélection sur les canaux spectraux, sur le classifieur utilisé ou sur toute information a priori pouvant être incorporée à une méthode de classification.
Les méthodes présentées de type Séquentiel (SBS, SFS, SBFS et SFFS) ne peuvent fonctionner qu’avec des éléments à sélectionner dont les états sont binaires. Or le choix du classifieur n’est plus binaire s’il y en a plus de deux parmi lesquels choisir. Pour utiliser ces méthodes, il faudrait alors décomposer ce nombre en base 2, ce qui aurait pour conséquence l’augmentation importante des caractéristiques à choisir. La flexibilité des AG permet d’utiliser une formulation plus flexible.
4.1.Adaptation de la méthode des AG
Commençons par réécrire le problème à résoudre :
{IMopt, classifieuropt}
= arg max(performance classification IMj avec classifieuri) (III.8)
Le nouveau problème revient ainsi à rechercher les meilleures images dans l’espace IM suivant les dimensions temporelles et spectrales, au sens de la performance de la classification de ces données et du meilleur classifieur choisi parmi les méthodes disponibles et applicables.
Voyons maintenant les modifications à apporter à la formulation des Algorithmes Génétiques présentés au paragraphe 2.4 afin de résoudre le nouveau problème de l’équation III.8.
Les changements se situent au niveau du processus de mutation et de croisement et notamment pour la nouvelle caractéristique du choix de classifieur. Ce choix, contrairement aux autres caractéristiques, n’est pas binaire et nécessite donc une modification des processus de mutation (équation III.9) et de croisement (équation III.10).
mutation({IMiiter, classifieuriiter}, elementmut)
=
{
IMi,d,kiter = 1 − IMi,d,kiter si elementmut = {dmut, kmut}
IMi,d,kiter = IMi,d,kiter sinon
classifieuriiter = choix aleatoire parmi l′ensemble des classifieurs possibles privé de classifieuriiter
si elementmut = classifieur
classifieuriiter = classifieuriiter sinon
croisement({IMiiter, classifieuriiter}, {IMjiter, classifieurjiter}, {IMia_croiser, classifieuria_croiser})
= {
IMi,d,kiter = IMj,d,kiter si elementcrois = {da_croiser, ka_croiser}
IMi,d,kiter = IMi,d,kiter sinon
classifieuriiter = classifieurjiter si elementcrois = classifieura_croiser classifieuriiter = classifieuriiter sinon
(III.9)
Chapitre III : La sélection automatique de données de grande dimension pour la classification
76
4.2.Applications du problème complet
Reprenons les applications précédentes en incluant maintenant la sélection des canaux et du classifieur, et uniquement avec la méthode de sélection par Algorithmes Génétiques.
Pour des questions de complexité de codage, seuls cinq classifieurs ont été intégrés dans les applications qui suivent : méthode de minimisation de distance de Manhattan, euclidienne, de Tchebychev, de Mahalanobis et méthode ICM.
4.2.1. Applications aux données Formosat-2 année 2009
Le tableau III.5 montre quelques résultats de la sélection de données spectrales, temporelles et du classifieur, appliquée aux données Formosat-2 année 2009 disposant de 64 plans temporels et spectraux. Le jeu de données qui obtient la meilleure performance globale dispose de 63 canaux sur 64 et utilise la méthode ICM. Prenons l’exemple de la classe « Eau libre » dont le meilleur jeu de données contient moins de canaux « proche infrarouge », ce qui s’explique par le fait que cette classe n’a, par définition, que peu de confusion avec des classes de végétation, qui sont très absorbantes dans cette longueur d’onde. L’algorithme ICM est très souvent choisi, sauf pour les classes d’eau et de bâti.
4.2.2. Applications aux données Spot 2/4/5 année 2007
Le tableau III.6 montre quelques résultats de la sélection de données spectrales, temporelles et du classifieur, appliquée aux données Spot-2/4/5 année 2007 disposant de 19 plans temporels et spectraux. Le jeu de données qui obtient la meilleure performance globale dispose de 18 canaux sur 19 et utilise la méthode ICM. Prenons l’exemple de la classe « Tournesol » dont le meilleur jeu de données ne contient que peu de canaux « proche infrarouge », canal n’apportant pas d’information de dissociation entre cultures proches. L’algorithme ICM est très souvent utilisé, sauf pour les classes d’eau et de bâti.
4.2.3. Applications aux données Landsat-5 année 2010
L’application liée à l’utilisation des données Landsat est très intéressante car elle dispose d’une richesse de classes très importante (79 classes, voir annexe 1.5) avec des classes de culture mais surtout de végétation naturelle.
Le tableau III.7 montre quelques résultats de la sélection de données spectrales, temporelles et du classifieur, appliquée aux données Landsat-5 année 2010 disposant de 15 plans temporels et spectraux (annexe 1.5). Le jeu de données qui obtient la meilleure performance globale dispose de 15 canaux sur 15 et utilise la méthode ICM. Prenons l’exemple de la classe « Feuillus » dont le meilleur jeu de données ne contient que peu de canaux de la date de Juillet.
4 : Extension du problème de sélection
Global Feuillus Tournesol Eau libre
Indice AOCI 83,64 95,45 92,44 100
Nombre de plans 63 sur 64 54 sur 64 56 sur 64 60 sur 64
Dates / canaux B V R PIR B V R PIR B V R PIR B V R PIR
15 Février X X X X X X X X X X X X X X X 17 Mars X X X X X X X X X X X X X X 21 Mars X X X X X X X X X X X X X X 30 Mars X X X X X X X X X X X X X X X 3 Mai X X X X X X X X X X X X X X X X 23 Juin X X X X X X X X X X X X 1 Juillet X X X X X X X X X X X X X X 12 Juillet X X X X X X X X X X X X X X X X 26 Juillet X X X X X X X X X X X X X X X X 5 Août X X X X X X X X X X X X 14 Août X X X X X X X X X X X X X X X 22 Août X X X X X X X X X X X X X X X 30 Août X X X X X X X X X X X X X 6 Septembre X X X X X X X X X X X X X X 24 Septembre X X X X X X X X X X X X X X X X 16 Octobre X X X X X X X X X X X X X X X X
Classifieur ICM ICM ICM Min dist Eucl
tableau III.5 : Extraits des résultats de la sélection de données Formosat-2 année 2009
Global Blé dur Tournesol Eau libre
Indice AOCI 77,55 96,96 60,75 97,89
Nombre de plans 18 sur 19 16 sur 19 13 sur 19 13 sur 19
Dates / canaux V R PIR MIR V R PIR MIR V R PIR MIR V R PIR MIR
15 Fév. 2007 X X X ND X X X ND X ND X ND 8 Avril 2007 X X X ND X X X ND X X ND X X X ND 20 Juin 2007 X X X ND X X X ND X X ND X X ND 25 Juillet 2007 X X X ND X X ND X X X ND X ND 15 Sept. 2007 X X X X X X X X X X X X X X 16 Nov. 2007 X X X ND X ND X ND X X X ND
Classifieur ICM ICM ICM Min Dist Eucl
tableau III.6 : Extraits des résultats de la sélection de données Spot 2/5/5 année 2007, ND pour canal non disponible
Global Classe Feuillus Classe Tournesol
Indice AOCI 41,25 57,93 95,17
Nombre de plans 15 sur 15 12 sur 15 12 sur 15
Dates / canaux B V R PIR MIR B V R PIR MIR B V R PIR MIR
20 Juillet 2010 X X X X X X X X X X X X
21 Août 2010 X X X X X X X X X X X X X X
22 Sept. 2010 X X X X X X X X X X X X X X
Classifieur ICM ICM ICM
Chapitre III : La sélection automatique de données de grande dimension pour la classification
78