Influence de l’information spatiale - Exp´erimentations et r´esultats

7.2 Exp´erimentations et r´esultats

7.2.1 Influence de l’information spatiale

7.2.1.1 Description des donn´ees

Les tests sont effectués sur des images Quickbird Panchromatiques de Las Vegas, à 60 cm de résolution. La base d’apprentissage fournie par l’utilisateur contient 200 images de taille variant de 150 × 150 à 500 × 500 pixels. Ces images, dont quelques exemples sont exposés dans la figure 7.2, sont également réparties entre 5 classes correspondant aux concepts suivants : banlieues résidentielles (BR), déserts (DS), zones commerciales (ZC), zones urbaines (ZU) et terrains de golf (TG).

La grande image à annoter avec les concepts que nous venons de définir est de taille 6000 × 6000pixels (voir figure 7.3). Elle contient toutes les classes sus-présentées, mais aussi d’autres classes non apprises, comme les axes routiers principaux.

7.2.1.2 R´eglage des param`etres et tests

Dans cette expérimentation, un mot correspond à une fenêtre de taille 10 × 10 pixels, déterminée de manière empirique. En effet, la taille du mot doit être suffisamment grande pour contenir au minimum une partie d’un objet de l’image, et suffisamment petite pour contenir une information homogène, c’est-à-dire ne pas mêler des informations appartenant à des objets différents par exemple. Diverses expérimentations ont donc été menées avec des fenêtres de taille 10 × 10, 15 × 15 et 20 × 20 pixels, et la décision s’est faite sur les performances des tests de validation croisée. Nous avons utilisé une procédure de validation croisée à 5 boucles : l’ensemble des données de la base d’apprentissage est di- visé de manière aléatoire en 5 sous-ensembles. Ainsi, 20% des images sont utilisées pour tester l’apprentissage fait à partir de 80% de la population, chaque sous-ensemble étant

FIG. 7.3 – Image Quickbird de Las Vegas `a annoter.

utilisé une fois et une seule pour les tests. Les meilleures performances ont été obtenues avec les mots de taille 10 × 10 pixels.

Disposant d’images panchromatiques, les caractéristiques de bas-niveau automati- quement extraites de chaque mot de la base de données sont simplement la moyenne et l’écart-type. En fait, nous avons effectué des tests avec d’autres descripteurs tels que la médiane et la variation totale, et le couple de primitives retenu s’est avéré être le plus pertinent en termes de performance et de nombre de caractéristiques. Par exemple, l’uti- lisation simultanée de la moyenne, la variance et la variation totale n’améliore pas pour autant les performances des tests de validation croisée obtenues avec la moyenne et la variance.

Le nombre optimal de clusters pour nos données, déterminé à l’aide du critère MDL est de 20, comme le montre la figure 7.4. Quant au nombre de topics pour chaque classe, il est estimé grâce à la perplexité. La figure 7.5 montre la courbe de la perplexité en fonction du nombre de topics pour la classe des banlieues résidentielles. Le nombre optimal d’aspects latents est celui qui minimise la complexité, en l’occurrence, 5 dans le cas des banlieues résidentielles.

Les modèles sont évalués par une procédure de validation croisée à 5 boucles. Les performances des modèles des différentes classes sont détaillées dans la matrice de confusion exposée dans le tableau 7.1. Nous constatons qu’il existe quelques confusions justi- fiables entre certaines classes. En effet, des images de la classe déserts par exemple sont classifiées en tant que terrains de golf, et vice versa. Ce qui n’est pas vraiment étonnant

7.2. EXPERIMENTATIONS ET R´ ESULTATS´ 131

FIG. 7.4 – Courbe de la longueur du code en fonction du nombre de clusters pour l’ensemble des donn´ees. Le nombre optimal de clusters est celui qui minimise longueur de description, c’est-`a-dire 20 dans ce cas.

FIG. 7.5 – Courbe de la perplexité en fonction du nombre de topics pour la classe des banlieues résidentielles. Le nombre de topics optimal est celui qui minimise la perplexité, c’est-à-dire 5 dans ce cas.

puisque les terrains de golf sont principalement composés de champs, déserts et lacs. L’ensemble de test contient des imagettes issues de la grande image (figure 7.3), et de taille 150 × 150 pixels choisie expérimentalement. Chaque imagette contient donc 225 mots. Nous avons effectué deux types de tests sur l’image à annoter : sans et avec recouvrement entre les imagettes. Nous comparons ensuite les deux images annotées résultantes, afin de juger de l’apport de la prise en compte de l’information spatiale. L’évaluation des résultats est visuelle, en utilisant les cartes Google comme vérité de terrain.

7.2.1.3 Analyse des r´esultats

La figure 7.6 représente l’image de test, annotée avec les cinq concepts sémantiques et sans prise en compte de l’information de voisinage. En d’autres termes, les imagettes de l’ensemble de test sont obtenues par partitionnement de l’image à annoter, selon une

TAB. 7.1 – Matrice de confusion obtenue pour la validation croisée à 5 boucles. Les lignes représentent la vérité de terrain et les colonnes correspondent aux modèles des différentes classes. La performance moyenne est de 96.5%.

BR DS ZC ZU TG BR 97.5 0 0 2.5 0 DS 2.5 95.0 0 0 2.5 ZC 0 0 97.5 2.5 0 ZU 2.5 0 0 97.5 0 TG 2.5 5.0 0 0 92.5

FIG. 7.6 – Image annotée sans prise en compte de l’information de voisinage, en utilisant les 5 concepts sémantiques suivants : déserts (rose), zones commerciales (vert), zones urbaines (jaune), terrains de golf (bleu) et banlieues résidentielles (sans couleur).

grille régulière dont le pas est égal à la taille des imagettes. L’ensemble de test contient donc 40 × 40 imagettes, à classifier en cinq classes. De manière globale les résultats sont intéressants, d’autant plus que les descripteurs utilisés pour le calcul des mots visuels sont sobres. Nous constatons cependant des confusions entre les classes déserts et banlieues résidentielles. Ceci est d û au fait que les banlieues résidentielles sont une classe de mélange, principalement composée de maisons, déserts et de petits espaces verts. En outre, plu-

7.2. EXPERIMENTATIONS ET R´ ESULTATS´ 133

sieurs régions mal annotées sont celles qui ne correspondent à aucun des concepts définis par l’utilisateur. Par exemple, les routes principales sont attribuées aux zones commerciales, tandis que les pelouses sont classifiées comme étant des terrains de golf. Rappelons que les caractéristiques bas-niveau utilisées pour ces expérimentations sont simplement la moyenne et l’écart-type, et la décision pour la classification est faite par Maximum de Vraisemblance. Donc ces erreurs d’annotation ne sont guère surprenantes. Pour y remédier, nous projetons d’introduire une classe de rejet pour les zones ne correspondant à aucun des concepts utilisés, ou alors de définir des concepts sémantiques cou- vrant toutes les régions possibles de l’image de test. De même, des descripteurs locaux plus riches pourraient largement réduire les erreurs d’annotation.

Dans la seconde expérimentation, les imagettes de l’ensemble de test sont obtenues par découpage de l’image à annoter avec un recouvrement de 50 pixels. Ainsi, après la classification des 118×118 imagettes de l’ensemble de test en 5 classes, un vote majoritaire est mis en oeuvre pour reconstruire l’image, en tenant compte des relations de voisinage entre les imagettes. Les résultats semblent satisfaisants, comme le montre la figure 7.7. Par rapport au test précédent, l’amélioration de l’annotation est flagrante : il y a moins d’imagettes isolées puisque les relations de voisinage sont introduites, et les zones de l’image appartenant aux différents concepts sont moins grossières et mieux délimitées. En effet, le grand terrain de golf en haut de l’image par exemple, correspond mieux à la vérité de terrain avec ce second test.

Par conséquent, dans la suite, nous ne présenterons que les résultats des expérimenta- tions qui tiennent compte de l’information de voisinage.

Dans le document Apprentissage automatique des classes d'occupation du sol et représentation en mots visuels des images satellitaires (Page 130-134)