• Aucun résultat trouvé

7.2 Exp´erimentations et r´esultats

7.2.1 Influence de l’information spatiale

7.2.1.1 Description des donn´ees

Les tests sont effectu´es sur des images Quickbird Panchromatiques de Las Vegas, `a 60 cm de r´esolution. La base d’apprentissage fournie par l’utilisateur contient 200 images de taille variant de 150 × 150 `a 500 × 500 pixels. Ces images, dont quelques exemples sont expos´es dans la figure 7.2, sont ´egalement r´eparties entre 5 classes correspondant aux concepts suivants : banlieues r´esidentielles (BR), d´eserts (DS), zones commerciales (ZC), zones urbaines (ZU) et terrains de golf (TG).

La grande image `a annoter avec les concepts que nous venons de d´efinir est de taille 6000 × 6000pixels (voir figure 7.3). Elle contient toutes les classes sus-pr´esent´ees, mais aussi d’autres classes non apprises, comme les axes routiers principaux.

7.2.1.2 R´eglage des param`etres et tests

Dans cette exp´erimentation, un mot correspond `a une fenˆetre de taille 10 × 10 pixels, d´etermin´ee de mani`ere empirique. En effet, la taille du mot doit ˆetre suffisamment grande pour contenir au minimum une partie d’un objet de l’image, et suffisamment petite pour contenir une information homog`ene, c’est-`a-dire ne pas mˆeler des informations apparte- nant `a des objets diff´erents par exemple. Diverses exp´erimentations ont donc ´et´e men´ees avec des fenˆetres de taille 10 × 10, 15 × 15 et 20 × 20 pixels, et la d´ecision s’est faite sur les performances des tests de validation crois´ee. Nous avons utilis´e une proc´edure de validation crois´ee `a 5 boucles : l’ensemble des donn´ees de la base d’apprentissage est di- vis´e de mani`ere al´eatoire en 5 sous-ensembles. Ainsi, 20% des images sont utilis´ees pour tester l’apprentissage fait `a partir de 80% de la population, chaque sous-ensemble ´etant

FIG. 7.3 – Image Quickbird de Las Vegas `a annoter.

utilis´e une fois et une seule pour les tests. Les meilleures performances ont ´et´e obtenues avec les mots de taille 10 × 10 pixels.

Disposant d’images panchromatiques, les caract´eristiques de bas-niveau automati- quement extraites de chaque mot de la base de donn´ees sont simplement la moyenne et l’´ecart-type. En fait, nous avons effectu´e des tests avec d’autres descripteurs tels que la m´ediane et la variation totale, et le couple de primitives retenu s’est av´er´e ˆetre le plus pertinent en termes de performance et de nombre de caract´eristiques. Par exemple, l’uti- lisation simultan´ee de la moyenne, la variance et la variation totale n’am´eliore pas pour autant les performances des tests de validation crois´ee obtenues avec la moyenne et la variance.

Le nombre optimal de clusters pour nos donn´ees, d´etermin´e `a l’aide du crit`ere MDL est de 20, comme le montre la figure 7.4. Quant au nombre de topics pour chaque classe, il est estim´e grˆace `a la perplexit´e. La figure 7.5 montre la courbe de la perplexit´e en fonc- tion du nombre de topics pour la classe des banlieues r´esidentielles. Le nombre optimal d’aspects latents est celui qui minimise la complexit´e, en l’occurrence, 5 dans le cas des banlieues r´esidentielles.

Les mod`eles sont ´evalu´es par une proc´edure de validation crois´ee `a 5 boucles. Les per- formances des mod`eles des diff´erentes classes sont d´etaill´ees dans la matrice de confu- sion expos´ee dans le tableau 7.1. Nous constatons qu’il existe quelques confusions justi- fiables entre certaines classes. En effet, des images de la classe d´eserts par exemple sont classifi´ees en tant que terrains de golf, et vice versa. Ce qui n’est pas vraiment ´etonnant

7.2. EXPERIMENTATIONS ET R´ ESULTATS´ 131

FIG. 7.4 – Courbe de la longueur du code en fonction du nombre de clusters pour l’en- semble des donn´ees. Le nombre optimal de clusters est celui qui minimise longueur de description, c’est-`a-dire 20 dans ce cas.

FIG. 7.5 – Courbe de la perplexit´e en fonction du nombre de topics pour la classe des banlieues r´esidentielles. Le nombre de topics optimal est celui qui minimise la perplexit´e, c’est-`a-dire 5 dans ce cas.

puisque les terrains de golf sont principalement compos´es de champs, d´eserts et lacs. L’ensemble de test contient des imagettes issues de la grande image (figure 7.3), et de taille 150 × 150 pixels choisie exp´erimentalement. Chaque imagette contient donc 225 mots. Nous avons effectu´e deux types de tests sur l’image `a annoter : sans et avec recouvrement entre les imagettes. Nous comparons ensuite les deux images annot´ees r´esultantes, afin de juger de l’apport de la prise en compte de l’information spatiale. L’´evaluation des r´esultats est visuelle, en utilisant les cartes Google comme v´erit´e de terrain.

7.2.1.3 Analyse des r´esultats

La figure 7.6 repr´esente l’image de test, annot´ee avec les cinq concepts s´emantiques et sans prise en compte de l’information de voisinage. En d’autres termes, les imagettes de l’ensemble de test sont obtenues par partitionnement de l’image `a annoter, selon une

TAB. 7.1 – Matrice de confusion obtenue pour la validation crois´ee `a 5 boucles. Les lignes repr´esentent la v´erit´e de terrain et les colonnes correspondent aux mod`eles des diff´erentes classes. La performance moyenne est de 96.5%.

BR DS ZC ZU TG BR 97.5 0 0 2.5 0 DS 2.5 95.0 0 0 2.5 ZC 0 0 97.5 2.5 0 ZU 2.5 0 0 97.5 0 TG 2.5 5.0 0 0 92.5

FIG. 7.6 – Image annot´ee sans prise en compte de l’information de voisinage, en utilisant les 5 concepts s´emantiques suivants : d´eserts (rose), zones commerciales (vert), zones urbaines (jaune), terrains de golf (bleu) et banlieues r´esidentielles (sans couleur).

grille r´eguli`ere dont le pas est ´egal `a la taille des imagettes. L’ensemble de test contient donc 40 × 40 imagettes, `a classifier en cinq classes. De mani`ere globale les r´esultats sont int´eressants, d’autant plus que les descripteurs utilis´es pour le calcul des mots visuels sont sobres. Nous constatons cependant des confusions entre les classes d´eserts et banlieues r´esidentielles. Ceci est d ˆu au fait que les banlieues r´esidentielles sont une classe de m´elange, principalement compos´ee de maisons, d´eserts et de petits espaces verts. En outre, plu-

7.2. EXPERIMENTATIONS ET R´ ESULTATS´ 133

sieurs r´egions mal annot´ees sont celles qui ne correspondent `a aucun des concepts d´efinis par l’utilisateur. Par exemple, les routes principales sont attribu´ees aux zones commer- ciales, tandis que les pelouses sont classifi´ees comme ´etant des terrains de golf. Rappelons que les caract´eristiques bas-niveau utilis´ees pour ces exp´erimentations sont simplement la moyenne et l’´ecart-type, et la d´ecision pour la classification est faite par Maximum de Vraisemblance. Donc ces erreurs d’annotation ne sont gu`ere surprenantes. Pour y rem´edier, nous projetons d’introduire une classe de rejet pour les zones ne correspon- dant `a aucun des concepts utilis´es, ou alors de d´efinir des concepts s´emantiques cou- vrant toutes les r´egions possibles de l’image de test. De mˆeme, des descripteurs locaux plus riches pourraient largement r´eduire les erreurs d’annotation.

Dans la seconde exp´erimentation, les imagettes de l’ensemble de test sont obtenues par d´ecoupage de l’image `a annoter avec un recouvrement de 50 pixels. Ainsi, apr`es la classification des 118×118 imagettes de l’ensemble de test en 5 classes, un vote majoritaire est mis en oeuvre pour reconstruire l’image, en tenant compte des relations de voisinage entre les imagettes. Les r´esultats semblent satisfaisants, comme le montre la figure 7.7. Par rapport au test pr´ec´edent, l’am´elioration de l’annotation est flagrante : il y a moins d’imagettes isol´ees puisque les relations de voisinage sont introduites, et les zones de l’image appartenant aux diff´erents concepts sont moins grossi`eres et mieux d´elimit´ees. En effet, le grand terrain de golf en haut de l’image par exemple, correspond mieux `a la v´erit´e de terrain avec ce second test.

Par cons´equent, dans la suite, nous ne pr´esenterons que les r´esultats des exp´erimenta- tions qui tiennent compte de l’information de voisinage.