• Aucun résultat trouvé

2.4 Notre approche pour l’annotation globale

2.4.2 Contribution aux descripteurs globaux

Modification du descripteur de texture Fourier

Nous avons voulu connaˆıtre l’influence du choix effectu´e par Ferecatu [Fer05] sur le crit `ere de partitionnement du spectre fr´equentiel en disques par rapport aux performances du descrip-teur. Avec cette approche, le rayon des diff´erents disques croit plus lentement `a mesure qu’on s’´eloigne de l’origine du plan complexe de Fourier. L’id´ee est de voir ce qu’apporte une crois-sance constante de ce rayon. On a repr´esent´e sch´ematiquement ces deux approches sur la figure 2.18. Le plan de Fourier est partitionn´e par 4 disques concentriques. On a `a gauche un incr´ement constant de surface et `a droite un incr´ement constant de rayon. On voit nettement dans notre exemple que l’approche de [Fer05] traite la partie centrale du plan complexe, correspondant

2.4 Notre approche pour l’annotation globale 51

FIG. 2.18 – Fourier, deux approches pour la partition en disques. A gauche, l’approche de

[Fer05] et `a droite notre proposition.

aux basses fr´equences, avec un seul disque. Or cette partie contient g´en´eralement ´enorm´ement d’informations. On peut d’ailleurs en avoir un aperc¸u sur les exemples des deux bases. Il ap-paraˆıt donc que ce choix tend `a limiter la description de l’information basse fr´equence. A l’in-verse, notre approche permettra d’ ˆetre plus pr´ecise sur les basses fr´equences mais moins pour les hautes fr´equences.

Suivant les protocoles d´efinis par Ferecatu [Fer05], nous avons ´evalu´e ces modifications sur deux bases d’images pour lesquelles la texture est une composante visuelle importante. La premi`ere base contient 792 photos de 88 textures. La taille des images est de 128x128 pixels. On peut voir quelques exemples sur la figure 2.19. On y a ´egalement repr´esent´e l’amplitude normalis´ee de la transform´ee de Fourier en ´echelle logarithmique. La seconde base, WonUK

GTDB 2 est une base de photos a´eriennes. Elle a ´et´e initiallement constitu´ee par Fauqueur et

al. [FKA05]. Elle contient 1 040 images de taille 64x64 qui ont ´et´e manuellement assign´ees

`a 8 cat´egories diff´erentes (bateau, batiment, champs, herbe, rivi`ere, route, arbre et vehicule).

FIG. 2.20 – Quelques images de la base WonUK GTDB et leur spectre de Fourier

Les courbes pr´ecision/rappel n’ont pas la mˆeme forme pour les deux bases. Les performances d´ecroissent plus rapidement pour WonUK GTDB. On remarque par contre que l’ordre des courbes et leurs ´ecarts sont ´equivalent dans les deux cas. Prises ind´ependemment, on voit que l’information de direction est clairement moins importante que la fr´equence. L’utilisation d’un incr´ement constant de rayon apporte une am´elioration significative des performances. Enfin, logiquement, la combinaison des informations disks et wedges am`ene les meilleurs r´esultats. Le descripteur MPEG-7 HTD (Homogeneous Texture Descriptor) [MSS02] a une approche si-milaire au descripteur de Fourier. La partition en disques du plan des fr´equences est effectu´ee par octave, accordant ainsi plus d’importance `a la partie centrale du plan des fr´equences. En re-vanche, le descripteur HTD consid`ere conjointement les partitions disks et wedges. Nous avons exp´eriment´ee cette approche et elle fournit de moins bonnes performances.

Le descripteur de formes LEOH

Le travail r´ealis´e par Yahiaoui et al. [YHB06] sur le descripteur DFH (Directional

Frag-ment Histogram) a permis de mettre en ´evidence ses bonnes performances en termes de

per-tinence et de temps de calcul. Ce descripteur de forme permet de caract´eriser un contour. Il a ´et´e utilis´e dans le cadre de l’indexation de bases d’images botaniques. Nous avons souhait´e

2.4 Notre approche pour l’annotation globale 53 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.2 0.4 0.6 0.8 1 Precision Rappel Wedges 32 Disks R 32 Disks R 32 + Wedges 32 Disks S 32 Disks S 32 + Wedges 32

FIG. 2.21 – Fourier, courbes pr´ecision/rappel pour la base Textures

0 0.2 0.4 0.6 0.8 1 0 0.2 0.4 0.6 0.8 1 Precision Rappel Wedges 32 Disks R 32 Disks R 32 + Wedges 32 Disks S 32 Disks S 32 + Wedges 32

reprendre l’id´ee principale de ce descripteur et la g´en´eraliser `a tout type de contenu. Suivant l’id´ee exprim´ee par Qian et al. [QBS00] d’´etendre l’utilisation d’histogrammes de blobs aux orientations locales sur les contours, nous avons d´evelopp´e le descripteur de formes LEOH

(Lo-cal Edge Orientation Histogram) [HB07a]. La principale raison qui a motiv´e ce travail vient

de la campagne d’´evaluation ImagEVAL (voir section 2.4.4, page 57). La distinction entre des images de paysages et de sc`enes urbaines est grandement aid´ee par le fait que les constructions humaines sont caract´eris´ees par des lignes horizontales et verticales. Partant du m ˆeme constat, Gu´erin-Dugu´e et Oliva [GDO00] avaient propos´e d’utiliser les orientations locales dominantes dans le spectre des images. Un descripteur standard d’orientation des gradients (voir page 19) est ´egalement capable d’encoder ce type d’informations. Mais si un batiment n’occupe qu’une faible surface de l’image, sa pr´esence sera rapidement noy´ee dans le bruit environnant. Le des-cripteur LEOH en revanche a l’avantage d’encoder `a la fois l’information locale et globale, permettant ainsi de pallier `a ce probl`eme.

Comme pour l’histogramme des gradients standard, on commence par extraire les contours de l’image `a l’aide de l’op´erateur de Canny-Deriche. En revanche, au lieu d’accumuler les orientations des gradients quantifi´ees enn bins directement dans un histogramme, on va utiliser une fenˆetre glissante sur l’image. A chaque position de cette fenˆetre, on va mesurer la pro-portion d’orientations des contours pour chaque direction. Les propro-portions sont elles-mˆemes

quantifi´ees enp bins. On a donc un histogramme en deux dimensions. La figure 2.23 illustre ce

FIG. 2.23 – Fonctionnement du descripteur LEOH

fonctionnement. Les orientations y sont quantifi´ees en 8 bins et les proportions en 4 bins. On a donc au final une signature en 32 dimensions. Pour la position de la fenˆetre qui est repr´esent´ee, on a quelques lignes verticales et une majorit´e de lignes horizontales. L’histogramme est donc incr´ement´e dans les deux cases correspondantes. Si la fenˆetre passe sur une zone n’ayant aucun contour, la position est simplement ignor´ee. L’histogramme est ensuite normalis´e pour que la somme de tous les bins soit ´egale `a un. L’´evaluation de ce descripteur sera faite dans la partie concernant la campagne d’´evaluation ImagEVAL-5 (section 2.4.5, page 63).

2.4 Notre approche pour l’annotation globale 55