• Aucun résultat trouvé

5.2.1 Le vocabulaire visuel

Le vocabulaire visuel est d´efini par analogie avec le vocabulaire de mots textuels, dans le but de pouvoir appliquer les techniques statistiques de textes aux images. Aucun vocabulaire visuel n’existant de mani`ere explicite, il faut donc le construire de mani`ere `a ce qu’il repr´esente au mieux les donn´ees. Les mots visuels sont obtenus par quantifi- cation vectorielle de descripteurs locaux extraits des images : il s’agit d’une transforma- tion de l’espace de description vers un espace discret d’´etiquettes. La repr´esentation de l’image par des mots visuels peut donc ˆetre vue comme une sorte de codage de l’image. De mani`ere g´en´erale, un codage permet de passer d’une repr´esentation des donn´ees `a une autre. En compression des donn´ees (th´eorie de l’information), l’information `a com- presser est vue comme la sortie d’une source de symboles qui produit des textes finis selon certaines r`egles et le but est de minimiser la taille moyenne des textes obtenus en r´eduisant l’information r´ep´etitive, c’est-`a-dire la redondance. En effet, la compression des donn´ees permet de r´eduire l’espace n´ecessaire `a la repr´esentation d’une certaine quantit´e d’information. Par analogie, le codage de l’image consiste `a transformer l’image en une repr´esentation plus concise et facilement exploitable par l’utilisateur, tout en pr´eservant son contenu informationnel.

La technique la plus utilis´ee pour construire un vocabulaire visuel consiste `a r´epartir dans des groupes (clusters), des descripteurs locaux extraits des images d’apprentissage, le nombre de clusters repr´esentant la taille du vocabulaire. La construction d’un voca- bulaire visuel d´epend donc fortement du type de primitives extraites localement des images, et de l’algorithme utilis´e pour la quantification.

5.2.2 Etat de l’art

Etant donn´e un ensemble d’images, la m´ethode la plus courante de codage est celle utilis´ee dans [Barnard et al., 2003; Duygulu et al., 2002; Jeon et al., 2003]. Elle consiste `a segmenter les images en r´egions, et `a extraire pour chaque r´egion, un vecteur de ca- ract´eristiques (spectrales, texturelles, formes, etc.) qui la repr´esente. Ces repr´esentations des r´egions sont ensuite quantifi´ees par un algorithme de clustering (en g´en´eral les k- means). Les groupes de r´egions (clusters) obtenus, que nous appellerons blobs comme dans [Jeon et al., 2003; Barnard et al., 2003; Duygulu et al., 2002], sont repr´esent´es chacun par un “mot visuel”, qui est le centro¨ıde du cluster. Ainsi, chaque blob a une ´etiquette qui permet de l’identifier. Les ´etiquettes sont assimil´ees `a un dictionnaire visuel pouvant ˆetre utilis´e pour d´ecrire le contenu visuel de l’image. Une variante de cette m´ethode de codage est de d´ecouper l’image en imagettes en utilisant une grille r´eguli`ere, plut ˆot que de la segmenter. Cette derni`ere technique est utilis´ee dans les travaux de Mori et ses coll`egues [Mori et al., 1999] et Li et Bretschneider [Li & Bretschneider, 2006].

Par ailleurs, au lieu de traiter l’image de mani`ere dense, il est possible de s´electionner un sous ensemble de points qui sont plus informatifs que les autres, `a l’aide d’un crit`ere de saillance, r´eduisant ainsi la quantit´e d’information `a traiter. Par exemple, Fei-Fei et Perona [Fei-Fei & Perona, 2005], dans leur approche d’identification de la s´emantique des sc`enes naturelles, construisent un vocabulaire visuel `a partir d’une base d’apprentis- sage sur lesquelles sont extraites des r´egions d’int´erˆet, obtenues de 4 mani`eres diff´erentes (entre autres le d´etecteur de Kadir et Brady). Les descripteurs locaux SIFT [Lowe, 2004] sont calcul´es sur ces r´egions, puis regroup´es en clusters avec les k-means pour obtenir les mots du vocabulaire visuel, d´enu´es de s´emantique, mais constituant une description pertinente des images (voir figure 5.2). De mˆeme, dans [Marszaek & Schmid, 2006], les auteurs construisent un vocabulaire visuel en extrayant des descripteurs SIFT de points d’int´erˆet rep´er´es avec les d´etecteurs de Harris-Laplace et Laplacien, puis en les quanti- fiant `a l’aide des k−means. Leibe et ses coll`egues [Leibe et al., 2006] quant `a eux, utilisent plut ˆot un algorithme de quantification hi´erarchique pour regrouper les descripteurs.

D’autre part, une autre m´ethode, moins classique, de codage d’images couleur est d´etaill´ee dans [Watanabe et al., 2002] et propose un sch´ema de repr´esentation de l’image bas´e sur la compression de donn´ees. L’image est segment´ee puis chaque r´egion est en- cod´ee en un texte : chaque r´egion est tout d’abord repr´esent´ee par un graphe pond´er´e dans lequel les noeuds sont les pixels de la r´egion et le poids d’un arc est donn´e par la diff´erence spectrale entre les deux noeuds reli´es ; puis, l’arbre recouvrant de poids mini- mal de ce graphe est extrait et parcouru selon une certaine direction. Une quantification vectorielle appliqu´ee sur les couleurs des noeuds et les directions de parcours permet d’obtenir le texte code. Ensuite, un ensemble de compresseurs de texte est utilis´e pour g´en´erer un vecteur de taux de compression qui servira de caract´eristique pour la r´egion. Il est aussi possible de travailler directement sur toute l’image pour obtenir un vecteur de taux de compression caract´erisant l’image.

5.2. CODAGE DE L’IMAGE:LES MOTS VISUELS 93

(a) (b)

FIG. 5.2 – (a) Exemple de mots du vocabulaire visuel utilis´e par Fei-Fei et Perona. Ces

mots visuels, qui sont des fenˆetres de pixels, sont issus d’images naturelles (b) apparte- nant `a 13 concepts s´emantiques, tels que chambres, salons, bureau, paysages, forˆets ou encore autoroutes.

Une fois l’image caract´eris´ee par l’une des m´ethodes que nous venons de d´ecrire, en fonction de l’application, diff´erentes techniques (g´en´eralement d’apprentissage) sont uti- lis´ees pour introduire une s´emantique. En effet, dans la litt´erature, outre les tˆaches de compression pour la transmission, le codage d’une image a par ailleurs ´et´e utilis´e pour interpr´eter s´emantiquement des sc`enes ou rechercher des images par mots-cl´es : on parle alors de “codage s´emantique”. C’est une ´etape n´ecessaire dans le processus d’analyse de l’image pour des applications telles que l’annotation, la correspondance ou la reconnais- sance d’objets dans les images naturelles. Notons que l’op´eration d’annotation est une forme de codage s´emantique pour lequel les mots sont directement les symboles utilis´es pour le codage.

5.2.3 Approche choisie

La question de la construction d’un vocabulaire visuel pertinent est donc essentielle, car de l’aptitude des mots visuels `a bien repr´esenter les images de l’ensemble d’apprentis- sage, d´ependent les performances des traitements ult´erieurs (cat´egorisation, annotation, etc).

Nos travaux concernent les images satellitaires, qui en g´en´eral sont riches en informa- tion. Afin de supprimer tout risque de manquer des informations utiles `a la classification, certains travaux consid`erent tous les pixels de l’image sans aucune s´election [Winn et al., 2005], ou alors ´echantillonnent les images aussi dens´ement que possible. Cependant ces m´ethodes traitent chaque pixel s´epar´ement, ce qui n’est pas notre objectif. Nous avons donc consid´er´e deux types d’approches :

– Les images sont d´ecoup´ees suivant une grille r´eguli`ere dont la taille d´epend de la r´esolution de l’image et du type de classes s´emantiques recherch´ees. Les mots visuels seront donc calcul´es `a partir de fenˆetres de pixels.

– Les images sont partitionn´ees en r´egions `a l’aide d’un algorithme de segmentation. L’´etape de segmentation est essentielle, car elle est irr´eversible : une mauvaise seg-

mentation se r´epercute en cascade sur la qualit´e des traitements ult´erieurs. Ici, nous avons utilis´e l’algorithme Mean shift pr´esent´e dans la section 3.1, qui en permettant de fixer la taille de la r´egion minimale, permet de contr ˆoler le nombre de r´egions de l’image segment´ee. Nous ´evitons ainsi le nombre important de petites r´egions non significatives qu’on obtient avec l’algorithme watershed par exemple. L’´evaluation de la qualit´e de la segmentation est visuelle. Il s’agit de voir si les r´egions de l’image segment´ee correspondent plus ou moins `a certains objets de l’image ou `a des par- ties ´evidentes d’un objet. Une image l´eg`erement sursegment´ee ne serait donc pas probl´ematique. Proposer une ´evaluation objective de la qualit´e des segmentations produites n’est pas simple, nous pourrions les comparer par exemple `a l’aide de crit`eres entropiques [Meila, 2002].

Les primitives extraites des images d´ependent essentiellement du type et de la r´esolu- tion des images. L’´etude effectu´ee dans le chapitre 4 sur CORINE Land Cover, `a l’aide des images SPOT2 XS a montr´e que pour ces images, la combinaison des caract´eristiques spectrales, y compris les n´eocanaux, et texturelles donne en g´en´eral de meilleurs r´esultats. Dans le chapitre 7, lors de l’annotation des images Quickbird panchromatiques de Las Vegas `a 60 cm de r´esolution, nous avons utilis´e la moyenne et la variance comme des- cripteurs des fenˆetres de pixels issues du d´ecoupage suivant une grille r´eguli`ere, cepen- dant les coefficients de l’analyse en composantes principales (ACP) sont une alternative. Lorsque les images seront segment´ees au pr´ealable, nous extrairons en plus pour chaque r´egion, des caract´eristiques de forme que nous d´efinirons lors de leur utilisation.

L’´etape de quantification vectorielle est bas´ee sur l’algorithme de clustering k−means. Cependant, un param`etre important `a d´eterminer est le nombre de clusters, qui repr´esen- te la taille du vocabulaire. Afin de d´eterminer le nombre optimal de clusters, nous utili- sons le crit`ere KMDL (kernel MDL) d´ecrit dans [Kyrgyzov et al., 2007], qui mod´elise les descripteurs par un m´elange de gaussiennes, et utilise le crit`ere de la longueur de des- cription minimale (Minimal Description Length ou MDL) pour acc´eder `a la complexit´e optimale du mod`ele. De cette mani`ere, les centro¨ıdes des clusters produits en utilisant les k−means et le nombre optimal de clusters obtenu, constituent les mots visuels du vo- cabulaire.

Chaque r´egion ou fenˆetre de pixels de l’image est ainsi assimil´ee au mot visuel qui lui est associ´e, et a donc une ´etiquette.