Dans ette partie, nous dé rivons les méthodes que nous utilisons pour réer
dif-férents vo abulaires ainsi que les diérentes pondérations permettant de pondérer les
motsvisuelsdanslesimages. Pour uneimage
di
donnée,nousnoteronsrespe tivement lalargeuretlahauteur de etteimage parm
etn
.3.1.1 Création d'un vo abulaire visuel
Nous dé rironsles diérentes étapesde la onstru tion d'unvo abulaire visuel :la
déte tion despointsd'intérêt, lades ription de esderniers et laquanti ation de es
des riptions.
3.1.1.1 Déte tion des points d'intérêt
Comme nous l'avons présenté dans la partie 1.3.1.2, le but de ette étape est de
séle tionner les points au voisinage desquels nous al ulons un des ripteur. Elle peut
s'ee tuerpar unedéte tionpréalablede pointsd'intérêtsàl'aided'algorithmes
spé i-ques [Harris et Stephens,1988, Lowe,1999℄. Plusieurs études montrent qu'un simple
é hantillonnagerégulierdespointsouuné hantillonnagemulti-é hellesonttrèse a es
et onduisent à de meilleurs résultats dans le ontexte de la atégorisation d'images
[Jurie etTriggs, 2005,Nowak et al., 2006℄. Dans la suite, nos hoix sesont portés sur
l'é hantillonnage denseetmulti-é helle.
É hantillonnage dense
L'é hantillonnage dense, ou la déte tion régulière, onsiste à é hantillonner les
points régulièrement et à dénir une région re tangulaire de taille xe autour des
points. Nous devons don hoisir la période d'é hantillonnage et la taille des régions.
Dansnosexpérimentations, nousavons hoisidesrégionsdemêmetaillequelapériode
d'é hantillonnage, de telle sorte qu'il n'y ait pas de re ouvrement entre les imagettes
ainsi réées.Chaqueimage estdé oupéeenimagettesre tangulaires proportionnellesà
m× n
, ommeillustré par lagure3.1.Fig.3.1 Déte tion régulière desimages.
Ladéte tionrégulièrenedépendalorsqued'unseulparamètre
a
permettantdefaire varierlenombred'imagettesobtenuesparimage.Pouruneimagedonnée,a2
orrespond
alorsaunombre d'imagettesdéte téesdansl'image.Chaqueimagettepossèdedon une
largeurde
m
a
pixelsetunehauteurden
permetégalementd'être invarianteàlataille de l'image,maisne l'estpasenrevan he
pour les translations etautres hangementsde point devue.
Déte tion multi-é helle
Contrairementàladéte tionrégulière,l'appro hemulti-é helle onsidèredesrégions
de diérentes tailles é hantillonnées à diérentes périodes [Nowak et al., 2006℄. La
taille etlapériode d'é hantillonnage de esrégions dépend de l'é helle onsidérée.On
ommen eparxerlatailledelarégion etlapérioded'é hantillonnageàlapluspetite
é helle. Pour les autres é helles, esdeux paramètres sont multipliés par le oe ient
de progression des é helles an de onserver un taux de re ouvrement onstant entre
les régions pour les diérentes é helles. Le plus ourant est d'adopter une progression
des é helles en puissan e de 2 et de multiplier également la taille des régions et leur
période d'é hantillonnage par 2. Dans nos expérimentations, nous avons hoisi une
progression en fa teur 2 et à l'é helle 1, desrégions de
12× 12
pixels é hantillonnées tous les pixels. La taille des régions à l'é helle 1 est un paramètre qui a été xé pourpouvoir al uler la des ription
sif t
.L'é helle maximale dépend de lataille de l'image et orrespond à l'imagette dont le té ne dépasse nim
, nin
. Ainsi, le nombre de régions générées est de plus en plus faible quand le niveau d'é helle augmente. Pourune image donnée, le nombre de régions générées, en onsidérant toutes les é helles
possibles, est très important. Nous avons hoisi de séle tionner un nombre limité de
régions hoisies aléatoirement parmi toutes les régions possibles, favorisant ainsi les
régions issues des petites é helles. La taille de la région à l'é helle 1 étant xe, ette
déte tion ne né essite également qu'un seul paramètre orrespondant au nombre de
régions hoisiesaléatoirement dansl'image.
3.1.1.2 Des ription
Aprèsladéte tiondespointsetdeleurvoisinagedansuneimagedonnée,diérentes
des riptions peuvent être utilisées pour les représenter. Il existe un très grand nombre
dedes ripteursexploitantdiérentesinformations, ommela ouleur[Boughorbeletal.,
2002,S hettini etal.,2001,SwainetBallard,1991,vandeSande etal.,2008℄,laforme
[ZhangetLu,2004,Ferrarietal.,2008℄,latexture[Manjunathetal.,2002,Lowe,2004℄
ou plusieurs d'entres elles, omme le des ripteur MPEG-7 [Salembier et Smith, 2002,
Spyrouetal.,2005℄.Nousnoussommesfo aliséssurdeuxdes riptions omplémentaires,
lapremière baséeprin ipalement surla ouleur (mstd) etla se onde sur latexture et
laforme(sift).
mstd
Lades riptionmstd est omposéede sixdimensions orrespondantàlamoyenneet
à l'é art-type de la luminan e, du rouge etdu vert normalisés al ulés sur l'ensemble
despixelsdelarégion.Pourunpixeldonné,laluminan e,lerougeetlevertnormalisés
s'obtiennent respe tivement par :
R+G+B
3∗255
R
R+G+B
V
R+G+B
met enavant l'information ouleur d'uneimagette onsidérée.
sift
L'un des des ripteurs les plus onnus est sift utilisé dans diérentes appli ations
omme la re her he et le suivi d'objets [Lowe, 2004, Zhou et al., 2008℄, l'alignement
d'images [Szeliski, 2006℄, la re onnaissan e de visages [Bi ego et al., 2006℄, et . Ce
des ripteur est basésur le al ul d'histogrammes d'orientation du gradient. La région
d'intérêt est dé oupée en une grille
4× 4
pour apturer l'information sur la position et un histogramme est al ulé par ellule. L'orientation du gradient est quant à ellequantiée en8dire tions. Commenousl'avonsvudanslapartie 1.3.2.2, ledes ripteur
sift possède128 dimensions.
3.1.1.3 Quanti ation
La quanti ation onsiste à lasser lesve teursdes ripteurs an de réer un
vo a-bulaire de mots visuels. Le nombre de ve teurs en entrée peut être très important et
l'algorithme de lassi ation doit de e fait être très e a e. Comme nous l'avonsvu
pré édemment, laplusutilisée desappro hes utilise l'algorithmedesnuéesdynamique
ou k-means[Ma Queen, 1967, Diday,1971℄.
L'algorithme des
k
-meansa pour butde trouverun nombre limitéde entres, égal au plus àk
, quiminimisent la distan ede haque ve teur des ripteur à son entre re-présentatifleplus pro he. Cetalgorithmeest illustrépar lagure3.2.Danssaversionlaplussimple, les
k
entres sont hoisis initialement aléatoirement (gure 3.2(a))avek = 3
.À haqueitération,lesdes riptionslespluspro hesde es entressont assignées aux entres (gure 3.2(b)) et les entres sont mis à jour en al ulant le nouveauba-ry entre des des riptions asso iées (gure 3.2( )). L'algorithme se termine lorsque les
entres sestabilisent (gure 3.2(d)).
Cet algorithme possède plusieurs in onvénients [Jurieet Triggs,2005℄ :il né essite
de onnaîtrelenombrede lasses;iln'est pasrobuste arsonrésultatdépenddu hoix
initial des entres; il favorise les régions denses où les ve teurs sont on entrés; de
plus, ertaines lasses peuvent ne pas être identiées. Une solution pour résoudre les
problèmesdel'initialisation des entres etdelafavorisation desrégionsdenses onsiste
àemployerlesméthodesagglomérativesquirassemblenten premierlesdes riptionsles
plus pro hes [Agarwal et al., 2004, Leibe et S hiele, 2006℄. Cependant, es méthodes
ne sont pas adaptées lorsque le nombre de des riptions est important du fait de leur
omplexité algorithmique forte. Pour résoudre e problème de omplexité, une autre
solution onsiste à onstruire les entres in rémentalement [Jurie et Triggs, 2005℄ en
remplaçant haque des ription par un représentant médian (mean-shift) [Comani iu
et Meer, 2002℄ situé dans un ertain rayon. Le nombre de entres n'est don plus à
déterminer:il estdire tement lié àlavaleur durayon.
Dans la suite, nous utiliserons l'algorithme k-means qui reste le plus utilisé et le
plus simple pour la réation de vo abulaires visuels [Leung et Malik, 2001, Sivi et
Zisserman, 2003, Nister et Stewenius, 2006, Philbin et al., 2007, Tirilly et al., 2008℄.
Le résultat obtenu par l'algorithme k-means est le vo abulaire de mots visuels
V =
{v1, . . . , vj, . . . , v|V |}
où haquevj
orrespondàundesk
entres.Dans e as,lenombre de mots visuels|V |
orrespondau paramètrek
de l'algorithme.(a) Initialisation des
k
entrespour
k = 3
.(b)Ae tationdeséléments au entrelepluspro he.
( ) Cal ul des nouveaux entres orrespondant aux bary entresdeséléments.
(d) Les étapes 3.2(b) et 3.2( ) sont répétées jusqu'à la onvergen edes entres.
Fig.3.2 Algorithmedu
k
-means.3.1.2 Pondération
Comme pour la représentation d'un texte, les mots visuels sont pondérés pour
haque image. Pour un mot visuel