Présentation des diérents paramètres

Dans ette partie, nous dé rivons les méthodes que nous utilisons pour réer

dif-férents vo abulaires ainsi que les diérentes pondérations permettant de pondérer les

motsvisuelsdanslesimages. Pour uneimage

d_i

donnée,nousnoteronsrespe tivement lalargeuretlahauteur de etteimage par

m

n

3.1.1 Création d'un vo abulaire visuel

Nous dé rironsles diérentes étapesde la onstru tion d'unvo abulaire visuel :la

déte tion despointsd'intérêt, lades ription de esderniers et laquanti ation de es

des riptions.

3.1.1.1 Déte tion des points d'intérêt

Comme nous l'avons présenté dans la partie 1.3.1.2, le but de ette étape est de

séle tionner les points au voisinage desquels nous al ulons un des ripteur. Elle peut

s'ee tuerpar unedéte tionpréalablede pointsd'intérêtsàl'aided'algorithmes

spé i-ques [Harris et Stephens,1988, Lowe,1999℄. Plusieurs études montrent qu'un simple

é hantillonnagerégulierdespointsouuné hantillonnagemulti-é hellesonttrèse a es

et onduisent à de meilleurs résultats dans le ontexte de la atégorisation d'images

[Jurie etTriggs, 2005,Nowak et al., 2006℄. Dans la suite, nos hoix sesont portés sur

l'é hantillonnage denseetmulti-é helle.

É hantillonnage dense

L'é hantillonnage dense, ou la déte tion régulière, onsiste à é hantillonner les

points régulièrement et à dénir une région re tangulaire de taille xe autour des

points. Nous devons don hoisir la période d'é hantillonnage et la taille des régions.

Dansnosexpérimentations, nousavons hoisidesrégionsdemêmetaillequelapériode

d'é hantillonnage, de telle sorte qu'il n'y ait pas de re ouvrement entre les imagettes

ainsi réées.Chaqueimage estdé oupéeenimagettesre tangulaires proportionnellesà

m× n

, ommeillustré par lagure3.1.

Fig.3.1 Déte tion régulière desimages.

Ladéte tionrégulièrenedépendalorsqued'unseulparamètre

a

permettantdefaire varierlenombred'imagettesobtenuesparimage.Pouruneimagedonnée,

a2

orrespond

alorsaunombre d'imagettesdéte téesdansl'image.Chaqueimagettepossèdedon une

largeurde

m

a

pixelsetunehauteurde

n

permetégalementd'être invarianteàlataille de l'image,maisne l'estpasenrevan he

pour les translations etautres hangementsde point devue.

Déte tion multi-é helle

Contrairementàladéte tionrégulière,l'appro hemulti-é helle onsidèredesrégions

de diérentes tailles é hantillonnées à diérentes périodes [Nowak et al., 2006℄. La

taille etlapériode d'é hantillonnage de esrégions dépend de l'é helle onsidérée.On

ommen eparxerlatailledelarégion etlapérioded'é hantillonnageàlapluspetite

é helle. Pour les autres é helles, esdeux paramètres sont multipliés par le oe ient

de progression des é helles an de onserver un taux de re ouvrement onstant entre

les régions pour les diérentes é helles. Le plus ourant est d'adopter une progression

des é helles en puissan e de 2 et de multiplier également la taille des régions et leur

période d'é hantillonnage par 2. Dans nos expérimentations, nous avons hoisi une

progression en fa teur 2 et à l'é helle 1, desrégions de

12× 12

pixels é hantillonnées tous les pixels. La taille des régions à l'é helle 1 est un paramètre qui a été xé pour

pouvoir al uler la des ription

sif t

.L'é helle maximale dépend de lataille de l'image et orrespond à l'imagette dont le té ne dépasse ni

m

, ni

n

. Ainsi, le nombre de régions générées est de plus en plus faible quand le niveau d'é helle augmente. Pour

une image donnée, le nombre de régions générées, en onsidérant toutes les é helles

possibles, est très important. Nous avons hoisi de séle tionner un nombre limité de

régions hoisies aléatoirement parmi toutes les régions possibles, favorisant ainsi les

régions issues des petites é helles. La taille de la région à l'é helle 1 étant xe, ette

déte tion ne né essite également qu'un seul paramètre orrespondant au nombre de

régions hoisiesaléatoirement dansl'image.

3.1.1.2 Des ription

Aprèsladéte tiondespointsetdeleurvoisinagedansuneimagedonnée,diérentes

des riptions peuvent être utilisées pour les représenter. Il existe un très grand nombre

dedes ripteursexploitantdiérentesinformations, ommela ouleur[Boughorbeletal.,

2002,S hettini etal.,2001,SwainetBallard,1991,vandeSande etal.,2008℄,laforme

[ZhangetLu,2004,Ferrarietal.,2008℄,latexture[Manjunathetal.,2002,Lowe,2004℄

ou plusieurs d'entres elles, omme le des ripteur MPEG-7 [Salembier et Smith, 2002,

Spyrouetal.,2005℄.Nousnoussommesfo aliséssurdeuxdes riptions omplémentaires,

lapremière baséeprin ipalement surla ouleur (mstd) etla se onde sur latexture et

laforme(sift).

mstd

Lades riptionmstd est omposéede sixdimensions orrespondantàlamoyenneet

à l'é art-type de la luminan e, du rouge etdu vert normalisés al ulés sur l'ensemble

despixelsdelarégion.Pourunpixeldonné,laluminan e,lerougeetlevertnormalisés

s'obtiennent respe tivement par :

R+G+B

3∗255

R

R+G+B

V

R+G+B

met enavant l'information ouleur d'uneimagette onsidérée.

sift

L'un des des ripteurs les plus onnus est sift utilisé dans diérentes appli ations

omme la re her he et le suivi d'objets [Lowe, 2004, Zhou et al., 2008℄, l'alignement

d'images [Szeliski, 2006℄, la re onnaissan e de visages [Bi ego et al., 2006℄, et . Ce

des ripteur est basésur le al ul d'histogrammes d'orientation du gradient. La région

d'intérêt est dé oupée en une grille

4× 4

pour apturer l'information sur la position et un histogramme est al ulé par ellule. L'orientation du gradient est quant à elle

quantiée en8dire tions. Commenousl'avonsvudanslapartie 1.3.2.2, ledes ripteur

sift possède128 dimensions.

3.1.1.3 Quanti ation

La quanti ation onsiste à lasser lesve teursdes ripteurs an de réer un

vo a-bulaire de mots visuels. Le nombre de ve teurs en entrée peut être très important et

l'algorithme de lassi ation doit de e fait être très e a e. Comme nous l'avonsvu

pré édemment, laplusutilisée desappro hes utilise l'algorithmedesnuéesdynamique

ou k-means[Ma Queen, 1967, Diday,1971℄.

L'algorithme des

k

-meansa pour butde trouverun nombre limitéde entres, égal au plus à

k

, quiminimisent la distan ede haque ve teur des ripteur à son entre re-présentatifleplus pro he. Cetalgorithmeest illustrépar lagure3.2.Danssaversion

laplussimple, les

k

entres sont hoisis initialement aléatoirement (gure 3.2(a))ave

k = 3

.À haqueitération,lesdes riptionslespluspro hesde es entressont assignées aux entres (gure 3.2(b)) et les entres sont mis à jour en al ulant le nouveau

ba-ry entre des des riptions asso iées (gure 3.2( )). L'algorithme se termine lorsque les

entres sestabilisent (gure 3.2(d)).

Cet algorithme possède plusieurs in onvénients [Jurieet Triggs,2005℄ :il né essite

de onnaîtrelenombrede lasses;iln'est pasrobuste arsonrésultatdépenddu hoix

initial des entres; il favorise les régions denses où les ve teurs sont on entrés; de

plus, ertaines lasses peuvent ne pas être identiées. Une solution pour résoudre les

problèmesdel'initialisation des entres etdelafavorisation desrégionsdenses onsiste

àemployerlesméthodesagglomérativesquirassemblenten premierlesdes riptionsles

plus pro hes [Agarwal et al., 2004, Leibe et S hiele, 2006℄. Cependant, es méthodes

ne sont pas adaptées lorsque le nombre de des riptions est important du fait de leur

omplexité algorithmique forte. Pour résoudre e problème de omplexité, une autre

solution onsiste à onstruire les entres in rémentalement [Jurie et Triggs, 2005℄ en

remplaçant haque des ription par un représentant médian (mean-shift) [Comani iu

et Meer, 2002℄ situé dans un ertain rayon. Le nombre de entres n'est don plus à

déterminer:il estdire tement lié àlavaleur durayon.

Dans la suite, nous utiliserons l'algorithme k-means qui reste le plus utilisé et le

plus simple pour la réation de vo abulaires visuels [Leung et Malik, 2001, Sivi et

Zisserman, 2003, Nister et Stewenius, 2006, Philbin et al., 2007, Tirilly et al., 2008℄.

Le résultat obtenu par l'algorithme k-means est le vo abulaire de mots visuels

V =

{v1, . . . , v_j, . . . , v_{|V |}}

où haque

v_j

orrespondàundes

k

entres.Dans e as,lenombre de mots visuels

|V |

orrespondau paramètre

k

de l'algorithme.

(a) Initialisation des

k

entrespour

k = 3

(b)Ae tationdeséléments au entrelepluspro he.

( ) Cal ul des nouveaux entres orrespondant aux bary entresdeséléments.

(d) Les étapes 3.2(b) et 3.2( ) sont répétées jusqu'à la onvergen edes entres.

Fig.3.2 Algorithmedu

k

-means.

3.1.2 Pondération

Comme pour la représentation d'un texte, les mots visuels sont pondérés pour

haque image. Pour un mot visuel

v_j

et une image

d_i

, le poids

w_i,j

est al ulé de tellesorte que e poidsest d'autant plusélevé quele motvisuel

v_j

estreprésentatif et dis riminant pourl'image

di

.Lapondérationpeutêtre al uléeàpartir delafréquen e duterme

v_j

dansledo ument

d_i

,delafréquen eduterme

v_j

dansla olle tiond'images

D

,ou àpartirde esdeuxinformations. Danssaversionlaplussimple,lapondération est ee tuée en onsidérant le nombre d'apparitions

n_i,j

du terme

v_j

dansl'image

d_i

. Cettepondérationseranotée danslasuite

tf_raw

ave

tf_raw(v_j, d_i) = n_i,j

Dans le document Modélisation de documents combinant texte et image : application à la catégorisation et à la recherche d'information multimédia (Page 77-80)

Présentation des diérents paramètres

di

m

n

m× n

a

a2

m

a

n

12× 12

sif t

m

n

R+G+B

3∗255

R

R+G+B

V

R+G+B

4× 4

k

k

k

k = 3

V =

{v1, . . . , vj, . . . , v|V |}

vj

k

|V |

k

k

k = 3

k

vj

di

wi,j

vj

di

vj

di

vj

D

ni,j

vj

di

tfraw

tfraw(vj, di) = ni,j

d_i

{v1, . . . , v_j, . . . , v_{|V |}}

v_j

v_j

d_i

w_i,j

v_j

v_j

d_i

v_j

n_i,j

v_j

d_i

tf_raw

tf_raw(v_j, d_i) = n_i,j