Prise en compte des relations spatiales contextuelles dans la recherche d' images par contenu visuel

(1)

Dé ision, Informatique, Mathématiques, Organisation

T H È S E

pour obtenir letitre de

Do teur en S ien es

de l'Université Paris Dauphine

Mention : Informatique

Présentée etsoutenue par

HOÀNG Nguyên V

u

Prise en ompte des relations

spatiales ontextuelles dans la

re her he d'images par ontenu

visuel

Soutenan e prévue le 09Dé embre 2011

Dire teur de thèse : MmeMarta Rukoz

En adrants : Mme Valérie Gouet-Brunet

Mme MaudeManouvrier

Rapporteurs : MmeIsabelleBlo h

M. Ni uSebe

Examinateurs : M. Roberto M. Cesar Junior

(2)

(3)

This thesis is fo used on the study of methods for image retrieval by visual ontent

in olle tion of heterogeneous ontents. We are interested in the des ription of spatial

relationships between the entities present intheimages, that an be symboli obje ts or

visualprimitivessu hasinterestpoints.

The rst part of this thesis is dedi ated to a state of the art on the des ription of

spatialrelationshipte hniques.Asaresultofthisstudy,weproposetheapproa h

∆

-TSR, ourrst ontribution, whi h allowssimilaritysear h basedonvisual ontent byusing the

triangular relationships between entities in images. In our experiments, the entities are

lo alvisual features based on salient points representedin a bag of featuresmodel. This

approa h improves not only the quality of the images retrieval but also the exe ution

timein omparison withotherapproa hes intheliterature.

The se ondpart is dedi atedto thestudy of theimage ontext. The spatial

relation-shipsbetween entitiesinan imageallow reating theglobaldes riptionof theimagethat

we all the image ontext. Taking into a ount the ontextual spatial relationships in

thesimilaritysear h of images an allowimproving the retrieval quality bylimiting false

alarms. We dened the ontext of image as the presen e of entity ategories and their

spatial relationships in the image. We studied the relationships between dierent entity

ategories on LabelMe, a state of theart of symboli images databases of heterogeneous

ontent. This statisti al study,our se ond ontribution, allows reating a artography of

their spatialrelationships. It an beintegrated ina graph-based modelof the ontextual

relationships, our third ontribution. This graph des ribes the general knowledge of

every entity ategories. Spatial reasoning on this knowledge graph an help improving

tasks of image pro essing su h as dete tion and lo alization of an entity ategory by

using the presen e of another referen e. Further, this model an be applied to represent

the ontext of an image. The similarity sear h based on ontext an be a hieved by

omparing the graphs, then, ontextual similarity between two images is evaluated by

the similarity between their graphs. This work was evaluated on the symboli image

databaseofLabelMe.Theexperimentsshoweditsrelevan eforimageretrievalby ontext.

(4)

(5)

Cettethèseest onsa réeàl'étudedeméthodesdere her hepar similaritédesimages

dans une olle tion. Les images auxquelles nous nous intéressons sont quel onques, e

qui implique que les pro essus que nous utilisons doivent pouvoir s'exé uter sans être

ontraints par un quel onque modèle d'apparen e visuelle. Nous nous sommes appuyés

surles relations spatiales entreles entités présentes dans lesimages qui peuvent être des

objetssymboliquesou desdes ripteurs visuels.

La première partie de ette thèse est onsa rée à une synthèse des te hniques de

relations spatiales. Dans la suite de ette étude, nousproposons notre appro he

∆

-TSR, notre première ontribution, qui permet de faire une re her he par similarité de ontenu

visuel en utilisant les relations triangulaires entre les entités dans les images. Dans nos

expérien es, les entités sont des ara téristiques visuelles lo ales basées sur les points

saillants représentés dans le modèle Bag-Of-Features. Cette appro he améliore non

seulement laqualité desimages retournéesmais aussiletemps d'exé utionpar rapportà

desappro hes dela littérature.

Lase ondepartie estdédiéeàl'étudedu ontextedel'image.L'ensembledesrelations

entre les entités dans une image permet de produire une des ription globale que nous

appelons le ontexte. La prise en ompte des relations spatiales ontextuelles dans

la re her he par similarité des images pourraient permettre d'améliorer la qualité de

re her he enlimitantlesfaussesalarmes.Dansle adredenotretravail,nousavonsdéni

le ontexted'imageparlaprésen edes atégories d'entité etleursrelations spatialesdans

l'image.Nousavonsétudié lesdiérentes relations entreles atégories d'entité d'unebase

d'images symboliques de ontenu hétérogène. Cette étude statistique, notre deuxième

ontribution,nouspermetde réer une artographiede leursrelations spatiales.Ellepeut

être intégrée dans un graphede onnaissan e des relations ontextuelles, notre troisième

ontribution. Ce graphe permet de dé rire de façon générale des onnaissan es sur les

atégoriesd'entité.Leraisonnementspatialsur egraphede onnaissan epeutnousaider

à améliorer les tâ hes dans le traitement d'image omme la déte tion et la lo alisation

d'une atégorie à l'aide de la présen e d'une autre référen e. Pour la suite, e modèle

peut être appliqué à représenter le ontexte d'une image. La re her he par similarité

basée sur le ontexte peut être réalisée par la omparaison de graphes. La similarité

ontextuelle desdeuximagesestlasimilaritéde leursgraphes. Cetravaila étéévalué sur

(6)

(7)

Firstly,Iwouldlike to express mygratitudeto those who have done methe honor to

parti ipate inthe juryof thisthesis :

MrsIsabelleBlo hand MrNi u Sebewho mademepleased to bereporters.

Mr Roberto M. Cesar Junior, and Mr. Mi hel Cru ianu for agreeing to be part of

this jury.

Mrs Marta Rukoz, Mrs Valérie Gouet-Brunet, and Mrs Maude Manouvrier for

proposing an interesting thesis subje t and for leading my work during the three

years of my PhD. I thank them for their ideas, their enthusiasm for having guided

methroughout our ollaboration.

This thesis was ondu ted within the LAMSADE of Paris Dauphine University

and the CEDRIC of CNAM. I also extend my sympathy to all members of these two

laboratories who have ontributed in some way to perform this work in a friendly

atmosphere thatIparti ularly appre iated.

Finally, myparents, mywife and othermembers of myfamily for their un onditional

support, en ouragement in di ult times and availability despite the distan e that

(8)

(9)

Je tiens tout d'abord à exprimer ma re onnaissan e aux personnes qui m'ont fait

l'honneurde parti iperau juryde ette thèse:

MmeIsabelle Blo hetM. Ni uSebe quim'ont faitle plaisird'en êtrerapporteurs.

M. Roberto M. Cesar, et M.Mi hel Cru ianu pour avoir a epté de faire partie de

e jury.

Mme Marta Rukoz, Mme Valérie Gouet-Brunet, et Mme Maude Manouvrier pour

avoirproposéunsujetdethèsepassionnantetpouravoirdirigémontravailpendant

lestroisannéesdemondo torat.Jelesremer ie pourleursidées,leurenthousiasme,

pour avoir su meguider toutau longde notre ollaboration.

Cette thèse a été réalisé au sein du LAMSADE de l'université Paris Dauphine et

CEDRIC du CNAM. J'adresse également ma sympathie à tous les membres de es

laboratoires quiont ontribué, de prèsoude loin àl'a omplissent de etravail dansune

ambian eami ale que j'aiparti ulièrement appré iée.

Enn, mes parent, ma femme et mes pro hes pour leur in onditionnel soutien, leurs

en ouragementsdanslesmomentsdi ilesetleur disponibilitémalgréladistan equime

(10)

(11)

Résumé long en français 1

Introdu tion

33

Motivations andresear h framework . . . 33

Contributions . . . 35

Thethesis . . . 37

PART I 41 1 Representation of spatial relations in images 41 1.1 Overviewof image retrieval . . . 41

1.2 Denitions. . . 44

1.2.1 Representation of symboli obje ts . . . 44

1.2.2 Visualdes riptionsinimages . . . 45

1.2.3 Typesofspatial relationships . . . 45

1.2.4 Standardsimilaritymeasures . . . 47

1.3 Approa hesdes ribing spatial relationships . . . 48

1.3.1 Topologi al relationships . . . 48

1.3.2 Dire tionalrelationships . . . 53

1.3.3 Metri distan erelationships . . . 57

1.3.4 Mixedrelationship . . . 58

1.4 Overviewof thepresented approa hes . . . 64

1.5 Con lusion. . . 65

2 Embedding spatial information into image ontent des ription 67 2.1 Introdu tion . . . 67

2.2 Overviewof approa h

T SR

. . . 69

2.3 Presentation of

∆

-TSR . . . 70

2.3.1 Spatialrelationshipdes ription . . . 70

2.3.2 Sele tionof relevant tripletsof entities . . . 72

2.3.3 Generalizationof

∆

-TSR:

∆

-PSR . . . 74

(12)

2.3.5 Asso iated a essmethod . . . 77

2.4 Qualitative evaluation of

∆

-TSR . . . 78

2.4.1 Framework ofthe evaluation. . . 78

2.4.2 Comparisonof

∆

-TSR withliterature . . . 80

2.4.3 Inuen eofthe labels . . . 83

2.4.4 Impa tof aposteriorire-rankingwithgeometri registration . . . . 86

2.5 S alability of

∆

-TSR . . . 87

2.5.1 Timeretrievalestimation . . . 87

2.5.2 Strategies fortriangle pruning . . . 87

2.5.3 S alability . . . 91

2.6 Appli ation to s eneretrieval . . . 93

2.7 Con lusions and perspe tives . . . 93

PART II 99 3 Image ontext 99 3.1 Introdu tion . . . 99

3.2 Approa hes using ontext for retrieve, lassi ation, re ognition or dete -tion ofentities. . . 100

3.2.1 Approa hesa priori . . . 100

3.2.1.1 Using global s ene information to dete t and lo alize ob-je ts inimage. . . 101

3.2.1.2 Using spatialrelationships between regions andobje ts . 104 3.2.1.3 Using ma hine learningSVM . . . 106

3.2.2 Approa hesa posteriori . . . 108

3.2.2.1 Using probabilisti te hnique . . . 108

3.2.2.2 Using o-o urren e relationships . . . 110

3.2.2.3 Using tree-stru tured ontextual model . . . 113

3.3 Dis ussion . . . 114

4 A artography of spatial relationshipsin a symboli image database 117 4.1 Introdu tion . . . 117

4.2 Annotated image database . . . 118

4.2.1 Studieddatabase . . . 118

4.2.2 Statisti son ategories . . . 119

(13)

4.3.1 Representation . . . 124 4.3.2 Resultsanalysis. . . 125 4.3.3 Interpretation . . . 127 4.3.4 Spatialreasoning . . . 130 4.4 Binary relationships . . . 136 4.4.1 Co-o urren e relationships . . . 137

4.4.2 Binaryspatial relationship . . . 139

4.4.2.1 9DSparelationships . . . 139

4.4.2.2 Topologi al relationship . . . 143

4.4.2.3 2Dproje tionrelationships . . . 145

4.4.2.4 Summary ofstatisti . . . 146

4.5 Ternaryrelationships . . . 148

4.6 Con lusion. . . 154

5 A representation of ontextual relationships knowledge 157 5.1 Introdu tion . . . 157

5.2 A Graph-based Knowledge Representation . . . 158

5.2.1 Con eptanddenitions . . . 158

5.2.2 Other attributes ofa node . . . 162

5.2.2.1 Levelattribute . . . 162 5.2.2.2 Status attribute . . . 162 5.2.3 Graph onstraints . . . 164 5.2.3.1 Node onstraints . . . 164 5.2.3.2 Status onstraints . . . 165 5.2.3.3 Edge onstraints . . . 166 5.2.4 Examples . . . 167 5.2.5 Evolutionofgraph . . . 168

5.2.5.1 Updateof node status . . . 168

5.2.5.2 Inferen e knowledge . . . 173

5.3 Appli ation ofgraph-based KnowledgeRepresentation . . . 173

5.3.1 Graph-basedrepresentation ofimage ontext . . . 173

5.3.1.1 Similaritybetween two ategorynodes . . . 177

5.3.1.2 Similaritybetween two relationship nodes . . . 178

5.3.1.3 Similaritybetween two image graphs. . . 179

5.3.2 Spatialreasoning . . . 179

(14)

5.3.2.2 Image ontext graph building based on in omplete image

annotationand knowledge graph . . . 187

5.3.2.3 Overviewof the threemain algorithms. . . 196

5.3.2.4 S enarios ofinterrogation . . . 198

5.4 Experiments. . . 199

5.4.1 Evaluationofimage ontextgraph buildingbyusingunary relation-ships . . . 200

5.4.1.1 Global omparison withground-truthgraphs . . . 200

5.4.1.2 Abilityof obje tdete tionandlo alizationvs. ground-truth200 5.4.1.3 Abilityofobje t dete tionand lo alizationvs.

∆

-TSR. . 202

5.4.2 Evaluation ofimage ontext graph buildingbyusingunary and bi-naryrelationships. . . 209

5.4.3 Evaluation forimage retrieval . . . 211

5.4.3.1 Evaluationdriven by visual ontent . . . 211

5.4.3.2 Evaluationdriven by image ontext . . . 211

5.4.3.3 Example ofretrieval . . . 212

5.5 Con lusion. . . 214

6 Con lusion 215 Methodologi al ontributions and results . . . 215

Perspe tives . . . 217

List of publi ations 219 APPENDIX 223 A Embedding spatial information into image ontent des ription 223 A.1 Additional examplesof querybyexample retrievalonParis image database 223 A.2 Examples of querybyexample retrieval on biodiversityimage database of Sao-Paulo university . . . 227

B A artography of spatial relationshipsin a symboli image database 231 B.1 Statisti s on ategories inannotated image database

DB

. . . 232

B.2 Unary relationships . . . 233

B.2.1 Spatialreasoning . . . 233

B.2.2 Resultsanalysis. . . 235

(15)

B.3.1 Co-o urren e relationships . . . 237

B.3.2 Binaryspatial relationships . . . 240

C A representation of ontextual relationships knowledge 243

(16)

(17)

Introdu tion

Depuis très longtemps, la ma hine intelligente a été un sujet d'intérêt pour les

s ientiques, roman iers, et beau oup d'autres. L'homme a pensé et rêvé d'avoir des

robotsquipeuventvaquerauxsoinsduménage,desvoituresintelligentesquifon tionnent

sans intervention humaine, des androïdes qui vivent en so iété et réé hissent omme

un être humain. Beau oup de re her hes sont menées pour parvenir à réaliser es rêves,

pour réerdessystèmesqui peuvent imiter les apa itésde l'homme.La "Vision"estune

de es apa ités. Pour un homme ordinaire, la vision permet de per evoir et d'analyser

l'environnement autour de lui avant d'agir sur elui- i. Certes, la "per eption visuelle"

et la apa ité d'analyse de s ènes naturelles nous permettent de faire la majorité des

tâ hes quotidiennes. Cependant, bien que de gros progrès s ientiques aient déjà été

réalisés, ilya en ore beau oup de la unes dansles systèmes automatiques de traitement

et d'analyse d'images. La façon d'a quérir une image peut être onsidérée omme la

première la une. Les ouleurs, la netteté ou la profondeur de hamp dans une image

peuvent être apturées diéremment par l'oeil humain etpar unsystèmede prisede vue.

La deuxième la une on erne la façon d'analyser les informations des images apturées.

Chaqueappro he orrespond à unefaçon d'extraire un type d'information etlamajorité

n'utilisent qu'une petite partie de l'information présente dans l'image. Finalement, le

problème leplus di ile à surmonter, latroisième la une, orrespond à l'analyse

séman-tique des informations dans l'image. Pour analyser une image, le erveau humain peut

faire appel à des onnaissan es a quises durant plusieurs années d'apprentissage. Cette

a tion permet à l'homme de donner un sens à l'ensemble des objets, des lieux présents

dans l'image. Bien qu'un grand nombre d'algorithmes d'apprentissage aient été

déve-loppés,unema hinequiinterprèteuneimagequel onqueresteloindes apa itéshumaines.

Cette thèse a pour sujet l'étude de méthodes de des ription des relations spatiales

ontextuellesentreobjetsdanslesimages,ave pourobje tiflamiseenpla ed'unsystème

de vision arti ielle pour l'interprétation des images en général et lare her he d'images

parsimilarité visuelleenparti ulier. La suitede l'introdu tion estorganisée ommesuit :

enpremier,jeprésente lesmotivationsquinousontamenésàétudierlesrelationsspatiales

ontextuelles dans les bases d'images. Puis, je présente un résumé de nos ontributions

(18)

Ave ledéveloppement desappareilsnumériquesetdesréseauxdediusion,lenombre

d'images numériques sur Internet augmente de façon phénoménale. Plusieurs méthodes

ont été développées pour permettre de faire une re her he dans les bases d'images de

grandvolume.Lare her hed'images parmots lés est onnue etutiliséedanslesmoteurs

dere her he omme euxdeGoogle,deMi rosoftoudeYahoo.Unobje tifde esmoteurs

estdetrouverlesimagesquisontenrapportave lesmotsfournisparl'utilisateur.

Cepen-dant, ette te hnique n'est pastoujourse a e à ausedesdiéren esquipeuventrester

entre les mots lés etle ontenu de l'image ainsi quele volume desimages àtraiter. Une

autrealternative est lare her he d'images par ontenu visuel (ou CBIR Content Based

Image Retrieval). Elle est devenue un domaine de re her he très a tif depuis plusieurs

années[Lew 2006,Datta 2008℄.L'intérêt pour e domaineaugmenterapidement ave des

besoinsde plusen plusnombreux delapart d'appli ationsnouvelles ommepar exemple

la traçabilité d'images dans des sto ks de roissan e exponentielle, lavidéo-surveillan e,

lesuividel'o upationdessolsparimages satellites,lesuividespathologiesd'unpatient

oula omparaisondepathologiesdediérentspatientsàtraversdiversexamensmédi aux.

Pour ontinuer,ilmesembleimportant depré iseraupréalablelesdiérentss énarios

d'interrogation d'unebase d'images omme lare her he par similarité, lare onnaissan e,

ladéte tion de l'objet ou de l'image, ainsi que de donnerdes éléments sur les appro hes

dedes ription desimages.

La re her he par similarité : il s'agit de re her her un objet ou une image

similaire dans une base d'images à partir d'un exemple. Les images retournées

sont dites similaires ou ontiennent des objets similaires au sens de la mesure de

similarité asso iée.

La re onnaissan e d'objet :il s'agitd'identier dansune image unobjetouune

atégorie d'objets parmi plusieurs objets/ atégoriespossibles. Classiquement,pour

réaliser ette tâ he, il faut a quérir les onnaissan es, les spé i ités a priori de la

lasse.

La déte tion d'objet : il s'agit de déterminer la présen e ou l'absen e d'une

lasse d'objetsdansl'image. Demême,pourréaliser ette tâ he,il fauta quérir les

onnaissan es, les spé i ités a priori de la lasse. Quelquefois, la déte tion peut

(19)

Les te hniques pour représenter, lasser et re her her les images varient grandement

suivant laméthode dedes riptionde esimages.Par exemple,onpeut,par segmentation

d'une image, la partitionner en un ertain nombre d'objets d'intérêt. Lorsque l'on n'a

pas de onnaissan e a priori sur le ontenu de l'image, on peut par des te hniques de

des ription lo ale à base de points d'intérêt (par exemple [Sivi 2003℄) obtenir aussi un

ertainnombre d'information. A partird'une onnaissan e a priori, desmodèles peuvent

être utilisés pour déte ter et lo aliser des objets parti uliers dans l'image (des visages

par exemple). Les appro hes existantes sont nombreuses. Il devient alors intéressant

de ara tériser ou re her her les images non seulement par leur ontenu visuel, ex.

regrouper ensemble les images qui ontiennent un objet similaire visuellement à un

objet donné en exemple, mais également suivant des ritères on ernant la position

dans l'image d'un ou plusieurs objets par rapport aux autres. La ara térisation des

images à la fois par leur ontenu visuel et par la représentation spatiale des objets

qu'elles ontiennent a un intérêt fort dans des domaines tels que l'imagerie médi ale

[Yu2004, Chbeir 2003, Petrakis2002a, Shyu2001, Aldea2009℄, l'imagerie satellitaire

[S ott 2005, Peijun2005, Vanegas2010℄, en paléontologie [Besson2003℄ ou plus

géné-ralement tout domaine tou hant à la re onnaissan e d'objets ou de atégories d'objets

[Besson2003℄.

Pour être pluse a es, en plusde ladéte tion,de lalo alisation etde la

ara térisa-tiondesobjets d'intérêt, lades ription etlare her he d'images peuvent tenir ompte du

" ontexte"de haqueimagedelabase.Lanotionde ontexteestuntermedi ileàdénir.

Le ontextepeutêtrel'ensembledesrelationsexistantentreobjetssymboliquesdel'image,

ouaussientreprimitivesvisuellesdel'image(e.g.région).Celapeutaussiêtreleszonesde

l'imageoù l'onpeuts'attendre àtrouverunobjetapriori(e.g.le ielestsouventen haut

de l'image). La ara térisation du ontexte et la prise en ompte de la sémantique sont

des ritères dont l'intégration dansun système de re her he d'images n'est pas évidente.

Certainesappro hes[Chbeir 2003,Peijun2005,Kumar 2003,Torralba 2004,Millet2008℄

ommen ent à s'y intéresser, mais de nombreux problèmes restent en ore ouverts.

Comment, en parti ulier, lier les relations spatiales et la sémantique, en réant e que

l'on pourra appeler des relations spatiales ontextuelles, et permettre de ara tériser ou

vérierpar exemple,lefaitqu'"une voiture estau milieu ouàdroite d'uneroute" ou que

"lathyroïdeentoure latra hée"? En intégrant un ontextesémantiquedansl'analyse de

l'image,de telles relations devraient permettre d'améliorer notablement les performan es

(entermes de qualité mais ausside vitesse) desappro hes de re onnaissan e d'objet, en

(20)

similarité. Nous espérons apporter une meilleure réponse à e problème spé ique en

proposant un systèmede re her he par similarité quidevrait, dansun futur pro he, être

appli able à la déte tion et à la re onnaissan e des objets. Ce système doit répondre en

termes de qualité des réponses retournées etde temps de réponse. Les travaux proposés

sont basés, d'une part, sur les relations spatiales ontextuelles entre les objets dans les

images, etd'autre part,sur l'apprentissage arti iel.

Contributions

La première ontribution de ette thèse est la proposition de l'appro he

∆

-TSR, pour la re her he par similarité dans les bases d'images, où les images sont dé rites

par des relations spatiales triangulaires entre entités. L'entité, pour nous, peut être un

objet symbolique (représenté par une étiquette ou une i ne) ou un des ripteur de bas

niveau (ex.unpoint d'intérêt). Cetteappro heparamétrableore diérentesdes riptions

d'imagebasées surles o-o urren esde tripletsd'entitésdont lesrelations géométriques

sont odées en utilisant les angles du triangle formé par les entités. Une des ription

semi-lo ale est également proposée, tenant ompte du voisinage des entités, an d'être

robuste aux hangements de point de vue. Toutes es des riptions sont invariantes à

la rotation en 2D, à la translation, à la symétrie axiale et au hangement d'é helle de

l'image. L'appro he a été expérimentée ave diérents paramètres pour les primitives

visuelles que sont des points d'intérêt selon une représentation en sa de mots visuels.

Les résultats obtenus montrent que

∆

-TSR améliore deux appro hes apparentées de la littérature (en termes de qualité de re her he et de temps d'exé ution) et prouvent son

passageàl'é helle.Dans esexpérien es,

∆

-TSRa étéappliquée àlaproblématiquede la re her he de s ène.Nous sommes a tuellement en train d'évaluer sapertinen e pour des

basesd'imagesenbiodiversitédansle adredela ollaborationCAPES-COFECUBAMIB.

La deuxième ontribution on erne l'étude statistique des relations spatiales entre

objets symboliques dans la base d'images publique au ontenu hétérogène LabelMe

[Russell 2008℄. LabelMe est une plateforme proposée par Bryan Russell, Antonio T

or-ralba et William T. Freeman. Dans ette base, les utilisateurs peuvent ontribuer à

l'annotation des images en détourant les objets d'intérêt selon un polygone et en les

labelisant. Cette étude statistique nous a permis de mettre en pla e une artographie

(21)

hétérogène. Les résultats obtenus nous ont appris, d'une part, les tendan es

d'ap-parition des atégories d'objet dans les images et leurs relations spatiales, et d'autre

part,nousserventà onstruireunebasede onnaissan e on ernant esrelationsspatiales.

La troisième ontribution de ette thèse est la proposition d'un système de vision

ontextuelle intelligent. Ce systèmeprend en ompte

∆

-TSR et les onnaissan es statis-tiques desrelations spatiales, pour une re her he par similarité basée sur l'apprentissage

arti iel. Il a la apa ité de raisonner pour pouvoir répondre à des requêtes omplexes

(e.g.trouverl'imageoùsetrouventles"personnes"dansla"rue").Cette apa itépermet

d'enri hir la base de onnaissan es ave des inféren es basées sur les onnaissan es

existantes et onrmées. Les onnaissan es re ueillies sont sto kées dans un graphe

de onnaissan e. L'homme peut intervenir dans e graphe pour paramétrer, valider ou

éliminerdes onnaissan es.

Plan du mémoire

Ce mémoire est dé omposé de deux parties. La première partie est onsa rée aux

relationsspatialespourlades riptiondes ontenus d'image.Cettepartiesedé omposeen

deux hapitres. La deuxième partie de lathèse est onsa rée ànotre travail surlanotion

de ontexte. Cettepartie sedé omposeen trois hapitres.

Partie I

Chapitre 1 : Représentation des relations spatiales dans les images

Dans e hapitre,je ommen eparprésenterunétatdel'artdesprin ipalesappro hes

dé rivant lesrelationsspatialesentreobjetsdansuneimage.Lesobjets 1

peuvent êtredes

objetssymboliques oudesprimitives visuellesdebasniveau ommelesrégions, lespoints

d'intérêt.Danstouslestravauxétudiésetprésentésdans e hapitre,lesnotionsd'"image

et objet symbolique", de "relation spatiale", ou en ore de "mesure de similarité" sont

régulièrement utilisées. Jeprésentebrièvement leurdénition.

Représentation symbolique : Une image symbolique est une abstra tion de niveau

physique ou pixel de l'image. Alors qu'un objet symbolique est dé rit par un ensemble

de pixels au niveau physique, il est identié par un symbole ou une étiquette au niveau

1. Apartirdu hapitre2,nousparleronsd'"entité"lorsqu'ilss'agirad'objetsymboliqueoude

(22)

(d) (e)

Figure1 Représentation d'objets:(a)Imageexemple(prisede[Yeh 2006℄)(b)

Repré-sentation symbolique par entre de masse ( ) Représentation symbolique ave REM (d)

Représentation symbolique par grille(e) Représentation symbolique par ontour.

logiqueaprèsannotationmanuelle,segmentation oure onnaissan edeformes.Une image

symbolique est don représentée par un ensemble de symboles ou i nes représentant les

objets d'intérêt identiés dans l'image. Chaque objet dans une image symbolique peut

êtrereprésenté, par exemple,par son entre de masse(voir laFig.1(b)), par unre tangle

englobant minimum 2

(notéREMen françaisetMBRenanglaispour MinimunBounding

Re tangle- voir la Fig.1( )), par une grille (voir la Fig.1(d)), ou en ore par la surfa e

exa tedel'objet (voirlaFig.1(e)).

Mesure de similarité : Dans la re her he par similarité, des mesures de similarité et

desalgorithmes de omparaison ont été proposés pour omparer les images symboliques.

Soit

I

,

I

′

deux images symboliques.

O

I

,

O

I

′

l'ensemble des objets symboliques de

I

et

I

′

respe tivement.

R

I

,

R

I

′

l'ensemble des relations spatiales entre objets de

I

et

I

′

respe tivement.

I

′

est une sous-image de

I

si et seulement si

O

I

′

⊂ O

I

∧ R

I

′

⊂ R

I

, par onséquent, on dit que

I

est une sur-image de

I

′

. Sinon, on dit que

I

,

I

′

sont

symboliquementidentiques. Lorsque

I

estuneimage requête,l'image

I

′

estretournée

par une re her he exa te si

I

′

est soit une sous-image de

I

, soit une sur-image de

I

, soit symboliquement identique à

I

. La re her he exa te est utilisée par exemple

2. Le re tangle englobant minimum est le re tangle le plus petit qui peut ouvrir toute la

(23)

dans l'appro he 9DLT de [Chang1991a℄. En revan he, le type de similarité dé rit

le niveau de similarité entre deux images en imposant

O

I

= O

I

′

, mais pas

R

I

′

in lus dans

R

I

. Par exemple, les appro hes de [Lee 1990℄ et de [Yeh 2006℄ utilisent les types de similarité. Les types de similarité peuvent varier en fon tion des appro hes. Soient

I

l'image requête et

I

′

une image de la base. Pour al uler un type de similarité entre

I

et

I

′

,

I

′

doit ontenir les mêmes objets symboliques que

I

mais peut avoir des relations spatiales diérentes. La dénition des types de similarité dépend des relations spatiales

représentées dans deux images à omparer. Lorsque des types de similarité sont utilisés,

la omparaison de deux images retourne une réponse binaire, indiquant si oui ou non

le type de similarité est vérié pour tous les ouples d'objets dans les deux images. Il

existe aussi une autre notion : La distan e entre deux images. Cette distan e est une

fon tion mathématique qui permet d'évaluer la diéren e entre deux images en fon tion

des relations spatiales de leurs objets, en n'imposant pas l'in lusion entre les ensembles

des objets ni l'in lusion entre les ensembles des relations spatiales. Deux images sont

symboliquement identiques siladistan eentre esdeuximagesest0.Plusladistan eest

grande,moins lesimagessont similaires.La distan eest généralement normaliséeentre0

et1.L'appro he de[Nabil1995℄utilise ladistan epar exemple.Onpeut égalementavoir

lanotion de degré de similarité,une fon tion inverse de la fon tion de distan e. Deux

images sont symboliquement identiques si leur degré de similarité est 1. Plus le degré

est faible moins les images sont similaires. Cette notion est utilisée par exemple dans

l'appro he de [Huang 2004℄.

Nous avons exploité diérentes méthodes de des ription et de re her he par

simi-larité des images selon les relations spatiales entre les entités de l'image (les objets

symboliques et les primitives visuelles). Quelques appro hes utilisent un seul type

de relation spatiale omme l'appro he 9DLT proposée par [Chang1991a℄, les

ap-pro hes 2D-String proposées par divers auteurs, l'appro he

ΘR − String

proposée par [Gudivada1998℄, ou les appro hes géométrique de Guru, Punitha et al. dans

[Guru 2001, Guru2003, Punitha2006, Guru 2007, Punitha2008a℄ par exemple. Mais

la plupart des appro hes ré entes ombinent deux ou trois types de relations pour

représenter les relations spatiales dans une image. Leur obje tif est d'augmenter le

nombre de relations spatiales possibles pour dé rire plus nement les images omplexes

maisaussipour éliminer les ambiguïtés des modèles lassiques. On peut iterl'appro he

2D − P IR

proposée par [Nabil 1995℄, l'appro he de 41 relations spatiales proposée par [Zhou 1997℄, ou en ore l'appro he de 289 relations spatiales proposée par [Yeh 2006℄.

Nousavonsmis en pla e une lassi ation de esrelations spatialesen essayant d'unier

(24)

Chapitre2 :

∆

-TSR : une appro he de des ription des relations spatiales

triangulaires

Ce hapitre présente notre appro he

∆

-TSR, pour la re her he par similarité dans les bases d'images, où les images sont dé rites par des relations spatiales triangulaires

entre entités. Cette appro he peut êtreappliquée aussibien auximages symboliques (où

les objets sont représentés par des étiquettes ou des i nes), qu'aux images représentées

par desrégionssaillantes(parexemple les points d'intérêt représentant leszones deforte

variabilité dans l'image). Elle a été évaluée sur des points d'intérêt omme primitive

visuelle pour la re her he de s ène. Elle sera utilisée dans notre système de vision

ontextuelle qui sera présenté dansles hapitres suivants. Ce travail est déjà publié dans

[Hoàng2009b,Hoàng2010℄.

Des ription de l'appro he

∆

-TSR : Reprenant l'idée de représenter les relations spatialesentrelestrianglesd'entitésdel'appro heTSR[Guru2001,Punitha 2008b℄,nous

proposonsune des ription del'image appelée

∆

-TSR.Comme laTSR,

∆

-TSR est appli- ableàtouteentité visuelle

E

i

ayantunlabel

L

i

,

E

i

peutêtreunobjetsymboliqueouune primitive visuelle de bas niveau omme un point d'intérêt. Une image

I

est représentée par un ensemble

∆

-TSR

(I)

ontenant les signatures de toutes les relations triangulaires entre sesentités(parordre de leurs étiquettes),tels que:

∆

-TSR

(I) = {S(E

i

, E

j

, E

k

)}; E

i

, E

j

, E

k

∈ I; i, j, k ∈ [1, N

I

]

(1)

La signature

S

peutenglober diérents typesd'informations du triplet d'entités, par exemple la géométrie sur le triangle, l'orientation ou l'é helle d'entités. A partir de es

attributs,uneimage

I

peutêtrereprésentéeparunensembledesignaturesà7-dimensions

S

s

, appelée

∆

-TSR

7D

(I)

. Chaque signature

S

s

dé rit la relation triangulaire de trois

entités

E

i

, E

j

, E

k

,dont les étiquettes

L

i

, L

j

, L

k

sont numériquestelleque :

S

s

_(E

(25)

ave











K

1 = (L

i

− 1)(N

L

)

2 + (L

j

− 1)N

L

+ (L

k

− 1)

K

2 = a

i

; K

2 ∈ [0

◦

, 180

◦

]

K

3 = a

j

; K

3 ∈ [0

◦

, 180

◦

]

K

4 = |γ

i

− γ

k

|; γ

i

, γ

j

, γ

k

∈ [−180

◦

, 180

◦

]

K

5 = |γ

j

− γ

k

|; K

4 , K

5 ∈ [0

◦

, 360

◦

]

K

6 =

s

_s

i

k

; K

6 , s

i

, s

k

∈ R

+

K

7 =

s

j

s

k

; K

7 , s

j

, s

k

∈ R

+

N

L

estle nombred'étiquettesdanslabasede donnéeset

(L

1 , L

2 , L

3 ) ∈ [1, N

L

]

3 _{⊂ N}

3

vérie

L

1 ≥ L

2 ≥ L

3

.

K

1

est le odage du triplet d'étiquettes numériques. Ave

N

L

=

8000

(nombre d'étiquettesutiliséesdanslaplupart desexpérien esdu hapitre),

K

1

peut représenter près de 600 milliards de triangles, fa ilement gérable ave type long.

a

i

,

a

j

sont les angles des sommets

E

i

,

E

j

respe tivement. Ils doivent satisfaire les onditions suivantes:







(a

i

, a

j

∈ N) ∧ (a

i

, a

j

∈ [0

◦

, 180

◦

])

L

i

= L

j

=⇒ a

i

≥ a

j

L

j

= L

k

=⇒ a

i

≥ 180

◦

− a

i

− a

j

Soit

γ

l

l'anglede l'orientation asso iéà

E

l

(parrapportàl'axe

x

pour simplier).

K

4

et

K

5

représentent l'orientation relative de

E

j

et

E

i

parrapportà

E

k

,alors que

K

6

et

K

7

sont les é helles relatives de

E

i

(de l'é helle

s

i

) et

E

j

(de l'é helle

s

j

) par rapport à

E

k

(del'é helle

s

k

).

Les sept omposantes de la signature

S

s

maintiennent l'invarian e de la translation

en 2D, la rotation en 2D, le hangement d'é helle et de retournement symétrique

(ip-ping), généralement onsidéré ommepertinent pour lare her he de l'image etde l'objet

d'intérêt.

Aulieude al ulerunesignatureenfon tiondel'intervalledetoléran e, odépar

D

θ

et

C

θ

ave laTSR,lasignature

S

s

estindépendante desintervalles detoléran e, appelée

δ

a

,

δ

o

,

δ

s

etasso iés respe tivement à (

K

2

,

K

3

), (

K

4

,

K

5

) et (

K

6

,

K

7

).Ainsi, es intervalles n'ont au un impa tsur la des ription de l'image qui est al ulée une fois etqui est plus

dis riminante que la signature TSR. En retour, ils sont utilisés pour dénir la similarité

entrelestriangles,etpeuventêtremodiésenligne.Parexemple,nous onsidérons omme

des triangles semblables au triangle

T

Q

tous les triangles dont les angles

t

i

vérient la ontraintesur

δ

a

,dénie par :











α

i

≤ a

i

(T

I

) ≤ β

i

α

j

≤ a

j

(T

I

) ≤ β

j

a

k

(T ) = 180

◦

− a

j

(T ) − a

i

(T )

;

∀T ∈ {T

Q

, T

I

}

α

k

≤ a

k

(T

I

) ≤ β

k

(3) ave

α

z

= max(a

z

(T

Q

) − δ

a

, 0

◦

_{); β}

z

= min(a

z

(T

Q

) + δ

a

, 180

◦

)/z ∈ {i, j, k}

.

(26)

a

i

(T )

,

a

j

(T )

et

a

k

(T )

représentent l'angle des sommets

E

i

,

E

j

et

E

k

du triangle

T

,

∀T ∈ {T

Q

, T

I

}

.Nousdénissons les mêmes ontraintespour lesintervalles

δ

o

et

δ

s

.

Si seulement la o-o urren e de triplets d'entités est onsidérée dans la des ription

de l'image, nous obtenons la signature triangulaire d'une dimension

S

ℓ

, et la signature

d'image

∆

-TSR

1D

= {S

ℓ

_(E

i

, E

j

, E

k

) = (K

1 )}

. Cela est similaire à la des ription proposée dans [Savarese 2006, Sivi 2005℄, mais il s'agit de o-o urren e de triplets au lieu de

doublets d'entités. De la même manière, si l'on onsidère uniquement la géométrie des

triangles,onobtient

∆

-TSR

3D

(I) = {S

a

_(E

i

, E

j

, E

k

) = (K

1 , K

2 , K

3 )}

.L'ajoutdel'orientation relativedes entités onduità

∆

-TSR

5D

(I) = {S

o

_(E

i

, E

j

, E

k

) = (K

1 , K

2 , K

3 , K

4 , K

5 )}

.

Stratégies de séle tion des triplets d'entités : Dans lamesure où les signatures

∆

-TSR ara térisent tous les triplets d'entités de l'image, il est probable que ertains des es triplets impliquent des entités situées loin les unes des autres spatialement. Une

tellereprésentation semble adéquatepour une des ription globaledu ontenu de l'image,

maispas pour lades ription de parties d'images ou d'objets d'intérêt, qui est utilepour

la re her he ou re onnaissan e d'objets. I i, une des ription semi-lo ale, qui privilégie

les plus petits triangles, est largement susante et plus robuste à e type de s énario :

elle permet notamment d'améliorer la robustesse aux hangements de point de vue des

objetsd'intérêt représentésave plusieurstriangles. Commedes riptionsemi-lo ale,nous

onsidérons les triangles appartenant à un voisinage semi-lo al de rayon

r

.Par défaut,

r

estxépour touteslesentités

E

i

,maisilpeutêtreadaptéselon l'é helle del'entité sielle est disponible, omme 'est le as ave les points d'intérêt SIFT [Lowe 2004℄ extraits à

desé helles spé iques.Nousprésentons i iplusieurs stratégiesde séle tion des triangles

dansunvoisinage semi-lo al, toutes appliquéesà haque entité

E

i

d'uneimage

I

: Stratégie SL : Élagage semi-lo aldes triangles

1. Cher her

E

j

dans levoisinage de

E

i

tel que

d

L

2 (E

i

, E

j

) 6 r

où

d

L

2

estladistan e Eu lidienne;

2. Construiretoutes les relations triangulaires de lalistedesobjets {

E

j

}trouvés. Une onséquen e intéressante de ette stratégie est que le nombre de triangles (

C

3 N

I

pardéfaut,où

N

I

estlenombred'objetsdans

I

)estnettementréduità

N

I

×C

3 ¯

n

tripletsen moyenne,où

n

¯

est lenombre moyen d'objetsdans haque voisinage. Ave ette stratégie, toutes lesrelations triangulaires possiblessont onstruitesdansun voisinage semi-lo al.

Dans haque voisinage, nous pouvons en ore réduire la omplexité de la des ription par

l'ajout d'autresstratégies d'élagage, ommelesdeux suivantes:

(27)

Cettestratégie estégalement semi-lo ale etproduit une triangulation quiest déduite

desétiquettes, ommesuit :

1. Cher her tous les objets

E

j

dans le voisinage de

E

i

, omme ave la stratégie SL maissupprimer

E

i

de {

E

j

};

2. Ordonnerlaliste {

E

j

} par ordredé roissant de leurs étiquettes

L

j

;

3. A partir de ette liste de taille |{

E

j

}|, onstruire tous les relations triangulaires (

E

i

,

E

l

j

,

E

m

j

) où

E

l

j

est le

l

-ème objetde {

E

j

},

l = 1, .., |{E

j

}|

,

m = 1

si

l = |{E

j

}|

et

m = l + 1

sinon.

Ave ette stratégie lataille de signature dansl'image est réduite à une moyenne de

N

I

×(¯

n−1)

triangles.Dans haquevoisinage,onobtientunensembleminimaldetriangles, nonné essairement disjoints, qui relient haqueobjet

E

j

à troisautres objetsau moins. Stratégie SL

geo

: Élagage basé sur la géométrie

DiéremmentdelastratégieSL

sem

, ettestratégiefournitunetriangulationdesobjets dansunvoisinage semi-lo al, dire tement déduite de leurgéométrie, ommesuit :

1. Cher hertousles objets

E

j

danslevoisinagede

E

i

, ommeave lastratégie SL; 2. Séle tionnerles relations triangulaires quivérient latriangulation de Delaunay.

UnetriangulationdeDelaunayest hoisiepour ettestratégie, arellemaximisel'angle

minimal de triangles onstruits, de manière à préserver une ertaine lo alité, réduisant

ainsileur étirement, et améliorant don la robustesse de lades ription aux hangements

depoint de vue.Cette triangulationassure unetaille de signature de

N

I

× [2(¯

n − 1) − ¯

e]

en moyenne, où

¯

e

est le nombre moyen d'objets dans l'enveloppe onvexe. Dans haque voisinage,onobtientunensembleminimaldetrianglesdisjoints,quiformentunepartition

del'enveloppe onvexe asso iéeauxobjets {

E

j

}.

Lesstratégie d'élagagesemi-lo alsont illustrées danslaFig.2.

(a) SL (b) SL

sem+cur

( )SL

sem+1st

(d)SL

sem+bar

(e)SL

geo

(56triangles) (7 triangles) (7 triangles) (7triangles) (8 triangles)

Figure 2 Illustrationdesstratégies d'élagagesemi-lo al ave 8 entités. Lavaleur entre

parenthèsesestle nombredetriangles impliqués.Pour SL

sem

,lepointrouge estlepivot (

E

5

pourSL

sem+actu

,

E

1

pourSL

sem+1st

et

E

2

pour

SL

sem+bar

).DansSL

sem+bar

,lepoint arrévert "B"estle bary entre des8 entres.

Mesure de similarité : Ave

∆

-TSR,lasimilarité entredeux imagespeut être vue ommele ratio de leurs triangles similaires. Soient

T

Q

un triangle omposé des sommets

(28)

E

1

,

E

2

,

E

3

de l'image requête

Q

et

T

I

un triangle omposé des sommets

E

′

1

,

E

′

2

,

E

′

3

d'une image

I

,tels quelesobjets

E

i

et

E

′

i

ontlamême étiquette

L

i

(

i ∈ [1..N

I

]

).Chaqueimage de la base étant représentée par une olle tion de signatures

S

u

_(T

I

)

(

u ∈ {l, a, o, s}

), le problème de la re her he d'images similaires est un problème d'adéquation entre les

signatures

S

u

_(T

Q

)

et

S

u

_(T

I

)

tellesque

K

1 (T

Q

)

=

K

1 (T

I

)

entenant omptedesintervalles de toléran e

δ

a

,

δ

o

,

δ

s

. Nous proposons une mesure de similarité entre les images, notée

SIM

,basée sur lamesure de similarité entre les signatures de triangle, notée

sim

u

. Ces

mesuresvarient dansl'intervalle

[0, 1]

etaugmentent ave la similarité.

Mesurede similarité entre triangles :lasimilaritéentre

S

u

_(T

Q

)

et

S

u

_(T

I

)

estdénie par :

sim(S

u

(T

Q

), S

u

(T

I

)) =











sim

ℓ

_(S

u

_(T

Q

), S

u

(T

I

))

si

u = ℓ

sim

u

_(S

u

_(T

Q

), S

u

(T

I

))

si

u ∈ {a, o, s}

et

sim

ℓ

_(S

u

_(T

Q

), S

u

(T

I

)) = 1

et

S

u

_(T

I

)

validelesintervallesdetoléran e

0

sinon (4) où:

sim

ℓ

_(S

u

_(T

Q

), S

u

(T

I

)) = ∆(K

1 (T

Q

), K

1 (T

I

))

sim

a

_(S

u

_(T

Q

), S

u

(T

I

)) = f (T

Q

, T

I

, 2, δ

a

)

sim

o

_(S

u

_(T

Q

), S

u

(T

I

)) =

1 ₂

[f (T

Q

, T

I

, 2, δ

a

) + f (T

Q

, T

I

, 4, δ

o

)]

sim

s

_(S

u

_(T

Q

), S

u

(T

I

)) =

1 ₃

[f (T

Q

, T

I

, 2, δ

a

) + f (T

Q

, T

I

, 4, δ

o

)

+f (T

Q

, T

I

, 6, δ

s

)]

(5)

et

∆(., .)

estune fon tion de Krone ker's (fon tionà 2 variable quiégale à 1 sivariables sont identiquesetà 0sinon) et

f (., ., ., .)

est telleque:

f (T, T

′

, i, δ) =

1

if

δ = 0

1

2 P

i+1

t=i

(1 −

|K

t

(T )−K

t

(T

′

)|

δ

)

if

δ 6= 0

(6)

Mesure de similarité entre images : Soient

∆

-TSR(Q) et

∆

-TSR(I) les signa-tures asso iées aux images

Q

et

I

respe tivement, et ST(

Q

,

I

), l'ensemble des ouples

(S

u

_(T

Q

), S

u

(T

I

))

destriangles de

I

etde

Q

lesplus similaires,telque :











sim(S

u

_(T

Q

), S

u

(T

I

)) 6= 0

sim(S

u

_(T

Q

), S

u

(T

I

)) = max

∀S

u

_(T

′

I

)

(sim(S

u

_(T

Q

), S

u

(T

I

′

))

sim(S

u

_(T

Q

), S

u

(T

I

)) = max

∀S

u

_(T

′

Q

)

(sim(S

u

(T

Q

′

), S

u

(T

I

))

(7)

(29)

La similaritéentreles images

Q

and

I

est dénie ommesuit :

SIM (Q, I) =

P

|ST (Q,I)|

k=1

sim(ST

k

(Q, I))

|∆

-TSR

(Q)|

(8) où

ST

k

(Q, I)

est le

k

me

élément de

ST (Q, I)

et

|X|

est la ardinalité de l'ensemble

X

.Les imagesrésultat sont ordonnées par ordre roissant de

SIM

.

Méthode d'a ès asso iée : Comme indiqué i-dessus, la re her he par similarité

desimages né essitela omparaison dessignatures del'image requêteave les signatures

de haqueimage sto kée danslabasepour le al ulde leurmesurede similarité. Comme

dansTSR[Punitha 2008b℄,nousproposonsd'utiliserunestru tured'indexpoura élérer

la re her he. Pour trouver les signatures similaires à une signature

S

u

_(T

Q

)

, le pro essus dere her he estlesuivant:

1. Re her hertoutes les signatures ayant une lé

K

1

égalà

K

1 (T

Q

)

; 2. Si

u ∈ {a, o, s}

, séle tionner les signatures

S

u

_(T

I

)

, trouvées dans l'étape 1, qui valident lesintervallesde toléran e orrespondants

δ

a

,

δ

o

,et

δ

s

;

3. Cal uler

sim

u

_(S

u

_(T

Q

), S

u

(T

I

))

.

Sil'ordonnan ement dessignaturesmultidimensionnelles est telque

S

u

_(T

I

) > S

u

(T

Q

)

sietseulementsi

∃i / K

i

(T

I

) > K

i

(T

Q

) ∧ ∀j < i K

j

(T

I

) = K

j

(T

Q

)

,alors lepro essusde re her he devient lare her he del'ensembledessignatures

S

u

I

dansl'intervalle

[BI

i

, BI

f

]

où

BI

i

= (K

1 , K

2 − δ

a

, K

3 − δ

a

)

et

BI

f

= (K

1 , K

2 + δ

a

, K

3 + δ

a

)

. Par onséquent, il est optimal d'utiliser un arbre B à lés omposites pour indexer les omposantes de la

signature

S

u

.De ettefaçon,la omplexitéde re her he devient

O(N

M T

log

b

N

T

)

où

N

M T

est le nombre moyen de triangles dans l'image,

N

T

le nombre total de triangles dans la baseet

b

est ledegréde l'arbre B.

Comme

S

u

est une signature multidimensionnelle, nous avons aussi expérimenté une

stru ture d'index multidimensionnelle lassique, l'arbre R. Cependant, ette stru ture

n'apporteau uneamélioration par rapport àl'arbre B.

Évaluation : Le reste du hapitre est onsa ré à l'évaluation de

∆

-TSR pour la re her he par similaritéd'image exemple dans une olle tiond'images, en omparant ses

performan es à deux appro hes apparentées de la littérature : TSR [Punitha 2008b℄ et

BoF[Sivi 2003℄.L'évaluationestréalisée sur lesbases d'images suivantes :

DB

Syn.6000

:6000 images synthétisées, ontenant les objets de la base COIL-100 3

,

quisont insérésdefaçon synthétique surunephoto ommearrièreplan.Nous

onsi-dérons 6000 arrières plans et 100 objets de 6 poses diérentes en 3D, insérés ave

(30)

objetet10 imagespar rotation en2D/posede 3D(voirla Fig.3(a)).

DB

P aris.6000

et DB

P aris.3000

: DB

P aris.6000

4

se ompose de 6412 images de 12

mo-numents parti uliersde Paris; ommeindiquédansla Fig.3(b). DB

P aris.3000

estun sous-ensemblede DB

P aris.6000

réé en prenant 250 images au hasard dans ha une des 12 lasses de monument, an d'obtenir un ensemble de données de réalité de

terrain exploité lorsde l'évaluation delapré ision et desmesures de rappel.

DB

Oxf ord.5000

5

: 5062 images pour 11 buildings d'Oxford; voir l'exemple de la

Fig.3( ).

DB

17000

:uniondeDB

Syn.6000

,DB

P aris.6000

etDB

Oxf ord.5000

.Labase ontient17474 images.

(a)DB

Syn.6000

(b)DB

P aris.6000

( ) DB

Oxf ord.5000

Figure 3 Exemples desdiérentesbases d'images utilisées pour l'évaluation.

Lesdiérentesévaluationsentermes dequalitéetdetemps d'exé utionsont réalisées.

Les diérents paramètres et stratégies de

∆

-TSR sont aussi examinés. Nos expérien es montrent que

∆

-TSR améliore non seulement laqualité de re her he par similarité mais aussiletempsd'exé utionparrapportàdeuxappro hesapparentéesdelalittérature,TSR

[Punitha 2008b℄etBoF[Sivi 2003℄.Le hapitresetermineenabordantl'appli ationpour

lare her he par similaritébasé surle ontenu visuel.

Partie II

Chapitre 3 : Contexte d'image

Nous ommençons la deuxième partie de e mémoire par examiner la notion de

ontexte d'image. Dans une image, la re onnaissan e de la atégorie d'entité exige

4. http://www.robots.ox.a .uk/

∼

vgg/d ata/ 5. http://www.robots.ox.a .uk/

∼

vgg/d ata/

(31)

diérentesinformationsàpartir desdonnéesbrutesde ette image.Danslemonderéel,il

existeuneforterelationentrelesenvironnementsetlesentitéstrouvéesen seinde eux- i

ou entre les entités. Les entités ne sont jamais présentes de manière isolée, elles peuvent

avoirlatendan eà o-varier ave d'autresentitésetave desenvironnementsparti uliers.

Cela nous permet de re ueillir une olle tion ri he des asso iations ontextuelles. La

déte tion des entités sera pré ise et rapide si elles apparaissent habituellement dans un

ontextefamilier.Toutd'abord,nouspouvonsdirequele ontexted'uneimagedé rittous

les types de relations possibles entre les entités dans ette image, ou entre les entités et

l'arrièreplande etteimage.L'utilisationdu ontextepeutapporterungrandintérêtnon

seulement pour re onnaître la atégorie d'entité, mais aussi pour la re her he d'images

par similarité. Pour la re onnaissan e de atégorie d'entité, il est évident d'examiner le

ontexte général de l'image si les ara téristiques lo ales sont insusantes (parexemple,

l'entité estpetite,ou apparaîtpartiellement). Pour lare her he d'images,la omparaison

des ontextes d'image peut aider à ltrerles faussesalarmes avant d'entrer dans l'étape

de omparaison du ontenuvisuel desimages.

Enutilisantles ara téristiquesvisuellesdel'image,le ontextepeutêtredé ritpar la

relationentre l'information lo ale etl'information globale de l'image.Cette dénitiondu

ontexte peut onduire à un travail a harné de traitement d'image. Une façon naturelle

de représenter le ontexte d'une image est d'utiliser la relation de o-o urren e de ses

entités. Danslemonderéel,la o-o urren epeutarriver àunniveau global,parexemple

"une hambre"permetdeprédirel'existen ed'"unlit",ouàunniveaulo al, parexemple

"une table" permet de prédire la présen e d'"une haise". Un problème probabiliste

peut être également asso ié dans e as. Plus omplexes, les relations spatiales entre

les atégories d'entité dans les images peuvent être prises en ompte. En général, il est

di ile d'avoir une dénition exa te du ontexte pour la re her he d'images. Chaque

as d'utilisation peut générer une dénition parti ulière du ontexte. Dans e hapitre,

j'expose les on epts et te hniques des appro hes de re her he d'entités basées sur le

ontexte en les lassiant en deux groupes : les méthodes a priori et les méthodes a

posteriori.Lesméthodesaprioriutilisentlanotionde ontextepourprédirelalo alisation

des entités dans l'image, tandis que elles a posteriori l'utilisent pour vérier et valider

lesrésultatsd'une étapede déte tion oude re onnaissan e.

En se basant sur des travaux existants, nous proposons une dénition de ontexte

pour notre adre de travail.Le ontexte d'image estdéni par la présen edes atégories

d'entitédansl'imageetparlesrelationsspatialesentre es atégoriesd'entité.Laprésen e

(32)

queles probabilités peuvent être utilisées pour présenterles informations globales de es

relations).

Chapitre4 : Cartographie des relations spatiales dans une base d'images

symboliques

En se basant sur quelquesrelations spatiales, nous étudionsla base d'images

symbo-liques LabelMe [Russell 2008℄. Nous menons une étude statistique pour mettre en pla e

une artographiedesrelations spatialesexistantes. Lesdiérentesanalysessontee tuées

sur les relations unaires, binaires et ternaires entre atégories d'entités. Cette étude

permet de re ueillir des informations statistiques utiles (ex. la tendan e d'apparition,

les orrélations, la fréquen e des relations spatiales entre les atégories d'objet, et .) à

l'apprentissage arti iel et à la onstru tion d'un système de vision, notre but prin ipal

dans ettethèse.

LabelMeest une plateforme ontenant des bases d'image etun outil d'annotation en

lignequi permetauxutilisateursd'indiquer librement, en onstruisant un polygoneetun

label,les objetsreprésentés dansune image ommeils lesouhaitent.Ainsi, haqueobjet,

appeléentitédansnotretravail,estprésentéparunpolygoneetunlabel.Par onséquent,

haque étiquette est onsidérée omme le nom d'une atégorie d'entités, alors toutes les

entités possédant la même étiquette appartiennent à une même atégorie. Nous avons

utilisé l'une des bases de données de test de ette plate-forme qui ontient 1133 images

annotées (voir les exemples dansla Fig.4). Le ontenu de ette base est très hétérogène,

il n'est pas spé ique à un domaine parti ulier. Par onséquent, l'étude de ette base

d'imagespeutfournirune vuegénéralesurles atégories etleurs relations,et lesrésultats

ne devraient pas être inuen és sensiblement en hangeant la base de données. An de

garantirlaqualité delabasededonnéesnousavonsvériéminutieusement haque image

annotéedela ohéren e.Premièrement,nousavonsmanuellement onsolidéelesétiquettes

synonyme en orrigeant les erreurs orthographiques et fusionné des étiquettes ayant la

même signi ation. Deuxièmement, nous avons séle tionné

86

atégories diérentes en prenant en ompte uniquement les atégories ayant au moins

15

entités. Cette dé ision a été prise an d'assurer une indépendan e de résultats statistiques, même si la base

de l'image est modiée. Enn, nous avons ajouté des annotations manquantes pour les

entités des atégories onsidérées, à l'ex eption des entités de taille trop petite ou les

(33)

statistiquesnedoiventpasêtrebiaisésparlesannotationsportéesdisparues.Danslasuite,

nousappelons ette basede données

DB

.

Sky,tree,person,lake,ground Road, ar,building,window Sky,tree,mountain,ground

Figure 4 Images de

DB

etannotations asso iées.

Statistiquesur les atégories : Avantd'étudierlesrelationsentrelesdiérentes

a-tégories,nousavonsrapidement al uléquelquesstatistiques on ernant haque atégorie,

parexemple,lenombre leplusbasouleplushaut desentitésd'une atégorieparti ulière

dans une image, le nombre total de ses entités dans la base, le nombre d'images où au

moins l'un de ses entités apparaît, et . L'aperçu de ette étude statistique est présenté

dansletableau 1.

Nbde Nbdes Moyennedes Moyennedes Max.nbdes Min.nbdes

img/DB entités/DB entités/ at.(STDEV) entités/img(é arttype) entités/img entités/img

1133 38075 442.7 (1485.6) 33.6(32.3) 264 1

Table 1 Aperçugénéraldesmesuresstatistiquesde

DB

.

Le nombre moyen d'entités de haque atégorie dans une image peut être utilisé

pour avoir une vue rapide sur la possibilité d'avoir plus d'une instan e d'une atégorie

dans une image. Par exemple, la atégorie window a une moyenne élevée, autour de

19

entités par image. Par onséquent, si on trouve un entité window dans une image, on peut s'attendre à trouver un autre entité window dans la même image. Pour une

étude plus détaillée, nous avons al ulé la orrélation intra- lasse des atégories, basées

sur la fon tion de orrélation lassique entre deux atégories. Légèrement diérente de

la orrélation lassique représentant l'impa t d'une atégorie à une autre, la orrélation

intra- lassen'estjamaisnégative.Pourl'exemplepré édent,nousavonsobtenu

0.776

pour la orrélation intra- lasse de window, 'est aussile meilleurs ore parmi les orrélations

intra- lasse obtenues. Ce s ore est susamment élevé pour on lure que nous pouvons

trouver la plupart du temps au moins deux window dans une image où une entité

window a déjà été déte tée. Le s ore le plus bas dans ette étude est de

0

, pour la atégorielake. Par onséquent,au une image dans

DB

ne ontient plus d'unlake.En fait,iln'estpasévidentd'avoir deuxouplusieurs instan esdelake danslamêmeimage.

(34)

de

0.3

,alors queseulement

8

atégories ont uns ore supérieurà

0.5

, ommepar exemple ar,window, building.

Dans e hapitre, nous avons examiné les diérentes relations entre les atégories

ommelesrelationsd'o urren esetlesrelations spatiales.Nouslesgrouponsenrelations

appeléesunaires, binaires outernaires.

Relations unaires : Nousappelonsrelationunaire,larelationentreuneentitéd'une

atégorieetsalo alisationdansuneimage,oùlalo alisationestdénie ommeunerégion

ou une zone de l'image, représentée dans e travail par un ode. Plus formellement, soit

A = {a

i

}

,

I = {I

j

}

, et

C = {C

k

}

l'ensemble des régions, l'ensemble des images, et l'ensemble des atégories , respe tivement. La relation unaire est une appli ation

R

de

C × I

à

A

.

R(C

k

, I

j

) ∈ A

permetdesavoiroù

C

k

setrouvedans

I

j

.Leszonesd'uneimage peuvent être représentées de diérentes manières omme le "quad-tree" ou "quin-tree",

voir [Park 2000, Wang 2003a℄. Puisque nous n'avons pas de onnaissan es a priori de la

lo alisationdes atégoriesdanslesimages,nousnousproposonsde ouperdesimagesdans

unnombrexedezonesrégulières(i.e.deszonesdetailleégale).D'abord,ondivise haque

image en une grille de taille xe. Chaque ellule de ette grille, appelée zone atomique,

est représentée par un ode. Les Fig. 5(a) et5(b) représentent un dé oupage en 9 et 16

zones atomiques et leurs odes, respe tivement. Nous avons ensuite ombiné es odes

pour présenter des zones plus omplexes, par exemple pour le dé oupage de 9-zone, le

ode

009

représente lazone regroupant leszones atomiques

001

( ) et

008

( ).

(a) (b)

Figure 5 Codesdans(a)ledé oupagede9-zone,(b)ledé oupagede16-zone.

La ombinaison des neuf odes de le dé oupage de 9-zone (la Fig.5(a)) donne

511

odes possibles. Cependant, ertains d'entre eux nepeuvent pasêtre utilisés, omme par

exemple, le ode

017

( ) ou le ode

161

( ), par e que leurs zones atomiques ne sont pasreliées par une arête ( 'est à dire qu'elles sont disjointes). En onséquen e, basé sur

etteidée, il yaseulement

218

odesautorisés en théorie. Con rètement, dans

DB

,nous n'avons pas trouvé les entités dans les régions représentées par es odes. Par ailleurs,

seulement 138 odes autorisés sont présent dans

DB

. En eet,

DB

ne ontient au une entité dansleszonesreprésentées pardes odesde

047

( )ou

125

( )parexemple.Dela

(35)

mêmemanière, la ombinaisonde

16

odesdanslaFig.5(b)donne

65535

diérents odes. Enthéorie, nouspouvonsatteindre

11506

odes omplexes possibles(basé surles régions liées),maisdans

DB

,seulement

649

odessont présents.Un rapportrapidesurles odes présents dansla

DB

est présentédanslaFig.6.

(a) (b)

Figure6Ladistributiondes odesentermedunombred'o urren es:(a)dé oupagede9-zone

(b)dé oupagede16-zone.

Dansla Fig.6(b), nouspouvonsobserverqueles grandes régionsou omplexes ont un

petit nombre d'o urren es. Cela signie que les atégories sont représentées

prin ipale-mentparunezonesimpleoupetite.D'autrepart,latendan edelaprésen edes atégories

sesitueplusgénéralemententrelesdeuxlignesdumilieu,puisplutt entrelesdeuxlignes

enhaut, etpuisentre lesdeux lignesen bas.Ces résultats sont ohérentsave eux dele

dé oupagede 9-zone(voirlaFig.6(a)). Demême,nouspouvonsobserverquelatendan e

delaprésen edes atégoriessurlagau heestplusélevéequesurladroite.Ces on lusions

onrment les règlesbien onnues on ernant laphotographie etl'ergonomie (intera tion

homme-ma hine) :

Enphotographie, ilyalarègledestiers 6

,l'une despremièresrèglesde omposition

enseignéeàlaplupartdesétudiantsdephotographie.Ilestre ommandédeprésenter

desobjetsintéressantsàl'interse tionoulelongdeslignesprésentéesdans etterègle

(voirlatendan e danslaFig.6(b)).

Selon [Mayhew1992℄ on ernant les études ergonomiques sur les intera tions

humain-ordinateur, le entre de l'é ran d'ordinateur est le plus attirant. Ensuite,

l'attention de la vue est attirée par le haut etla gau he de l'é ran plus que par le

basetledroite,par onséquent,menantàdesentitéspeuannotées dans esrégions

(voirlatendan e danslaFig.6(a)).

Nous avons étudié la distribution des atégories dans toutes les régions de l'image,

selon le dé oupage de 9-zone et de 16-zone. Fondamentalement, les résultats obtenus

peuventêtreen apsulésdansunebasede onnaissan esoùilsvontêtreinterprétés omme