Dé ision, Informatique, Mathématiques, Organisation
T H È S E
pour obtenir letitre de
Do teur en S ien es
de l'Université Paris Dauphine
Mention : Informatique
Présentée etsoutenue par
HOÀNG Nguyên V
u
Prise en ompte des relations
spatiales ontextuelles dans la
re her he d'images par ontenu
visuel
Soutenan e prévue le 09Dé embre 2011
Dire teur de thèse : MmeMarta Rukoz
En adrants : Mme Valérie Gouet-Brunet
Mme MaudeManouvrier
Rapporteurs : MmeIsabelleBlo h
M. Ni uSebe
Examinateurs : M. Roberto M. Cesar Junior
This thesis is fo used on the study of methods for image retrieval by visual ontent
in olle tion of heterogeneous ontents. We are interested in the des ription of spatial
relationships between the entities present intheimages, that an be symboli obje ts or
visualprimitivessu hasinterestpoints.
The rst part of this thesis is dedi ated to a state of the art on the des ription of
spatialrelationshipte hniques.Asaresultofthisstudy,weproposetheapproa h
∆
-TSR, ourrst ontribution, whi h allowssimilaritysear h basedonvisual ontent byusing thetriangular relationships between entities in images. In our experiments, the entities are
lo alvisual features based on salient points representedin a bag of featuresmodel. This
approa h improves not only the quality of the images retrieval but also the exe ution
timein omparison withotherapproa hes intheliterature.
The se ondpart is dedi atedto thestudy of theimage ontext. The spatial
relation-shipsbetween entitiesinan imageallow reating theglobaldes riptionof theimagethat
we all the image ontext. Taking into a ount the ontextual spatial relationships in
thesimilaritysear h of images an allowimproving the retrieval quality bylimiting false
alarms. We dened the ontext of image as the presen e of entity ategories and their
spatial relationships in the image. We studied the relationships between dierent entity
ategories on LabelMe, a state of theart of symboli images databases of heterogeneous
ontent. This statisti al study,our se ond ontribution, allows reating a artography of
their spatialrelationships. It an beintegrated ina graph-based modelof the ontextual
relationships, our third ontribution. This graph des ribes the general knowledge of
every entity ategories. Spatial reasoning on this knowledge graph an help improving
tasks of image pro essing su h as dete tion and lo alization of an entity ategory by
using the presen e of another referen e. Further, this model an be applied to represent
the ontext of an image. The similarity sear h based on ontext an be a hieved by
omparing the graphs, then, ontextual similarity between two images is evaluated by
the similarity between their graphs. This work was evaluated on the symboli image
databaseofLabelMe.Theexperimentsshoweditsrelevan eforimageretrievalby ontext.
Cettethèseest onsa réeàl'étudedeméthodesdere her hepar similaritédesimages
dans une olle tion. Les images auxquelles nous nous intéressons sont quel onques, e
qui implique que les pro essus que nous utilisons doivent pouvoir s'exé uter sans être
ontraints par un quel onque modèle d'apparen e visuelle. Nous nous sommes appuyés
surles relations spatiales entreles entités présentes dans lesimages qui peuvent être des
objetssymboliquesou desdes ripteurs visuels.
La première partie de ette thèse est onsa rée à une synthèse des te hniques de
relations spatiales. Dans la suite de ette étude, nousproposons notre appro he
∆
-TSR, notre première ontribution, qui permet de faire une re her he par similarité de ontenuvisuel en utilisant les relations triangulaires entre les entités dans les images. Dans nos
expérien es, les entités sont des ara téristiques visuelles lo ales basées sur les points
saillants représentés dans le modèle Bag-Of-Features. Cette appro he améliore non
seulement laqualité desimages retournéesmais aussiletemps d'exé utionpar rapportà
desappro hes dela littérature.
Lase ondepartie estdédiéeàl'étudedu ontextedel'image.L'ensembledesrelations
entre les entités dans une image permet de produire une des ription globale que nous
appelons le ontexte. La prise en ompte des relations spatiales ontextuelles dans
la re her he par similarité des images pourraient permettre d'améliorer la qualité de
re her he enlimitantlesfaussesalarmes.Dansle adredenotretravail,nousavonsdéni
le ontexted'imageparlaprésen edes atégories d'entité etleursrelations spatialesdans
l'image.Nousavonsétudié lesdiérentes relations entreles atégories d'entité d'unebase
d'images symboliques de ontenu hétérogène. Cette étude statistique, notre deuxième
ontribution,nouspermetde réer une artographiede leursrelations spatiales.Ellepeut
être intégrée dans un graphede onnaissan e des relations ontextuelles, notre troisième
ontribution. Ce graphe permet de dé rire de façon générale des onnaissan es sur les
atégoriesd'entité.Leraisonnementspatialsur egraphede onnaissan epeutnousaider
à améliorer les tâ hes dans le traitement d'image omme la déte tion et la lo alisation
d'une atégorie à l'aide de la présen e d'une autre référen e. Pour la suite, e modèle
peut être appliqué à représenter le ontexte d'une image. La re her he par similarité
basée sur le ontexte peut être réalisée par la omparaison de graphes. La similarité
ontextuelle desdeuximagesestlasimilaritéde leursgraphes. Cetravaila étéévalué sur
Firstly,Iwouldlike to express mygratitudeto those who have done methe honor to
parti ipate inthe juryof thisthesis :
MrsIsabelleBlo hand MrNi u Sebewho mademepleased to bereporters.
Mr Roberto M. Cesar Junior, and Mr. Mi hel Cru ianu for agreeing to be part of
this jury.
Mrs Marta Rukoz, Mrs Valérie Gouet-Brunet, and Mrs Maude Manouvrier for
proposing an interesting thesis subje t and for leading my work during the three
years of my PhD. I thank them for their ideas, their enthusiasm for having guided
methroughout our ollaboration.
This thesis was ondu ted within the LAMSADE of Paris Dauphine University
and the CEDRIC of CNAM. I also extend my sympathy to all members of these two
laboratories who have ontributed in some way to perform this work in a friendly
atmosphere thatIparti ularly appre iated.
Finally, myparents, mywife and othermembers of myfamily for their un onditional
support, en ouragement in di ult times and availability despite the distan e that
Je tiens tout d'abord à exprimer ma re onnaissan e aux personnes qui m'ont fait
l'honneurde parti iperau juryde ette thèse:
MmeIsabelle Blo hetM. Ni uSebe quim'ont faitle plaisird'en êtrerapporteurs.
M. Roberto M. Cesar, et M.Mi hel Cru ianu pour avoir a epté de faire partie de
e jury.
Mme Marta Rukoz, Mme Valérie Gouet-Brunet, et Mme Maude Manouvrier pour
avoirproposéunsujetdethèsepassionnantetpouravoirdirigémontravailpendant
lestroisannéesdemondo torat.Jelesremer ie pourleursidées,leurenthousiasme,
pour avoir su meguider toutau longde notre ollaboration.
Cette thèse a été réalisé au sein du LAMSADE de l'université Paris Dauphine et
CEDRIC du CNAM. J'adresse également ma sympathie à tous les membres de es
laboratoires quiont ontribué, de prèsoude loin àl'a omplissent de etravail dansune
ambian eami ale que j'aiparti ulièrement appré iée.
Enn, mes parent, ma femme et mes pro hes pour leur in onditionnel soutien, leurs
en ouragementsdanslesmomentsdi ilesetleur disponibilitémalgréladistan equime
Résumé long en français 1
Introdu tion
33
Motivations andresear h framework . . . 33
Contributions . . . 35
Thethesis . . . 37
PART I 41 1 Representation of spatial relations in images 41 1.1 Overviewof image retrieval . . . 41
1.2 Denitions. . . 44
1.2.1 Representation of symboli obje ts . . . 44
1.2.2 Visualdes riptionsinimages . . . 45
1.2.3 Typesofspatial relationships . . . 45
1.2.4 Standardsimilaritymeasures . . . 47
1.3 Approa hesdes ribing spatial relationships . . . 48
1.3.1 Topologi al relationships . . . 48
1.3.2 Dire tionalrelationships . . . 53
1.3.3 Metri distan erelationships . . . 57
1.3.4 Mixedrelationship . . . 58
1.4 Overviewof thepresented approa hes . . . 64
1.5 Con lusion. . . 65
2 Embedding spatial information into image ontent des ription 67 2.1 Introdu tion . . . 67
2.2 Overviewof approa h
T SR
. . . 692.3 Presentation of
∆
-TSR . . . 702.3.1 Spatialrelationshipdes ription . . . 70
2.3.2 Sele tionof relevant tripletsof entities . . . 72
2.3.3 Generalizationof
∆
-TSR:∆
-PSR . . . 742.3.5 Asso iated a essmethod . . . 77
2.4 Qualitative evaluation of
∆
-TSR . . . 782.4.1 Framework ofthe evaluation. . . 78
2.4.2 Comparisonof
∆
-TSR withliterature . . . 802.4.3 Inuen eofthe labels . . . 83
2.4.4 Impa tof aposteriorire-rankingwithgeometri registration . . . . 86
2.5 S alability of
∆
-TSR . . . 872.5.1 Timeretrievalestimation . . . 87
2.5.2 Strategies fortriangle pruning . . . 87
2.5.3 S alability . . . 91
2.6 Appli ation to s eneretrieval . . . 93
2.7 Con lusions and perspe tives . . . 93
PART II 99 3 Image ontext 99 3.1 Introdu tion . . . 99
3.2 Approa hes using ontext for retrieve, lassi ation, re ognition or dete -tion ofentities. . . 100
3.2.1 Approa hesa priori . . . 100
3.2.1.1 Using global s ene information to dete t and lo alize ob-je ts inimage. . . 101
3.2.1.2 Using spatialrelationships between regions andobje ts . 104 3.2.1.3 Using ma hine learningSVM . . . 106
3.2.2 Approa hesa posteriori . . . 108
3.2.2.1 Using probabilisti te hnique . . . 108
3.2.2.2 Using o-o urren e relationships . . . 110
3.2.2.3 Using tree-stru tured ontextual model . . . 113
3.3 Dis ussion . . . 114
4 A artography of spatial relationshipsin a symboli image database 117 4.1 Introdu tion . . . 117
4.2 Annotated image database . . . 118
4.2.1 Studieddatabase . . . 118
4.2.2 Statisti son ategories . . . 119
4.3.1 Representation . . . 124 4.3.2 Resultsanalysis. . . 125 4.3.3 Interpretation . . . 127 4.3.4 Spatialreasoning . . . 130 4.4 Binary relationships . . . 136 4.4.1 Co-o urren e relationships . . . 137
4.4.2 Binaryspatial relationship . . . 139
4.4.2.1 9DSparelationships . . . 139
4.4.2.2 Topologi al relationship . . . 143
4.4.2.3 2Dproje tionrelationships . . . 145
4.4.2.4 Summary ofstatisti . . . 146
4.5 Ternaryrelationships . . . 148
4.6 Con lusion. . . 154
5 A representation of ontextual relationships knowledge 157 5.1 Introdu tion . . . 157
5.2 A Graph-based Knowledge Representation . . . 158
5.2.1 Con eptanddenitions . . . 158
5.2.2 Other attributes ofa node . . . 162
5.2.2.1 Levelattribute . . . 162 5.2.2.2 Status attribute . . . 162 5.2.3 Graph onstraints . . . 164 5.2.3.1 Node onstraints . . . 164 5.2.3.2 Status onstraints . . . 165 5.2.3.3 Edge onstraints . . . 166 5.2.4 Examples . . . 167 5.2.5 Evolutionofgraph . . . 168
5.2.5.1 Updateof node status . . . 168
5.2.5.2 Inferen e knowledge . . . 173
5.3 Appli ation ofgraph-based KnowledgeRepresentation . . . 173
5.3.1 Graph-basedrepresentation ofimage ontext . . . 173
5.3.1.1 Similaritybetween two ategorynodes . . . 177
5.3.1.2 Similaritybetween two relationship nodes . . . 178
5.3.1.3 Similaritybetween two image graphs. . . 179
5.3.2 Spatialreasoning . . . 179
5.3.2.2 Image ontext graph building based on in omplete image
annotationand knowledge graph . . . 187
5.3.2.3 Overviewof the threemain algorithms. . . 196
5.3.2.4 S enarios ofinterrogation . . . 198
5.4 Experiments. . . 199
5.4.1 Evaluationofimage ontextgraph buildingbyusingunary relation-ships . . . 200
5.4.1.1 Global omparison withground-truthgraphs . . . 200
5.4.1.2 Abilityof obje tdete tionandlo alizationvs. ground-truth200 5.4.1.3 Abilityofobje t dete tionand lo alizationvs.
∆
-TSR. . 2025.4.2 Evaluation ofimage ontext graph buildingbyusingunary and bi-naryrelationships. . . 209
5.4.3 Evaluation forimage retrieval . . . 211
5.4.3.1 Evaluationdriven by visual ontent . . . 211
5.4.3.2 Evaluationdriven by image ontext . . . 211
5.4.3.3 Example ofretrieval . . . 212
5.5 Con lusion. . . 214
6 Con lusion 215 Methodologi al ontributions and results . . . 215
Perspe tives . . . 217
List of publi ations 219 APPENDIX 223 A Embedding spatial information into image ontent des ription 223 A.1 Additional examplesof querybyexample retrievalonParis image database 223 A.2 Examples of querybyexample retrieval on biodiversityimage database of Sao-Paulo university . . . 227
B A artography of spatial relationshipsin a symboli image database 231 B.1 Statisti s on ategories inannotated image database
DB
. . . 232B.2 Unary relationships . . . 233
B.2.1 Spatialreasoning . . . 233
B.2.2 Resultsanalysis. . . 235
B.3.1 Co-o urren e relationships . . . 237
B.3.2 Binaryspatial relationships . . . 240
C A representation of ontextual relationships knowledge 243
Introdu tion
Depuis très longtemps, la ma hine intelligente a été un sujet d'intérêt pour les
s ientiques, roman iers, et beau oup d'autres. L'homme a pensé et rêvé d'avoir des
robotsquipeuventvaquerauxsoinsduménage,desvoituresintelligentesquifon tionnent
sans intervention humaine, des androïdes qui vivent en so iété et réé hissent omme
un être humain. Beau oup de re her hes sont menées pour parvenir à réaliser es rêves,
pour réerdessystèmesqui peuvent imiter les apa itésde l'homme.La "Vision"estune
de es apa ités. Pour un homme ordinaire, la vision permet de per evoir et d'analyser
l'environnement autour de lui avant d'agir sur elui- i. Certes, la "per eption visuelle"
et la apa ité d'analyse de s ènes naturelles nous permettent de faire la majorité des
tâ hes quotidiennes. Cependant, bien que de gros progrès s ientiques aient déjà été
réalisés, ilya en ore beau oup de la unes dansles systèmes automatiques de traitement
et d'analyse d'images. La façon d'a quérir une image peut être onsidérée omme la
première la une. Les ouleurs, la netteté ou la profondeur de hamp dans une image
peuvent être apturées diéremment par l'oeil humain etpar unsystèmede prisede vue.
La deuxième la une on erne la façon d'analyser les informations des images apturées.
Chaqueappro he orrespond à unefaçon d'extraire un type d'information etlamajorité
n'utilisent qu'une petite partie de l'information présente dans l'image. Finalement, le
problème leplus di ile à surmonter, latroisième la une, orrespond à l'analyse
séman-tique des informations dans l'image. Pour analyser une image, le erveau humain peut
faire appel à des onnaissan es a quises durant plusieurs années d'apprentissage. Cette
a tion permet à l'homme de donner un sens à l'ensemble des objets, des lieux présents
dans l'image. Bien qu'un grand nombre d'algorithmes d'apprentissage aient été
déve-loppés,unema hinequiinterprèteuneimagequel onqueresteloindes apa itéshumaines.
Cette thèse a pour sujet l'étude de méthodes de des ription des relations spatiales
ontextuellesentreobjetsdanslesimages,ave pourobje tiflamiseenpla ed'unsystème
de vision arti ielle pour l'interprétation des images en général et lare her he d'images
parsimilarité visuelleenparti ulier. La suitede l'introdu tion estorganisée ommesuit :
enpremier,jeprésente lesmotivationsquinousontamenésàétudierlesrelationsspatiales
ontextuelles dans les bases d'images. Puis, je présente un résumé de nos ontributions
Ave ledéveloppement desappareilsnumériquesetdesréseauxdediusion,lenombre
d'images numériques sur Internet augmente de façon phénoménale. Plusieurs méthodes
ont été développées pour permettre de faire une re her he dans les bases d'images de
grandvolume.Lare her hed'images parmots lés est onnue etutiliséedanslesmoteurs
dere her he omme euxdeGoogle,deMi rosoftoudeYahoo.Unobje tifde esmoteurs
estdetrouverlesimagesquisontenrapportave lesmotsfournisparl'utilisateur.
Cepen-dant, ette te hnique n'est pastoujourse a e à ausedesdiéren esquipeuventrester
entre les mots lés etle ontenu de l'image ainsi quele volume desimages àtraiter. Une
autrealternative est lare her he d'images par ontenu visuel (ou CBIR Content Based
Image Retrieval). Elle est devenue un domaine de re her he très a tif depuis plusieurs
années[Lew 2006,Datta 2008℄.L'intérêt pour e domaineaugmenterapidement ave des
besoinsde plusen plusnombreux delapart d'appli ationsnouvelles ommepar exemple
la traçabilité d'images dans des sto ks de roissan e exponentielle, lavidéo-surveillan e,
lesuividel'o upationdessolsparimages satellites,lesuividespathologiesd'unpatient
oula omparaisondepathologiesdediérentspatientsàtraversdiversexamensmédi aux.
Pour ontinuer,ilmesembleimportant depré iseraupréalablelesdiérentss énarios
d'interrogation d'unebase d'images omme lare her he par similarité, lare onnaissan e,
ladéte tion de l'objet ou de l'image, ainsi que de donnerdes éléments sur les appro hes
dedes ription desimages.
La re her he par similarité : il s'agit de re her her un objet ou une image
similaire dans une base d'images à partir d'un exemple. Les images retournées
sont dites similaires ou ontiennent des objets similaires au sens de la mesure de
similarité asso iée.
La re onnaissan e d'objet :il s'agitd'identier dansune image unobjetouune
atégorie d'objets parmi plusieurs objets/ atégoriespossibles. Classiquement,pour
réaliser ette tâ he, il faut a quérir les onnaissan es, les spé i ités a priori de la
lasse.
La déte tion d'objet : il s'agit de déterminer la présen e ou l'absen e d'une
lasse d'objetsdansl'image. Demême,pourréaliser ette tâ he,il fauta quérir les
onnaissan es, les spé i ités a priori de la lasse. Quelquefois, la déte tion peut
Les te hniques pour représenter, lasser et re her her les images varient grandement
suivant laméthode dedes riptionde esimages.Par exemple,onpeut,par segmentation
d'une image, la partitionner en un ertain nombre d'objets d'intérêt. Lorsque l'on n'a
pas de onnaissan e a priori sur le ontenu de l'image, on peut par des te hniques de
des ription lo ale à base de points d'intérêt (par exemple [Sivi 2003℄) obtenir aussi un
ertainnombre d'information. A partird'une onnaissan e a priori, desmodèles peuvent
être utilisés pour déte ter et lo aliser des objets parti uliers dans l'image (des visages
par exemple). Les appro hes existantes sont nombreuses. Il devient alors intéressant
de ara tériser ou re her her les images non seulement par leur ontenu visuel, ex.
regrouper ensemble les images qui ontiennent un objet similaire visuellement à un
objet donné en exemple, mais également suivant des ritères on ernant la position
dans l'image d'un ou plusieurs objets par rapport aux autres. La ara térisation des
images à la fois par leur ontenu visuel et par la représentation spatiale des objets
qu'elles ontiennent a un intérêt fort dans des domaines tels que l'imagerie médi ale
[Yu2004, Chbeir 2003, Petrakis2002a, Shyu2001, Aldea2009℄, l'imagerie satellitaire
[S ott 2005, Peijun2005, Vanegas2010℄, en paléontologie [Besson2003℄ ou plus
géné-ralement tout domaine tou hant à la re onnaissan e d'objets ou de atégories d'objets
[Besson2003℄.
Pour être pluse a es, en plusde ladéte tion,de lalo alisation etde la
ara térisa-tiondesobjets d'intérêt, lades ription etlare her he d'images peuvent tenir ompte du
" ontexte"de haqueimagedelabase.Lanotionde ontexteestuntermedi ileàdénir.
Le ontextepeutêtrel'ensembledesrelationsexistantentreobjetssymboliquesdel'image,
ouaussientreprimitivesvisuellesdel'image(e.g.région).Celapeutaussiêtreleszonesde
l'imageoù l'onpeuts'attendre àtrouverunobjetapriori(e.g.le ielestsouventen haut
de l'image). La ara térisation du ontexte et la prise en ompte de la sémantique sont
des ritères dont l'intégration dansun système de re her he d'images n'est pas évidente.
Certainesappro hes[Chbeir 2003,Peijun2005,Kumar 2003,Torralba 2004,Millet2008℄
ommen ent à s'y intéresser, mais de nombreux problèmes restent en ore ouverts.
Comment, en parti ulier, lier les relations spatiales et la sémantique, en réant e que
l'on pourra appeler des relations spatiales ontextuelles, et permettre de ara tériser ou
vérierpar exemple,lefaitqu'"une voiture estau milieu ouàdroite d'uneroute" ou que
"lathyroïdeentoure latra hée"? En intégrant un ontextesémantiquedansl'analyse de
l'image,de telles relations devraient permettre d'améliorer notablement les performan es
(entermes de qualité mais ausside vitesse) desappro hes de re onnaissan e d'objet, en
similarité. Nous espérons apporter une meilleure réponse à e problème spé ique en
proposant un systèmede re her he par similarité quidevrait, dansun futur pro he, être
appli able à la déte tion et à la re onnaissan e des objets. Ce système doit répondre en
termes de qualité des réponses retournées etde temps de réponse. Les travaux proposés
sont basés, d'une part, sur les relations spatiales ontextuelles entre les objets dans les
images, etd'autre part,sur l'apprentissage arti iel.
Contributions
La première ontribution de ette thèse est la proposition de l'appro he
∆
-TSR, pour la re her he par similarité dans les bases d'images, où les images sont dé ritespar des relations spatiales triangulaires entre entités. L'entité, pour nous, peut être un
objet symbolique (représenté par une étiquette ou une i ne) ou un des ripteur de bas
niveau (ex.unpoint d'intérêt). Cetteappro heparamétrableore diérentesdes riptions
d'imagebasées surles o-o urren esde tripletsd'entitésdont lesrelations géométriques
sont odées en utilisant les angles du triangle formé par les entités. Une des ription
semi-lo ale est également proposée, tenant ompte du voisinage des entités, an d'être
robuste aux hangements de point de vue. Toutes es des riptions sont invariantes à
la rotation en 2D, à la translation, à la symétrie axiale et au hangement d'é helle de
l'image. L'appro he a été expérimentée ave diérents paramètres pour les primitives
visuelles que sont des points d'intérêt selon une représentation en sa de mots visuels.
Les résultats obtenus montrent que
∆
-TSR améliore deux appro hes apparentées de la littérature (en termes de qualité de re her he et de temps d'exé ution) et prouvent sonpassageàl'é helle.Dans esexpérien es,
∆
-TSRa étéappliquée àlaproblématiquede la re her he de s ène.Nous sommes a tuellement en train d'évaluer sapertinen e pour desbasesd'imagesenbiodiversitédansle adredela ollaborationCAPES-COFECUBAMIB.
La deuxième ontribution on erne l'étude statistique des relations spatiales entre
objets symboliques dans la base d'images publique au ontenu hétérogène LabelMe
[Russell 2008℄. LabelMe est une plateforme proposée par Bryan Russell, Antonio T
or-ralba et William T. Freeman. Dans ette base, les utilisateurs peuvent ontribuer à
l'annotation des images en détourant les objets d'intérêt selon un polygone et en les
labelisant. Cette étude statistique nous a permis de mettre en pla e une artographie
hétérogène. Les résultats obtenus nous ont appris, d'une part, les tendan es
d'ap-parition des atégories d'objet dans les images et leurs relations spatiales, et d'autre
part,nousserventà onstruireunebasede onnaissan e on ernant esrelationsspatiales.
La troisième ontribution de ette thèse est la proposition d'un système de vision
ontextuelle intelligent. Ce systèmeprend en ompte
∆
-TSR et les onnaissan es statis-tiques desrelations spatiales, pour une re her he par similarité basée sur l'apprentissagearti iel. Il a la apa ité de raisonner pour pouvoir répondre à des requêtes omplexes
(e.g.trouverl'imageoùsetrouventles"personnes"dansla"rue").Cette apa itépermet
d'enri hir la base de onnaissan es ave des inféren es basées sur les onnaissan es
existantes et onrmées. Les onnaissan es re ueillies sont sto kées dans un graphe
de onnaissan e. L'homme peut intervenir dans e graphe pour paramétrer, valider ou
éliminerdes onnaissan es.
Plan du mémoire
Ce mémoire est dé omposé de deux parties. La première partie est onsa rée aux
relationsspatialespourlades riptiondes ontenus d'image.Cettepartiesedé omposeen
deux hapitres. La deuxième partie de lathèse est onsa rée ànotre travail surlanotion
de ontexte. Cettepartie sedé omposeen trois hapitres.
Partie I
Chapitre 1 : Représentation des relations spatiales dans les images
Dans e hapitre,je ommen eparprésenterunétatdel'artdesprin ipalesappro hes
dé rivant lesrelationsspatialesentreobjetsdansuneimage.Lesobjets 1
peuvent êtredes
objetssymboliques oudesprimitives visuellesdebasniveau ommelesrégions, lespoints
d'intérêt.Danstouslestravauxétudiésetprésentésdans e hapitre,lesnotionsd'"image
et objet symbolique", de "relation spatiale", ou en ore de "mesure de similarité" sont
régulièrement utilisées. Jeprésentebrièvement leurdénition.
Représentation symbolique : Une image symbolique est une abstra tion de niveau
physique ou pixel de l'image. Alors qu'un objet symbolique est dé rit par un ensemble
de pixels au niveau physique, il est identié par un symbole ou une étiquette au niveau
1. Apartirdu hapitre2,nousparleronsd'"entité"lorsqu'ilss'agirad'objetsymboliqueoude
(d) (e)
Figure1 Représentation d'objets:(a)Imageexemple(prisede[Yeh 2006℄)(b)
Repré-sentation symbolique par entre de masse ( ) Représentation symbolique ave REM (d)
Représentation symbolique par grille(e) Représentation symbolique par ontour.
logiqueaprèsannotationmanuelle,segmentation oure onnaissan edeformes.Une image
symbolique est don représentée par un ensemble de symboles ou i nes représentant les
objets d'intérêt identiés dans l'image. Chaque objet dans une image symbolique peut
êtrereprésenté, par exemple,par son entre de masse(voir laFig.1(b)), par unre tangle
englobant minimum 2
(notéREMen françaisetMBRenanglaispour MinimunBounding
Re tangle- voir la Fig.1( )), par une grille (voir la Fig.1(d)), ou en ore par la surfa e
exa tedel'objet (voirlaFig.1(e)).
Mesure de similarité : Dans la re her he par similarité, des mesures de similarité et
desalgorithmes de omparaison ont été proposés pour omparer les images symboliques.
Soit
I
,I
′
deux images symboliques.
O
I
,O
I
′
l'ensemble des objets symboliques deI
etI
′
respe tivement.
R
I
,R
I
′
l'ensemble des relations spatiales entre objets deI
etI
′
respe tivement.
I
′
est une sous-image de
I
si et seulement siO
I
′
⊂ O
I
∧ R
I
′
⊂ R
I
, par onséquent, on dit queI
est une sur-image deI
′
. Sinon, on dit que
I
,I
′
sont
symboliquementidentiques. Lorsque
I
estuneimage requête,l'imageI
′
estretournée
par une re her he exa te si
I
′
est soit une sous-image de
I
, soit une sur-image deI
, soit symboliquement identique àI
. La re her he exa te est utilisée par exemple2. Le re tangle englobant minimum est le re tangle le plus petit qui peut ouvrir toute la
dans l'appro he 9DLT de [Chang1991a℄. En revan he, le type de similarité dé rit
le niveau de similarité entre deux images en imposant
O
I
= O
I
′
, mais pasR
I
′
in lus dansR
I
. Par exemple, les appro hes de [Lee 1990℄ et de [Yeh 2006℄ utilisent les types de similarité. Les types de similarité peuvent varier en fon tion des appro hes. SoientI
l'image requête etI
′
une image de la base. Pour al uler un type de similarité entre
I
etI
′
,
I
′
doit ontenir les mêmes objets symboliques que
I
mais peut avoir des relations spatiales diérentes. La dénition des types de similarité dépend des relations spatialesreprésentées dans deux images à omparer. Lorsque des types de similarité sont utilisés,
la omparaison de deux images retourne une réponse binaire, indiquant si oui ou non
le type de similarité est vérié pour tous les ouples d'objets dans les deux images. Il
existe aussi une autre notion : La distan e entre deux images. Cette distan e est une
fon tion mathématique qui permet d'évaluer la diéren e entre deux images en fon tion
des relations spatiales de leurs objets, en n'imposant pas l'in lusion entre les ensembles
des objets ni l'in lusion entre les ensembles des relations spatiales. Deux images sont
symboliquement identiques siladistan eentre esdeuximagesest0.Plusladistan eest
grande,moins lesimagessont similaires.La distan eest généralement normaliséeentre0
et1.L'appro he de[Nabil1995℄utilise ladistan epar exemple.Onpeut égalementavoir
lanotion de degré de similarité,une fon tion inverse de la fon tion de distan e. Deux
images sont symboliquement identiques si leur degré de similarité est 1. Plus le degré
est faible moins les images sont similaires. Cette notion est utilisée par exemple dans
l'appro he de [Huang 2004℄.
Nous avons exploité diérentes méthodes de des ription et de re her he par
simi-larité des images selon les relations spatiales entre les entités de l'image (les objets
symboliques et les primitives visuelles). Quelques appro hes utilisent un seul type
de relation spatiale omme l'appro he 9DLT proposée par [Chang1991a℄, les
ap-pro hes 2D-String proposées par divers auteurs, l'appro he
ΘR − String
proposée par [Gudivada1998℄, ou les appro hes géométrique de Guru, Punitha et al. dans[Guru 2001, Guru2003, Punitha2006, Guru 2007, Punitha2008a℄ par exemple. Mais
la plupart des appro hes ré entes ombinent deux ou trois types de relations pour
représenter les relations spatiales dans une image. Leur obje tif est d'augmenter le
nombre de relations spatiales possibles pour dé rire plus nement les images omplexes
maisaussipour éliminer les ambiguïtés des modèles lassiques. On peut iterl'appro he
2D − P IR
proposée par [Nabil 1995℄, l'appro he de 41 relations spatiales proposée par [Zhou 1997℄, ou en ore l'appro he de 289 relations spatiales proposée par [Yeh 2006℄.Nousavonsmis en pla e une lassi ation de esrelations spatialesen essayant d'unier
Chapitre2 :
∆
-TSR : une appro he de des ription des relations spatialestriangulaires
Ce hapitre présente notre appro he
∆
-TSR, pour la re her he par similarité dans les bases d'images, où les images sont dé rites par des relations spatiales triangulairesentre entités. Cette appro he peut êtreappliquée aussibien auximages symboliques (où
les objets sont représentés par des étiquettes ou des i nes), qu'aux images représentées
par desrégionssaillantes(parexemple les points d'intérêt représentant leszones deforte
variabilité dans l'image). Elle a été évaluée sur des points d'intérêt omme primitive
visuelle pour la re her he de s ène. Elle sera utilisée dans notre système de vision
ontextuelle qui sera présenté dansles hapitres suivants. Ce travail est déjà publié dans
[Hoàng2009b,Hoàng2010℄.
Des ription de l'appro he
∆
-TSR : Reprenant l'idée de représenter les relations spatialesentrelestrianglesd'entitésdel'appro heTSR[Guru2001,Punitha 2008b℄,nousproposonsune des ription del'image appelée
∆
-TSR.Comme laTSR,∆
-TSR est appli- ableàtouteentité visuelleE
i
ayantunlabelL
i
,E
i
peutêtreunobjetsymboliqueouune primitive visuelle de bas niveau omme un point d'intérêt. Une imageI
est représentée par un ensemble∆
-TSR(I)
ontenant les signatures de toutes les relations triangulaires entre sesentités(parordre de leurs étiquettes),tels que:∆
-TSR(I) = {S(E
i
, E
j
, E
k
)}; E
i
, E
j
, E
k
∈ I; i, j, k ∈ [1, N
I
]
(1)La signature
S
peutenglober diérents typesd'informations du triplet d'entités, par exemple la géométrie sur le triangle, l'orientation ou l'é helle d'entités. A partir de esattributs,uneimage
I
peutêtrereprésentéeparunensembledesignaturesà7-dimensionsS
s
, appelée
∆
-TSR7D
(I)
. Chaque signatureS
s
dé rit la relation triangulaire de trois
entités
E
i
, E
j
, E
k
,dont les étiquettesL
i
, L
j
, L
k
sont numériquestelleque :S
s
(E
ave
K
1
= (L
i
− 1)(N
L
)
2
+ (L
j
− 1)N
L
+ (L
k
− 1)
K
2
= a
i
; K
2
∈ [0
◦
, 180
◦
]
K
3
= a
j
; K
3
∈ [0
◦
, 180
◦
]
K
4
= |γ
i
− γ
k
|; γ
i
, γ
j
, γ
k
∈ [−180
◦
, 180
◦
]
K
5
= |γ
j
− γ
k
|; K
4
, K
5
∈ [0
◦
, 360
◦
]
K
6
=
s
s
i
k
; K
6
, s
i
, s
k
∈ R
+
K
7
=
s
j
s
k
; K
7
, s
j
, s
k
∈ R
+
N
L
estle nombred'étiquettesdanslabasede donnéeset(L
1
, L
2
, L
3
) ∈ [1, N
L
]
3
⊂ N
3
vérie
L
1
≥ L
2
≥ L
3
.K
1
est le odage du triplet d'étiquettes numériques. AveN
L
=
8000
(nombre d'étiquettesutiliséesdanslaplupart desexpérien esdu hapitre),K
1
peut représenter près de 600 milliards de triangles, fa ilement gérable ave type long.a
i
,a
j
sont les angles des sommetsE
i
,E
j
respe tivement. Ils doivent satisfaire les onditions suivantes:
(a
i
, a
j
∈ N) ∧ (a
i
, a
j
∈ [0
◦
, 180
◦
])
L
i
= L
j
=⇒ a
i
≥ a
j
L
j
= L
k
=⇒ a
i
≥ 180
◦
− a
i
− a
j
Soit
γ
l
l'anglede l'orientation asso iéàE
l
(parrapportàl'axex
pour simplier).K
4
etK
5
représentent l'orientation relative deE
j
etE
i
parrapportàE
k
,alors queK
6
etK
7
sont les é helles relatives deE
i
(de l'é helles
i
) etE
j
(de l'é helles
j
) par rapport àE
k
(del'é helles
k
).Les sept omposantes de la signature
S
s
maintiennent l'invarian e de la translation
en 2D, la rotation en 2D, le hangement d'é helle et de retournement symétrique
(ip-ping), généralement onsidéré ommepertinent pour lare her he de l'image etde l'objet
d'intérêt.
Aulieude al ulerunesignatureenfon tiondel'intervalledetoléran e, odépar
D
θ
etC
θ
ave laTSR,lasignatureS
s
estindépendante desintervalles detoléran e, appelée
δ
a
,δ
o
,δ
s
etasso iés respe tivement à (K
2
,K
3
), (K
4
,K
5
) et (K
6
,K
7
).Ainsi, es intervalles n'ont au un impa tsur la des ription de l'image qui est al ulée une fois etqui est plusdis riminante que la signature TSR. En retour, ils sont utilisés pour dénir la similarité
entrelestriangles,etpeuventêtremodiésenligne.Parexemple,nous onsidérons omme
des triangles semblables au triangle
T
Q
tous les triangles dont les anglest
i
vérient la ontraintesurδ
a
,dénie par :
α
i
≤ a
i
(T
I
) ≤ β
i
α
j
≤ a
j
(T
I
) ≤ β
j
a
k
(T ) = 180
◦
− a
j
(T ) − a
i
(T )
;∀T ∈ {T
Q
, T
I
}
α
k
≤ a
k
(T
I
) ≤ β
k
(3) aveα
z
= max(a
z
(T
Q
) − δ
a
, 0
◦
); β
z
= min(a
z
(T
Q
) + δ
a
, 180
◦
)/z ∈ {i, j, k}
.a
i
(T )
,a
j
(T )
eta
k
(T )
représentent l'angle des sommetsE
i
,E
j
etE
k
du triangleT
,∀T ∈ {T
Q
, T
I
}
.Nousdénissons les mêmes ontraintespour lesintervallesδ
o
etδ
s
.Si seulement la o-o urren e de triplets d'entités est onsidérée dans la des ription
de l'image, nous obtenons la signature triangulaire d'une dimension
S
ℓ
, et la signature
d'image
∆
-TSR1D
= {S
ℓ
(E
i
, E
j
, E
k
) = (K
1
)}
. Cela est similaire à la des ription proposée dans [Savarese 2006, Sivi 2005℄, mais il s'agit de o-o urren e de triplets au lieu dedoublets d'entités. De la même manière, si l'on onsidère uniquement la géométrie des
triangles,onobtient
∆
-TSR3D
(I) = {S
a
(E
i
, E
j
, E
k
) = (K
1
, K
2
, K
3
)}
.L'ajoutdel'orientation relativedes entités onduità∆
-TSR5D
(I) = {S
o
(E
i
, E
j
, E
k
) = (K
1
, K
2
, K
3
, K
4
, K
5
)}
.Stratégies de séle tion des triplets d'entités : Dans lamesure où les signatures
∆
-TSR ara térisent tous les triplets d'entités de l'image, il est probable que ertains des es triplets impliquent des entités situées loin les unes des autres spatialement. Unetellereprésentation semble adéquatepour une des ription globaledu ontenu de l'image,
maispas pour lades ription de parties d'images ou d'objets d'intérêt, qui est utilepour
la re her he ou re onnaissan e d'objets. I i, une des ription semi-lo ale, qui privilégie
les plus petits triangles, est largement susante et plus robuste à e type de s énario :
elle permet notamment d'améliorer la robustesse aux hangements de point de vue des
objetsd'intérêt représentésave plusieurstriangles. Commedes riptionsemi-lo ale,nous
onsidérons les triangles appartenant à un voisinage semi-lo al de rayon
r
.Par défaut,r
estxépour touteslesentitésE
i
,maisilpeutêtreadaptéselon l'é helle del'entité sielle est disponible, omme 'est le as ave les points d'intérêt SIFT [Lowe 2004℄ extraits àdesé helles spé iques.Nousprésentons i iplusieurs stratégiesde séle tion des triangles
dansunvoisinage semi-lo al, toutes appliquéesà haque entité
E
i
d'uneimageI
: Stratégie SL : Élagage semi-lo aldes triangles1. Cher her
E
j
dans levoisinage deE
i
tel qued
L
2
(E
i
, E
j
) 6 r
oùd
L
2
estladistan e Eu lidienne;2. Construiretoutes les relations triangulaires de lalistedesobjets {
E
j
}trouvés. Une onséquen e intéressante de ette stratégie est que le nombre de triangles (C
3
N
I
pardéfaut,où
N
I
estlenombred'objetsdansI
)estnettementréduitàN
I
×C
3
¯
n
tripletsen moyenne,oùn
¯
est lenombre moyen d'objetsdans haque voisinage. Ave ette stratégie, toutes lesrelations triangulaires possiblessont onstruitesdansun voisinage semi-lo al.Dans haque voisinage, nous pouvons en ore réduire la omplexité de la des ription par
l'ajout d'autresstratégies d'élagage, ommelesdeux suivantes:
Cettestratégie estégalement semi-lo ale etproduit une triangulation quiest déduite
desétiquettes, ommesuit :
1. Cher her tous les objets
E
j
dans le voisinage deE
i
, omme ave la stratégie SL maissupprimerE
i
de {E
j
};2. Ordonnerlaliste {
E
j
} par ordredé roissant de leurs étiquettesL
j
;3. A partir de ette liste de taille |{
E
j
}|, onstruire tous les relations triangulaires (E
i
,E
l
j
,E
m
j
) oùE
l
j
est lel
-ème objetde {E
j
},l = 1, .., |{E
j
}|
,m = 1
sil = |{E
j
}|
etm = l + 1
sinon.Ave ette stratégie lataille de signature dansl'image est réduite à une moyenne de
N
I
×(¯
n−1)
triangles.Dans haquevoisinage,onobtientunensembleminimaldetriangles, nonné essairement disjoints, qui relient haqueobjetE
j
à troisautres objetsau moins. Stratégie SLgeo
: Élagage basé sur la géométrieDiéremmentdelastratégieSL
sem
, ettestratégiefournitunetriangulationdesobjets dansunvoisinage semi-lo al, dire tement déduite de leurgéométrie, ommesuit :1. Cher hertousles objets
E
j
danslevoisinagedeE
i
, ommeave lastratégie SL; 2. Séle tionnerles relations triangulaires quivérient latriangulation de Delaunay.UnetriangulationdeDelaunayest hoisiepour ettestratégie, arellemaximisel'angle
minimal de triangles onstruits, de manière à préserver une ertaine lo alité, réduisant
ainsileur étirement, et améliorant don la robustesse de lades ription aux hangements
depoint de vue.Cette triangulationassure unetaille de signature de
N
I
× [2(¯
n − 1) − ¯
e]
en moyenne, où¯
e
est le nombre moyen d'objets dans l'enveloppe onvexe. Dans haque voisinage,onobtientunensembleminimaldetrianglesdisjoints,quiformentunepartitiondel'enveloppe onvexe asso iéeauxobjets {
E
j
}.Lesstratégie d'élagagesemi-lo alsont illustrées danslaFig.2.
(a) SL (b) SL
sem+cur
( )SLsem+1st
(d)SLsem+bar
(e)SLgeo
(56triangles) (7 triangles) (7 triangles) (7triangles) (8 triangles)Figure 2 Illustrationdesstratégies d'élagagesemi-lo al ave 8 entités. Lavaleur entre
parenthèsesestle nombredetriangles impliqués.Pour SL
sem
,lepointrouge estlepivot (E
5
pourSLsem+actu
,E
1
pourSLsem+1st
etE
2
pourSL
sem+bar
).DansSLsem+bar
,lepoint arrévert "B"estle bary entre des8 entres.Mesure de similarité : Ave
∆
-TSR,lasimilarité entredeux imagespeut être vue ommele ratio de leurs triangles similaires. SoientT
Q
un triangle omposé des sommetsE
1
,E
2
,E
3
de l'image requêteQ
etT
I
un triangle omposé des sommetsE
′
1
,E
′
2
,E
′
3
d'une imageI
,tels quelesobjetsE
i
etE
′
i
ontlamême étiquetteL
i
(i ∈ [1..N
I
]
).Chaqueimage de la base étant représentée par une olle tion de signaturesS
u
(T
I
)
(u ∈ {l, a, o, s}
), le problème de la re her he d'images similaires est un problème d'adéquation entre lessignatures
S
u
(T
Q
)
etS
u
(T
I
)
tellesqueK
1
(T
Q
)
=K
1
(T
I
)
entenant omptedesintervalles de toléran eδ
a
,δ
o
,δ
s
. Nous proposons une mesure de similarité entre les images, notéeSIM
,basée sur lamesure de similarité entre les signatures de triangle, notéesim
u
. Ces
mesuresvarient dansl'intervalle
[0, 1]
etaugmentent ave la similarité.Mesurede similarité entre triangles :lasimilaritéentre
S
u
(T
Q
)
etS
u
(T
I
)
estdénie par :sim(S
u
(T
Q
), S
u
(T
I
)) =
sim
ℓ
(S
u
(T
Q
), S
u
(T
I
))
siu = ℓ
sim
u
(S
u
(T
Q
), S
u
(T
I
))
siu ∈ {a, o, s}
etsim
ℓ
(S
u
(T
Q
), S
u
(T
I
)) = 1
etS
u
(T
I
)
validelesintervallesdetoléran e0
sinon (4) où:sim
ℓ
(S
u
(T
Q
), S
u
(T
I
)) = ∆(K
1
(T
Q
), K
1
(T
I
))
sim
a
(S
u
(T
Q
), S
u
(T
I
)) = f (T
Q
, T
I
, 2, δ
a
)
sim
o
(S
u
(T
Q
), S
u
(T
I
)) =
1
2
[f (T
Q
, T
I
, 2, δ
a
) + f (T
Q
, T
I
, 4, δ
o
)]
sim
s
(S
u
(T
Q
), S
u
(T
I
)) =
1
3
[f (T
Q
, T
I
, 2, δ
a
) + f (T
Q
, T
I
, 4, δ
o
)
+f (T
Q
, T
I
, 6, δ
s
)]
(5)et
∆(., .)
estune fon tion de Krone ker's (fon tionà 2 variable quiégale à 1 sivariables sont identiquesetà 0sinon) etf (., ., ., .)
est telleque:f (T, T
′
, i, δ) =
1
ifδ = 0
1
2
P
i+1
t=i
(1 −
|K
t
(T )−K
t
(T
′
)|
δ
)
ifδ 6= 0
(6)Mesure de similarité entre images : Soient
∆
-TSR(Q) et∆
-TSR(I) les signa-tures asso iées aux imagesQ
etI
respe tivement, et ST(Q
,I
), l'ensemble des ouples(S
u
(T
Q
), S
u
(T
I
))
destriangles deI
etdeQ
lesplus similaires,telque :
sim(S
u
(T
Q
), S
u
(T
I
)) 6= 0
sim(S
u
(T
Q
), S
u
(T
I
)) = max
∀S
u
(T
′
I
)
(sim(S
u
(T
Q
), S
u
(T
I
′
))
sim(S
u
(T
Q
), S
u
(T
I
)) = max
∀S
u
(T
′
Q
)
(sim(S
u
(T
Q
′
), S
u
(T
I
))
(7)La similaritéentreles images
Q
andI
est dénie ommesuit :SIM (Q, I) =
P
|ST (Q,I)|
k=1
sim(ST
k
(Q, I))
|∆
-TSR(Q)|
(8) oùST
k
(Q, I)
est lek
me
élément de
ST (Q, I)
et|X|
est la ardinalité de l'ensembleX
.Les imagesrésultat sont ordonnées par ordre roissant deSIM
.Méthode d'a ès asso iée : Comme indiqué i-dessus, la re her he par similarité
desimages né essitela omparaison dessignatures del'image requêteave les signatures
de haqueimage sto kée danslabasepour le al ulde leurmesurede similarité. Comme
dansTSR[Punitha 2008b℄,nousproposonsd'utiliserunestru tured'indexpoura élérer
la re her he. Pour trouver les signatures similaires à une signature
S
u
(T
Q
)
, le pro essus dere her he estlesuivant:1. Re her hertoutes les signatures ayant une lé
K
1
égalàK
1
(T
Q
)
; 2. Siu ∈ {a, o, s}
, séle tionner les signaturesS
u
(T
I
)
, trouvées dans l'étape 1, qui valident lesintervallesde toléran e orrespondantsδ
a
,δ
o
,etδ
s
;3. Cal uler
sim
u
(S
u
(T
Q
), S
u
(T
I
))
.Sil'ordonnan ement dessignaturesmultidimensionnelles est telque
S
u
(T
I
) > S
u
(T
Q
)
sietseulementsi
∃i / K
i
(T
I
) > K
i
(T
Q
) ∧ ∀j < i K
j
(T
I
) = K
j
(T
Q
)
,alors lepro essusde re her he devient lare her he del'ensembledessignaturesS
u
I
dansl'intervalle[BI
i
, BI
f
]
oùBI
i
= (K
1
, K
2
− δ
a
, K
3
− δ
a
)
etBI
f
= (K
1
, K
2
+ δ
a
, K
3
+ δ
a
)
. Par onséquent, il est optimal d'utiliser un arbre B à lés omposites pour indexer les omposantes de lasignature
S
u
.De ettefaçon,la omplexitéde re her he devient
O(N
M T
log
b
N
T
)
oùN
M T
est le nombre moyen de triangles dans l'image,N
T
le nombre total de triangles dans la baseetb
est ledegréde l'arbre B.Comme
S
u
est une signature multidimensionnelle, nous avons aussi expérimenté une
stru ture d'index multidimensionnelle lassique, l'arbre R. Cependant, ette stru ture
n'apporteau uneamélioration par rapport àl'arbre B.
Évaluation : Le reste du hapitre est onsa ré à l'évaluation de
∆
-TSR pour la re her he par similaritéd'image exemple dans une olle tiond'images, en omparant sesperforman es à deux appro hes apparentées de la littérature : TSR [Punitha 2008b℄ et
BoF[Sivi 2003℄.L'évaluationestréalisée sur lesbases d'images suivantes :
DB
Syn.6000
:6000 images synthétisées, ontenant les objets de la base COIL-100 3,
quisont insérésdefaçon synthétique surunephoto ommearrièreplan.Nous
onsi-dérons 6000 arrières plans et 100 objets de 6 poses diérentes en 3D, insérés ave
objetet10 imagespar rotation en2D/posede 3D(voirla Fig.3(a)).
DB
P aris.6000
et DBP aris.3000
: DBP aris.6000
4se ompose de 6412 images de 12
mo-numents parti uliersde Paris; ommeindiquédansla Fig.3(b). DB
P aris.3000
estun sous-ensemblede DBP aris.6000
réé en prenant 250 images au hasard dans ha une des 12 lasses de monument, an d'obtenir un ensemble de données de réalité deterrain exploité lorsde l'évaluation delapré ision et desmesures de rappel.
DB
Oxf ord.5000
5: 5062 images pour 11 buildings d'Oxford; voir l'exemple de la
Fig.3( ).
DB
17000
:uniondeDBSyn.6000
,DBP aris.6000
etDBOxf ord.5000
.Labase ontient17474 images.(a)DB
Syn.6000
(b)DBP aris.6000
( ) DBOxf ord.5000
Figure 3 Exemples desdiérentesbases d'images utilisées pour l'évaluation.
Lesdiérentesévaluationsentermes dequalitéetdetemps d'exé utionsont réalisées.
Les diérents paramètres et stratégies de
∆
-TSR sont aussi examinés. Nos expérien es montrent que∆
-TSR améliore non seulement laqualité de re her he par similarité mais aussiletempsd'exé utionparrapportàdeuxappro hesapparentéesdelalittérature,TSR[Punitha 2008b℄etBoF[Sivi 2003℄.Le hapitresetermineenabordantl'appli ationpour
lare her he par similaritébasé surle ontenu visuel.
Partie II
Chapitre 3 : Contexte d'image
Nous ommençons la deuxième partie de e mémoire par examiner la notion de
ontexte d'image. Dans une image, la re onnaissan e de la atégorie d'entité exige
4. http://www.robots.ox.a .uk/
∼
vgg/d ata/ 5. http://www.robots.ox.a .uk/∼
vgg/d ata/diérentesinformationsàpartir desdonnéesbrutesde ette image.Danslemonderéel,il
existeuneforterelationentrelesenvironnementsetlesentitéstrouvéesen seinde eux- i
ou entre les entités. Les entités ne sont jamais présentes de manière isolée, elles peuvent
avoirlatendan eà o-varier ave d'autresentitésetave desenvironnementsparti uliers.
Cela nous permet de re ueillir une olle tion ri he des asso iations ontextuelles. La
déte tion des entités sera pré ise et rapide si elles apparaissent habituellement dans un
ontextefamilier.Toutd'abord,nouspouvonsdirequele ontexted'uneimagedé rittous
les types de relations possibles entre les entités dans ette image, ou entre les entités et
l'arrièreplande etteimage.L'utilisationdu ontextepeutapporterungrandintérêtnon
seulement pour re onnaître la atégorie d'entité, mais aussi pour la re her he d'images
par similarité. Pour la re onnaissan e de atégorie d'entité, il est évident d'examiner le
ontexte général de l'image si les ara téristiques lo ales sont insusantes (parexemple,
l'entité estpetite,ou apparaîtpartiellement). Pour lare her he d'images,la omparaison
des ontextes d'image peut aider à ltrerles faussesalarmes avant d'entrer dans l'étape
de omparaison du ontenuvisuel desimages.
Enutilisantles ara téristiquesvisuellesdel'image,le ontextepeutêtredé ritpar la
relationentre l'information lo ale etl'information globale de l'image.Cette dénitiondu
ontexte peut onduire à un travail a harné de traitement d'image. Une façon naturelle
de représenter le ontexte d'une image est d'utiliser la relation de o-o urren e de ses
entités. Danslemonderéel,la o-o urren epeutarriver àunniveau global,parexemple
"une hambre"permetdeprédirel'existen ed'"unlit",ouàunniveaulo al, parexemple
"une table" permet de prédire la présen e d'"une haise". Un problème probabiliste
peut être également asso ié dans e as. Plus omplexes, les relations spatiales entre
les atégories d'entité dans les images peuvent être prises en ompte. En général, il est
di ile d'avoir une dénition exa te du ontexte pour la re her he d'images. Chaque
as d'utilisation peut générer une dénition parti ulière du ontexte. Dans e hapitre,
j'expose les on epts et te hniques des appro hes de re her he d'entités basées sur le
ontexte en les lassiant en deux groupes : les méthodes a priori et les méthodes a
posteriori.Lesméthodesaprioriutilisentlanotionde ontextepourprédirelalo alisation
des entités dans l'image, tandis que elles a posteriori l'utilisent pour vérier et valider
lesrésultatsd'une étapede déte tion oude re onnaissan e.
En se basant sur des travaux existants, nous proposons une dénition de ontexte
pour notre adre de travail.Le ontexte d'image estdéni par la présen edes atégories
d'entitédansl'imageetparlesrelationsspatialesentre es atégoriesd'entité.Laprésen e
queles probabilités peuvent être utilisées pour présenterles informations globales de es
relations).
Chapitre4 : Cartographie des relations spatiales dans une base d'images
symboliques
En se basant sur quelquesrelations spatiales, nous étudionsla base d'images
symbo-liques LabelMe [Russell 2008℄. Nous menons une étude statistique pour mettre en pla e
une artographiedesrelations spatialesexistantes. Lesdiérentesanalysessontee tuées
sur les relations unaires, binaires et ternaires entre atégories d'entités. Cette étude
permet de re ueillir des informations statistiques utiles (ex. la tendan e d'apparition,
les orrélations, la fréquen e des relations spatiales entre les atégories d'objet, et .) à
l'apprentissage arti iel et à la onstru tion d'un système de vision, notre but prin ipal
dans ettethèse.
LabelMeest une plateforme ontenant des bases d'image etun outil d'annotation en
lignequi permetauxutilisateursd'indiquer librement, en onstruisant un polygoneetun
label,les objetsreprésentés dansune image ommeils lesouhaitent.Ainsi, haqueobjet,
appeléentitédansnotretravail,estprésentéparunpolygoneetunlabel.Par onséquent,
haque étiquette est onsidérée omme le nom d'une atégorie d'entités, alors toutes les
entités possédant la même étiquette appartiennent à une même atégorie. Nous avons
utilisé l'une des bases de données de test de ette plate-forme qui ontient 1133 images
annotées (voir les exemples dansla Fig.4). Le ontenu de ette base est très hétérogène,
il n'est pas spé ique à un domaine parti ulier. Par onséquent, l'étude de ette base
d'imagespeutfournirune vuegénéralesurles atégories etleurs relations,et lesrésultats
ne devraient pas être inuen és sensiblement en hangeant la base de données. An de
garantirlaqualité delabasededonnéesnousavonsvériéminutieusement haque image
annotéedela ohéren e.Premièrement,nousavonsmanuellement onsolidéelesétiquettes
synonyme en orrigeant les erreurs orthographiques et fusionné des étiquettes ayant la
même signi ation. Deuxièmement, nous avons séle tionné
86
atégories diérentes en prenant en ompte uniquement les atégories ayant au moins15
entités. Cette dé ision a été prise an d'assurer une indépendan e de résultats statistiques, même si la basede l'image est modiée. Enn, nous avons ajouté des annotations manquantes pour les
entités des atégories onsidérées, à l'ex eption des entités de taille trop petite ou les
statistiquesnedoiventpasêtrebiaisésparlesannotationsportéesdisparues.Danslasuite,
nousappelons ette basede données
DB
.Sky,tree,person,lake,ground Road, ar,building,window Sky,tree,mountain,ground
Figure 4 Images de
DB
etannotations asso iées.Statistiquesur les atégories : Avantd'étudierlesrelationsentrelesdiérentes
a-tégories,nousavonsrapidement al uléquelquesstatistiques on ernant haque atégorie,
parexemple,lenombre leplusbasouleplushaut desentitésd'une atégorieparti ulière
dans une image, le nombre total de ses entités dans la base, le nombre d'images où au
moins l'un de ses entités apparaît, et . L'aperçu de ette étude statistique est présenté
dansletableau 1.
Nbde Nbdes Moyennedes Moyennedes Max.nbdes Min.nbdes
img/DB entités/DB entités/ at.(STDEV) entités/img(é arttype) entités/img entités/img
1133 38075 442.7 (1485.6) 33.6(32.3) 264 1
Table 1 Aperçugénéraldesmesuresstatistiquesde
DB
.Le nombre moyen d'entités de haque atégorie dans une image peut être utilisé
pour avoir une vue rapide sur la possibilité d'avoir plus d'une instan e d'une atégorie
dans une image. Par exemple, la atégorie window a une moyenne élevée, autour de
19
entités par image. Par onséquent, si on trouve un entité window dans une image, on peut s'attendre à trouver un autre entité window dans la même image. Pour uneétude plus détaillée, nous avons al ulé la orrélation intra- lasse des atégories, basées
sur la fon tion de orrélation lassique entre deux atégories. Légèrement diérente de
la orrélation lassique représentant l'impa t d'une atégorie à une autre, la orrélation
intra- lassen'estjamaisnégative.Pourl'exemplepré édent,nousavonsobtenu
0.776
pour la orrélation intra- lasse de window, 'est aussile meilleurs ore parmi les orrélationsintra- lasse obtenues. Ce s ore est susamment élevé pour on lure que nous pouvons
trouver la plupart du temps au moins deux window dans une image où une entité
window a déjà été déte tée. Le s ore le plus bas dans ette étude est de
0
, pour la atégorielake. Par onséquent,au une image dansDB
ne ontient plus d'unlake.En fait,iln'estpasévidentd'avoir deuxouplusieurs instan esdelake danslamêmeimage.de
0.3
,alors queseulement8
atégories ont uns ore supérieurà0.5
, ommepar exemple ar,window, building.Dans e hapitre, nous avons examiné les diérentes relations entre les atégories
ommelesrelationsd'o urren esetlesrelations spatiales.Nouslesgrouponsenrelations
appeléesunaires, binaires outernaires.
Relations unaires : Nousappelonsrelationunaire,larelationentreuneentitéd'une
atégorieetsalo alisationdansuneimage,oùlalo alisationestdénie ommeunerégion
ou une zone de l'image, représentée dans e travail par un ode. Plus formellement, soit
A = {a
i
}
,I = {I
j
}
, etC = {C
k
}
l'ensemble des régions, l'ensemble des images, et l'ensemble des atégories , respe tivement. La relation unaire est une appli ationR
deC × I
àA
.R(C
k
, I
j
) ∈ A
permetdesavoiroùC
k
setrouvedansI
j
.Leszonesd'uneimage peuvent être représentées de diérentes manières omme le "quad-tree" ou "quin-tree",voir [Park 2000, Wang 2003a℄. Puisque nous n'avons pas de onnaissan es a priori de la
lo alisationdes atégoriesdanslesimages,nousnousproposonsde ouperdesimagesdans
unnombrexedezonesrégulières(i.e.deszonesdetailleégale).D'abord,ondivise haque
image en une grille de taille xe. Chaque ellule de ette grille, appelée zone atomique,
est représentée par un ode. Les Fig. 5(a) et5(b) représentent un dé oupage en 9 et 16
zones atomiques et leurs odes, respe tivement. Nous avons ensuite ombiné es odes
pour présenter des zones plus omplexes, par exemple pour le dé oupage de 9-zone, le
ode
009
représente lazone regroupant leszones atomiques001
( ) et008
( ).(a) (b)
Figure 5 Codesdans(a)ledé oupagede9-zone,(b)ledé oupagede16-zone.
La ombinaison des neuf odes de le dé oupage de 9-zone (la Fig.5(a)) donne
511
odes possibles. Cependant, ertains d'entre eux nepeuvent pasêtre utilisés, omme parexemple, le ode
017
( ) ou le ode161
( ), par e que leurs zones atomiques ne sont pasreliées par une arête ( 'est à dire qu'elles sont disjointes). En onséquen e, basé suretteidée, il yaseulement
218
odesautorisés en théorie. Con rètement, dansDB
,nous n'avons pas trouvé les entités dans les régions représentées par es odes. Par ailleurs,seulement 138 odes autorisés sont présent dans
DB
. En eet,DB
ne ontient au une entité dansleszonesreprésentées pardes odesde047
( )ou125
( )parexemple.Delamêmemanière, la ombinaisonde
16
odesdanslaFig.5(b)donne65535
diérents odes. Enthéorie, nouspouvonsatteindre11506
odes omplexes possibles(basé surles régions liées),maisdansDB
,seulement649
odessont présents.Un rapportrapidesurles odes présents danslaDB
est présentédanslaFig.6.(a) (b)
Figure6Ladistributiondes odesentermedunombred'o urren es:(a)dé oupagede9-zone
(b)dé oupagede16-zone.
Dansla Fig.6(b), nouspouvonsobserverqueles grandes régionsou omplexes ont un
petit nombre d'o urren es. Cela signie que les atégories sont représentées
prin ipale-mentparunezonesimpleoupetite.D'autrepart,latendan edelaprésen edes atégories
sesitueplusgénéralemententrelesdeuxlignesdumilieu,puisplutt entrelesdeuxlignes
enhaut, etpuisentre lesdeux lignesen bas.Ces résultats sont ohérentsave eux dele
dé oupagede 9-zone(voirlaFig.6(a)). Demême,nouspouvonsobserverquelatendan e
delaprésen edes atégoriessurlagau heestplusélevéequesurladroite.Ces on lusions
onrment les règlesbien onnues on ernant laphotographie etl'ergonomie (intera tion
homme-ma hine) :
Enphotographie, ilyalarègledestiers 6
,l'une despremièresrèglesde omposition
enseignéeàlaplupartdesétudiantsdephotographie.Ilestre ommandédeprésenter
desobjetsintéressantsàl'interse tionoulelongdeslignesprésentéesdans etterègle
(voirlatendan e danslaFig.6(b)).
Selon [Mayhew1992℄ on ernant les études ergonomiques sur les intera tions
humain-ordinateur, le entre de l'é ran d'ordinateur est le plus attirant. Ensuite,
l'attention de la vue est attirée par le haut etla gau he de l'é ran plus que par le
basetledroite,par onséquent,menantàdesentitéspeuannotées dans esrégions
(voirlatendan e danslaFig.6(a)).
Nous avons étudié la distribution des atégories dans toutes les régions de l'image,
selon le dé oupage de 9-zone et de 16-zone. Fondamentalement, les résultats obtenus
peuventêtreen apsulésdansunebasede onnaissan esoùilsvontêtreinterprétés omme