• Aucun résultat trouvé

Sur la base des descripteurs de thématique, de spatialisation et de temporalité pré- sentés dans la section II.2 et sur les approches identifiées pour chacun d’entre eux, cette section expose deux contributions. Premièrement, nous présentons les méthodes de clas- sement des tags en utilisant les approches de chaque descripteur de façon individuelle. En outre, nous présentons huit méthodes d’agrégation de ces différentes approches de mo- délisation des descripteurs. Dans ce contexte la question qui se pose est la suivante : est-ce

qu’une méthode qui combine différentes approches conduit à des résultats significativement meilleurs que n’importe quelle approche utilisée individuellement ? Deuxièmement, nous

proposons un modèle probabiliste qui unifie les trois descripteurs d’images. Ce modèle unifié vise à améliorer les travaux de l’état de l’art concernant l’annotation automatique des images.

3.2.1 Classement des tags selon les approches des descripteurs de spatialisation, de temporalité et de thématique

Les approches utilisées pour modéliser les descripteurs de spatialisation, de temporalité et de thématique assignent des scores à chaque tag de l’ensemble des tags candidats d’une image-requête. De plus, ces approches aboutissent à des classements dif- férents. Par conséquent, la question de la performance de chaque approche utilisée in- dividuellement se pose. Dans cette section nous définissons huit méthodes d’agrégation (AggMx) qui sont présentées dans (Mitran et al., 2013). Notre objectif est de déterminer si une méthode qui agrège différentes approches peut identifier les tags pertinents d’une

Modèle unié pour l'annotation sémantique d'images

image-requête.

Par la suite, nous présentons deux équations qui attribuent des scores aux tags can- didats selon chaque approche de modélisation des descripteurs de façon individuelle. La première équation (équation 3.4) assigne des scores selon les approches du descripteur thématique, tandis que la deuxième équation (équation 3.5) assigne des scores selon les approches des descripteurs de spatialisation et de temporalité.

scoreXY(tg, iq) =

X (ir,tg)∈IR×T gir

XY(tg, ir) (3.4)

où XY représente une des approches du descripteur thématique présentées dans la sec-

tion II.2 (par exemple, tfgénérale. . .).

scoreVT(tg, iq) =

X (ir,tg)∈IR×T gir

VT(iq, ir) (3.5)

où VT représente une des approches des descripteurs de spatialisation et de temporalité

présentées dans la section II.2 (par exemple, distclassique, tempsKernel. . .).

Sur la base des travaux de RI relatifs aux diverses méthodes d’agrégations (Liu, 2011; Conitzer, 2006; Fox et Shaw, 1993), dans la suite nous définissions huit méthodes d’agré- gation en combinant les différentes approches de modélisation des descripteurs, notées de (a) à (h) :

a) AggM1est basée sur la fréquence générale d’un tag et la fréquence inverse interne d’un

tag. Ce score est similaire à la mesure tf × idf (Hughes et al., 2012; Wang et al., 2008a)

utilisée en RI :

AggM1(tg, iq) = scoretfgénéral(tg, iq) ∗ idfinterne(tg, iq) (3.6) b) AggM2(similaire à AggM1) est basée sur la fréquence générale d’un tag et la fréquence

inverse externe d’un tag (voir section II.2.2, approche idf ).

AggM2(tg, iq) = scoretfgénéral(tg, iq) ∗ idfexterne(tg, iq) (3.7) c) AggM3 est basée sur la fréquence inverse interne d’un tag et l’approche de similarité

classique du descripteur de spatialisation.

AggM3(tg, iq) = idfinterne(tg, iq) ∗ scoredistclassique(tg, iq) (3.8) d) AggM4 est basée sur la fréquence inverse interne d’un tag et l’approche de similarité

3.2. Anage d'annotations

zones du descripteur de spatialisation.

AggM4(tg, iq) = idfinterne(tg, iq) ∗ scoredistzones(tg, iq) (3.9) e) AggM5est basée sur la fréquence inverse externe d’un tag et l’approche de similarité

classique du descripteur de spatialisation.

AggM5(tg, iq) = idfexterne(tg, iq) ∗ scoredistclassique(tg, iq) (3.10) f ) AggM6est basée sur la fréquence inverse externe d’un tag et l’approche de similarité

zones du descripteur de spatialisation.

AggM6(tg, iq) = idfexterne(tg, iq) ∗ scoredistzones(tg, iq) (3.11) g) AggM7est basée sur la fréquence générale d’un tag, fréquence inverse interne d’un tag,

l’identifiant d’une zone idZone et le nombre de zones |A| obtenues par la division de la zone de capture A d’une image-requête.

AggM7(tg, iq) = idfintern(tg, iq) ∗ |A| X i=1

tfgénéral(tg, iq) ∗ (|A| − idZonei+ 1) (3.12)

où tfgénéral(tg, iq) représente le nombre de fois qu’un tag tg apparaît dans la zone avec l’identifiant idZonei.

h) AggM8est similaire à AggM7. La différence étant que pour cette méthode nous utilisons

la fréquence inverse externe d’un tag.

AggM8(tg, iq) = idfexterne(tg, iq) ∗ |A| X i=1

tfgénéral(tg, iq) ∗ (|A| − idZonei+ 1) (3.13)

Les méthodes de classement présentées dans cette section reposent sur des travaux initiaux que nous avons effectués avec l’objectif d’annoter des images non-étiquetées. De plus, ces méthodes ne prennent pas en compte l’aspect temporel des images. L’évaluation de ces méthodes est présentée dans le chapitre III « expérimentation des contributions », section III.2. Dans le but d’améliorer ces méthodes et de considérer la temporalité des images, la section suivante présente une alternative pour classer les tags candidats d’une image-requête. Elle repose sur le modèle probabiliste employé dans plusieurs tâches du domaine de RI.

Modèle unié pour l'annotation sémantique d'images

3.2.2 Modèle probabiliste unifiant les trois descripteurs d’images

La performance d’un modèle d’annotation d’images réside essentiellement dans les techniques de classement des tags candidats. Ainsi, les tags avec les classements les plus élevés sont utilisés pour annoter une image-requête iq. Dans ce but, dans cette sec- tion nous proposons un modèle probabiliste qui unifie les trois descripteurs d’images : thématique, spatialet temporel (Mitran et al., 2014).

Afin d’attribuer des scores à chaque étiquette de la liste des tags candidats, nous es- timons la probabilité conditionnelle P(tgn|iq), c.-à-d. la probabilité du tag tgn sachant l’image-requête iq(équation 3.14). P(tgn|iq) ∝ X (ir,tg)∈IR×T gir P(ir) P (tgn|ir) Ps(ir|iq) Pt(ir|iq) (3.14) où :

a. P(ir) est la probabilité de l’image ird’apparaître dans la proximité spatiale ou tempo- relle de l’image-requête iq: P(ir) =      1 if d(iq, ir) < δ, 0 sinon (3.15) où,

– d(iq, ir) est la distance spatiale ou temporelle entre deux images et – δ le seuil spatial ou temporel à fixer expérimentalement.

b. La probabilité conditionnelle P(tgn|ir) modélise la distribution du tag tg dans l’en- semble des annotations d’une image ir;

c. Ps(ir|iq) et Pt(ir|iq) sont les probabilités conditionnelles d’une image ir sachant l’image-requête iq. Nous estimons ces probabilités en considérant les approches spa- tiale et temporelle exposées dans les sections précédentes.

Aucune image n’est a priori plus pertinente qu’une autre pour fournir des tags. Ceci se traduit par une probabilité « a priori » (prior) uniforme P(ir) représentée par une valeur constante. Par conséquent, l’équation 3.14 peut être simplifiée :

P(tgn|iq) ∝

X

(ir,tg)∈IR×T gir