Description du probl`eme - ImageCLEF Concepts

A.2 ImageCLEF Concepts

D.1.3 Description du probl`eme

documents multimédias. Plutôt que d’interagir avec le système en utilisant des descriptions

de bas niveau, les utilisateurs peuvent interagir à un niveau sémantique élevé en utilisant

di-rectement et simplement des mots-cl´es ou des concepts s´emantiques (Lim[2001];Snoeket al.

[2005a]).

En raison des difficultés d’extraction des symboles (haut niveau sémantique) à partir d’un

signal brut (bas niveau), ces syst`emes deviennent actuellement un sujet tr`es actif dans la

com-munauté de la recherche d’information. L’avantage de ces systèmes est leur capacité à produire

une représentation abstraite à partir des caractéristiques de bas niveau. Ils doivent être en mesure

d’indexer les concepts qui pr´esentent des similitudes visuelles bien qu’un mˆeme concept puisse

apparaˆıtre sous diff´erentes couleurs et formes. Ce probl`eme classique dans l’indexation

mul-timédia est appelé le ” fossé sémantique ” (Smeulderset al.[2000]). L’association des concepts

avec leurs caract´eristiques visuelles est une tˆache non triviale.

Dans les systèmes d’indexation sémantique multimédia (MSI), passer du bas niveau

(sig-nal) au haut niveau (concept) est généralement effectué par apprentissage supervisé. Un concept

donné est modélisé à partir d’un ensemble d’échantillons étiquetés comme positifs ou négatifs

par rapport à celui-ci. Un classificateur est alors entraˆıné pour reconnaˆıtre le même concept

dans les documents non étiquetés. Bien que ces systèmes répondent mieux aux besoins des

utilisateurs, ils sont encore difficiles `a appliquer. En outre, il est difficile de d´efinir ainsi tous les

concepts connus et il est encore impossible de construire des syst`emes intelligents de MSI, qui

r´epondent parfaitement aux attentes des utilisateurs. En outre, les algorithmes d’apprentissage

supervisé dépendent beaucoup de la représentation des données et de la qualité des échantillons

d’apprentissage. Ceci peut ˆetre vu en apprenant des concepts dans de grandes bases de donn´ees

où les systèmes sont souvent confrontés au problème du déséquilibre entre les classes

minori-taires et majoriminori-taires, la plupart des concepts cibles ´etant rares ou tr`es rares. Dans la section

suivante, nous abordons les deux problèmes mentionnés ci-dessus (c’est à dire celui du fossé

sémantique et celui du déséquilibre entre classes) dans l’indexation multimédia.

D.1.3 Description du probl`eme

Comme notre travail concerne l’indexation multim´edia, nous identifions deux probl`emes

prin-cipaux que rencontrent en général les systèmes d’indexation multimédia. Le premier est le

problème majeur du fossé sémantique entre les caractéristiques de bas niveau visuel (couleur,

forme, texture, etc.) et les concepts s´emantiques manipul´es par l’utilisateur (Changet al.[2009];

Idrissiet al.[2009];Smeulderset al.[2000]). Le deuxième problème est celui du déséquilibre

entre classes qui apparaˆıt principalement dans les bases de données à grande échelle, telles

que TRECVid (Smeaton et al. [2006]), o`u la plupart des concepts cibles `a apprendre sont

rares. C’est encore un sérieux problème pour les méthodes classiques d’apprentissage supervisé

car la plupart des méthodes performantes sont conçues pour fonctionner avec un déséquilibre

modéré entre les classes et se comportent mal en cas de déséquilibre important. Par ailleurs, un

autre problème est l’inadéquation entre la métrique d’évaluation appropriée pour la recherche

d’information et le critère interne du classificateur. L’unité de mesure commune utilisée dans

la recherche d’information est la pr´ecision moyenne (MAP), qui donne plus d’importance

aux échantillons trouvés dans le haut d’une liste ordonnée tandis que le critère interne de

l’algorithme d’apprentissage supervisé s’attend à trouver des classes grossièrement équilibré

D.1.3. Description du probl`eme 143

et n’est pas influenc´e par le classement.

D.1.3.1 Foss´e s´emantique

Le terme ” fossé sémantique ” a été introduit en 2000 dans le cadre de l’indexation sémantique

des images.Smeulderset al.[2000] décrit le fossé sémantique comme suit: ”Le fossé sémantique

est le manque de concordance entre les informations que les machines peuvent extraire depuis

les documents num´eriques, et les interpr´etations que les humains en font”.

Figure D.2: Ski à Belle-Plagne, dans les Alpes françaises, un exemple du fossé sémantique.

Combler le fossé sémantique dans la recherche d’images et de vidéos est un problème encore

très difficile à résoudre (Chang et al. [2009]; Idrissi et al. [2009]). Nous, en tant qu’êtres

humains, sommes capables de comprendre les documents images et vid´eos selon les deux points

de vue. Les caract´eristiques de bas niveau (par exemple la couleur, la texture, la forme, etc.)

et de haut niveau de la sémantique (concepts, événements, etc.). Cependant, les machines

n’utilisent encore que des caract´eristiques de bas niveau pour interpr´eter ces documents. Les

utilisateurs préfèrent chercher des documents en utilisant des requêtes de haut niveau (Liuet al.

[2007b];Smeulderset al.[2000]), tandis que les syst`emes de recherche des images et des vid´eos

en fonction de leur contenu (CBIR et CBVR) utilisent des caract´eristiques bas niveaux pour

indexer les images et les vidéos. Une tentative pour combler le fossé entre la sémantique de haut

niveau et des caract´eristiques de bas niveau est n´ecessaire. Par exemple, peut-on construire des

machines qui peuvent comprendre s´emantiquement le contenu de l’image montre la figureD.2?

Comme on le voit, c’est un défi que la machine comprenne que la photo a été prise sur une

montagne, que le ciel est nuageux, qu’il y a de la neige (photo prise en hiver), que l’image se

concentre sur trois dames parmi sept personnes, et que l’activité générale est le ski.

Dans le but de combler le fossé sémantique, les techniques d’annotation multimédia

automa-tique ont suscité beaucoup de intérêt ces dernières années. Le but des techniques d’annotation

D.1.3. Description du probl`eme 144

automatique est d’attacher des étiquettes textuelles à des documents non étiquetés, comme

de-scriptions du contenu des documents. Cet étiquetage doit être fait en utilisant la sémantique de

haut niveau.

D.1.3.2 Le problème de classe déséquilibre dans des bases de données à Grande Échelle

Un ensemble de données est appelé ” déséquilibré ” si une des classes à reconnaˆıtre est représentée

par un nombre significativement moins élevé d’échantillons que les autres. Ce problème se

pro-duit dans de nombreuses bases de données du monde réel, y compris ceux du multimédia. Le

problème de classe déséquilibre est devenu un sujet intéressant au sein de la communauté

tra-vaillant sur l’apprentissage automatique dans de nombreux domaines particuliers, notamment

dans l’indexation multim´edia.

Dans le cas de la classification binaire (´echantillons positifs ou n´egatifs), on suppose que la

classe positive est la classe minoritaire, et la classe n´egative est la classe majoritaire. Dans de

nombreux cas, la classe minoritaire est tr`es rare, tel que moins de 1% dans les bases de donn´ees

TRECVID (Smeaton et al. [2006]), comme le montre la figure D.3. Dans ce contexte, les

algorithmes standards d’apprentissage supervisé ont une précision très faible pour la prédiction

de la classe rare. Ainsi, lors de leur application en tant que m´ethodes de classement sur les

bases de données déséquilibrées, ils sont susceptibles de tout prédire comme négatif (la classe

majoritaire). Ce problème a souvent été considéré comme celui de l’apprentissage à partir

d’un ensemble de données très déséquilibrée (Japkowicz & Stephen [2002]; Weiss & Provost

[2001]).

Figure D.3: Fr´equence de concepts, deSmeatonet al.[2006].

Une possibilité pour surmonter le problème du déséquilibre de classe, est de ré-échantillonner

l’ensemble de donn´ees d’apprentissage original, soit par sur-´echantillonnage de la classe

mi-noritaire soit par sous-´echantillonnage de la classe majoritaire. Ceci est fait de telle mani`ere

que les classes seront présentés d’une manière plus équilibrée (Bishop [2007]; Chawlaet al.

[2002];Weiss & Provost[2001]). Le sur-´echantillonnage augmente le temps d’apprentissage et

les besoins en m´emoire en raison de l’augmentation du nombre d’exemples d’apprentissage. Il

augmente aussi les coûts de calcul pour le prétraitement des données. Le sous-échantillonnage

peut, lui, induire une perte d’information du fait qu’il peut ignorer des donn´ees qui pourraient

ˆetre importantes pour le processus d’apprentissage.

Dans le document Indexation sémantique des images et des vidéos par apprentissage actif (Page 156-159)