A.2 ImageCLEF Concepts
D.1.3 Description du probl`eme
documents multim´edias. Plutˆot que d’interagir avec le syst`eme en utilisant des descriptions
de bas niveau, les utilisateurs peuvent interagir `a un niveau s´emantique ´elev´e en utilisant
di-rectement et simplement des mots-cl´es ou des concepts s´emantiques (Lim[2001];Snoeket al.
[2005a]).
En raison des difficult´es d’extraction des symboles (haut niveau s´emantique) `a partir d’un
signal brut (bas niveau), ces syst`emes deviennent actuellement un sujet tr`es actif dans la
com-munaut´e de la recherche d’information. L’avantage de ces syst`emes est leur capacit´e `a produire
une repr´esentation abstraite `a partir des caract´eristiques de bas niveau. Ils doivent ˆetre en mesure
d’indexer les concepts qui pr´esentent des similitudes visuelles bien qu’un mˆeme concept puisse
apparaˆıtre sous diff´erentes couleurs et formes. Ce probl`eme classique dans l’indexation
mul-tim´edia est appel´e le ” foss´e s´emantique ” (Smeulderset al.[2000]). L’association des concepts
avec leurs caract´eristiques visuelles est une tˆache non triviale.
Dans les syst`emes d’indexation s´emantique multim´edia (MSI), passer du bas niveau
(sig-nal) au haut niveau (concept) est g´en´eralement effectu´e par apprentissage supervis´e. Un concept
donn´e est mod´elis´e `a partir d’un ensemble d’´echantillons ´etiquet´es comme positifs ou n´egatifs
par rapport `a celui-ci. Un classificateur est alors entraˆın´e pour reconnaˆıtre le mˆeme concept
dans les documents non ´etiquet´es. Bien que ces syst`emes r´epondent mieux aux besoins des
utilisateurs, ils sont encore difficiles `a appliquer. En outre, il est difficile de d´efinir ainsi tous les
concepts connus et il est encore impossible de construire des syst`emes intelligents de MSI, qui
r´epondent parfaitement aux attentes des utilisateurs. En outre, les algorithmes d’apprentissage
supervis´e d´ependent beaucoup de la repr´esentation des donn´ees et de la qualit´e des ´echantillons
d’apprentissage. Ceci peut ˆetre vu en apprenant des concepts dans de grandes bases de donn´ees
o`u les syst`emes sont souvent confront´es au probl`eme du d´es´equilibre entre les classes
minori-taires et majoriminori-taires, la plupart des concepts cibles ´etant rares ou tr`es rares. Dans la section
suivante, nous abordons les deux probl`emes mentionn´es ci-dessus (c’est `a dire celui du foss´e
s´emantique et celui du d´es´equilibre entre classes) dans l’indexation multim´edia.
D.1.3 Description du probl`eme
Comme notre travail concerne l’indexation multim´edia, nous identifions deux probl`emes
prin-cipaux que rencontrent en g´en´eral les syst`emes d’indexation multim´edia. Le premier est le
probl`eme majeur du foss´e s´emantique entre les caract´eristiques de bas niveau visuel (couleur,
forme, texture, etc.) et les concepts s´emantiques manipul´es par l’utilisateur (Changet al.[2009];
Idrissiet al.[2009];Smeulderset al.[2000]). Le deuxi`eme probl`eme est celui du d´es´equilibre
entre classes qui apparaˆıt principalement dans les bases de donn´ees `a grande ´echelle, telles
que TRECVid (Smeaton et al. [2006]), o`u la plupart des concepts cibles `a apprendre sont
rares. C’est encore un s´erieux probl`eme pour les m´ethodes classiques d’apprentissage supervis´e
car la plupart des m´ethodes performantes sont conc¸ues pour fonctionner avec un d´es´equilibre
mod´er´e entre les classes et se comportent mal en cas de d´es´equilibre important. Par ailleurs, un
autre probl`eme est l’inad´equation entre la m´etrique d’´evaluation appropri´ee pour la recherche
d’information et le crit`ere interne du classificateur. L’unit´e de mesure commune utilis´ee dans
la recherche d’information est la pr´ecision moyenne (MAP), qui donne plus d’importance
aux ´echantillons trouv´es dans le haut d’une liste ordonn´ee tandis que le crit`ere interne de
l’algorithme d’apprentissage supervis´e s’attend `a trouver des classes grossi`erement ´equilibr´e
D.1.3. Description du probl`eme 143
et n’est pas influenc´e par le classement.
D.1.3.1 Foss´e s´emantique
Le terme ” foss´e s´emantique ” a ´et´e introduit en 2000 dans le cadre de l’indexation s´emantique
des images.Smeulderset al.[2000] d´ecrit le foss´e s´emantique comme suit: ”Le foss´e s´emantique
est le manque de concordance entre les informations que les machines peuvent extraire depuis
les documents num´eriques, et les interpr´etations que les humains en font”.
Figure D.2: Ski `a Belle-Plagne, dans les Alpes franc¸aises, un exemple du foss´e s´emantique.
Combler le foss´e s´emantique dans la recherche d’images et de vid´eos est un probl`eme encore
tr`es difficile `a r´esoudre (Chang et al. [2009]; Idrissi et al. [2009]). Nous, en tant qu’ˆetres
humains, sommes capables de comprendre les documents images et vid´eos selon les deux points
de vue. Les caract´eristiques de bas niveau (par exemple la couleur, la texture, la forme, etc.)
et de haut niveau de la s´emantique (concepts, ´ev´enements, etc.). Cependant, les machines
n’utilisent encore que des caract´eristiques de bas niveau pour interpr´eter ces documents. Les
utilisateurs pr´ef`erent chercher des documents en utilisant des requˆetes de haut niveau (Liuet al.
[2007b];Smeulderset al.[2000]), tandis que les syst`emes de recherche des images et des vid´eos
en fonction de leur contenu (CBIR et CBVR) utilisent des caract´eristiques bas niveaux pour
indexer les images et les vid´eos. Une tentative pour combler le foss´e entre la s´emantique de haut
niveau et des caract´eristiques de bas niveau est n´ecessaire. Par exemple, peut-on construire des
machines qui peuvent comprendre s´emantiquement le contenu de l’image montre la figureD.2?
Comme on le voit, c’est un d´efi que la machine comprenne que la photo a ´et´e prise sur une
montagne, que le ciel est nuageux, qu’il y a de la neige (photo prise en hiver), que l’image se
concentre sur trois dames parmi sept personnes, et que l’activit´e g´en´erale est le ski.
Dans le but de combler le foss´e s´emantique, les techniques d’annotation multim´edia
automa-tique ont suscit´e beaucoup de int´erˆet ces derni`eres ann´ees. Le but des techniques d’annotation
D.1.3. Description du probl`eme 144
automatique est d’attacher des ´etiquettes textuelles `a des documents non ´etiquet´es, comme
de-scriptions du contenu des documents. Cet ´etiquetage doit ˆetre fait en utilisant la s´emantique de
haut niveau.
D.1.3.2 Le probl`eme de classe d´es´equilibre dans des bases de donn´ees `a Grande ´Echelle
Un ensemble de donn´ees est appel´e ” d´es´equilibr´e ” si une des classes `a reconnaˆıtre est repr´esent´ee
par un nombre significativement moins ´elev´e d’´echantillons que les autres. Ce probl`eme se
pro-duit dans de nombreuses bases de donn´ees du monde r´eel, y compris ceux du multim´edia. Le
probl`eme de classe d´es´equilibre est devenu un sujet int´eressant au sein de la communaut´e
tra-vaillant sur l’apprentissage automatique dans de nombreux domaines particuliers, notamment
dans l’indexation multim´edia.
Dans le cas de la classification binaire (´echantillons positifs ou n´egatifs), on suppose que la
classe positive est la classe minoritaire, et la classe n´egative est la classe majoritaire. Dans de
nombreux cas, la classe minoritaire est tr`es rare, tel que moins de 1% dans les bases de donn´ees
TRECVID (Smeaton et al. [2006]), comme le montre la figure D.3. Dans ce contexte, les
algorithmes standards d’apprentissage supervis´e ont une pr´ecision tr`es faible pour la pr´ediction
de la classe rare. Ainsi, lors de leur application en tant que m´ethodes de classement sur les
bases de donn´ees d´es´equilibr´ees, ils sont susceptibles de tout pr´edire comme n´egatif (la classe
majoritaire). Ce probl`eme a souvent ´et´e consid´er´e comme celui de l’apprentissage `a partir
d’un ensemble de donn´ees tr`es d´es´equilibr´ee (Japkowicz & Stephen [2002]; Weiss & Provost
[2001]).
Figure D.3: Fr´equence de concepts, deSmeatonet al.[2006].
Une possibilit´e pour surmonter le probl`eme du d´es´equilibre de classe, est de r´e-´echantillonner
l’ensemble de donn´ees d’apprentissage original, soit par sur-´echantillonnage de la classe
mi-noritaire soit par sous-´echantillonnage de la classe majoritaire. Ceci est fait de telle mani`ere
que les classes seront pr´esent´es d’une mani`ere plus ´equilibr´ee (Bishop [2007]; Chawlaet al.
[2002];Weiss & Provost[2001]). Le sur-´echantillonnage augmente le temps d’apprentissage et
les besoins en m´emoire en raison de l’augmentation du nombre d’exemples d’apprentissage. Il
augmente aussi les coˆuts de calcul pour le pr´etraitement des donn´ees. Le sous-´echantillonnage
peut, lui, induire une perte d’information du fait qu’il peut ignorer des donn´ees qui pourraient
ˆetre importantes pour le processus d’apprentissage.
Dans le document
Indexation sémantique des images et des vidéos par apprentissage actif
(Page 156-159)