• Aucun résultat trouvé

A.2 ImageCLEF Concepts

D.1.3 Description du probl`eme

documents multim´edias. Plutˆot que d’interagir avec le syst`eme en utilisant des descriptions

de bas niveau, les utilisateurs peuvent interagir `a un niveau s´emantique ´elev´e en utilisant

di-rectement et simplement des mots-cl´es ou des concepts s´emantiques (Lim[2001];Snoeket al.

[2005a]).

En raison des difficult´es d’extraction des symboles (haut niveau s´emantique) `a partir d’un

signal brut (bas niveau), ces syst`emes deviennent actuellement un sujet tr`es actif dans la

com-munaut´e de la recherche d’information. L’avantage de ces syst`emes est leur capacit´e `a produire

une repr´esentation abstraite `a partir des caract´eristiques de bas niveau. Ils doivent ˆetre en mesure

d’indexer les concepts qui pr´esentent des similitudes visuelles bien qu’un mˆeme concept puisse

apparaˆıtre sous diff´erentes couleurs et formes. Ce probl`eme classique dans l’indexation

mul-tim´edia est appel´e le ” foss´e s´emantique ” (Smeulderset al.[2000]). L’association des concepts

avec leurs caract´eristiques visuelles est une tˆache non triviale.

Dans les syst`emes d’indexation s´emantique multim´edia (MSI), passer du bas niveau

(sig-nal) au haut niveau (concept) est g´en´eralement effectu´e par apprentissage supervis´e. Un concept

donn´e est mod´elis´e `a partir d’un ensemble d’´echantillons ´etiquet´es comme positifs ou n´egatifs

par rapport `a celui-ci. Un classificateur est alors entraˆın´e pour reconnaˆıtre le mˆeme concept

dans les documents non ´etiquet´es. Bien que ces syst`emes r´epondent mieux aux besoins des

utilisateurs, ils sont encore difficiles `a appliquer. En outre, il est difficile de d´efinir ainsi tous les

concepts connus et il est encore impossible de construire des syst`emes intelligents de MSI, qui

r´epondent parfaitement aux attentes des utilisateurs. En outre, les algorithmes d’apprentissage

supervis´e d´ependent beaucoup de la repr´esentation des donn´ees et de la qualit´e des ´echantillons

d’apprentissage. Ceci peut ˆetre vu en apprenant des concepts dans de grandes bases de donn´ees

o`u les syst`emes sont souvent confront´es au probl`eme du d´es´equilibre entre les classes

minori-taires et majoriminori-taires, la plupart des concepts cibles ´etant rares ou tr`es rares. Dans la section

suivante, nous abordons les deux probl`emes mentionn´es ci-dessus (c’est `a dire celui du foss´e

s´emantique et celui du d´es´equilibre entre classes) dans l’indexation multim´edia.

D.1.3 Description du probl`eme

Comme notre travail concerne l’indexation multim´edia, nous identifions deux probl`emes

prin-cipaux que rencontrent en g´en´eral les syst`emes d’indexation multim´edia. Le premier est le

probl`eme majeur du foss´e s´emantique entre les caract´eristiques de bas niveau visuel (couleur,

forme, texture, etc.) et les concepts s´emantiques manipul´es par l’utilisateur (Changet al.[2009];

Idrissiet al.[2009];Smeulderset al.[2000]). Le deuxi`eme probl`eme est celui du d´es´equilibre

entre classes qui apparaˆıt principalement dans les bases de donn´ees `a grande ´echelle, telles

que TRECVid (Smeaton et al. [2006]), o`u la plupart des concepts cibles `a apprendre sont

rares. C’est encore un s´erieux probl`eme pour les m´ethodes classiques d’apprentissage supervis´e

car la plupart des m´ethodes performantes sont conc¸ues pour fonctionner avec un d´es´equilibre

mod´er´e entre les classes et se comportent mal en cas de d´es´equilibre important. Par ailleurs, un

autre probl`eme est l’inad´equation entre la m´etrique d’´evaluation appropri´ee pour la recherche

d’information et le crit`ere interne du classificateur. L’unit´e de mesure commune utilis´ee dans

la recherche d’information est la pr´ecision moyenne (MAP), qui donne plus d’importance

aux ´echantillons trouv´es dans le haut d’une liste ordonn´ee tandis que le crit`ere interne de

l’algorithme d’apprentissage supervis´e s’attend `a trouver des classes grossi`erement ´equilibr´e

D.1.3. Description du probl`eme 143

et n’est pas influenc´e par le classement.

D.1.3.1 Foss´e s´emantique

Le terme ” foss´e s´emantique ” a ´et´e introduit en 2000 dans le cadre de l’indexation s´emantique

des images.Smeulderset al.[2000] d´ecrit le foss´e s´emantique comme suit: ”Le foss´e s´emantique

est le manque de concordance entre les informations que les machines peuvent extraire depuis

les documents num´eriques, et les interpr´etations que les humains en font”.

Figure D.2: Ski `a Belle-Plagne, dans les Alpes franc¸aises, un exemple du foss´e s´emantique.

Combler le foss´e s´emantique dans la recherche d’images et de vid´eos est un probl`eme encore

tr`es difficile `a r´esoudre (Chang et al. [2009]; Idrissi et al. [2009]). Nous, en tant qu’ˆetres

humains, sommes capables de comprendre les documents images et vid´eos selon les deux points

de vue. Les caract´eristiques de bas niveau (par exemple la couleur, la texture, la forme, etc.)

et de haut niveau de la s´emantique (concepts, ´ev´enements, etc.). Cependant, les machines

n’utilisent encore que des caract´eristiques de bas niveau pour interpr´eter ces documents. Les

utilisateurs pr´ef`erent chercher des documents en utilisant des requˆetes de haut niveau (Liuet al.

[2007b];Smeulderset al.[2000]), tandis que les syst`emes de recherche des images et des vid´eos

en fonction de leur contenu (CBIR et CBVR) utilisent des caract´eristiques bas niveaux pour

indexer les images et les vid´eos. Une tentative pour combler le foss´e entre la s´emantique de haut

niveau et des caract´eristiques de bas niveau est n´ecessaire. Par exemple, peut-on construire des

machines qui peuvent comprendre s´emantiquement le contenu de l’image montre la figureD.2?

Comme on le voit, c’est un d´efi que la machine comprenne que la photo a ´et´e prise sur une

montagne, que le ciel est nuageux, qu’il y a de la neige (photo prise en hiver), que l’image se

concentre sur trois dames parmi sept personnes, et que l’activit´e g´en´erale est le ski.

Dans le but de combler le foss´e s´emantique, les techniques d’annotation multim´edia

automa-tique ont suscit´e beaucoup de int´erˆet ces derni`eres ann´ees. Le but des techniques d’annotation

D.1.3. Description du probl`eme 144

automatique est d’attacher des ´etiquettes textuelles `a des documents non ´etiquet´es, comme

de-scriptions du contenu des documents. Cet ´etiquetage doit ˆetre fait en utilisant la s´emantique de

haut niveau.

D.1.3.2 Le probl`eme de classe d´es´equilibre dans des bases de donn´ees `a Grande ´Echelle

Un ensemble de donn´ees est appel´e ” d´es´equilibr´e ” si une des classes `a reconnaˆıtre est repr´esent´ee

par un nombre significativement moins ´elev´e d’´echantillons que les autres. Ce probl`eme se

pro-duit dans de nombreuses bases de donn´ees du monde r´eel, y compris ceux du multim´edia. Le

probl`eme de classe d´es´equilibre est devenu un sujet int´eressant au sein de la communaut´e

tra-vaillant sur l’apprentissage automatique dans de nombreux domaines particuliers, notamment

dans l’indexation multim´edia.

Dans le cas de la classification binaire (´echantillons positifs ou n´egatifs), on suppose que la

classe positive est la classe minoritaire, et la classe n´egative est la classe majoritaire. Dans de

nombreux cas, la classe minoritaire est tr`es rare, tel que moins de 1% dans les bases de donn´ees

TRECVID (Smeaton et al. [2006]), comme le montre la figure D.3. Dans ce contexte, les

algorithmes standards d’apprentissage supervis´e ont une pr´ecision tr`es faible pour la pr´ediction

de la classe rare. Ainsi, lors de leur application en tant que m´ethodes de classement sur les

bases de donn´ees d´es´equilibr´ees, ils sont susceptibles de tout pr´edire comme n´egatif (la classe

majoritaire). Ce probl`eme a souvent ´et´e consid´er´e comme celui de l’apprentissage `a partir

d’un ensemble de donn´ees tr`es d´es´equilibr´ee (Japkowicz & Stephen [2002]; Weiss & Provost

[2001]).

Figure D.3: Fr´equence de concepts, deSmeatonet al.[2006].

Une possibilit´e pour surmonter le probl`eme du d´es´equilibre de classe, est de r´e-´echantillonner

l’ensemble de donn´ees d’apprentissage original, soit par sur-´echantillonnage de la classe

mi-noritaire soit par sous-´echantillonnage de la classe majoritaire. Ceci est fait de telle mani`ere

que les classes seront pr´esent´es d’une mani`ere plus ´equilibr´ee (Bishop [2007]; Chawlaet al.

[2002];Weiss & Provost[2001]). Le sur-´echantillonnage augmente le temps d’apprentissage et

les besoins en m´emoire en raison de l’augmentation du nombre d’exemples d’apprentissage. Il

augmente aussi les coˆuts de calcul pour le pr´etraitement des donn´ees. Le sous-´echantillonnage

peut, lui, induire une perte d’information du fait qu’il peut ignorer des donn´ees qui pourraient

ˆetre importantes pour le processus d’apprentissage.

Documents relatifs