• Aucun résultat trouvé

Apprentissage de concepts automatiquement en utilisant Internet

2.3 Annotation automatique d’images

2.3.5 Apprentissage de concepts automatiquement en utilisant Internet

Les bases de donn´ees d’images annot´ees manuellement et accessibles librement pour faire des travaux de recherche sont encore peu nombreuses et contiennent typiquement de l’ordre de 100 000 images, comme par exemple la base Corel [149] qui contient 60 000 images avec une courte phrase d´ecrivant chaque image, ou la base IAPR TC-12 [58] de 20 000 images contenant des descriptions plus longues traduites en anglais et en allemand.

Il est donc tentant de se tourner vers les images disponibles sur Internet dont le nombre croˆıt toujours plus vite. Les moteurs de recherche d’images tels que Google, Yahoo ! ou Picsearch ont recens´e quelques milliards d’images4. D’autre part, mˆeme si ces images ne sont pas annot´ees directement, elles sont souvent plac´ees dans une page Internet o`u elles sont entour´ees de texte relatif `a l’image, ce qui rend possible la recherche d’images par requˆete textuelle sur Internet telle que nous la voyons actuellement dans la plupart des moteurs de recherche d’images.

L’id´ee d’utiliser ces images pour apprendre automatiquement des concepts date de 2004 avec les travaux de Fergus et al. [49, 47]. Le concept qu’ils souhaitent apprendre `a reconnaˆıtre est pos´e en question `a un moteur de recherche d’images par mot-cl´e sur Inter- net tel que Google Image Search, et les images retourn´ees sont ´eventuellement filtr´ees puis utilis´ees comme base d’apprentissage. L’une des difficult´es majeures est que le pourcen- tage d’images ne correspondant pas `a la cat´egorie d´esir´ee retourn´ees par un tel moteur est important, d´epassant souvent 50% [49]. De plus, mˆeme en ne consid´erant que les

4

Google a annonc´e 2,1 milliards d’images le 9 aoˆut 2005, Yahoo ! : 1,67 milliard d’images le 10 aoˆut 2005, Picsearch : 1,7 milliards en novembre 2006

images pertinentes par rapport `a la requˆete, la diversit´e de qualit´e les rend moins id´eales en pratique pour l’apprentissage que pour les bases d’images habituelles construites et annot´ees manuellement. Notamment, le nombre d’objets dans chaque image est inconnu et variable, et la prise de vue et l’´echelle sont tr`es variables. Cependant, si l’on arrive `

a apprendre `a partir d’un ensemble aussi bruit´e, cela signifierait qu’on serait capable d’apprendre n’importe quelle cat´egorie visuelle.

Fergus et al. ont d’abord propos´e [49] d’apprendre un mod`ele de l’objet en utilisant le d´etecteur de points d’int´erˆet de Kadir et Brady [69], ainsi qu’un d´etecteur de segments courbes. Ce mod`ele est ensuite utilis´e pour r´eordonner les images collect´ees sur Internet. Ils ont d´emontr´e ainsi qu’on peut obtenir une am´elioration de la pr´ecision d’environ 15% par rapport au r´esultat brut renvoy´e par Google Image Search, pour un rappel fix´e `a 15%.

Ils ont poursuivi ces travaux [47] pour les appliquer `a la classification d’images. La m´ethode choisie est d’appliquer l’algorithme d’analyse s´emantique latente (pLSA) `a ce probl`eme, en estimant les probabilit´es du mod`ele avec l’algorithme EM. Ils motivent le choix de cet algorithme en expliquant que ce qu’ils font revient `a extraire des composantes coh´erentes depuis un grand corpus de donn´ees d’une mani`ere non supervis´ee et que le pLSA est justement utilis´e dans ce cadre en analyse textuelle et donne de bons r´esultats. Ils utilisent un descripteur SIFT calcul´e sur des r´egions circulaires trouv´ees dans l’image `a l’aide de diff´erents d´etecteurs. Dans leur cas, l’algorithme pLSA fonctionne de la mani`ere suivante : soit D un ensemble de documents (ici, des images), contenant chacun un certain nombre de r´egions repr´esent´ees par une quantification en M dimensions (appel´es « mots visuels », et qui sont effectivement des mots dans le cas du LSA appliqu´e `a l’analyse de textes). La base d’images est repr´esent´ee par une matrice de co-occurrence de dimension D × M . Pour un mot m et un document d, on introduit la variable latente z ainsi :

P (m, d) =

Z

X

z=1

P (m|z)P (z|d)P (d)

Les densit´es P (m|z) et P (z|d) sont ensuite apprises avec l’algorithme d’optimisation EM afin de maximiser la log vraisemblance L suivant :

L = D Y d=1 M Y m=1 P (m, d)n(m,d)

o`u n(m, d) est le nombre de mots m dans le document d. La formule de Bayes permet ensuite d’en d´eduire simplement P (m|d) afin de classer une nouvelle image.

Dans leur article [47], Fergus et al. ´etendent ce mod`ele afin d’inclure l’information sur la position spatiale d’une r´egion dans l’image. L’apprentissage de 7 classes de la base Caltech-101 en utilisant des images provenant du web pour l’apprentissage et des images de la base Caltech-101 pour le test donne des taux d’erreurs de classification en moyenne entre 15% et 20%.

2.3.6 Vocabulaire

La plupart des syst`emes existants essaient de reconnaˆıtre une dizaine d’objets (entre 10 et 20). Fergus et al. [47] (2005) par exemple font des tests sur 7 cat´egories.

L’une des bases les plus utilis´ees actuellement en annotation automatique d’images est la base Corel 5. Cette base contient 60000 images, regroup´ees en 600 classes de 100 images chacune, mais en g´en´eral seul un sous-ensemble de cette base est consid´er´e.

Duygulu et al. [35] ont s´electionn´e une sous-base de 5000 images extraites de la base Corel, correspondant `a un total de 371 mots annot´es au niveau image. Cette base est divis´ee en 4500 images pour l’apprentissage et 500 images pour l’´evaluation. Une comparaison des diff´erents travaux ´evalu´es sur cette base et pr´esent´es pr´ec´edemment est donn´ee dans le tableau 2.1

Auteur Mots avec rappel > 0 Pr´ecision Rappel

Duygulu et al. [35] 80 ? ?

Yavlinsky et al. [153] 104 16% 19%

Lavrenko et al. [72] 107 16% 19%

Metzler et al. [95] 112 17% 24%

Feng et al. [45] 122 24% 25%

Tab. 2.1 – Comparaison des r´esultats d’annotation automatique sur la base de 5000 images extraites de la base Corel.

Yang et al. [151] font remarquer que les mots cl´es les plus fr´equents dans la base d’apprentissage sont mieux appris.

Li et Wang [74] ont test´e la cat´egorisation d’images en utilisant la base Corel compl`ete de 60 000 images. Le but est, pour une image donn´ee, de retrouver la cat´egorie de cette image parmi 600 cat´egories. Ils ont utilis´e 40 images par cat´egorie pour l’apprentissage, et 500 images au total pour l’´evaluation. La bonne cat´egorie est pr´edite dans 11,9% des cas.

Henning M¨uller [105] a critiqu´e l’utilisation de la base Corel, en remarquant que la plupart des travaux faisant r´ef´erence `a cette base en utilisent des sous-ensembles diff´erents. Il a ´egalement montr´e que, mˆeme sur un ensemble fix´e, il est facile d’obtenir diff´erentes performances, notamment en choisissant de bonnes images pour l’´evaluation (ce qui revient `a enlever celles qui donnent de mauvais r´esultats) ou en r´eduisant le nombre de cat´egories pour l’apprentissage. L’am´elioration ainsi obtenue artificiellement est de 25% `a 72% pour la pr´ecision sur 20 images, de 17% `a 50% pour la pr´ecision sur 50 et de 13% `a 42% pour le rappel sur 100 images, en gardant le mˆeme algorithme, mais en changeant la m´ethode d’´evaluation. Il conseille donc de d´efinir pr´ecis´ement un standard pour les ´evaluations sur une base donn´ee, et notamment les images `a utiliser pour l’apprentissage et le test.

R´ecemment, en 2004, Fei-Fei et al. [41] ont constitu´e la base de donn´ees Caltech-

1016 `a partir d’images collect´ees depuis Internet, comprenant 101 classes d’objets et une classe de fonds, avec de 31 `a 800 images par classe, dont la taille est vari´ee mais est pour la plupart des images de l’ordre de 300x300. Cette base a ´et´e utilis´ee depuis pour ´evaluer plusieurs travaux [57, 73]. Les meilleurs publications affichent un taux de bonnes reconnaissances d’environ 66% pour un apprentissage avec 30 objets par classe (cf. figure 2.16).

Fig. 2.16 – Pourcentage de bonnes classifications de diff´erentes publications sur les bases Caltech-101 et Caltech-256 en fonction du nombre d’images par classe utilis´ees pour l’apprentissage. Source : http ://www.vision.caltech.edu/Image Datasets/Caltech256/

Lazebnik et al. [73] utilisent, pour leurs meilleurs r´esultats, des descripteurs SIFT dans des r´egions de taille 16x16 dont les centres sont r´epartis sur une grille r´eguli`ere es- pac´ee de 8 pixels. Les sacs de mots sont calcul´es avec un regroupement de ces descripteurs en 200 classes. L’image est consid´er´ee en 3 ´echelles diff´erentes en d´eveloppant ce qu’ils appellent une pyramide : en entier, divis´ee en 4 puis divis´ee en 16, et des histogrammes issus de la classification suivant les sacs de mots sont calcul´es pour chaque sous-image de chaque ´echelle. L’apprentissage est fait avec des s´eparateurs `a vaste marge, avec la m´ethodologie un-contre-tous. La plupart des autres travaux exploitant la base Caltech- 101 utilisent des techniques similaires, i.e. de l’apprentissage `a partir de descripteurs s’appuyant sur des points d’int´erˆet.

Une nouvelle base de 256 objets, Caltech-256 [57], cr´e´ee en 2006 de la mˆeme mani`ere que Caltech-101, est la base actuellement ´etudi´ee contenant le plus d’objets. Le nombre minimal d’images par classes est de 80. Actuellement, seuls les travaux de Lazebnik et al.

[73] d´ecrits ci-dessus ont ´et´e ´evalu´es sur cette base par Griffin et al. [57]. Leurs r´esultats de classification sont environ de 35% de bonnes reconnaissances en utilisant toujours 30 images par classe pour l’apprentissage. D’autres ´evaluations seront bientˆot compar´ees `a celle-ci `a l’issue du Challenge Caltech 20077.

Nous sommes encore loin d’atteindre les 30000 objets que l’homme peut reconnaˆıtre [9], mais les r´esultats de ces derni`eres ann´ees, obtenus grˆace au d´eveloppement des bases d’images, `a l’augmentation des puissance des machines et `a l’efficacit´e des techniques s’appuyant sur les points d’int´erˆet, sont plutˆot prometteurs.