• Aucun résultat trouvé

2.4 Notre approche pour l’annotation globale

2.4.1 Etat de l’art

Nous avons vu que les annotations globales recouvrent deux types de concepts visuels. On trouve d’une part la nature de l’image qui peut ˆetre une photo, un graphique, un croquis ou encore une image de synth`ese. D’autre part, on trouve les concepts qui caract ´erisent la sc`ene dans son ensemble (int´erieur, ext´erieur, jour, nuit, paysage, ville, portrait, horizontal, vertical, . . . ). Ce type d’annotation est g´en´eralement appel´e classification de sc`enes dans la litt´erature. Le probl`eme classique de distinction int´erieur / ext´erieur a ´et´e ´etudi´e au cours des dix derni`eres ann´ees. La classification ville / paysage est aussi un probl`eme pr´esent dans de nombreux articles. Plusieurs bases de donn´ees ont ´et´e utilis´ees et un large ´eventail d’approches a ´et´e explor´e.

Parmi les premi`eres tentatives, Szummer et Picard [SP97, SP98] extraient des descripteurs de couleur et de texture sur les r´egions rectangulaires obtenues sur une grille fixe des images. Une approche en deux ´etapes a ´et´e utilis´ee pour s´eparer les photos d’int´erieur et d’ext´erieur. Chacun des blocs est ensuite class´e, pour chacune des caract´eristiques, comme ´etant indoor ou outdoor. De simples classifieurs de type k-NN sont utilis´es. Dans un second temps, une fusion est effectu´ee entre les r´esultats des diff´erents descripteurs et des diff´erents blocs pour

FIG. 2.17 – Noyau RBF,C = 10, ´evolution pour 0.001 ≤ γ ≤ 50

obtenir la classification de l’image selon un classifieur de vote majoritaire. Les exp´eriences sont

men´ees sur une base de 1 300 photos de clients de Kodak (taux de classification≈ 90%). Cette

base n’est pas disponible. [SSL02] utilise une approche similaire, sur la mˆeme base, mais avec des SVM pour les deux couches de classification. Les r´esultats sont l´eg`erement meilleurs et sont plus rapides. Dans [SSL04], ce travail est approfondi en ajoutant des indices s´emantiques

semantic cues tels que l’herbe, le ciel ou les nuages. Ils sont exploit´es `a l’aide d’un r´eseau

bay´esien remplac¸ant la seconde et derni`ere couche de classification. Le gain sur la m´ethode pr´ec´edente reste faible, il est de l’ordre de1%.

[VJZ98] travaillent sur les images enti`eres pour les discriminer entre city et landscape. Par la suite la classification des paysages est raffin´ee selon forests, moutains et sunset/sunrise. Le choix de cette classification a ´et´e obtenu apr`es avoir demand´e `a 8 op´erateurs humains de classer environ 200 images de fac¸on coh´erente. Les descripteurs bas-niveaux utilis´es sont classiques et leur pouvoir discriminant est observ ´e de mani`ere empirique sur les histogrammes de distances

inter et intra-classe. Des classifieurs k-NN sont utilis´es. Les tests sont conduits sur une base

de 2700 photos issues de diff´erentes sources (taux de classification ≈ 94%). Ces travaux sont

poursuivis dans [VFJZ99] et [VFJZ01] par l’introduction d’une hi´erarchie de classes et l’utili-sation de classifieurs bay´esiens binaires. Une m´ethode bas´ee sur la quantification vectorielle et la selection de repr´esentants comme centres de gaussiennes au sein d’une mixture est utilis´ee

2.4 Notre approche pour l’annotation globale 49

pour estimer les probabilit´es a priori des classes (n´ecessaire au formalisme bay´esien). Les tests

sont effectu´es sur une base de 6900 images (taux de classification pour indoor/outdoor≈ 90%).

Une m´ethode d’apprentissage incr´emental est propos´ee permettant de s’adapter `a l’arriv´ee de nouveau contenu. Plusieurs strat´egies de s´election de caract´eristiques sont ´egalement abord´ees. Enfin, dans [VZY+02], la m´ethode est encore ´etendue et appliqu´ee `a la d´etection automatique de l’orientation des images. L’utilisation de PCA et LDA est abord´ee pour r´eduire la dimension du vecteur de caract´eristiques (600). La m´ethode est ensuite compar´ee avec d’autres algorithmes (k-NN, SVM, HDRT et GM). La combinaison de classifieurs est vaguement abord´ee.

Dans [MR98] le multiple-instance learning est pr´esent´e avec son application `a la classi-fication de sc`enes naturelles. La m´ethode repose sur le concept de sac, contenant plusieurs instances. Seuls les sacs sont annot´es et non les instances individuellement. Si un sac est annot´e positivement, cela signifie qu’au moins une instance qu’il contient est positive. S’il est annot´e n´egativement, alors toutes les instances sont n´egatives. Ici chaque image est un sac et les ins-tances sont des sous-parties de l’image (en l’occurrence des blobs de 2x2 pixels et les 4 blobs voisins). L’algorithme diverse density est utilis´e pour l’apprentissage. Les tests sont effectu´es sur une partie de la base Corel.

[GDO00] propose d’utiliser la distribution globale des orientations dominantes locales pour discriminer les sc`enes naturelles en 4 classes : indoor, urban, open landscape et closed

land-scape. Les caract´eristiques sont calcul´ees dans un scale space. La meilleur ´echelle est conserv´ee

ensuite et un classifieur k-NN est utilis´e.

Oliva a pr´esent´e l’enveloppe spatiale [OT01, OT02] bas´e sur des dimensions perceptuelles mesurant le naturel, l’ouverture ou l’expansion dans les images. Dans [TO03], les statistiques des images naturelles sont ´etudi´ees.

[ZLZ02] propose d’utiliser un algorithme de boosting pour d´etecter automatiquement l’orien-tation des photos. Elles sont ´egalement class´ees selon le sch´ema indoor/outdoor. Les caract´e-ristiques sont calcul´ees sur une grille fixe. Adaboost est utilis´e. Ne parvenant pas `a surpasser une approche par SVM, les auteurs obtiennent de nouvelles caract´eristiques par combinaison lin´eaire des caract´eristiques existantes et se reposent sur la facult´e de l’algorithme de boosting `a faire de la s´election de caract´eristiques. Les tests sont en partie fait sur la base Corel et sont compar´es `a deux approches par SVM.

[MGP03] compare Latent Semantic Analysis (LSA) et Probabilistic LSA (PLSA) avec une approche plus na¨ıve pour l’auto-annotation sur une partie de la base Corel. Seules 3 r´egions pr´ed´efinies sont extraites des images (centre, haut et bas). Les r´esultats sont surprenants.

[LZL+05] propose un syst`eme de classification d’images (indoor/outdoor, city/landscape et

orientation). En utilisant aussi bien des caract´eristiques bas-niveau que les m´etadonn´ees EXIF,

boos-ting. Les signatures visuelles sont extraites selon une grille fixe. L’utilisation des m´etadonn´ees

extraites par l’appareil photo sont ´egalement exploit´es dans [SJ08, CLH08].

Payne et Singh [PS05a, PS05b] proposent d’´etudier la classification indoor/outdoor `a l’aide d’un descripteur caract´erisant les principaux contours. Cette approche est compar ´ee `a d’autres de l’´etat de l’art et doit fournir un benchmark standard dans le domaine. Outre le fait que la base ne soit finalement qu’`a moiti´e disponible, les mesures effectu´ees semblent plus que douteuses.

L’utilisation des ontologies visuelles est ´egalement une approche possible. [SBM+05] pr´e-sente une partie de l’approche KAA (Knowledge Assisted Analysis) dans le contexte du projet

europ´een aceMedia1. L’accent est mis sur la fusion de plusieurs descripteurs MPEG-7

puis-qu’une mˆeme distance ne peut pas leur ˆetre appliqu´ee. Cette approche est confront´ee au probl`e-me de la fusion de descriptions non-homog`ene des images. Les tests sont probl`e-men´es sur une partie de la base aceMedia (assez pauvre en diversit´e). La suite de l’algorithme KAA est pr´esent´e dans

[MAA06, PDP+05]. Les descripteurs MPEG-7 sont ´egalement utilis´es dans [TWS05].

La th`ese de Millet [Mil08] pr´esente ses travaux effectu´es au CEA sur cette question. Il intro-duit quelques nouveaux descripteurs, utilise la segmentation en r´egions, des indices s´emantiques et des SVM.

Une comparaison entre ces approches est tr`es difficile, car les bases de donn´ees utilis´ees sont diff´erentes, et rarement accessibles au public. R´eimpl´ementer les algorithmes et les mettre en oeuvre sur une base commune serait ´egalement trop co ˆuteux en temps. Parfois, mˆeme les m´etriques utilis´ees sont diff´erentes (taux de classification, avec ou sans conservation des donn´ees d’apprentissage, courbes pr´ecision/rappel, courbes ROC, . . . ). G´en´eralement, les meilleurs taux rapport´es pour la classification int´erieur/ext´erieur sont d’environ 90 %. Les temps de traitement ne sont presque jamais signal´es.