• Aucun résultat trouvé

2.3 Annotation automatique d’images

2.3.2 Approches par r´ egions

Les travaux pr´esent´es jusqu’ici dans cette section de l’´etat de l’art sur l’annotation automatique d’images ont ´et´e qualifi´es d’« approches orient´ees sc`ene ». Nous entendons

Fig. 2.11 – Sch´ema de l’approche propos´ee par Fei-fei et Perona [42] pour la classification de sc`enes.

par l`a que ces approches cherchaient `a attribuer un ou plusieurs mots-cl´es `a la sc`ene, c’est- `

a-dire `a l’image consid´er´ee comme un tout. Au contraire, les travaux pr´esent´es dans ce qui suit ont pour but d’attribuer des mots-cl´es aux r´egions de l’image et seront donc appel´es « approches par r´egions ». La distinction entre ces deux types d’approches est dans certains cas difficile `a faire car comme nous l’avons vu, certaines « approches orient´ees sc`ene » se fondent sur une reconnaissance des objets de la sc`ene et pourraient donc tout aussi bien ˆetre class´ees comme « approches par r´egions ». De mˆeme une classification de la sc`ene repr´esent´ee par l’image peut servir d’op´eration pr´ealable `a l’annotation au niveau des r´egions. Nous sommes donc conscient que la s´eparation que nous avons faite, suivant ce qui est au final class´e (les r´egions ou la sc`ene), est discutable et n’est pas dans la r´ealit´e une s´eparation stricte.

Classification des r´egions `a partir de r´egions annot´ees

Ces approches consistent `a annoter les r´egions d’une image `a partir d’une base d’ap- prentissage constitu´ee de r´egions qui ont ´et´e manuellement s´electionn´ees dans des images et ´etiquet´ees. La strat´egie pour l’annotation d’une nouvelle image est alors fondamen-

Fig. 2.12 – Exemple d’images appartenant `a plusieurs cat´egories de sc`ene. De gauche `a droite : montagne/forˆet, plage/coucher de soleil, ville/nature.

talement la suivante : l’image est segment´ee en plusieurs r´egions, puis des descripteurs sont extraits de chaque r´egion et compar´es aux descripteurs extraits des r´egions de la base d’apprentissage pour classifier la r´egion. `A l’´etape de segmentation pr`es, cela est donc tr`es proche de l’apprentissage directement `a partir de crit`eres de bas niveau des approches orient´ees sc`ene pr´esent´ees pr´ec´edemment (section 2.3.1).

Citons par exemple les travaux d’Aghbari et al. [1] qui effectuent une classification des r´egions d’images d’ext´erieurs avec des s´eparateurs `a vaste marge. Les 13 fonds suivants sont d´etect´es : objets artificiels, nuit, forˆet verte, forˆet rouge, ciel bleu, oc´ean bleu, sable, caillou, coucher de soleil dans le ciel, coucher de soleil sur l’eau, nuage, neige, chute d’eau. Ils sont repr´esent´es et regroup´es sous forme d’un arbre hi´erarchique afin d’optimiser la vitesse de classification. L’image est d’abord segment´ee avec l’algorithme de segmentation hill-climbing. Ensuite, pour chaque r´egion, les descripteurs calcul´es pour la classification sont un histogramme de couleurs dans l’espace TSVal, un histogramme de directions des contours, une auto-corr´elation des vecteurs de contours, et une transform´ee en ondelettes en arbre dual complexe (dual-tree complex wavelet transform).

Classification des r´egions `a partir d’images annot´ees globalement

La classification des r´egions `a partir d’images annot´ees globalement concerne la pos- sibilit´e d’attribuer des mots aux r´egions d’une image, en n’ayant comme connaissance qu’une annotation au niveau de l’image : l’image est annot´ee avec certains mots-cl´es, mais on ne sait pas o`u se situent les objets correspondant `a ces mots dans l’image. Cette approche est jug´ee plus int´eressante que la pr´ec´edente par beaucoup de travaux dans le sens o`u elle permet de s’affranchir de la constitution manuelle d’une base de r´egions ´etiquet´ees, et notamment de l’´etape n´ecessaire de la segmentation manuelle qui est assez fastidieuse.

Une des premi`eres tentatives pour r´esoudre ce probl`eme a ´et´e propos´ee par Mori et al. en 1999 [104]. Ils s´eparent les images en plusieurs r´egions `a l’aide d’une grille rectan- gulaires et extraient un histogramme RVB `a 64 composantes ainsi que des histogrammes de directions des contours de Sobel. Une technique de regroupement est appliqu´ee `a ces primitives de bas niveau d’une part et les mots d’une image sont attribu´es `a toutes ses r´egions d’autre part. Un mod`ele de co-occurrence des mots mi et des groupes cj obtenus

est alors entraˆın´e en estimant la probabilit´e conditionnelle P (mi|cj) afin d’associer les

mots aux groupes.

Une autre ´etude qui a servi de base `a de nombreux autres travaux fut celle de Duygulu et al. [35, 36]. Ils ont cr´e´e un vocabulaire discret de classes form´ees par regroupement (clustering) de r´egions extraites d’une base de donn´ees d’images. Ces images sont par ailleurs accompagn´ees d’une annotation textuelle au niveau global. Ils proposent d’appli- quer le mod`ele de machine translation inspir´e du domaine de la traduction automatique pour d´eduire automatiquement la correspondance entre ce vocabulaire de r´egions et les mots cl´es. Cela permet de passer de mani`ere automatique d’une annotation au niveau global pour l’image `a une annotation au niveau de ses r´egions. Ils ont poursuivi ces ´

etudes et les ont compar´ees avec d’autres mod`eles dans Barnard et al. [6].

Le principe du mod`ele de machine translation est d’introduire une variable cach´ee l pour faire de l’apprentissage non supervis´e. Soit F l’espace des caract´eristiques visuelles (features) et M l’ensemble des mots ; ce mod`ele s’´ecrit sous la forme :

PF,M(f, m) =

X

l∈L

PF,M |L(f, m|l)PL(l)

Pour un ´etat donn´e, les probabilit´es des caract´eristiques visuelles et des mots sont consid´er´ees ind´ependantes :

PF,M |L(f, m|l) = PF |L(f |l)PM |L(m|l)

permettant de r´e´ecrire PF,M(f, m) ainsi :

PF,M(f, m) =

X

l∈L

PF |L(f |l)PM |L(m|l)PL(l)

Les probabilit´es PF |L(f |l) et PM |L(m|l) sont ensuite estim´ees par l’algorithme EM (Esp´erance maximisation3). L’annotation d’une nouvelle image est obtenue en appliquant la formule de Bayes :

PM |F(m|f ) =

PF,M(f, m)

Pf(f )

Jeon et al. [67] ont reformul´e l’annotation d’images et la recherche d’images par simi- larit´e en un probl`eme de recherche d’information crosslingue : les r´egions sont regroup´ees pour d´efinir un vocabulaire r´eduit de mˆeme que dans [35], mais un mod`ele de pertinence cross-media (cross-media relevance model, CMRM ) est utilis´e au lieu de l’algorithme EM pour estimer la probabilit´e conjointe de la pr´esence d’un mot et d’une r´egion dans une image donn´ee. Cela peut-ˆetre utilis´e de deux fa¸cons : dans le premier cas, les r´egions sont utilis´ees pour g´en´erer des mots avec une certaine probabilit´e, ce qui permet d’annoter les images. Le deuxi`eme cas consiste `a utiliser au contraire les mots-cl´es pos´es en question pour s´electionner certaines r´egions issues du vocabulaire visuel et leur associer une cer- taine probabilit´e afin de pouvoir ensuite comparer ces r´egions avec celles contenues dans

chaque image en utilisant la distance de Kullback-Liebler. Jeon et al. ont obtenu des r´esultats avec une pr´ecision moyenne deux fois meilleure que celle obtenue par Duygulu et al. [35] en recherche d’images.

Lavrenko et al. [72] ont adapt´e le mod`ele de Jeon et al. [67] pour utiliser une fonction de densit´e de probabilit´e continue (Continuous Relevance Model, CRM ) afin de d´ecrire le processus de g´en´eration des caract´eristiques `a partir des r´egions, esp´erant ´eviter la perte d’information due `a la quantification. Ils fixent ´egalement la taille de l’espace des variables latentes en imposant que chaque image de la base d’apprentissage soit un ´etat de cette variable. Ils ont am´elior´e sensiblement les r´esultats par comparaison avec le mod`ele CMRM sur le mˆeme ensemble d’images.

Metzler et Manmatha [95] utilisent les annotations de l’ensemble d’apprentissage, et les connectent pour construire un r´eseau d’inf´erence. Une nouvelle image est alors annot´ee en propageant l’information extraite de ses r´egions dans ce r´eseau pour obtenir des mots. Ce r´eseau d’inf´erence permet ´egalement de d´evelopper un langage de requˆetes ´evolu´e rendant possible par exemple de combiner image et texte en question du syst`eme de recherche d’images. Les r´esultats sont compar´es au mod`ele CRM utilis´e dans [72], montrant une am´elioration `a la fois du rappel et de la pr´ecision.

Feng et al. [45] remplacent les r´egions irr´eguli`eres par des blocs rectangulaires et mod´elisent l’annotation d’image par un mod`ele de distribution de Bernoulli multiple (multiple Bernoulli distribution), ce qui leur donne de meilleurs r´esultats que Lavrenko et al. [72] et Metzler et al. [95].

Les m´ethodes d´ecrites ci-dessus utilisent des techniques de regroupement (clustering) et d´ependent donc de la qualit´e de ce regroupement pour l’apprentissage de r´egions. Yang et al. [151] proposent d’utiliser le Multiple-Instance Learning et notamment l’algorithme point-wise diverse density, PWDD [91] comme variante. Multiple-Instance Learning est un apprentissage supervis´e o`u les donn´ees d’apprentissage sont divis´ees en plusieurs en- sembles d’instances. Un ensemble d’instances est positif pour l’apprentissage si au moins une instance de cet ensemble est positive. Il est n´egatif si tous les ´el´ements qu’il contient sont n´egatifs. Cela correspond au probl`eme d’apprentissage d’objets dans les images lorsqu’on ne dispose que d’annotations au niveau image. Les instances sont alors les r´egions, et les ensembles d’instances sont les images, positives pour l’apprentissage si elle contiennent l’objet, et n´egative dans le cas contraire. L’algorithme PWDD permet d’apprendre les meilleures descripteurs ainsi que les meilleures r´egions permettant de dis- criminer l’objet. Ces r´egions sont ensuite utilis´ees pour entraˆıner un classifieur bay´esien permettant l’annotation de nouvelles images. Sur la base de 5000 images utilis´ee par Duygulu et al. [35], Yang et al. [151] obtiennent 31% de pr´ecision et 46% de rappel pour l’annotation des 49 mots cl´es les plus fr´equents, contre 20% de pr´ecision et 34% de rappel pour [35].

Dans les apprentissages non supervis´es consid´er´es ci-dessus, les probabilit´es des mots et des caract´eristiques visuelles ´etant donn´e une variable cach´ee sont consid´er´ees comme ind´ependantes mˆeme si ce n’est pas le cas dans la r´ealit´e. Carneiro et al. [20] souhaitent d´efinir explicitement la d´ependance entre les mots et les caract´eristiques en cherchant `a

estimer la distribution PF |M(f |m) qu’ils utilisent pour calculer PM |F(m|f ) :

PM |F(m|f ) = PF |M(f |m)PM(m) PF(f )

Ce mod`ele permet ´egalement de se lib´erer de l’estimation de la distribution de la classe n´egative, qui est n´ecessaire dans un apprentissage multiclasse de type « un contre tous ». Les caract´eristiques qu’ils extraient des images sont des r´egions de 8 × 8 pixels sur toute l’image, puis pour chaque r´egion, ils obtiennent un vecteur `a 192 composantes en calculant la transform´ee en cosinus discr`ete sur chaque canal de l’espace YBR. Ils utilisent ensuite un algorithme de Multiple-Instance Learning pour l’apprentissage. Pour une pr´ecision ´egale, ils obtiennent 16% de mieux en rappel par rapport au meilleur parmi [35], [45], [72] et [104] sur les 5000 images extraites de la base Corel. Pour la cat´egorisation d’images, ils am´eliorent les r´esultats de 10% (passant de 26% `a 36%) par rapport `a [74].

Fergus et al. [48] ainsi que Dorko et al. [32] classifient les objets `a partir de descrip- teurs calcul´es sur des r´egions entourant des points d’int´erˆet. Leur principal apport est la d´etermination automatique de la taille de la r´egion `a utiliser pour chaque point en fonction d’une mesure de l’entropie afin que le descripteur soit invariant par changement d’´echelle.

Un apprentissage en deux phases est exp´eriment´e par Li et al. [76] : d’abord une phase g´en´erative, puis une phase discriminante. Les descripteurs utilis´es sont de trois sortes : les valeurs L,a,b de chaque r´egion issue d’une quantification des couleurs dans l’espace CIELab ; les coefficients de textures de Gabor calcul´es sur les r´egions issues de la segmentation par couleur pr´ec´edente ; des descripteurs de structure, rendant compte du nombre de lignes dans une r´egion, de leurs orientations, de leurs intersections et des couleurs de part et d’autre de chaque ligne. ´Etant donn´e que le nombre de r´egions par image est variable, un algorithme EM est utilis´e dans la phase g´en´erative pour mod´eliser les donn´ees sous forme d’un mod`ele de m´elange gaussien utilis´e ensuite pour produire un descripteur de taille fixe. Ensuite, la phase discriminative consiste `a entraˆıner un algorithme d’apprentissage sur ces descripteurs, et en particulier dans l’article, un per- ceptron `a trois couches. Les r´esultats montrent une am´elioration par rapport `a Duygulu et al. [35], ALIP [74], Fergus et al. [48] et Dorko et al. [32].

Une autre approche int´eressante est celle de Blei et Jordan [11] proposant une ex- tension au mod`ele d’allocation de Dirichlet latent (Latent Dirichlet Allocation, LDA) [12] qui fait l’hypoth`ese qu’un m´elange de facteurs latents mixture of latent factors est utilis´e pour g´en´erer `a la fois les mots et les descripteurs issus des r´egions. Les mots et descripteurs sont donc suppos´es ind´ependants entre eux, mais d´ependants des mˆemes facteurs latents. Les auteurs montrent alors comment utiliser ce mod`ele pour assigner des mots `a chaque r´egion. L’algorithme EM est l`a encore utilis´e.

D’autres travaux de recherche se rapprochent de l’annotation automatique, notam- ment ceux de Lim et al. [80], o`u ils proposent de faire de la d´ecouverte de r´egions s´emantiques r´ecurrentes dans les images. En partant d’une base d’images classifi´ee, les r´egions qui sont communes `a plusieurs images d’une classe, et celles qui permettent de

diff´erencier les classes sont d´ecouvertes et apprises afin de pouvoir classifier de nou- velles images. Il n’y a pas d’utilisation d’une segmentation : les r´egions apprises sont rectangulaires mais diff´erentes ´echelles sont prises en compte.