• Aucun résultat trouvé

5.3 Segmentation automatique des images

5.4.1 Nettoyage par regroupements

Nous avons d´evelopp´e deux m´ethodes permettant d’´eliminer les images non perti- nentes r´ecup´er´ees sur Internet. Dans [99], nous avons expliqu´e comment il ´etait possible de nettoyer et reclasser les images en utilisant des techniques de groupement. Les r´egions automatiquement segment´ees dans chaque image sont index´ees avec des descripteurs de texture et de couleur, qui servent `a grouper les images avec l’algorithme des plus proches

voisins partag´es (shared nearest neighbor, SNN ). Les images qui ne se retrouvent dans aucun groupe sont rejet´ees, et chaque groupe est tri´e en comparant les couleurs qu’il contient avec la liste des couleurs probables de l’objet recherch´e. La figure 5.22 montre des exemples de r´esultats.

Fig. 5.22 – Exemple des cinq premiers groupes d’images obtenus pour le mot-cl´e banana en les triant suivant leur couleur. Viennent d’abord les clusters contenant principalement du jaune, puis du vert.

Nous avons observ´e une am´elioration de la pr´ecision en utilisant cet algorithme sur le r´esultat de la segmentation par objet central, mais en revanche, la pr´ecision avant et apr`es filtrage reste la mˆeme quand elle est appliqu´ee sur les r´egions obtenues avec la segmentation par la couleur, mˆeme en ne conservant que le descripteur de texture pour l’algorithme SNN – en effet, les images ´etant segment´ees par la couleur, elles ont toutes des couleurs tr`es proches, ce qui rend peu utile un descripteur de couleur.

5.4.2 Nettoyage par analyse des r´esultats de la segmentation automa- tique utilisant les noms des couleurs

Ici, nous proposons d’enlever les images non pertinentes en utilisant la couleur des objets. L’id´ee est d’analyser `a quoi la r´egion obtenue par segmentation ressemble. Dans une situation id´eale, l’objet est centr´e dans l’image, et totalement contenu dans celle-ci, sans ˆetre trop petit. Nous avons donc d´ecid´e de rejeter une image si la r´egion segment´ee :

– occupe moins de 20% de la surface de l’image, – touche plus de 80% des pixels du bord,

– est telle que la distance de son barycentre (xR, yR) au centre de l’image (xI, yI)

est plus petite que 40% de la distance du coin de l’image au centre : (xR− xI)2+ (yR− yI)2< 0.4 ∗ (x2i + y2i)

Objet Avant Apr`es Objet Avant Apr`es

beaver 40,2% 72,7% green cell phone 17,9% 46,2% cougar 72,0% 93,0% red cell phone 22,5% 37,5% crab 55,8% 70,8% white cell phone 12,9% 30,0% crocodile 79,5% 85,7% black chair 66,7% 83,3% fire ant 61,0% 50,0% blue chair 50,9% 58,8% blue-and-yellow macaw 79,4% 82,6% green chair 22,2% 50,0%

ladybug 72,8% 73,3% red chair 70,6% 88,5%

leopard 84,9% 89,7% white chair 62,0% 83,3%

panda 80,0% 81,5% black cup 35,2% 66,7%

zebra 76,7% 89,3% green cup 34,5% 80,0%

black camera 69,1% 79,1% red cup 36,5% 50,0% white camera 18,6% 50,0% white cup 33,9% 66,7% black cell phone 43,0% 87,0% red Porsche 85,0% 85,7% blue cell phone 28,6% 42,4%

moyenne par classes 52,0% 69,4% moyenne par images 53,5% 72,0%

Tab. 5.5 – Pr´ecisions avant et apr`es filtrage pour diff´erents objets. La pr´ecision en moyenne passe de 53,5% `a 72% en gardant 25% des images. Seul fire ant a une baisse de pr´ecision, car beaucoup d’images de peau irrit´ee par des morsures de fourmis sont gard´ees avec la couleur rouge.

La pr´ecision augmente pour toutes les classes, sauf pour fire ant, comme expliqu´e dans la l´egende du tableau. Quatre classes ont une pr´ecision inf´erieure `a 50% apr`es filtrage (contre 12 avant filtrage) : ce sont les t´el´ephones portables, dˆu au fait que beaucoup d’images repr´esentent un autre objet, ayant la couleur sp´ecifi´ee dans la requˆete. Ces erreurs ne peuvent pas ˆetre ´evit´ees avec notre m´ethode mais cela serait possible en rajoutant un groupement par texture.

Ne garder que 25% des images n’est pas gˆenant quand on ´etudie les images du web : ´etant donn´e leur quantit´e, un utilisateur typique d’un moteur de recherche d’images sur le web ne regardera pas la totalit´e des images disponibles, et est donc plus int´eress´e par la qualit´e (pr´ecision) que par la quantit´e (rappel). Pour une utilisation en apprentissage d’objets, r´eduire le bruit est ´egalement plus important qu’obtenir beaucoup d’images.

Dans le tableau 5.5, les param`etres ont ´et´e choisis pour maximiser la pr´ecision tout en gardant au moins 25% des images r´ecup´er´ees sur le web. Nous avons ´egalement essay´e d’introduire un crit`ere pour rejeter les r´egions plus grandes qu’une certaine taille, mais le crit`ere sur les pixels du bord a donn´e de meilleurs r´esultats. Nous avons ´etudi´e l’influence de la pr´ecision sur chaque crit`ere ind´ependamment sur la figure 5.23.

(a) (b)

(c)

Fig. 5.23 – Influence des param`etres sur la pr´ecision apr`es filtrage, (a) : param`etre de la taille ; (b) : param`etre du bord ; (c) : param`etre du barycentre. Les graphiques pour les param`etres du bord et du barycentre sont calcul´es sur les r´egions dont la taille est entre 10% et 50% de la taille de l’image, correspondant aux meilleures images pour le crit`ere de la taille (a).

Nous observons d’abord que la plus grande proportion d’images pertinentes sont celles o`u la taille de l’objet est entre 10% et 50% de la taille de l’image. Les deux autres graphiques ont ´et´e calcul´es sur cet ensemble, et montrent qu’un objet a plus de chances d’ˆetre pertinent s’il ne touche pas le bord de l’image et s’il est centr´e. Il

est possible d’am´eliorer encore la pr´ecision jusqu’`a 86% en rendant les param`etres plus contraignants, ce qui r´eduit le nombre d’images apr`es filtrage jusqu’`a seulement 5% du nombre d’images initiales, comme montr´e sur la figure 5.24.

Fig. 5.24 – Relation entre la pr´ecision (en abscisse) et le nombre d’images (en ordonn´ee). En choisissant de conserver 15% des images comme dans [49], la pr´ecision augmente de 24% (de 53% `a 77%), ce qui est comparable aux 20% qu’ils annoncent, mˆeme si les deux bases de donn´ees sont diff´erentes.

Reclasser les images du web

Une autre remarque `a propos des images retourn´ees par les moteurs de recherche sur le web est qu’elles ne sont apparemment pas tri´ees visuellement. Nous proposons ici d’utiliser les crit`eres d´evelopp´es ci-dessus pour effectuer le tri. Pour une r´egion segment´ee donn´ee dans une image, nous d´efinissons :

– ν comme la surface de la r´egion objet divis´ee par la surface de l’image.

– B est le nombre de pixels du bord de l’image inclus dans la r´egion de l’objet divis´e par le nombre total de pixels bordant l’image (p´erim`etre). Il vaut 0 si l’objet est totalement inclus dans l’image et augmente si l’objet touche le bord de l’image, signifiant qu’il n’y a peut-ˆetre qu’une partie de l’objet dans l’image comme par exemple sur l’image de droite de la figure 5.1 (page 105).

Nous avons vu dans la section pr´ec´edente que les objets ont plus de chances d’ˆetre pertinents si B est proche de 0 et ν est entre 0,2 et 0,4. Nous proposons donc le score Σ suivant : Σ = (1 − B) ∗ f (ν) ∗ g(xR, yR) avec f (ν) =    1 si 0, 2 ≤ ν ≤ 0, 4 ν 0,2 si ν < 0, 2 1−ν 0,6 si ν > 0, 4 et g(xR, yR) = 1 − (xR− xI)2+ (yR− yI)2 (x2i + yi2)

Les images sont ensuite tri´ees par ordre d´ecroissant de Σ. Des r´esultats pour les requˆetes beaver et green cup sont montr´es respectivement sur les figures 5.25 et 5.26.

Fig. 5.25 – Reclassement des images pour la requˆete beaver. `A gauche : les 20 premi`eres images retourn´ees par ask.com, `a droite : les 20 premi`eres apr`es reclassement des 100 premi`eres images de ask.com.

Fig. 5.26 – Reclassement des images pour la requˆete green cup. `A gauche : les 20 premi`eres images retourn´ees par ask.com, `a droite : les 20 premi`eres apr`es reclassement des 100 premi`eres images de ask.com.

Apr`es reclassement, nous observons principalement des images avec un objet central de la bonne couleur, et dans l’exemple des tasses vertes, l’am´elioration en pr´ecision bien visible. Dans la cas o`u la recherche serait simplement cup, et comme l’objet n’a pas de couleur sp´ecifique, nous pourrions pr´evoir de lancer les requˆetes du type color cup pour toutes les couleurs, de reclasser chaque r´esultat, puis de r´eunir le tout, ou d’afficher chaque couleur s´epar´ement.

5.4.3 Nettoyage par analyse des r´esultats de la segmentation automa-