• Aucun résultat trouvé

4.4 Etudes de la similarité des images

4.4.3 Expériences sur la similarité visuelle

La meilleure façon d’évaluer la similarité visuelle entre deux images consisterait à demander l’avis des utilisateurs réels. Cependant, nous désirons ici construire des résumés vidéos de façon purement automatique (sans intervention humaine).

Par conséquent, il faut définir une mesure mathématique capable de nous aider à porter un jugement «artificiel» sur la ressemblance des images. En revanche, nous avons besoin d’une distance et d’un seuil de décision; si la distance entre les vecteurs caractéristiques représentant les deux images est inférieure au seuil désigné, alors les deux images sont considérées comme similaires.

Nous mettons en œuvre avec l’intervention d’utilisateurs réels une expérience à travers laquelle, nous testons et comparons d’une part deux représentations du contenu visuel de chaque image, les histogrammes par région et les histogrammes de blobs et nous comparons d’autre part les deux types de distances, la distance Manhattan L1 et la distance Euclidienne L2.

L’objectiffinal de cette expérience est de trouver une valeur optimale du seuil de similarité pour les images des vidéos traitées en fonction des représentions et des distances étudiées.

4.4. Etudes de la similarité des images 77

• Paramètres des expériences

Nos expériences se sont déroulées comme suit: nous avons calculé tout d’abord les vecteurs caractéristiques des images de la vidéo en utilisant des histogrammes par région ainsi que des histogrammes de blobs de dif-férentes tailles. Nous avons testé des éléments structurels carrés ayant les dimensions suivantes: 3,5,7,9,11,13,15,20,30,40,50, et100. Ensuite, 200 paires d’images ont été sélectionnées à partir de plusieurs vidéos d’une manière aléatoire, avec la seule contrainte que les distances entre les his-togrammes par région des deux images qui composent les paires sélection-nées soient distribuées d’une manière uniforme à travers un nombre de plages de distances L2 ([0−100],]100−200], etc...). De manière analogue, 200 autres paires d’images ont été sélectionnées mais en utilisant la distance L1([0−10],]10−20],etc...).

Figure 4.9: Interface d’évaluation de similarité visuelle.

• Pour l’ensemble des400paires d’images sélectionnées précédemment(200+

200), un petit nombre d’utilisateurs (7membres du labo) ont été invités à

déterminer si les deux images étaient visuellement similaires ou non. Ceci pour associer un jugement humain de similarité à l’ensemble des400 paires d’images, comme le montre l’exemple de la figure 4.9. Une fois cette affec-tation effectuée, les différentes distances entre les paires d’images sélection-nées ont été calculées, en examinant toutes les combinaisons possibles des représentations (histogrammes par région et histogrammes de blobs) et des mesures des distances d’histogrammes (distance de Manhattan et distance Euclidienne).

On évalue le taux d’erreur de classification pour différentes valeurs du seuil de similarité. Ce taux d’erreur est défini comme le nombre d’images non similaires pour lesquelles la distance est inférieure au seuil, plus le nombre des paires similaires qui ont une distance plus grande que le seuil, par rapport à l’ensemble des paires prises en considération.

Figure 4.10: Taux d’erreur pour chaque plage de seuils.

• Comparaison suivant le type d’histogramme

Le graphe de la figure 4.10 représente le taux d’erreur dans la tâche de classification d’images par rapport à leur similarité en fonction du nom-bre de paires d’images pour lesquelles la distance entre les deux images est inférieure à un seuil donné. Il est intéressant de souligner que la représen-tation des blobs provoque des taux d’erreur plus faibles que ceux obtenus

4.4. Etudes de la similarité des images 79

pour les histogrammes par région standards. De plus, la meilleure perfor-mance de la comparaison des 800 images des six vidéos (de tailles égales:

320x240) est obtenue pour les histogrammes de blobs construits avec un élément structurel carré (un blob) de taille 11x11 pixels.

• Comparaison suivant le type de distance

La figure 4.11 représente les résultats de la comparaison pour les deux

mesures de distances considérées. Dans le graphe, le taux minimum d’erreur obtenu avec les deux normes L1 et L2 est représenté pour des blobs de tailles 3x3 à 100x100. Les résultats des histogrammes par région sont présentés comme étant ceux du blob de taille 0x0 (0 sur l’axe horizontal) sur cette figure. Nous observons que pour les blobs ayant une taille inférieure ou égale à 40x40, les meilleurs résultats sont obtenus avec la norme L1. De plus, ces courbes suggèrent qu’il est conseillé de représenter les images de la vidéo en utilisant les histogrammes de blobs de couleurs calculés avec un élément structurel de taille égale à 11x11 ou 13x13 pixels. Les seuils qui correspondent au taux d’erreur minimal de0.075pour les histogrammes de blobs de tailles égales à 11x11 ou 13x13 sont respectivement 455 et 520.

Parmi les 400 paires d’images, 74 paires ont une distance inférieure à 455 pour des blobs 11x11, et76ont une distance inférieure à520pour des blobs de 13x13. Dans le but de diminuer le temps de calcul lors de la construction des histogrammes de blobs, nous avons opté pour les blobs de taille plus petite parmi les deux meilleurs, c’est à dire les blobs 11x11 à la place de 13x13.

• Une alternative pour le choix du seuil de similarité

Notre principe de reconnaissance maximale sur lequel est basé notre méth-ode de construction de résumé vidéo dépend particulièrement de la mesure de similarité des images. Dans le but de valider nos résultats à propos des différentes représentations des images et la comparaison des métriques, nous avons étudié davantage la qualité de la classification (similaire ou non) à travers l’ensemble des images consécutives de la vidéo. Il est évident que les images consécutives appartenant au même plan sont souvent très similaires.

Ceci doit par conséquent nous aider à déterminer d’une autre façon le seuil

Figure 4.11: Taux d’erreur minimum en fonction de la taille de blob et la distance utilisée.

le plus approprié pour la similarité des images. La figure 4.12 présente l’histogramme des distances de tous les couples d’images consécutives pour trois vidéos de test. A partir de ces courbes, nous pouvons constater que la plupart des images consécutives ont une distance d’environ 200. Cepen-dant, cette valeur est très stricte pour évaluer et juger la similarité d’une paire d’images. Un seuil d’une valeur de 300 ou 400 est probablement plus approprié. Afin de raffiner le choix du seuil, nous avons sélectionné aléatoirement les paires d’images pour lesquelles la distance de leurs his-togrammes de blobs est proche de différentes valeurs potentielles du seuil.

Ces paires d’images ont ensuite été évaluées par des utilisateurs réels afin de détecter, et d’éliminer les valeurs de seuil inappropriées. Finalement, nous avons choisi un seuil de similarité d’images de 455 pour la construction des résumés de vidéos.

En conclusion, ces études de la représentation et de la mesure de distance les plus adaptées pour la similarité des images nous ont conduit à utiliser les his-togrammes de blobs de couleurs de la taille 11x11, en association avec la distance Manhattan. Pour confirmer que les blobs sont plus appropriés à notre méthode de construction que les histogrammes de régions, nous allons conserver dans un