• Aucun résultat trouvé

Nous avons choisi de comparer le modèle que nous proposons avec le modèle décrit par Itti [Itti 2005], car il présente l'avantage d'être disponible sur internet6, ce qui en fait le modèle le plus souvent utilisé comme référence pour des comparaisons.

Ce modèle est décrit en détail au début de cette thèse. Il extrait des caractéristiques vi-suelles regroupées en grandes familles de cartes d'attribut : l'intensité, la couleur, l'orientation, le mouvement (Fig. 5.13). Une carte de conspicuité est obtenue pour chaque famille à l'aide d'un opérateur centre-pourtour, qui fait ressortir une région diérente de son voisinage au sens de l'attribut considéré. Ces quatre cartes sont ensuite fusionnées en une carte maîtresse appeléeMI. Cette carte est obtenue à l'aide de la virtual box7 avec les réglages par défaut du programme.

Nous calculons ces cartes de saillance MI pour toutes les images de notre base de vidéos courtes. Il est à noter que comme notre modèle de saillance ne considère pas la couleur, les

6http ://ilab.usc.edu/toolkit/downloads-virtualbox.shtml

7en utilisant la ligne de commande :ezvision− −wta−type=N one− −in=/ClipRM X3.avi− −rescale−

output= 360x288− −save−salmap− −out=raster:/home/ClipRM X3/pour le calcul des cartes de saillance sur le clip numéro 3 de notre base de vidéos courtes.

stimuli traités par les deux algorithmes sont en niveau de gris. De plus, le programme d'Itti ne traite pas l'information sur les visages, nous le comparons donc uniquement à notre fusion renforcée de la voie statique et dynamique MRsd.

Fig. 5.13 Modèle proposé par Itti, Koch et Niebur. (Extrait de [Itti 2005])

2.1.1 Analyse globale

Les cartes de saillance MRsd et MI sont évaluées sur la base de vidéos courtes à l'aide des critères décrits au chapitre 3 : le coecient de corrélation (cc), le pourcentage de xations dans les zones saillantes (pf), le Normalized Scanpath Saliency (N SS) et les courbes Receiver Operating Characteristic (ROC). Les moyennes de ces critères sur toutes les images sont données au tableau 5.12.

Critères d'évaluation Cartes de saillance cc pf (%) N SS

MRsd 0.11 57.36 1.07

MI 0.08 46.37 0.77

Tableau 5.12 Évaluations des cartes de saillance fusionnées retournées par le modèle proposé

MRsd et par le modèle d'IttiMI sur toute la base de vidéos courtes avec 3 critères (le coecient de corrélation, le pourcentage de xations dans les zones saillantes et le Normalized Scanpath Saliency).

Les résultats sont toujours signicativement meilleurs pour MRsd que pour MI, que ce soit pour le cc (F(1,28308) = 1149.55; p ≡ 0), le pf (F(1,28308) = 1141.5; p ≡ 0) et le N SS

(F(1,28308) = 1195.89;p≡0). Les courbesROC donnent aussi de meilleurs résultats pour les cartes MRsd que les cartesMI (Fig.5.14).

Fig. 5.14 CourbesROC pour la fusion renforcée des deux voies (statique et dynamique)MRsd

et les cartesMI obtenues avec le modèle d'Itti.

Le modèle de rétine plus élaboré, l'analyse du contraste de mouvement et la fusion adaptée renforcée prenant en compte la particularité de chaque voie permettent au modèle proposé dans cette thèse de mieux mettre en évidence les zones saillantes.

Les cartes de saillance retournées par les deux modèles n'ont pas la même allure (Fig. 5.15). Les cartes MRsd sont plus nes et mettent en évidence des contours et des régions, alors que les cartesMI ne mettent en évidence que quelques régions sans laisser paraître les contours des objets dans l'image. À partir des cartesMRsdil est plus facile de retrouver le contenu de l'image, alors que les cartesMI mettent en évidence des régions mais sans donner d'indice sur ce qu'elles peuvent contenir.

Nous allons maintenant nous intéresser à l'évolution des performances du modèle proposé par Itti au cours du temps. Le modèle évolue-t-il en fonction de la position des images dans les snippets ?

2.1.2 Analyse temporelle

Nous étudions l'évolution temporelle du modèle proposé par Itti pour voir si ce modèle donne des résultats constants au cours du temps, ou si, comme le modèle proposé, il varie.

La gure 5.16 montre que les deux courbes ont la même allure. Les valeurs pour les premières images sont faibles, elles diminuent légèrement puis augmentent rapidement avant de diminuer à nouveau plus lentement. Il est à noter qu'après 60 images seulement un quart des snippets des vidéos sont considérés, les valeurs après 60 images ne sont donc plus représentatives de l'ensemble des snippets mais uniquement d'un petit nombre de snippets. Les courbes MRsd et

(a) (b) (c) (d)

(e) (f) (g) (h)

(i) (j) (k) (l)

Fig. 5.15 Exemples de cartes de saillance : (a), (b), (c), (d) images originales, (e), (f), (g), (h) cartes de saillance de la fusion renforcée des voies statique et dynamique MRsd et (i), (j), (k), (l) cartes fusionnées du modèle de référence MI.

Fig. 5.16 Évolution duN SS en fonction de la position des images dans les snippets pour les cartes fusionnées du modèle proposéMRsd et celles du modèle d'IttiMI.

Même si les courbes ont des valeurs proches pour les premières images, leurs maximums sont très diérents :N SS=1.3 pour MRsd etN SS=0.95 pour MI. Puis, lorsque les courbes diminuent, les courbesMRsd sont toujours au dessus (N SS d'environ 1.1) des courbesMI (N SS d'environ 0.7). Les deux modèles sont meilleurs prédicteurs des positions oculaires au début des snippets. Le modèle proposé donne de meilleurs résultats que le modèle d'Itti durant tout le snippet. 2.1.3 Conclusion

En résumé, nous pouvons dire que le modèle de saillance proposé dans cette thèse met en évidence des régions saillantes qui correspondent mieux avec les positions oculaires des sujets que le modèle proposé par Itti. Notre modélisation plus élaborée de la rétine et du contraste de mouvement ainsi qu'une fusion qui prend en compte les particularités intrinsèques aux cartes statiques et dynamiques permettent d'obtenir des cartes fusionnées qui mettent en évidence les régions saillantes de manière plus ne que les cartes retournées par le modèle d'Itti. Nous obtenons, avec les réglages par défaut de l'algorithme proposé par Itti, des résultats plus en accord avec les régions regardées par les sujets.

Nous allons maintenant nous intéresser à une autre approche permettant de faire ressortir des points particuliers dans des images : les points d'intérêt.