• Aucun résultat trouvé

1.2 Choix pour la voie dynamique

1.2.1 Le ltrage médian temporel

Nous allons dans cette partie nous intéresser à l'inuence du ltrage médian temporel, qui constitue la dernière étape de la voie dynamique du modèle (décrit p. 36), sur les cartes de saillance dynamiques.

Ce qui était proposé au chapitre 2

Avant d'obtenir les cartes de saillance dynamiques un ltrage médian temporel causal est appliqué à la sortie de l'estimateur de mouvement de manière à enlever le bruit éventuel. Si un pixel a un mouvement dans une image mais pas dans les précédentes, c'est sûrement du bruit venant de l'estimation. Le ltrage médian temporel est appliqué sur 5 cartes de saillance dynamiques, les 4 précédentes et la carte courante en réinitialisant à zéro le ltre médian à chaque changement de snippet. Sur la courbe d'évolution duN SS en fonction de la position de l'image dans le snippet (Fig. 5.6), nous remarquons que les valeurs sont faibles au début des snippets. Comme nous l'avons déjà dit, cela est dû au fait que pendant les premières images des snippets les positions oculaires sont toujours sur les zones saillantes correspondant aux images du snippet précédent et non pas sur les zones saillantes de l'image courante.

Fig. 5.6 Évolution du N SS en fonction de l'image dans les snippets calculée à partir de la carte dynamiqueMd (avec remise à zéro) et de la carte dynamique avec le ltrage médian sans remise à zéroMd5.

Première proposition de modication

Dans un premier temps nous allons eectuer un ltrage médian toujours sur une fenêtre de 5 cartes (la carte courante et les 4 précédentes), mais cette fois-ci sans remise à zéro entre chaque snippet, pour avoir une eet mémoire. Les nouvelles cartes de saillance dynamiques obtenues

Md5 vont donc garder en mémoire les dernières images du snippet précédent pendant les 5 premières images du nouveau snippet. Un exemple de l'eet de ce nouveau ltrage est donné à la gure 5.7.

(a) (b) (c) (d) (e) (f) (g)

(h) (i) (j) (k) (l) (m) (n)

(o) (p) (q) (r) (s) (t) (u)

Fig. 5.7 Exemple de l'impact du ltrage médian : (1ere` ligne) images originales avec les posi-tions oculaires correspondantes superposées, (2`emeligne) cartes dynamiquesMdcorrespondantes et (3eme` ligne) cartes dynamiques correspondantes avec le ltrage médian sans remise à zéro entre les snippets Md5.

Nous traçons l'évolution duN SS en fonction du temps pour les cartes dynamiques avec les deux ltrages médians (avec et sans remise à zéro) (Fig. 5.6). Le fait de faire un ltrage médian sans remise à zéro entre les snippets permet d'avoir pour les premières images du nouveau snippet des cartes de saillance qui intègrent la saillance du snippet précédent et qui sont plus en accord avec les positions oculaires des sujets (Fig. 5.7). Cependant, nous pouvons remarquer que pour Md5 le N SS descend rapidement avant d'augmenter. Ce qui suggère que l'eet mémoire n'est pas susant. Malgré cela, nous obtenons pour les cartes Md5 un N SS = 0.89, contre un

N SS = 0.87 pour les cartes Md calculées précédemment. Le ltrage médian sans remise à zéro ne modie que les 5 premières cartes dynamiques des snippets entre Md et Md5 mais permet tout de même une amélioration signicative lorsque l'on compare ces cartes sur l'ensemble de la base de vidéos (F(1,28308) = 7.32;p= 0.0068).

Seconde proposition de modication

Comme l'eet mémoire du ltrage médian semble être trop faible, nous proposons d'utiliser un ltrage médian toujours sans remise à zéro entre les snippets sur une fenêtre temporelle plus large. Nous choisissons une fenêtre de 13 cartes dynamiques, car comme nous l'avons vu dans la courbe 5.8, pour Md leN SS atteint son maximum pour la treizième image des snippets. Au niveau de la treizième image les positions oculaires correspondent bien aux régions saillantes. En prenant un ltre médian sur 13 cartes, la treizième carte ne dépend que du snippet courant, mais les précédentes prennent en considération les régions saillantes du snippet précédent, permettant, comme nous l'espérons, de mieux rendre compte des positions oculaires. Nous appelons les cartes ainsi générées Md13. La courbe montrant l'évolution temporelle du N SS est donnée à la gure

Fig. 5.8 Évolution du N SS en fonction de la position des images dans les snippets pour les cartes dynamiques Md et les cartes dynamiques calculées avec les nouveaux ltrages médians

Md5,Md13 etMd51.

5.8.

Lorsqu'un ltre médian de 13 images sans remise à zéro est utilisé, on remarque que la courbe a des valeurs plus hautes au début du snippet que pourMdet qu'en plus, contrairement à Md5, elle diminue moins avant d'augmenter et d'atteindre son maximum. De plus après la phase du début, la courbeMd13a la même allure que la courbeMd mais translatée vers le haut. Ce qui implique que la saillance dynamique est plus en accord avec les positions oculaires. Si nous évaluons leN SS sur la base totale, nous obtenons pour Md13 un N SS = 0.99. Les cartes dynamiques Md13 sont signicativement meilleures que les cartes Md et Md5 (F(2,42462) = 139.82; p ≡ 0). Ces nouvelles cartes dynamiques ont aussi un impact sur la fusion pondérée renforcée. Les nouvelles cartes fusionnéesMRsd13f donnent unN SS = 1.32 alors que les cartes

MRsdf donnent un N SS = 1.26. Cette amélioration est signicative (F(1,28308) = 49.61;

p≡0).

La taille du ltre médian joue un rôle important, car si nous le choisissons trop petit, il ne tiendra pas susament compte des images du snippet précédent, comme c'est le cas pour un ltre avec une fenêtre temporelle de 5 images, et si nous le choisissons trop grand, il prendra trop en compte les images précédentes, ce qui se produit en prenant par exemple un ltre médian avec une fenêtre de 51 images sans remise à zéro entre les snippets Md51. Nous avons mené l'étude temporelle duN SS à partir deMd51. La courbeMd51 tracée gure 5.8 est moins bonne que les autres courbes tout au long des snippets. Dans ce cas la fenêtre temporelle est bien trop grande en comparaison de la longueur de nos snippets de 1 à 3 secondes (soit de 25 à 75 images).

Pour améliorer le modèle, nous proposons de remplacer le ltrage médian temporel proposé au chapitre 2 par un ltrage médian sur 13 images et sans remise à zéro entre les snippets. Ce nouveau ltrage a aussi l'avantage de ne plus nécessiter les positions des changements de plans dans les vidéos. Il permet d'avoir un modèle totalement automatique, quelle que soit la vidéo en

entrée. Les résultats du modèle de saillance avec ce nouveau ltrage médian sont résumés dans le tableau 5.7.

Critère N SS

Cartes de saillance Ms Md13 Mf MRsd13f Md MRsdf

Moyenne 0.68 0.99 0.38 1.32 0.87 1.26

Tableau 5.7 N SS moyen des diérentes cartes de saillance : statiquesMs, dynamiques Md13, visages Mf, fusion renforcée des trois voiesMRsd13f, et des cartes avec l'ancien ltre médianMd

etMRsdf sur la base totale de vidéos.

Résumé :

Le ltre médian causal et sans remise à zéro appliqué à la sortie de l'estimateur de mouvement permet d'obtenir des valeurs deN SSplus grandes au début des snippet en gardant en mémoire les régions saillantes à la n du snippet précédent. Nous pouvons nous interroger sur l'utilité d'un tel ltre sur la voie statique qui présente de faible valeur de N SS au début des snippets. Cela n'a pas été intégré à ce travail car nous souhaitons conserver deux voies bien séparées : une voie statique pour rendre compte de ce qui est saillant de manière statique dans l'image et une voie dynamique pour ce qui est en mouvement dans les images. Un tel ltre sur la voie statique lui rajouterait une information sur la dynamique des snippets. Pour ce qui est de la voie visage, un tel ltre permettrait d'enlever les fausses alarmes qui peuvent se produire et de conforter la présence d'un visage lorsque celui-ci n'est plus détecté sur l'image. Il constitue une perspective intéressante pour la suite.

Remarque importante : a partir de maintenant, nous ne considérons que les cartes dyna-miques construites avec le ltre médian sur 13 images sans remise à zéro ainsi que les cartes fusionnées générées à partir de ces cartes dynamiques qui sont appelées dans la suite Md,MRsd

etMRsdf.