• Aucun résultat trouvé

Dans cette partie nous proposons de prendre en compte les caractéristiques intéressantes des cartes statiques et dynamiques an de les combiner en une carte unique de saillance.

un modèle sont relativement élaborées. Dans le modèle de Itti [Itti 1998, Itti 2003], la fusion favorise, pour chaque image, les cartes qui ont peu de régions très saillantes. Cependant, la fusion donne la même importance aux diérentes sortes de cartes (couleur, intensité, orientation, mouvement). Dans le modèle de Le Meur [Le Meur 2007], la fusion est faite en deux temps : les cartes de couleurs et la carte achromatique sont regroupées en une seule carte spatiale qui est ensuite fusionnée à une carte temporelle. Les diérentes cartes sont normalisées par des valeurs théoriques avant d'être fusionnées. La fusion qu'il propose contient un terme additif et un terme multiplicatif. Ces diérents termes permettent de prendre en compte la complémentarité des cartes et leur redondance. D'autres fusions intègrent aussi des informations de plus haut-niveau telles que les contours illusoires et le groupement de texture [Grossberg 1985, Grossberg 1989].

L'originalité des fusions que nous proposons est de pondérer chaque carte par sa caractéris-tique appropriée. En eet, plus une carte stacaractéris-tique a un maximum fort et plus elle est performante et plus une carte dynamique a un skewness fort et plus elle est performante. Nous allons alors favoriser les cartes les plus capables de prédire les positions oculaires, ce que nous appelons fusions adaptées. Nous présentons ici deux fusions adaptées possibles, puis nous les comparons à des fusions plus classiques.

L'étape de fusion est une étape importante et délicate à réaliser du fait que les diérentes cartes à fusionner donnent des informations de nature disparate et peuvent avoir des gammes de valeurs distinctes. Avant de fusionner les cartes, nous avons vérié que les gammes de valeurs des cartes statiques et dynamiques ne sont pas incompatibles, c'est-à dire qu'aucune des deux cartes n'est systématiquement au dessus de l'autre. Nous utilisons donc les cartes statiques et dynamiques comme calculées au chapitre 2 sans normalisation préalable. Les cartes statiques ont été normalisées au niveau des cartes intermédiaires mi,j, leur maximum vaut en moyenne 4.5 et le plus grand maximum peut atteindre 10.2. Pour les cartes dynamiques, l'estimateur de mouvement ne peut estimer qu'une certaine gamme de valeurs, les trop grandes vitesses ne pouvant pas être estimées avec précision. De plus le théorème de Shannon doit être vérié dans le domaine temporel, la vitesse est donc limitée en fonction de la fréquence des images. Le maximum des cartes dynamiques est en moyenne de 4.3 et le plus grand maximum peut atteindre 9.9.

Cinq fusions sont proposées : trois fusions classiques et deux fusions adaptées. Les trois fusions classiques sont :

une fusion moyennée, qui prend pour chaque pixel la moyenne entre les 2 cartes :

Mmean= Ms+Md

2

une fusion maximum, qui prend pour chaque pixel le maximum des 2 cartes :

Mmax =M ax(Ms, Md)

une fusion multiplicative, qui correspond à la multiplication pixel par pixel des 2 cartes :

Mand=Ms×Md

Pour les fusions adaptées, les cartes vont d'abord être pondérées par la caractéristique ap-propriée (le maximum pour les cartes statiques ou le skewness pour les cartes dynamiques). Les cartes pondérées sont alors dénies par :

Ms0 =M ax(Ms)×Ms (3.6)

On dénit alors une fusion simple des voies statique et dynamique Msd et une fusion renforcée de ces deux voies MRsd.

Msd =Ms0 +Md0 (3.8)

MRsd=Ms0 +Md0 +Ms0×Md0 (3.9)

La fusion renforcée MRsd permet à la fois de prendre en compte la particularité des deux cartes et de renforcer ce qui est saillant aux mêmes positions dans la carte statique et dans la carte dynamique, des exemples sont donnés (Fig. 3.11). Le tableau 3.4 compare les diérentes fusions avec les véritables positions oculaires en utilisant le N SS.

Critère N SS

Carte de saillance Mmean Mmax Mand Msd MRsd

Moyenne 0.94 0.83 0.96 0.98 1.01

Tableau 3.4 N SSmoyen des diérentes fusions (moyennéeMmean, maximumMmax, multipli-cativeMand, adaptée simple Msd et adaptée renforcée MRsd) sur toute la base de vidéos.

Les fusions donnent en général de meilleurs résultats que les voies statique et dynamique considérées séparément, à l'exception de la fusion Mmax qui est meilleure que la voie statique mais moins bonne que la voie dynamique. Pour qu'un pixel soit saillant sur les fusions autres que Mmax il faut que ce pixel soit relativement saillant à la fois sur la carte statique et sur la carte dynamique, alors que pour qu'un pixel soit saillant sur Mmax il sut qu'il soit saillant dans une des deux cartes. Nous pouvons supposer qu'un pixel saillant à la fois en statique et en dynamique a plus de chance d'être regardé qu'un pixel seulement saillant dans une des deux cartes. Ceci permet d'expliquer que d'une part la carte Manddonne de meilleurs résultats que la carteMmean(F(1,28308) = 72.36;p≡0) et que d'autre partMRsddonne de meilleurs résultats que Msd (F(1,28308) = 18.93;p= 1.35.105), car elles favorisent davantage les pixels saillants dans les deux voies.

De plus nous pouvons remarquer que les fusions qui pondèrent chaque carte en fonction de sa caractéristique correspondante (maximum ou skewness) donnent de meilleurs résultats que les fusions classiques. Ceci vient du fait que plus une carte est pertinente et plus elle inuencera la saillance. Si par exemple une image a un petit objet en mouvement, la carte de saillance dynamique sera un bon prédicteur du regard des sujets, meilleur que la carte statique qui met en évidence plus de régions dispersées. Le fait de donner, lors de la fusion, plus de poids à la carte dynamique et particulièrement à ce qui est commun à la carte statique et dynamique ne fera qu'améliorer cette fusion par rapport à une fusion plus simple qui donne autant d'importance aux deux cartes.

La gure 3.10 montre l'évolution temporelle des cartes statiques, dynamiques et des deux fusions adaptées. Les courbes des fusions adaptées ont la même allure que les courbes des cartes statiques et dynamiques. Les fusions ont toujours de meilleurs résultats que les cartes statiques et dynamiques, et en particulier la fusionMRsd qui est toujours meilleure que la fusionM sd.

Fig. 3.10 Évolution duN SS en fonction de la position des images dans les snippets pour les cartes statiques Ms, dynamiques Md, pour la fusion adaptée des voies statique et dynamique

Msd et pour la fusion adaptée renforcée MRsd.

3.4 Conclusion

Nous avons vu que le modèle bottom-up met en exergue des régions qui sont plus en accord avec les positions oculaires des sujets peu après le début du snippet et que son ecacité diminue avec le temps. Ces résultats sont en accord avec ceux de la dispersion qui diminue peu après le début du snippet quand les sujets ont un comportement commun et augmente avec le temps. De plus une analyse plus détaillée nous a permis de mettre en évidence les caractéristiques importantes pour chaque voie. Nous en avons alors déduit une fusion adaptée et une fusion renforcée qui donnent de meilleurs résultats que les fusions naïves classiques.

4 Conclusion générale

Dans ce chapitre, nous avons proposé une expérience d'oculométrie pour enregistrer les mou-vements oculaires des sujets lorsqu'ils regardent librement des vidéos an d'évaluer le modèle de saillance exposé au chapitre précédent. Plusieurs critères ont permis de vérier la bonne cor-respondance entre les régions saillantes et celles regardées par les sujets. Les cartes dynamiques donnent dans l'ensemble de meilleurs résultats que les cartes statiques, ce qui est en accord avec les résultats de Carmi [Carmi 2006]. Grâce à un jeu de positions oculaires pseudo-aléatoires nous avons montré que le modèle prédit bien les zones saillantes correspondant à une image et pas seulement un ensemble de positions oculaires sans lien avec l'image. Nous avons ensuite étudié l'évolution des résultats dans le temps. Ceci nous a permis d'observer la même évolution pour les deux voies au cours du temps, les résultats sont faibles au début des snippets quand les regards des sujets restent sur les régions précédemment regardées puis le modèle devient un bon prédicteur des positions oculaires, et enn la correspondance entre les régions saillantes et les régions regardées diminue lentement. Le modèle de saillance de type bottom-up est donc, comme l'on pouvait s'y attendre, meilleur peu après le début des snippets.

En eectuant une comparaison des cartes statiques et dynamiques nous avons mis en évidence les caractéristiques appropriées pour chaque voie. A partir des caractéristiques propres à chaque type de cartes (statique ou dynamique), une fusion adaptée renforcée a été proposée. Cette fusion donne plus de poids à la carte la plus pertinente et renforce les régions saillantes communes aux deux voies.

Dans ce chapitre nous avons évalué les diérentes voies du modèle de saillance et proposé une fusion pour obtenir une carte de saillance unique plus prédictive que les deux voies séparées. Cette étude a permis de mieux identier les régions qui vont attirer les regards. Après cette première étape d'évaluation et d'étude des diérentes cartes fournies par le modèle, nous pouvons nous interroger sur les diérentes perspectives de ce modèle. Nous pouvons envisager l'étude des biais présents dans notre expérience, comme par exemple le fait qu'en général les sujets aient tendance à plus regarder au centre de l'image. Ce qui fera l'objet d'une analyse complémentaire au chapitre 5. Cependant, la perspective la plus évidente de ce modèle est l'intégration de nouvelles voies de traitements qui permettrait de l'améliorer. C'est ce que nous proposons dans le chapitre suivant en intégrant une voie dédiée à la détection des visages.

(a) (b) (c) (d)

Fig. 3.11 Exemples de cartes de saillance : (a) images originales avec les positions oculaires des sujets superposées, (b) cartes de saillance statiquesMs correspondantes, (c) cartes de saillance dynamiquesMdcorrespondantes et (d) carte de saillance de la fusion adaptée renforcée des voies statique et dynamiqueMRsd correspondantes.

Modèle de saillance à trois voies

Dans le chapitre précédent nous avons étudié l'importance relative des cartes de saillance statiques et dynamiques pour prédire les positions oculaires et présenté une fusion adaptée qui prend en compte les caractéristiques appropriées à chaque voie. Dans ce chapitre nous proposons d'ajouter une nouvelle voie de traitement au modèle : une voie dédiée aux visages.

Les visages représentent une source d'information importante. Ils nous permettent non seule-ment de connaître l'identité de la personne que nous regardons mais aussi de connaître son âge, son sexe. Les visages et leur perception jouent un rôle important pour la communication entre personnes et ont sûrement joué un rôle important dans la survie et l'évolution de nos ancêtres. De nombreuses recherches se sont intéressées à la tâche complexe qu'est la perception des visages [Bruce 1986, Yin 1969, Thorpe 2002, Palermo 2007, Tsao 2008, Goto 2005]. Une revue complète est proposée dans [Dekowska 2008].

Au cours des dix dernières années, des études utilisant l'imagerie par résonance magnétique fonctionnelle (IRMf) ont permis de caractériser des régions fonctionnelles distinctes dans le cor-tex visuel humain, dont le Fusiform Face Area, qui répondent fortement et sélectivement lorsque les personnes voient des visages [Kanwisher 2006]. Une autre étude [Guo 2006] montre que les personnes regardent les visages plus longtemps que les autres stimuli. Les visages semblent donc avoir une place particulière dans la perception visuelle. Peuvent-ils pour autant être considérés comme des attributs visuels élémentaires au même titre que la texture ou le mouvement ?

Dans un article récent, Cerf et al. [Cerf 2007] ont montré que dans des images contenant des personnes vues de face, les visages sont xés par les sujets dès les premières xations et ce indépendamment de la tâche qui leur était donnée. Pour cette raison, ils ont intégré un détecteur de visages à leur modèle de saillance et ont ainsi amélioré les résultats de celui-ci.

Dans ce chapitre, nous proposons de tester si les visages attirent toujours les regards si l'on considère des vidéos avec des objets en mouvement (le mouvement étant un attribut élémentaire saillant [Wolfe 1998]). Nous allons étudier les visages en tant qu'attributs visuels élémentaires et les intégrer au modèle de saillance. Un nouveau modèle de saillance à trois voies est proposé, il regroupe une voie statique, une voie dynamique et une nouvelle voie dédiée aux visages. Ce chapitre est partiellement issu d'un chapitre publié dans le livre Recent advances in signal processing [Marat 2009b].

1 Attraction du regard par les visages

Dans cette partie nous testons si les visages sont observés lorsque des sujets regardent li-brement des stimuli dynamiques. Dans un premier temps nous allons faire des observations qualitatives sur la façon dont sont explorées les vidéos, puis nous utiliserons une base de vidéos réduite an de faire des observations quantitatives qui nous aideront à comprendre comment les

visages sont scrutés, à quel moment, et si les regards dépendent de certains attributs comme la taille du visage. Ces résultats permettront de mesurer l'inuence des visages dans la prédiction des mouvements oculaires et donc l'intérêt de considérer les visages pour le modèle de saillance.