• Aucun résultat trouvé

Dans cette thèse, nous avons proposé un modèle de saillance visuelle pour déterminer les régions saillantes des vidéos, basé sur les observations à partir des données des mouvements oculaires. Les données ont été acquises au cours de l’observation libre des vidéos. En conclusion, nous avons des résultats qui ont conduit à plusieurs contributions et leurs perspectives connexes.

Dans le chapitre3, nous avons évalué la préférence des visages dans les vidéos. L’étude a utilisé des données provenant d’une des expériences psycho-visuelles pour examiner les tendances du regard des participants.

q Les visages attirent l’attention dans les vidéos. Nous avons constaté que les fixations sur le début de la scène correspondent aux régions d’intérêt dans la scène précédente, entraînant une dispersion de fixation plus élevée chez les participants (FigureF.1a). Comme la scène progresse, la dispersion diminue. Il est beaucoup plus faible pour les scènes avec des visages.

q Les régions du visage sont saillantes dans les vidéos. L’évaluation en utilisant des critères différents de comparaison montre que les fixations sont faites à proximité des régions du visage (FigureF.1b). Nous concluons que cela est essentiellement lié à l’importance informationnelle et sociale des visages.

q Les fixations sont plus longues sur les visages dans les vidéos, en particulier sur les scènes avec un seul visage. Nous observons que les fixations initiales sont plus courtes par rapport aux fixations suivantes. Il semble susceptible que les premières fixations soient influencées par la tendance des sujets à chercher le centre de la scène visuelle au début de l’observation, ce qui entraîne des fixations courtes. Les fixations suivantes sont plus longues, car ils sont faits pour extraire un maximum d’informations faciales (Figure F.1c). Cependant, les fixations sont plus courtes quand plusieurs régions d’intérêt ou deux visages sont en concurrence pour les ressources attentionnelles limitées.

(a) Dispersion de fixation entre les participants

(b) Distance minimum de fixation à visage.

(c) Durée de fixation.

Figure F.1: Mesures d’évaluation pour une et deux visages. Nous avons pris les cinq premières fixations {F1, F2, F3, F4, F5} après le début de la scène actuelle et la fixationF−1de la scène précédente (fixation juste avant le début de la scène actuelle).

q Nous déclarons que la préférence des visages dans des scènes dynamiques est influencée par différents facteurs, tels que l’excentricité, la taille et le nombre de visages apparus

dans la scène (FigureF.2). Nous montrons que l’influence des visages diminue avec l’augmentation de l’excentricité. Il est relativement plus faible pour les scènes avec un seul visage par rapport à des scènes avec deux visages. Dans ce dernier cas, le facteur d’excentricité de fixation est utilisé pour résoudre la concurrence entre les deux visages. Nous confirmons que l’augmentation de la superficie des visages améliore leur performance visuelle en masquant les effets de l’excentricité et de la concurrence.

(a) Nombre de visages (b) L’excentricité de visage (c) Surface du visage Figure F.2: Les scores pour les critères d’évaluation desAUCen fonction de différents facteurs qui influencent pour une ou deux visages.

Dans le chapitre4, nous utilisons les observations sur l’influence des visages dans les vidéos de proposer une voie de visage.

q Nous proposons un nouveau modèle de saillance visuelle bottom-up qui décompose le signal visuel en utilisant trois voies de traitement en fonction de différents types de caractéristiques visuelles (Figure F.3): statique, dynamique, et visage. Il s’agit d’une extension du modèle de saillance proposé par [Mar+09]. Les voies statiques et dynamiques sont inspirées par la biologie des premières étapes du système visuel humain: la rétine comme un filtre et le cortex comme une banque de filtres. La voie statique extrait les informations de texture basée sur la luminance. La voie dynamique extrait des informations concernant les mouvements des objets. La voie visage extrait des informations sur la présence des visages dans les frames. Le modèle intègre également le biais central comme une modulation adaptée de la carte de saillance visuelle.

q Nous avons évalué la voie du visage proposé par rapport aux données de mouvements oculaires de l’expérience psycho-visuelle. Nous montrons que l’inclusion des visages améliore le modèle de saillance visuelle bottom-up.

q L’expérience oculométrique nous permet d’étudier les caractéristiques visuelles qui attirent le regard d’un participant, et trouver la meilleure façon de les intégrer dans le modèle de saillance. Cela nous permet également de concevoir une fusion efficace et robuste des trois types de cartes en une seule carte de saillance maître. Les coefficients retenus pour les trois voies, statique, dynamique et visage sont le maximum, le skewness et la confiance respectivement. Ces coefficients permettent de renforcer les cartes les plus pertinentes dans la carte de saillance maître (FigureF.4).

Static Pathway Dynamic Pathway Face Pathway Input frame Dominant motion compensation Retina model Cortical-like filters

Interactions Motion estimation Face detector

Normalizations Temporal filtering

Ms Md Mf F usion F usion Center model Fusion Msd Mscdc Mscdcfc

Figure F.3: Schéma bloc du modèle de saillance visuelle proposée avec trois cartes de saillance dédiées à des fonctions spécifiques: statique, dynamique, et le visage.

Dans le chapitre 5, nous présentons une implémentation multi-GPU du modèle de saillance visuelle.

q Les résultats montrent que le modèle de saillance visuelle à base de GPU proposé surpasse une application à base deCPUéquivalente jusqu’à 132×. À notre connaissance, c’est la première application à base deGPUdu modèle de saillance jamais rapportée dans la littérature.

q Les gains de performances sur lesGPUs peuvent être obtenus après un examen attentif de configuration des threads et blocs, ainsi que l’allocation efficace d’accès à la mémoire globale et à la mémoire partagée. Les résultats de l’évaluation du code sur GPU

optimisé montrent une plus grande efficacité par rapport à la version non optimisée du programme.

Figure F.4: Evolution des métriquesNSSpour des voies différentes, avec ou sans le biais de centre de base de données vidéo.

q La mise en œuvre initiale du modèle de saillance visuelle a été réalisée enMATLAB. Cette implémentation a d’abord été portée en C séquentiel, qui obtient une amélioration considérable et aussi permet d’écrire des programmes enCUDA. les noyauxCUDAont été utilisé pour isoler toutes les parties parallèles du modèle. La mise en œuvre finale sur

GPUpermet d’augmenter la performance par rapport aux implémentations CPU, comme l’illustre la FigureF.5. Les temps d’exécution pour les différentes implémentations sont résumées dans le TableauF.1.

Figure F.5: Timings d’implémentations séquentiels et parallèles pour la vidéo avec la taille d’image 640 × 480 sur NVIDIA GeForce GTX 285.

Ms Md Mf

MATLAB 34.01 237.03 6.18 C 10.73 31.24 3.26 C+OpenMP 6.65 22.13 3.21 CUDA 0.04 0.12 0.07

Table F.1: Timings de différentes implémentations séquentiels et parallèles pour la vidéo avec la taille d’image640 × 480 sur NVIDIA GeForce GTX 285.

En conclusion, le principal avantage d’amélioration du gain de performances est qu’il permet l’inclusion des autres caractéristiques visuelles dans le modèle et l’évaluation rapide du modèle par rapport aux données expérimentales des positions des yeux. En outre, la solution rapide peut être utilisée dans une grande variété de problèmes de la recherche et de l’industrie.

Documents relatifs