Analyse statistique - R´esultats et analyse

3. Organisation du manuscrit

2.3 R´esultats et analyse

2.3.3 Analyse statistique

2.4 Conclusion . . . 46

2.1 Introduction

Nous avons vu dans le chapitre précédent que les informations visuelle et auditive ont une influence majeure sur la perception humaine. Les signaux auditifs peuvent influencer notre perception visuelle et vice versa. Dans ce chapitre nous nous intéressons à analyser l’influence de l’audio sur les mouvements oculaires des observateurs lors de l’exploration des séquences vidéos. Pour ce qui concerne les images fixes, cette influence a été largement abordée dans la littérature. Les auteurs de [50] ont réalisé un ensemble de tests psychophysiques afin de mesurer l’influence du son sur l’attention visuelle humaine. Ainsi, une image fixe avec une source sonore localisée en haut, en bas, à gauche et à droite sur cette image a été présentée aux participants. Les mouvements oculaires associés à cette expérience ont été enregistrés dans trois conditions de test : auditive, visuelle et audiovisuelle. Ils ont constaté que les mouvements oculaires des participants dans les conditions audiovisuelles sont spatialement biaisés

2.2. Les visages parlants, objets audiovisuels attirants

vers la région de l’image correspondant à la source sonore. Cependant, l’influence de cette information sonore pour des contenus dynamiques n’a jamais été abordée. Le quasi totalité des expérimentations oculométriques sont réalisées sur des vidéos sans composante sonore originale. Les observateurs sont souvent invités à regarder des vidéos muettes, ce qui est loin de la réalité de l’utilisation des contenus vidéo où les signaux auditifs viennent généralement couplés avec les signaux visuels.

Dans ce chapitre, nous cherchons à investiguer l’influence de l’audio sur les mouvements oculaires particulièrement pour des vidéos conversationnelles comme c’est le cas dans les applications de vidéo-conférence, où différents scénarios peuvent être envisagés. A cet effet, nous réalisons des expérimentations oculométriques où les mouvements oculaires des participants, regardant un ensemble de vidéos de conversations, sont enregistrés. Afin de quantifier cette influence, les vidéos sont présentées dans deux conditions : visuelles (sans leur bande sonore) et audiovisuelles (avec leur bande sonore). Nous étudions tout d’abord l’importance des visages et en particulier des visages parlants dans la vidéo. Ensuite, nous décrivons la base de données d’études, où des vidéos de conversation imitant des scènes de vidéo-conférence ont été enregistrées. Dans un second temps, nous décrivons les conditions de réalisation de nos expérimentations oculométriques et nous présentons les résultats obtenus en analysant d’un côté l’influence des visages et des visages parlants sur l’attention visuelle de participants et de l’autre, la dispersion oculaire des participants dans les conditions visuelle et audiovisuelle.

2.2 Les visages parlants, objets audiovisuels attirants

Nous avons vu dans le chapitre 1 que les visages sont des attributs visuels ayant une forte sémantique. La prise en compte de cette information visuelle permet une amélioration significative des performances des modèles de saillance statique et temporelle [19, 71]. Les études portant sur l’importance de ces attributs visuels ne datent pas d’aujourd’hui. Ainsi, les travaux de Buswell [51] en 1935 et de Yarbus [28] en 1967 ont montré que nous avons une tendance naturelle de fixer les visages et en particulier les yeux. Cette tendance a été démontrée par des études de neuro-imagerie mettant en évidence l’existence de cellules cérébrales dédiées aux traitements des visages [52]. Récemment, des études expérimentales ont montré que l’hu- main est attiré de manière réflexe par les visages lors de l’exploration d’une scène visuelle, en particulier à l’apparition de cette scène [53].

Cette influence attentionnelle, largement étudiée pour des scènes purement visuelles, a également fait l’objet de quelques études perceptuelles audiovisuelles (visages accompagnés de son). Dans [54], les auteurs ont présenté des séquences ”visages” à des participants en faisant varier le niveau d’un bruit acoustique. Ils ont trouvé que les sujets étaient attirés par des régions particulières du visage, notamment les yeux et la bouche. Ils ont aussi montré que cette attirance dépendait du niveau de bruit employé : plus le niveau augmente et plus les régions de la bouche sont fixées par les participants. Des études similaires ont été décrites dans [56, 55] où les auteurs ont étudié l’exploration des visages parlants en demandant aux

sujets de juger l’état émotionnel des locuteurs ou de comprendre ce qu’ils disent, toujours en présence du bruit. Les résultats obtenus montrent que les yeux des locuteurs attirent davantage l’attention des participants pour la tâche émotionnelle tandis que la région de la bouche est plus attirante pour la tâche de reconnaissance de la parole, et que cette attirance devient beaucoup plus importante lorsque le bruit augmente. Récemment, Võ et al [57] ont réalisé une expérimentation dans laquelle des vidéos de personnes interrogées ont été présentées aux participants avec et sans leur bande sonore originale. Ils ont ainsi montré que la fixation sur les régions des visages, et en particulier la bouche, diminue en l’absence de l’information sonore (figure2.1). Tous ces résultats montrent que l’exploration de cet attribut visuel (visage) ne suit pas une règle universelle mais dépend à la fois de la tâche assignée et de la présence ou non du signal de parole.

(a) (b)

Figure _{2.1 – Les fixations des participants pour diff´erents sc´enarii mis en œuvre dans [57].}

La quasi totalité des expérimentations mentionnées plus haut, et celles portant sur l’exploration des visages et de la parole, sont basées sur l’utilisation de stimuli audiovisuels composés d’un ou de plusieurs visages pour la partie visuelle et d’un seul locateur pour la partie auditive. Ces expérimentations, bien qu’elles soient faciles à contrôler et à mettre en œuvre, ne représentent pas de manière générale l’exploration des visages parlants dans des vidéo de conversation où des personnes interagissent et prennent la parole d’une fa¸con dynamique et souvent aléatoire. L’influence de cette prise de parole et le lien avec les mouvements oculaires a été peu étudiée. Quel pourcentage, en termes de fixation oculaire, occupe les visages des locuteurs et des auditeurs dans une scène de conversation ? Cette question, relativement simple, n’a, à notre connaissance, jamais été abordée.

Afin de répondre à cette question, nous avons réalisé une expérimentation oculométrique où des vidéos naturelles de conversation ont été présentées à un panel de participant en leur demandant de regarder librement ces vidéos. A cette fin, nous avons créé une base de données au sein de notre laboratoire, nommée SICMedia (cf. paragraphe 2.2.3). Dans ce qui suit, nous décrivons en détail la procédure et la méthodologie employée pour réaliser ces expérimentations.

2.2. Les visages parlants, objets audiovisuels attirants

Exp´erience 1

Afin de produire des résultats subjectifs, pouvant être utilisés pour des comparaisons, les conditions de test et les procédures d’évaluation doivent être rigoureusement définies. Dans cette section, nous présentons le dispositif expérimental utilisé, à savoir l’oculomètre (Eye-tracker ), l’environnement de test, les séquences vidéo, les observateurs participant à cette campagne et enfin la procédure suivie pour la réalisation de cette campagne de tests. Cette première investigation vise, dans un premier temps, l’exploration visuelle des visages parlants dans des scènes conversationnelles. Elle étudiera, dans un second temps, l’influence de l’audio sur les mouvements oculaires des participants, toujours en regardant les mêmes vidéos, dans deux conditions : l’une visuelle et l’autre audiovisuelle. Ces expérimentations sont fondamentales pour les travaux de cette thèse car elles permettent de recueillir des données de référence que nous appellerons vérité terrain (Ground truth) et qui seront exploitées dans les chapitres suivants.

2.2.1 Appareillages

Afin de réaliser cette expérience, un dispositif oculométrique a été utilisé. Un Eye-tracker est un système d’oculométrie permettant de suivre les déplacements oculaires d’un observateur. L’expérience a été menée dans notre salle de tests psychovisuels ayant un éclairage et des conditions de visualisation conformes aux recommandations UIT-T P.910 [58]. Un écran 30 pouces EIZO CG303WT, avec une résolution de 2560 _{× 1600 pixels, a été utilisé pour} visualiser les séquences vidéos. Ce type d’écran offre la technologie dite S-IPS qui permet de conserver le rendu des couleurs même lorsque l’on regarde l’écran jusqu’à un degré important d’inclinaison. Dans les conditions audiovisuelles (vidéos accompagnées de leur composante audio), un casque professionnel Sony avec un atténuateur de bruit extérieur a été utilisé. Il a été demandé aux participants de porter ce casque tout au long de l’expérience, même dans les conditions visuelles (c’est à dire sans audio). Un dispositif oculométrique Tobii TX-120, avec une fréquence d’échantillonnage de 120 Hz, a été utilisé pour suivre et enregistrer les mouvements oculaires des participants. Il est relié à l’ordinateur de travail via une connexion réseaux, comme le montre la figure 2.2.

2.2.2 Participants

Dix-sept observateurs ont participé à cette expérience, 11 hommes et 6 femmes âgés de 20 à 33 ans. Les participants sont principalement des stagiaires ou des doctorants de notre laboratoire ou de l’Université de Poitiers. Ils sont considérés comme des observateurs na¨ıfs ne possédant aucune expérience particulière dans ce domaine ; certains d’entre-eux avaient déjà participé à des campagnes de tests psychovisuels (expérimentations d’eye-tracking d’images, de vidéo 2D ou 3D). Tous les observateurs ont passé les tests d’acuité visuelle (FR@CT) et avaient une vision normale ou corrigée. Nous n’avons détecté aucune anomalie au niveau de la vision des couleurs (Test d’Ishihara).

(a) (b)

Figure 2.2 – Appareillage utilisé dans l’expérience 1 : (a) connexion entre l’oculomètre et l’écran de visualisation, (b) conditions de visualisation des stimuli. Images extraites du manuel d’utilisation de Tobii-TX120, Version 3.2.

mais pas l’objectif lui-même afin de ne pas influencer leur attention visuelle. Enfin, l’œil directeur de chaque participant a été identifié et sera pris en compte lors du traitement de données oculométriques en question.

2.2.3 Stimuli

Comme nous l’avons mentionné dans l’introduction de ce chapitre, nous nous intéressons en particulier aux applications de vidéo-conférence ou de conversation en général. Les vidéos de ces applications sont constituées principalement d’un ensemble de personnes interagissant et prenant la parole de manière spontanée. Cinq scénarios de conversation sont envisagés :

— Le son provient de l’ext´erieur : narrateur.

— Une seule personne parle parmi plusieurs : un seul signal de parole. — Deux personnes parlent alternativement : deux signaux de parole. — Deux personnes parlent mais simultan´ement : deux signaux de parole.

— Plusieurs personnes (> 2) parlent en mˆeme temps : diff´erents signaux de parole.

Afin de réaliser de tels scénarios, et à cause du manque de bases de vidéos dédiées aux applications de vidéo-conférence, nous avons décidé de créer une base de travail prenant en compte toutes les possibilités mentionnées ci-dessus. Les vidéos sont enregistrées de telle sorte que la région qui produit le son (la personne prenant la parole) change d’une vidéo à l’autre. Un caméscope Sony HVR-VE1 équipée d’un microphone stéréophonique a été utilisé à cet effet (figure2.3). Les caractéristiques techniques de cet appareil sont données dans le tableau 2.1.

2.2. Les visages parlants, objets audiovisuels attirants

Table 2.1 – Caractéristiques techniques du caméscope utilisé.

Element Valeur

Ecran LCD couleur 2,7 pouces

Capteur CMOS 3 m´egapixels avec technologie EIP (Enhanced Imaging Processor)

Fr´equence CineFrame 25 images par seconde

R´esolution Full HDV

Viseur LCD de 0,54 pouce (252 000 points), noir et blanc/couleur

Entr´ees audio externes XLR (x2)

Prise de casque Mini-prise st´er´eo

Toutes les vidéos ont été acquises au sein de notre laboratoire à des endroits différents (Bureaux de doctorants, salle psychovisuelle, cafétéria, etc.). Quatre personnes ont participé à cette campagne d’enregistrement, chacune a donné son consentement de participer à la création de cette base de vidéos. Finalement, cinq catégories de vidéos de haute définition (Full HD 1080p), avec une fréquence de 25 images par seconde, ont été créées (tableau 2.2).

2.2.4 Proc´edure

L’expérience a été réalisée en utilisant le logiciel TobiiStudio, fourni avec l’oculomètre. Ce logiciel regroupe toute une plate-forme permettant la présentation des stimuli, l’enregistrement des mouvements oculaires, la visualisation de ces enregistrements et l’analyse des données oculaires enregistrées. La procédure de cette expérience oculométrique est illustrée en figure 2.4.

Dans un premier temps, les stimuli ont été présentés sans audio. Une image grise avec un message ”Maintenant, écoutez attentivement” a été affichée avant de présenter les mêmes stimuli accompagnés cette fois-ci de leur bande sonore originale. Chaque stimulus, avec ou sans le son, a une durée totale de 57 secondes. L’image grise a une durée d’environ 5 secondes. L’expérience est toujours précédée par une procédure de calibration pour chaque partici-

Table 2.2 – Description de la base de vid´eos construite pour les besoins de l’exp´erience 1.

Nom de la vid´eo Dur´ee (s) Contenu Visuel

OutsideTalk 10 des personnes discutent avec un son provenant de l’ext´erieur. SignTalk 11 Une personne explique quelque chose `a une autre personne.

AlterTalk 12 Deux personnes parlent de leurs villes natales.

SimulTalk 14 Deux personnes racontent leur exp´erience au labo.

AllTalk 11 Trois personnes comptent de 1 `a 10.

Figure _{2.4 – Proc´edure de visualisation des stimuli dans l’exp´erience 1.}

pant. Durant cet étalonnage, les participants sont appelés à regarder une mire avec 9 cibles réparties sur une grille 3×3 occupant la totalité de l’écran de visualisation. Il est demandé aux participants d’éviter les mouvements de tête de grande amplitude. L’eye-tracker utilisé permet de mouvements de faible amplitude tant que les yeux sont détectables. Enfin, deux vidéos, avec et sans audio, ont été utilisées comme séquences de tests afin de familiariser les participants avec la procédure de tests oculométriques. Les données oculaires de ces tests ne sont pas prises en compte dans la phase d’analyse des résultats.

A l’issue de cette expérience, chaque vidéo est visualisée par dix-sept participants dans les deux conditions : visuelle et audiovisuelle. Toutes les données liées aux mouvements oculaires (fixations, saccades, etc.) sont extraites chronologiquement dans un seul fichier (csv) grâce au logiciel TobiiStudio.

2.2.5 Classification des donn´ees

Comme nous ne travaillons pas avec des stimuli 3D, les données oculométriques des deux yeux des participants ne sont pas nécessaires pour quantifier l’attention visuelle 2D [101]. Par conséquent, les données issues d’un seul œil de chaque participant, notamment son œil directeur, sont analysées.

Les enregistrements oculaires sont fournis toutes les huit millisecondes (fréquence de 120 Hz). De ce fait, nous possédons à peu près cinq échantillons par trame et par observateur

2.3. R´esultats et analyse

(une trame dure 40 ms à 25fps). Trois types de données sont identifiés :

Fixation : une fixation est l’état stationnaire des yeux pendant lequel la fovéa explore la cible visuel. Elle est détectée dès lors que la pupille est visible par l’oculomètre. Sa durée varie généralement en fonction du contenu et du contexte.

Saccade : ce sont des mouvements balistiques des yeux pendant lesquels l’observateur change la zone fixée avec une vitesse allant de 100 à 700 degrés par seconde (dps).

Clignement ou Blink : ce sont des mouvements oculaires consid´er´es comme saccades avec une occlusion partielle ou totale de la pupille.

2.3 R´esultats et analyse

Les données enregistrées par l’oculomètre sont divisées en deux ensembles : les données dans des conditions visuelles et données dans des conditions audiovisuelles. Les données sont traitées séparément tout en appliquant les mêmes procédures. Dans ce qui suit, nous présentons les résultats de comparaison de ces deux ensembles de résultats. Seules les données de fixation sont prises en compte pour l’analyse des résultats.

2.3.1 Attention visuelle guid´ee par les visages parlants

Nous avons mentionné dans la section2.2l’aspect sémantique important des visages dans les séquences vidéo. Ces derniers tendent à attirer immédiatement le regard et capturer notre attention. Particulièrement, quand un visage parle, notre attention est directement attirée par celui-ci [57]. Dans cette section, nous investiguons l’importance visuelle du visage parlant par rapport aux autres visages et objets dans la scène visualisée.

La figure2.5 illustre la durée moyenne des fixations des participants pour chaque contenu vidéo de la base d’études. Cette figure montre à quel point les observateurs ont été attirés davantage par les locuteurs que par les autres visages, lors de l’exploration de la scène de conversation. Pour calculer cette durée de fixation, nous avons sélectionné, grâce au logiciel TobiiStudio, des régions d’intérêt dynamiques (ROI) correspondant aux emplacements des visages dans la vidéo. Lorsque la position du regard d’un participant correspond à une régions elle devient automatiquement active. La Durée moyenne de fixations sur chacun de ces visages est égale à la durée d’activation de sa ROI correspondante.

La figure 2.5 (a) montre le pourcentage de fixation pour la vidéo OutsideTalk, où le son provient d’un narrateur externe (commentateur sportif). Sur environ 70% de la durée totale de la vidéo, les participants étaient attirés par les visages présents dans cette vidéo. Leurs fixations oculaires se trouvent sur leur ROI correspondante. Ceci vient confirmer les travaux de la littérature mentionnant l’importance de cet attracteur visuel (visage). Néanmoins, l’au-

(a)

(b) (c)

(d) (e)

Figure 2.5 – Durée moyenne des fixations des participants sur les visages parlants ou non parlants exprimée en pourcentage, dans le cas où (a) le son provient de l’extérieur, (b) un seul visage parlant, (c) deux locuteurs parlent de manière alternative, (d) deux locuteurs parlent simultanément et (e) tous les visages parlent. Dans le cas (e), seulement trois visages sont présents.

2.3. R´esultats et analyse

dio n’a pas eu vraiment d’influence significative sur le parcours oculaire des participants. Le pourcentage de fixations est relativement important dans le cas des visages 2 et 3. L’explica- tion peut être liée au biais centré, caractéristique de la vision humaine.

La figure 2.5 (b) illustre le pourcentage de fixations des participants pour la séquence SinglTalk, où une seule personne (visage 1) adresse la parole de manière directe à une autre personne (visage 3). Nous pouvons remarquer que lorsque la vidéo est présentée sans audio, les observateurs sont attirés par le visage 1 en raison de ces mouvements labiaux avec 34% des fixations. L’ajout de l’audio augmente de manière significative la durée de fixation sur ce visage avec un taux de pourcentage qui approche le double (60%). Nous pouvons aussi constater que, dans les conditions audiovisuelles, les participants sont moins attirés par les visages des auditeurs de la vidéo (à l’exception du visage 3).

La séquence AlterTalk où deux personnes parlent alternativement est représentée en figure 2.5 (c). Le visage 1 parle pendant environ 3 secondes puis directement le visage 3 prend

Dans le document Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle (Page 44-61)