• Aucun résultat trouvé

3. Organisation du manuscrit

2.3 R´esultats et analyse

2.3.3 Analyse statistique

2.4 Conclusion . . . 46

2.1

Introduction

Nous avons vu dans le chapitre pr´ec´edent que les informations visuelle et auditive ont une influence majeure sur la perception humaine. Les signaux auditifs peuvent influencer notre perception visuelle et vice versa. Dans ce chapitre nous nous int´eressons `a analyser l’influence de l’audio sur les mouvements oculaires des observateurs lors de l’exploration des s´equences vid´eos. Pour ce qui concerne les images fixes, cette influence a ´et´e largement abord´ee dans la litt´erature. Les auteurs de [50] ont r´ealis´e un ensemble de tests psychophysiques afin de mesurer l’influence du son sur l’attention visuelle humaine. Ainsi, une image fixe avec une source sonore localis´ee en haut, en bas, `a gauche et `a droite sur cette image a ´et´e pr´esent´ee aux participants. Les mouvements oculaires associ´es `a cette exp´erience ont ´et´e enregistr´es dans trois conditions de test : auditive, visuelle et audiovisuelle. Ils ont constat´e que les mou- vements oculaires des participants dans les conditions audiovisuelles sont spatialement biais´es

2.2. Les visages parlants, objets audiovisuels attirants

vers la r´egion de l’image correspondant `a la source sonore. Cependant, l’influence de cette information sonore pour des contenus dynamiques n’a jamais ´et´e abord´ee. Le quasi totalit´e des exp´erimentations oculom´etriques sont r´ealis´ees sur des vid´eos sans composante sonore originale. Les observateurs sont souvent invit´es `a regarder des vid´eos muettes, ce qui est loin de la r´ealit´e de l’utilisation des contenus vid´eo o`u les signaux auditifs viennent g´en´eralement coupl´es avec les signaux visuels.

Dans ce chapitre, nous cherchons `a investiguer l’influence de l’audio sur les mouvements oculaires particuli`erement pour des vid´eos conversationnelles comme c’est le cas dans les ap- plications de vid´eo-conf´erence, o`u diff´erents sc´enarios peuvent ˆetre envisag´es. A cet effet, nous r´ealisons des exp´erimentations oculom´etriques o`u les mouvements oculaires des participants, regardant un ensemble de vid´eos de conversations, sont enregistr´es. Afin de quantifier cette influence, les vid´eos sont pr´esent´ees dans deux conditions : visuelles (sans leur bande sonore) et audiovisuelles (avec leur bande sonore). Nous ´etudions tout d’abord l’importance des vi- sages et en particulier des visages parlants dans la vid´eo. Ensuite, nous d´ecrivons la base de donn´ees d’´etudes, o`u des vid´eos de conversation imitant des sc`enes de vid´eo-conf´erence ont ´et´e enregistr´ees. Dans un second temps, nous d´ecrivons les conditions de r´ealisation de nos exp´erimentations oculom´etriques et nous pr´esentons les r´esultats obtenus en analysant d’un cˆot´e l’influence des visages et des visages parlants sur l’attention visuelle de participants et de l’autre, la dispersion oculaire des participants dans les conditions visuelle et audiovisuelle.

2.2

Les visages parlants, objets audiovisuels attirants

Nous avons vu dans le chapitre 1 que les visages sont des attributs visuels ayant une forte s´emantique. La prise en compte de cette information visuelle permet une am´elioration significative des performances des mod`eles de saillance statique et temporelle [19, 71]. Les ´etudes portant sur l’importance de ces attributs visuels ne datent pas d’aujourd’hui. Ainsi, les travaux de Buswell [51] en 1935 et de Yarbus [28] en 1967 ont montr´e que nous avons une ten- dance naturelle de fixer les visages et en particulier les yeux. Cette tendance a ´et´e d´emontr´ee par des ´etudes de neuro-imagerie mettant en ´evidence l’existence de cellules c´er´ebrales d´edi´ees aux traitements des visages [52]. R´ecemment, des ´etudes exp´erimentales ont montr´e que l’hu- main est attir´e de mani`ere r´eflexe par les visages lors de l’exploration d’une sc`ene visuelle, en particulier `a l’apparition de cette sc`ene [53].

Cette influence attentionnelle, largement ´etudi´ee pour des sc`enes purement visuelles, a ´egalement fait l’objet de quelques ´etudes perceptuelles audiovisuelles (visages accompagn´es de son). Dans [54], les auteurs ont pr´esent´e des s´equences ”visages” `a des participants en faisant varier le niveau d’un bruit acoustique. Ils ont trouv´e que les sujets ´etaient attir´es par des r´egions particuli`eres du visage, notamment les yeux et la bouche. Ils ont aussi montr´e que cette attirance d´ependait du niveau de bruit employ´e : plus le niveau augmente et plus les r´egions de la bouche sont fix´ees par les participants. Des ´etudes similaires ont ´et´e d´ecrites dans [56, 55] o`u les auteurs ont ´etudi´e l’exploration des visages parlants en demandant aux

sujets de juger l’´etat ´emotionnel des locuteurs ou de comprendre ce qu’ils disent, toujours en pr´esence du bruit. Les r´esultats obtenus montrent que les yeux des locuteurs attirent davan- tage l’attention des participants pour la tˆache ´emotionnelle tandis que la r´egion de la bouche est plus attirante pour la tˆache de reconnaissance de la parole, et que cette attirance devient beaucoup plus importante lorsque le bruit augmente. R´ecemment, V˜o et al [57] ont r´ealis´e une exp´erimentation dans laquelle des vid´eos de personnes interrog´ees ont ´et´e pr´esent´ees aux participants avec et sans leur bande sonore originale. Ils ont ainsi montr´e que la fixation sur les r´egions des visages, et en particulier la bouche, diminue en l’absence de l’information so- nore (figure2.1). Tous ces r´esultats montrent que l’exploration de cet attribut visuel (visage) ne suit pas une r`egle universelle mais d´epend `a la fois de la tˆache assign´ee et de la pr´esence ou non du signal de parole.

(a) (b)

Figure 2.1 – Les fixations des participants pour diff´erents sc´enarii mis en œuvre dans [57].

La quasi totalit´e des exp´erimentations mentionn´ees plus haut, et celles portant sur l’ex- ploration des visages et de la parole, sont bas´ees sur l’utilisation de stimuli audiovisuels compos´es d’un ou de plusieurs visages pour la partie visuelle et d’un seul locateur pour la partie auditive. Ces exp´erimentations, bien qu’elles soient faciles `a contrˆoler et `a mettre en œuvre, ne repr´esentent pas de mani`ere g´en´erale l’exploration des visages parlants dans des vid´eo de conversation o`u des personnes interagissent et prennent la parole d’une fa¸con dynamique et souvent al´eatoire. L’influence de cette prise de parole et le lien avec les mouve- ments oculaires a ´et´e peu ´etudi´ee. Quel pourcentage, en termes de fixation oculaire, occupe les visages des locuteurs et des auditeurs dans une sc`ene de conversation ? Cette question, relativement simple, n’a, `a notre connaissance, jamais ´et´e abord´ee.

Afin de r´epondre `a cette question, nous avons r´ealis´e une exp´erimentation oculom´etrique o`u des vid´eos naturelles de conversation ont ´et´e pr´esent´ees `a un panel de participant en leur demandant de regarder librement ces vid´eos. A cette fin, nous avons cr´e´e une base de donn´ees au sein de notre laboratoire, nomm´ee SICMedia (cf. paragraphe 2.2.3). Dans ce qui suit, nous d´ecrivons en d´etail la proc´edure et la m´ethodologie employ´ee pour r´ealiser ces exp´erimentations.

2.2. Les visages parlants, objets audiovisuels attirants

Exp´erience 1

Afin de produire des r´esultats subjectifs, pouvant ˆetre utilis´es pour des comparaisons, les conditions de test et les proc´edures d’´evaluation doivent ˆetre rigoureusement d´efinies. Dans cette section, nous pr´esentons le dispositif exp´erimental utilis´e, `a savoir l’oculom`etre (Eye-tracker ), l’environnement de test, les s´equences vid´eo, les observateurs participant `a cette campagne et enfin la proc´edure suivie pour la r´ealisation de cette campagne de tests. Cette premi`ere investigation vise, dans un premier temps, l’exploration visuelle des visages parlants dans des sc`enes conversationnelles. Elle ´etudiera, dans un second temps, l’influence de l’audio sur les mouvements oculaires des participants, toujours en regardant les mˆemes vid´eos, dans deux conditions : l’une visuelle et l’autre audiovisuelle. Ces exp´erimentations sont fondamentales pour les travaux de cette th`ese car elles permettent de recueillir des donn´ees de r´ef´erence que nous appellerons v´erit´e terrain (Ground truth) et qui seront exploit´ees dans les chapitres suivants.

2.2.1

Appareillages

Afin de r´ealiser cette exp´erience, un dispositif oculom´etrique a ´et´e utilis´e. Un Eye-tracker est un syst`eme d’oculom´etrie permettant de suivre les d´eplacements oculaires d’un observa- teur. L’exp´erience a ´et´e men´ee dans notre salle de tests psychovisuels ayant un ´eclairage et des conditions de visualisation conformes aux recommandations UIT-T P.910 [58]. Un ´ecran 30 pouces EIZO CG303WT, avec une r´esolution de 2560 × 1600 pixels, a ´et´e utilis´e pour visualiser les s´equences vid´eos. Ce type d’´ecran offre la technologie dite S-IPS qui permet de conserver le rendu des couleurs mˆeme lorsque l’on regarde l’´ecran jusqu’`a un degr´e important d’inclinaison. Dans les conditions audiovisuelles (vid´eos accompagn´ees de leur composante audio), un casque professionnel Sony avec un att´enuateur de bruit ext´erieur a ´et´e utilis´e. Il a ´et´e demand´e aux participants de porter ce casque tout au long de l’exp´erience, mˆeme dans les conditions visuelles (c’est `a dire sans audio). Un dispositif oculom´etrique Tobii TX-120, avec une fr´equence d’´echantillonnage de 120 Hz, a ´et´e utilis´e pour suivre et enregistrer les mouvements oculaires des participants. Il est reli´e `a l’ordinateur de travail via une connexion r´eseaux, comme le montre la figure 2.2.

2.2.2

Participants

Dix-sept observateurs ont particip´e `a cette exp´erience, 11 hommes et 6 femmes ˆag´es de 20 `a 33 ans. Les participants sont principalement des stagiaires ou des doctorants de notre laboratoire ou de l’Universit´e de Poitiers. Ils sont consid´er´es comme des observateurs na¨ıfs ne poss´edant aucune exp´erience particuli`ere dans ce domaine ; certains d’entre-eux avaient d´ej`a particip´e `a des campagnes de tests psychovisuels (exp´erimentations d’eye-tracking d’images, de vid´eo 2D ou 3D). Tous les observateurs ont pass´e les tests d’acuit´e visuelle (FR@CT) et avaient une vision normale ou corrig´ee. Nous n’avons d´etect´e aucune anomalie au niveau de la vision des couleurs (Test d’Ishihara).

(a) (b)

Figure 2.2 – Appareillage utilis´e dans l’exp´erience 1 : (a) connexion entre l’oculom`etre et l’´ecran de visualisation, (b) conditions de visualisation des stimuli. Images extraites du manuel d’utilisation de Tobii-TX120, Version 3.2.

mais pas l’objectif lui-mˆeme afin de ne pas influencer leur attention visuelle. Enfin, l’œil directeur de chaque participant a ´et´e identifi´e et sera pris en compte lors du traitement de donn´ees oculom´etriques en question.

2.2.3

Stimuli

Comme nous l’avons mentionn´e dans l’introduction de ce chapitre, nous nous int´eressons en particulier aux applications de vid´eo-conf´erence ou de conversation en g´en´eral. Les vid´eos de ces applications sont constitu´ees principalement d’un ensemble de personnes interagissant et prenant la parole de mani`ere spontan´ee. Cinq sc´enarios de conversation sont envisag´es :

— Le son provient de l’ext´erieur : narrateur.

— Une seule personne parle parmi plusieurs : un seul signal de parole. — Deux personnes parlent alternativement : deux signaux de parole. — Deux personnes parlent mais simultan´ement : deux signaux de parole.

— Plusieurs personnes (> 2) parlent en mˆeme temps : diff´erents signaux de parole.

Afin de r´ealiser de tels sc´enarios, et `a cause du manque de bases de vid´eos d´edi´ees aux applications de vid´eo-conf´erence, nous avons d´ecid´e de cr´eer une base de travail prenant en compte toutes les possibilit´es mentionn´ees ci-dessus. Les vid´eos sont enregistr´ees de telle sorte que la r´egion qui produit le son (la personne prenant la parole) change d’une vid´eo `a l’autre. Un cam´escope Sony HVR-VE1 ´equip´ee d’un microphone st´er´eophonique a ´et´e utilis´e `a cet effet (figure2.3). Les caract´eristiques techniques de cet appareil sont donn´ees dans le tableau 2.1.

2.2. Les visages parlants, objets audiovisuels attirants

Table 2.1 – Caract´eristiques techniques du cam´escope utilis´e.

Element Valeur

Ecran LCD couleur 2,7 pouces

Capteur CMOS 3 m´egapixels avec technologie EIP (Enhanced Imaging Processor)

Fr´equence CineFrame 25 images par seconde

R´esolution Full HDV

Viseur LCD de 0,54 pouce (252 000 points), noir et blanc/couleur

Entr´ees audio externes XLR (x2)

Prise de casque Mini-prise st´er´eo

Toutes les vid´eos ont ´et´e acquises au sein de notre laboratoire `a des endroits diff´erents (Bureaux de doctorants, salle psychovisuelle, caf´et´eria, etc.). Quatre personnes ont particip´e `a cette campagne d’enregistrement, chacune a donn´e son consentement de participer `a la cr´eation de cette base de vid´eos. Finalement, cinq cat´egories de vid´eos de haute d´efinition (Full HD 1080p), avec une fr´equence de 25 images par seconde, ont ´et´e cr´e´ees (tableau 2.2).

2.2.4

Proc´edure

L’exp´erience a ´et´e r´ealis´ee en utilisant le logiciel TobiiStudio, fourni avec l’oculom`etre. Ce logiciel regroupe toute une plate-forme permettant la pr´esentation des stimuli, l’enregis- trement des mouvements oculaires, la visualisation de ces enregistrements et l’analyse des donn´ees oculaires enregistr´ees. La proc´edure de cette exp´erience oculom´etrique est illustr´ee en figure 2.4.

Dans un premier temps, les stimuli ont ´et´e pr´esent´es sans audio. Une image grise avec un message ”Maintenant, ´ecoutez attentivement” a ´et´e affich´ee avant de pr´esenter les mˆemes sti- muli accompagn´es cette fois-ci de leur bande sonore originale. Chaque stimulus, avec ou sans le son, a une dur´ee totale de 57 secondes. L’image grise a une dur´ee d’environ 5 secondes. L’exp´erience est toujours pr´ec´ed´ee par une proc´edure de calibration pour chaque partici-

Table 2.2 – Description de la base de vid´eos construite pour les besoins de l’exp´erience 1.

Nom de la vid´eo Dur´ee (s) Contenu Visuel

OutsideTalk 10 des personnes discutent avec un son provenant de l’ext´erieur. SignTalk 11 Une personne explique quelque chose `a une autre personne.

AlterTalk 12 Deux personnes parlent de leurs villes natales.

SimulTalk 14 Deux personnes racontent leur exp´erience au labo.

AllTalk 11 Trois personnes comptent de 1 `a 10.

Figure 2.4 – Proc´edure de visualisation des stimuli dans l’exp´erience 1.

pant. Durant cet ´etalonnage, les participants sont appel´es `a regarder une mire avec 9 cibles r´eparties sur une grille 3×3 occupant la totalit´e de l’´ecran de visualisation. Il est demand´e aux participants d’´eviter les mouvements de tˆete de grande amplitude. L’eye-tracker utilis´e permet de mouvements de faible amplitude tant que les yeux sont d´etectables. Enfin, deux vid´eos, avec et sans audio, ont ´et´e utilis´ees comme s´equences de tests afin de familiariser les participants avec la proc´edure de tests oculom´etriques. Les donn´ees oculaires de ces tests ne sont pas prises en compte dans la phase d’analyse des r´esultats.

A l’issue de cette exp´erience, chaque vid´eo est visualis´ee par dix-sept participants dans les deux conditions : visuelle et audiovisuelle. Toutes les donn´ees li´ees aux mouvements oculaires (fixations, saccades, etc.) sont extraites chronologiquement dans un seul fichier (csv) grˆace au logiciel TobiiStudio.

2.2.5

Classification des donn´ees

Comme nous ne travaillons pas avec des stimuli 3D, les donn´ees oculom´etriques des deux yeux des participants ne sont pas n´ecessaires pour quantifier l’attention visuelle 2D [101]. Par cons´equent, les donn´ees issues d’un seul œil de chaque participant, notamment son œil directeur, sont analys´ees.

Les enregistrements oculaires sont fournis toutes les huit millisecondes (fr´equence de 120 Hz). De ce fait, nous poss´edons `a peu pr`es cinq ´echantillons par trame et par observateur

2.3. R´esultats et analyse

(une trame dure 40 ms `a 25fps). Trois types de donn´ees sont identifi´es :

Fixation : une fixation est l’´etat stationnaire des yeux pendant lequel la fov´ea explore la cible visuel. Elle est d´etect´ee d`es lors que la pupille est visible par l’oculom`etre. Sa dur´ee varie g´en´eralement en fonction du contenu et du contexte.

Saccade : ce sont des mouvements balistiques des yeux pendant lesquels l’observateur change la zone fix´ee avec une vitesse allant de 100 `a 700 degr´es par seconde (dps).

Clignement ou Blink : ce sont des mouvements oculaires consid´er´es comme saccades avec une occlusion partielle ou totale de la pupille.

2.3

R´esultats et analyse

Les donn´ees enregistr´ees par l’oculom`etre sont divis´ees en deux ensembles : les donn´ees dans des conditions visuelles et donn´ees dans des conditions audiovisuelles. Les donn´ees sont trait´ees s´epar´ement tout en appliquant les mˆemes proc´edures. Dans ce qui suit, nous pr´esentons les r´esultats de comparaison de ces deux ensembles de r´esultats. Seules les donn´ees de fixation sont prises en compte pour l’analyse des r´esultats.

2.3.1

Attention visuelle guid´ee par les visages parlants

Nous avons mentionn´e dans la section2.2l’aspect s´emantique important des visages dans les s´equences vid´eo. Ces derniers tendent `a attirer imm´ediatement le regard et capturer notre attention. Particuli`erement, quand un visage parle, notre attention est directement attir´ee par celui-ci [57]. Dans cette section, nous investiguons l’importance visuelle du visage parlant par rapport aux autres visages et objets dans la sc`ene visualis´ee.

La figure2.5 illustre la dur´ee moyenne des fixations des participants pour chaque contenu vid´eo de la base d’´etudes. Cette figure montre `a quel point les observateurs ont ´et´e attir´es davantage par les locuteurs que par les autres visages, lors de l’exploration de la sc`ene de conversation. Pour calculer cette dur´ee de fixation, nous avons s´electionn´e, grˆace au logi- ciel TobiiStudio, des r´egions d’int´erˆet dynamiques (ROI) correspondant aux emplacements des visages dans la vid´eo. Lorsque la position du regard d’un participant correspond `a une r´egions elle devient automatiquement active. La Dur´ee moyenne de fixations sur chacun de ces visages est ´egale `a la dur´ee d’activation de sa ROI correspondante.

La figure 2.5 (a) montre le pourcentage de fixation pour la vid´eo OutsideTalk, o`u le son provient d’un narrateur externe (commentateur sportif). Sur environ 70% de la dur´ee totale de la vid´eo, les participants ´etaient attir´es par les visages pr´esents dans cette vid´eo. Leurs fixations oculaires se trouvent sur leur ROI correspondante. Ceci vient confirmer les travaux de la litt´erature mentionnant l’importance de cet attracteur visuel (visage). N´eanmoins, l’au-

(a)

(b) (c)

(d) (e)

Figure 2.5 – Dur´ee moyenne des fixations des participants sur les visages parlants ou non parlants exprim´ee en pourcentage, dans le cas o`u (a) le son provient de l’ext´erieur, (b) un seul visage parlant, (c) deux locuteurs parlent de mani`ere alternative, (d) deux locuteurs parlent simultan´ement et (e) tous les visages parlent. Dans le cas (e), seulement trois visages sont pr´esents.

2.3. R´esultats et analyse

dio n’a pas eu vraiment d’influence significative sur le parcours oculaire des participants. Le pourcentage de fixations est relativement important dans le cas des visages 2 et 3. L’explica- tion peut ˆetre li´ee au biais centr´e, caract´eristique de la vision humaine.

La figure 2.5 (b) illustre le pourcentage de fixations des participants pour la s´equence SinglTalk, o`u une seule personne (visage 1) adresse la parole de mani`ere directe `a une autre personne (visage 3). Nous pouvons remarquer que lorsque la vid´eo est pr´esent´ee sans audio, les observateurs sont attir´es par le visage 1 en raison de ces mouvements labiaux avec 34% des fixations. L’ajout de l’audio augmente de mani`ere significative la dur´ee de fixation sur ce visage avec un taux de pourcentage qui approche le double (60%). Nous pouvons aussi constater que, dans les conditions audiovisuelles, les participants sont moins attir´es par les visages des auditeurs de la vid´eo (`a l’exception du visage 3).

La s´equence AlterTalk o`u deux personnes parlent alternativement est repr´esent´ee en fi- gure 2.5 (c). Le visage 1 parle pendant environ 3 secondes puis directement le visage 3 prend

Documents relatifs