• Aucun résultat trouvé

Chapitre 5 Modèle de saillance audiovisuelle pour conversations 113

5.4 Evaluation du modèle

5.4.1 Différents attributs, différentes fusions

Nous évaluons notre modèle en comparant les régions prédites comme étant

saillantes avec les régions effectivement regardées par les participants de

5.4. Evaluation du modèle 129 1 2 3 4 5 2 4 6 8 Ev aluation Exp é 3 (a)

Données Expé 2 Données Expé 3

2,4 2,6 2,8 3 3,2 3,4 3,6 Ev aluation Exp é 2 (b) DKL NSS

Figure 5.11 – (a)NSS et DKL des différents modèles décrits dans cette section, appli-qués aux vidéos de l’expérience 3. Les poids des attributs ont été estimés par Lasso à partir des positions oculaires enregistrées dans la condition AudioVisuelle de l’expérience 3. (b)NSS et DKL du modèle 1 appliqué aux vidéos de la catégorie Visages de l’expérience 2. Les poids des attributs ont été estimés par Lasso à partir des positions oculaires enregis-trées dans la condition AudioVisuelle de l’expérience 3 (droite) ainsi que dans la condition Originale de l’expérience 2 (gauche). Pour rappel, un modèle est d’autant meilleur que le NSS est grand et la DKL petite. Les barres d’erreurs correspondent aux erreurs standards.

Normalized Scanpath Saliency (NSS, équation 1.4). Figure 5.11a, nous comparons les résultats calculés à partir des positions oculaires enregistrées dans la condition AudioVisuelle pour les modèles utilisant les attributs et modes de fusion suivants : 1. fusion Lasso de saillance statique, saillance dynamique, biais de centralité,

visages des locuteurs et des auditeurs (Figures 5.10c et 5.10d)

2. fusion Lasso de saillance statique, saillance dynamique, biais de centralité, visages et corps des locuteurs et des auditeurs (Figures 5.10a et 5.10b) 3. fusion Lasso de saillance statique, saillance dynamique, biais de centralité,

visages poids égaux et constants (Figure 5.10c)

4. simple moyenne de saillance statique, saillance dynamique, biais de centralité et visages.

5. modèle bas niveau (uniquement saillance statique et dynamique) et fusion

proposés dans [Maratet al. 2009].

Pour ne pas évaluer le modèle avec les mêmes positions oculaires que celles qui

nous ont servi à le construire, nous utilisons la méthode du leave-one-out. Plus

précisément, les poids des attributs utilisés pour construire le modèle d’une vidéo donnée sont issus de la moyenne des poids de toutes les vidéos, sauf de celle traitée. Nous observons que NSS et DKL donne des résultats concordants : lorsque le NSS d’un modèle est grand, sa DKL est petite.

Nous avons mené deux ANOVA à un facteur intra (les différents modèles) sur les

valeurs moyennes de NSS et de DKL. Il existe bien un effet principal des modèles

sur les NSS (F(4,56) = 453.7, p < .001), ainsi que sur les DKL (F(4,56) = 78.9,

p < .001). Le meilleur modèle est sans conteste le premier, qui distingue les visages des locuteurs de ceux des auditeurs (son NSS est le plus grand et sa DKL la plus

petite, tous les p < .001).

Contrairement à ce que nous attendions, le second modèle, qui prend en plus en compte le corps des intervenants (torse + mains), présente de bien moins bonnes performances, comparables en NSS à celles du modèle donnant un poids égal et

constant à tous les visages (p=.20), et en DKL à celles du modèle prenant

simple-ment la moyenne des attributs (p = 1). Ceci est sans doute dû à la grande surface

des corps comparée à leur attractivité. Il pourrait être intéressant de quantifier plus

précisément la contribution de plus petites parties du corps, comme les mains ou le torse.

Ne pas distinguer le visage des auditeurs de celui des locuteurs (modèles 3 et 4) dégrade également les prédictions du modèle, et ne pas prendre du tout en compte les visages (modèle 5) conduit, comme nous l’attendions, aux plus mauvaises

prédic-tions. A part pour la DKL des modèles 3 et 5 (p=.15), toutes les autres différences

présentées Figure 5.11a sont significatives (tous les p < .001).

5.4.2 Généralisabilité des poids estimés

Nous regardons à quel point les poids estimés par NSS grâce aux positions oculaires enregistrées sur une base de vidéos de conversation donnée peuvent se généraliser à une autre base de vidéos. Nous avons appliqué le modèle 1 aux vidéos de la catégorie Visages de l’expérience 2 (scènes de conversation dans un environnement complexe et dynamique, voir Annexe B). A gauche de la Figure

5.11b sont affichées les valeurs de NSS et DKL calculées avec les poids des attributs

estimés par NSS à partir des positions oculaires enregistrées dans la condition Originale de l’expérience 2 (poids consignés Figure 4.8). A droite de la Figure

5.11b sont affichées les valeurs de NSS et DKL calculés avec les poids des attributs

estimés par Lasso à partir des positions oculaires enregistrées dans la condition AudioVisuelle de l’expérience 3 (poids consignés Figure 5.10).

Nous constatons que comme pour l’algorithme deSpeaker Diarization, notre modèle

est moins performant sur les vidéos de l’expérience 2, ce qui est logique au vu de leur caractère plus bruité (personnes souvent en mouvement dans un environnement complexe). Nous constatons également que les performances des modèles bâtis à partir des poids estimés grâce aux positions oculaires des expériences 2 et 3 sont comparables. Ceci indique la bonne généralisabilité de la fusion Lasso présentée dans ce chapitre.

5.4. Evaluation du modèle 131

permettant une quantification précise et réplicable des différents paramètres

susceptibles d’attirer l’attention. Nous avons analysé en détail les mouvements oculaires de 40 participants les ayant regardées avec et sans leurs bandes-son

originales. Enfin, nous nous sommes servis de ces résultats pour construire un

modèle d’attention visuelle appliqué aux scènes de conversation.

Les modèles de saillance classiques ne prennent pas en compte la dimension sociale de l’exploration visuelle, et ont de fait de très mauvaises performances pour ce type

de scène. Afin de les améliorer, certains auteurs ont proposé de détecter les visages

et d’en augmenter la saillance. Ici, nous sommes allés plus loin en distinguant le

visage des locuteurs de celui des auditeurs au moyen d’un algorithme de speaker

diarization. Nous nous servons des poids calculés par modélisation statistique (NSS)

afin de résoudre le problème de fusion des différentes cartes d’attributs.

Nous montrons que ceci permet de considérablement améliorer la prédiction des zones saillantes dans des scènes de conversation. De plus, cette méthode est robuste, car les poids estimés pour une base de vidéos de conversation donnée parviennent