Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle

(1)

THÈSE

Pour l'obtention du grade de

DOCTEUR DE L'UNIVERSITÉ DE POITIERS UFR des sciences fondamentales et appliquées

XLIM-SIC

(Diplôme National - Arrêté du 7 août 2006)

École doctorale : Sciences et ingénierie pour l'information, mathématiques - S2IM (Poitiers) Secteur de recherche : Traitement du signal et des images

Présentée par :

Naty Sidaty

Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle

Directeur(s) de Thèse :

Abdelhakim Saadane, Mohamed-Chaker Larabi Soutenue le 11 décembre 2015 devant le jury Jury :

Président Christine Fernandez-Maloigne Professeur, Université de Poitiers

Rapporteur Christophe Charrier Maître de conférences, GREyC, Université de Caen Rapporteur Frédéric Morain-Nicolier Professeur, CReSTIC, Université de Reims

Membre Abdelhakim Saadane Maître de conférences, Université de Nantes

Membre Mohamed-Chaker Larabi Maître de conférences, XLIM, Université de Poitiers

Membre Ahmed Bouridane Professor, Newcastle-upon-tyne, Northumbria University, UK

Pour citer cette thèse :

Naty Sidaty. Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle [En ligne]. Thèse Traitement du signal et des images. Poitiers : Université de Poitiers, 2015. Disponible sur Internet <http://theses.univ-poitiers.fr>

(2)

DOCTEUR DE L’UNIVERSITÉ DE POITIERS Faculté des Sciences Fondamentales et Appliquées

Diplôme National - Arrêté du 7 août 2006

Ecole Doctorale : Sciences et Ing´enierie pour l’Information, Math´ematiques - S2IM Secteur de Recherche : Traitement du Signal et des Images

Pr´esent´ee par :

Naty SIDATY

Exploitation de la multimodalit´

e pour l’analyse de la saillance et

l’´

evaluation de la qualit´

e audiovisuelle

Directeurs de Th`ese : Mohamed-Chaker Larabi

Abdelhakim Saadane Soutenue le 11 D´ecembre 2015 Devant la Commission d’Examen

JURY

Frédéric Morain-Nicolier, Professeur, Université de Reims Champagne-Ardenne . . Rapporteur Christophe Charrier, Maˆıtre de Conférences HDR, Université de Caen Normandie .Rapporteur Ahmed Bouridane, Professeur, Northumbria University at New Castle, UK . . . Examinateur Christine Fernandez-Maloigne, Professeure, Université de Poitiers . . . Examinateur Mohamed-Chaker Larabi, Maˆıtre de Conférences, Université de Poitiers . . . Directeur de Thèse Abdelhakim Saadane, Maˆıtre de Conférences HDR, Université de Nantes . . Directeur de Thèse

(3)

(4)

(5)

(6)

En rédigeant cette dernière page du manuscrit, je suis obligé de reconnaˆıtre que ce tra-vail de thèse n’aurait pas été aussi fructueux sans l’aide de plusieurs personnes. Je tiens à remercier tous ceux qui ont contribué, de près ou de loin, à sa réalisation.

Je tiens tout d’abord à remercier Frédéric Morain-Nicolier, Professeur à l’Université de Reims Champagne-Ardenne et Christophe Charrier, Maˆıtre de Conférences HDR à l’Univer-sité de Caen Normandie, d’avoir accepté d’être les rapporteurs de cette thèse. Leurs com-mentaires m’ont été très utiles pour la préparation de la soutenance et de la version finale du manuscrit.

Je remercie également Ahmed Bouridane, Professeur à Northumbria University at New-castle (UK) pour sa participation à mon jury en tant qu’examinateur et Christine Fernandez-Maloigne, Professeure à l’Université de Poitiers, pour avoir assumé le rôle de présidente du jury.

Un très grand merci à mon directeur de thèse Abdelhakim Saadane, Maˆıtre de conférences HDR à l’École Polytechnique de l’Université de Nantes, d’avoir accepté de diriger ma thèse. Je le remercie pour sa rigueur scientifique, ses nombreux conseils et ses réunions de travail prolongées.

Je tiens à exprimer, en particulier, toute ma gratitude à Chaker Larabi, Maˆıtre de conférences à l’Université de Poitiers, qui m’a permis de travailler sur un sujet aussi intéressant et qui m’a guidé pendant ces années de thèse par sa qualité remarquable d’encadrement mais aussi et surtout pour ses valeurs humaines, son ouverture d’esprit, sa bonne humeur, sa gen-tillesse et sa présence dynamique qui ont su amener une ambiance particulière au 4ème_étage.

Je remercie toutes les personnes avec qui j’ai eu la chance de partager mon bureau, Rafik, pour ses remarques et conseils qui m’ont simplifié la thèse, mon cher ami Riadh pour les heures passées ensemble et nos délires autour du fameux (Cmake), et Michaël pour sa bonne humeur. Un grand merci aussi à mes compagnons de thèse, et en particulier à Badereddine et Nadjib, pour nos nombreuses discussions passionnantes et tous les bons moments passés ensemble.

Enfin, un très grand merci à ma famille pour son soutien durant toutes ces années d’étude, et particulièrement à mon père Sidaty qui m’a toujours soutenu, dans tous les sens du terme, quels que soient les choix entrepris.

(7)

Table des mati`

eres

Table des mati`eres iii

Table des tableaux v

Table des figures viii

Introduction g´en´erale 1

1. Contexte et objectifs . . . 1

2. Principales contributions . . . 2

3. Organisation du manuscrit . . . 3

I

Saillance Audiovisuelle

5

1 L’attention visuelle et sa mod´elisation 7 1.1 Introduction . . . 7

1.2 Syst`emes visuel et auditif humains . . . 8

1.2.1 Syst`eme visuel humain . . . 8

1.2.2 Syst`eme auditif humain . . . 11

1.3 Attention/Saillance visuelle . . . 12

1.3.1 Attention ou saillance . . . 13

1.3.2 Attention et mouvements oculaires . . . 13

1.3.3 Applications . . . 13

1.4 Cat´egorisations d’attention visuelle . . . 14

1.4.1 Attention exog`ene ou endog`ene . . . 14

1.4.2 Attention ouverte ou couverte . . . 14

1.4.3 Attention spatiale ou spatio-temporelle . . . 14

(8)

1.5 Mod`eles de pr´ediction de la saillance visuelle . . . 16

1.5.1 Mod`eles cognitifs . . . 16

1.5.2 Mod`eles d’analyse spectrale . . . 20

1.5.3 Mod`eles graphiques . . . 22

1.6 Saillance auditive . . . 23

1.6.1 Mod`ele de Kayser et al. . . 24

1.6.2 Mod`ele de Tsuchida et al. . . 24

1.7 El l’audiovisuel ? . . . 26

1.8 Conclusion . . . 28

2 Influence de l’audio sur l’attention visuelle 30 2.1 Introduction . . . 30

2.2 Les visages parlants, objets audiovisuels attirants . . . 31

2.2.1 Appareillages . . . 33

2.2.2 Participants . . . 33

2.2.3 Stimuli . . . 34

2.2.4 Proc´edure . . . 35

2.2.5 Classification des donn´ees . . . 36

2.3 R´esultats et analyse. . . 37

2.3.1 Attention visuelle guid´ee par les visages parlants . . . 37

2.3.2 Variabilit´e des positions oculaires . . . 39

2.3.3 Analyse statistique . . . 44

3 Vers une modélisation de l’attention audiovisuelle 47 3.1 Introduction . . . 47 3.2 Modèle proposé . . . 48 3.2.1 Voie statique . . . 48 3.2.2 Voie dynamique . . . 52 3.2.3 Voie auditive . . . 53 3.2.4 Stratégies de fusion . . . 59

3.3 Traitement des r´esultats d’eye-tracking . . . 60

3.3.1 Cr´eation d’une carte de fixation par image . . . 61

3.3.2 Cr´eation d’une densit´e de saillance . . . 61

3.4 M´etriques quantitatives de similarit´e . . . 63

3.4.1 Coefficient de Corr´elation : CC . . . 63

3.4.2 Aire sous la courbe ROC : AUC . . . 63

3.4.3 Divergence de Kullback-Leibler : KLD . . . 64

3.4.4 Normalized Scanpath Saliency : NSS . . . 65

3.5 Evaluation des performances des mod`eles statiques . . . 65

3.6 Performance globale du mod`ele audiovisuel . . . 67

(9)

Table des mati`eres

II

Qualit´

e Audiovisuelle

74

4 Evaluation de la qualit´e visuelle 76

4.1 Introduction . . . 76

4.2 De la production du signal à la qualité d’expérience (QoE) . . . 77

4.3 Evaluation subjective de la qualit´e´ . . . 78

4.3.1 Perception des d´egradations et qualit´e visuelle . . . 79

4.3.2 Organisation des tests subjectifs . . . 80

4.3.3 Méthodologie d’évaluation subjective de la qualité . . . 81

4.3.4 Les recommandations de l’UIT . . . 86

4.3.5 Les bases des donn´ees . . . 86

4.4 Evaluation objective de la qualit´e . . . 87

4.4.1 Cat´egorisations des m´ethodes objectives . . . 87

4.4.2 M´etriques objectives de qualit´e . . . 89

4.4.3 Evaluation des performances des m´etriques de qualit´e´ . . . 92

4.5 Et la qualit´e audiovisuelle ? . . . 94

5 Evaluation subjective multimodale et multi-supports de la qualit´e 97 5.1 Introduction . . . 97

5.2 Effet de l’audio sur la qualit´e visuelle per¸cue . . . 98

5.2.1 Environnement des tests . . . 98

5.2.2 M´ethodologie d’´evaluation . . . 99

5.2.3 Traitement des donn´ees subjectives . . . 100

5.2.4 Effet de l’audio sur la qualit´e globale . . . 102

5.2.5 Analyse statistique . . . 102

5.3 Effets des différents paramètres sur la qualité audiovisuelle . . . 106

5.3.1 Environnement global de l’exp´erience . . . 108

5.3.2 Description de la base d’´etude . . . 109

5.3.3 Organisation et proc´edure d’´evaluation . . . 111

5.3.4 Influence de la r´esolution sur la qualit´e visuelle . . . 113

5.3.5 Influence du dispositif d’affichage sur la qualit´e globale . . . 113

5.3.6 Influence de la qualit´e de l’audio sur la qualit´e globale . . . 115

Conclusion & perspectives 120

Bibliographie 124

(10)

2.1 Caractéristiques techniques du caméscope utilisé. . . 35 2.2 Description de la base de vidéos construite pour les besoins de l’expérience 1. 36 2.3 ANOVA à un facteur sur les valeurs de la dispersion données en figure 2.8. . 45 3.1 Précision de la méthode sur notre base de vidéos . . . 57 3.2 Comparaison entre deux ensembles de cartes de densité de saillance dans les

conditions visuelle et audiovisuelle. Pour une grande similarité : CC _{→ ±1,} N SS → +∞, KLD → 0. . . 66 3.3 Mesures de performances des modèles statiques en utilisant la vérité de terrain

“Sans Audio”. . . 68 3.4 Mesures de performances des modèles statiques en utilisant la vérité de terrain

“Avec Audio”. . . 68 3.5 Mesures de performance des modèles de saillance spatio-temporelle sur la vérité

de terrain “sans audio” en utilisant la séquence OutsideTalk. . . 69 3.6 Mesures de performance des modèles de saillance spatio-temporelle sur la vérité

de terrain “sans audio” en utilisant la séquence SinglTalk. . . 69 3.7 Mesures de performance des modèles de saillance spatio-temporelle sur la vérité

de terrain “sans audio” en utilisant la séquence AlterTalk.. . . 69 3.8 Mesures de performance des modèles de saillance spatio-temporelle sur la vérité

de terrain “sans audio” en utilisant la s´equence SimulTalk. . . 70 3.9 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la vérité de terrain “sans audio” pour la séquence AllTalk. . . 70 3.10 Mesures de performance des modèles de saillance spatio-temporelle en utilisant

la vérité de terrain “avec audio” en utilisant la séquence OutsideTalk. . . 70 3.11 Mesures de performance des modèles de saillance spatio-temporelle en utilisant

la vérité de terrain “avec audio” pour la séquence SinglTalk. . . 71 3.12 Mesures de performance des modèles de saillance spatio-temporelle en utilisanr

la vérité de terrain “avec audio” pour la séquence AlterTalk. . . 71 3.13 Mesures de performance des modèles de saillance spatio-temporelle en utilisant

la vérité de terrain “avec audio” pour la séquence SimulTalk. . . 71 3.14 Mesures de performance des modèles de saillance spatio-temporelle en utilisant

la vérité de terrain “avec audio” pour la séquence AllTalk. . . 72 3.15 Mesures de performance du modèle audiovisuel proposé, avec l’approche d’Itti

comme voie statique. . . 73 3.16 Mesures de performance du mod`ele audiovisuel propos´e, avec l’approche de

(11)

Liste des tableaux

3.17 Mesures de performance du modèle audiovisuel proposé, avec l’approche de Tavakoli comme voie statique. . . 73 4.1 Distorsions spatiales et temporelles de la qualité vidéo. . . 79 4.2 Conditions de visualisation recommandées par l’UIT (issues du rapport ITU-R

BT.710). . . 81 4.3 Principales recommandations de l’UIT relatives aux tests subjectifs d’´evaluation

de la qualité (ESQ : Évaluation subjective de la qualité). . . 86 5.1 Caractéristiques techniques du dispositif d’affichage utilisé dans l’expérience 2. 99 5.2 Paramètres de quantification (QP) utilisés pour générer les séquences vidéo

utilisées dans cette expérience. . . 100 5.3 Exemple d’échelle de notation utilisée dans notre expérience. . . 100 5.4 Analyse de variance ANOVA à trois facteurs sur l’ensemble des données de

l’expérience. . . 106 5.5 Description de la base de vidéos utilisée pour l’expérience 3. . . 110 5.6 Analyse de variance multivariée MANOVA sur l’ensemble des données de

(12)

1.1 Sch´ema global du syst`eme visuel humain [2]. . . 9

1.2 Diff´erentes couches du syst`eme visuel humain [3] . . . 10

1.3 Fonction de sensibilit´e au contraste normalis´ee pour les voies de chrominance et de luminance (Image extraite de [9]). . . 10

1.4 Sch´ema du syst`eme auditif humain [4]. . . 11

1.5 Mouvements des yeux lors d’une observation libre d’une sc`ene selon Yarbus “attention ouverte” (Image extraite de [28]). . . 15

1.6 Mouvements oculaires lors d’une observation d’une scène avec différentes tâches (questions) de 3 minutes chacune. Image extraite de [74] . . . 15

1.7 Architecture du mod`ele de Laurent Itti (Image extraite de [11]). . . 17

1.8 Mod`ele de saillance spatio-temporel de Le Meur et al.[18]. . . 19

1.9 Mod`ele de saillance spatio-temporel de Marat et al. [19]. . . 21

1.10 Architecture du mod`ele d’Achanta et al. [23] . . . 22

1.11 (A) Architecture globale du mod`ele de Kayser et al. [35], (B) Spectogramme des bulles d’eau dans un environnement bruit´e et sa carte de saillance corres-pondante. Image extraite de [35] . . . 25

1.12 Architecture du mod`ele de Tsuchida et al. [36] . . . 26

1.13 Architecture du mod`ele audiovisuel de Ruesch et al. [44]. . . 28

2.1 Les fixations des participants pour différents scénarii mis en œuvre dans [57]. 32 2.2 Appareillage utilisé dans l’expérience 1 : (a) connexion entre l’oculomètre et l’écran de visualisation, (b) conditions de visualisation des stimuli. Images extraites du manuel d’utilisation de Tobii-TX120, Version 3.2. . . 34

2.3 Caméscope utilisé pour l’acquisition des vidéos de tests. . . 35

2.4 Proc´edure de visualisation des stimuli dans l’exp´erience 1. . . 36

2.5 Durée moyenne des fixations des participants sur les visages parlants ou non parlants exprimée en pourcentage, dans le cas où (a) le son provient de l’extérieur, (b) un seul visage parlant, (c) deux locuteurs parlent de manière alternative, (d) deux locuteurs parlent simultanément et (e) tous les visages parlent. Dans le cas (e), seulement trois visages sont présents. . . 38

2.6 Carte de chaleur (HeatMap) des fixations des participants pour (a) la trame 99 (SinglTalk ) et (b) la trame 167 ( AlterTalk ). . . 40

(13)

Table des figures

2.8 Valeurs moyennes de la dispersion (et les écart-types) entre les positions ocu-laires des participants intra et inter conditions (visuelle et audiovisuelle) pour les séquences vidéo (a) OutsideTalk, (b) SinglTalk, (c) AlterTalk, (d) SimulTalk

et (e) AllTalk. . . 42

2.9 Evolution temporelle des dispersions des positions oculaires entre participants pour l’ensemble des séquences vidéo de l’expérience : (a) OutsideTalk, (b) SinglTalk, (c) AlterTalk, (d) SimulTalk et (e) AllTalk. . . 43

3.1 Architecture du mod`ele de saillance audiovisuelle. . . 49

3.2 Exemple de résultats des modèles statiques sélectionnés sur deux séquences AlterTalk (en haut) et SinglTalk (en bas), respectivement, de notre base de données. De haut en bas et de gauche à droite : l’image originale, les cartes de saillance obtenues par les modèles d’Achanta et al.[23], Zhang et al.[24], Harel et al.[16], Itti et al.[11], Vikram et al.[75], Tavakoli et al.[76], Bruce et al.[20] et Nauge et al.[74]. . . 51

3.3 L’architecture globale de la voie dynamique du mod`ele. . . 52

3.4 Exemple d’une carte de saillance temporelle de la séquence SinglTalk. Les régions claires correspondent aux régions en mouvement de la vidéo (La deuxième personne à partir de la gauche est en train de parler tandis que la première personne à partir de la droite est en train de jouer avec l’orange sur la table. 53 3.5 Exemple d’une image de la séquence SimullTalk où les visages sont détectés grâce à la méthode [83]. . . 55

3.6 Calcul des scores de synchronisation dans la m´ethode [85] . . . 56

3.7 Cartes de saillance auditive pour une trame de la séquence SinglTalk (en haut) où la deuxième personne à partir de la gauche est en train de parler (la qua-trième personne n’a pas été détectée) et une autre trame de la séquence Si-mulTalk (en bas) où la première et la troisième personne à partir de la gauche parlent simultanément . . . 58

3.8 Exemple d’une image originale de la séquence SinglTalk (a) avec ses deux cartes de densité de saillance dans les conditions visuelle (b) et audiovisuelle (c). 62 3.9 La mesure AUC à partir de la courbe ROC. . . 64

4.1 Chaˆıne de transmission du signal audiovisuel de sa production à la qualité d’expérience, (Image extraite de [99]). . . 78

4.2 Facteurs de dégradation de la qualité vidéo dans les services d’IPTV, (Image extraite de [102]). . . 80

4.3 Les deux ´echelles comparatives normalis´ees par l’UIT. . . 82

4.4 Pr´esentation des stimuli dans les m´ethodes comparatives. . . 83

4.5 Echelles de notation utilisées pour la méthode ACR (a) et la méthode SSCSQ (b). . . 83

4.6 Présentation des stimuli dans les méthodes à simple stimulus. . . 84

4.7 Présentation des stimuli dans les méthodes à double stimulus. . . 84

4.8 Echelle utilis´ee dans la m´ethode DSCQS. . . 85

(14)

4.10 Trois catégories de métriques de qualité vidéo (Image extraite de [102]). . . . 88

4.11 Illustration de la corr´elation de Pearson (Image extraite de [74]) . . . 93

4.12 Exemple des mesure de CSpearman, RMSE et RO (Image extraite de [74]). . . 94

5.1 Procédure d’évaluation de la qualité dans l’expérience 2. . . 101

5.2 Distribution des scores de qualit´e dans les deux conditions de l’exp´erience, visuelles (a) et audiovisuelles (b). . . 102

5.3 Valeurs MOS et les intervalles de confiance associés obtenus dans les deux conditions visuelles et audiovisuelles de l’expérience, pour toutes les séquences vidéo. . . 103

5.4 Influence de l’audio sur le jugement visuel de l’observateur pour les cinq gammes de qualit´e (a) M´ediocre, (b) Mauvaise, (c) Assez Bonne, (d) Bonne et (e) Excellente. . . 104

5.5 Scores subjectifs avec audio versus sans audio pour les vid´eos du test. . . 105

5.6 Images extraites de la base d’´etude. . . 110

5.7 Interfaces des applications utilis´ees, (a) Iphone et Ipad (b) ´ecran TV. . . 111

5.8 Scores de qualité pour les trois dispositifs d’affichage (a) iPad, (b) iPhone (en utilisant les cinq résolutions) et (c) TV (en utilisant trois résolutions) . . . . 114

5.9 Comparaison entre les scores subjectifs des différents dispositifs accompagnés des intervalles de confiance à 95% et de la régression linéaire. . . 116

5.10 Influence de la qualité audio sur la qualité multimodale tous contenus confon-dus et régression logarithmique. . . 117

(15)

Introduction g´

en´

erale

Contexte et objectifs

Malgré les contraintes d’hétérogénéités des systèmes, le trafic des données sur Internet ne cesse d’augmenter depuis le débit du 21e _{siècle. Selon le Visual Networking Index (VNI)} de CISCO, le trafic IP mondial annuel dépassera le seuil d’un zettaoctet (1 milliard de te-raoctets) en 2016, et le seuil de deux zettaoctets en 2019. Le nombre d’appareils connectés à des réseaux IP sera, selon le VNI, trois fois plus supérieur que la population mondiale en 2019. Il y aura donc en moyenne trois appareils connectés par habitant en 2019, contre près de deux appareils par habitant en 2014. Ainsi, le trafic IP par habitant atteindra 22 Go en 2019, en hausse de 8 Go par habitant par rapport à 2014. Le trafic vidéo, en particu-lier, représente à peu près les deux tiers du trafic Internet global. En France par exemple, ce trafic atteindra 80% du trafic total d’ici 2018, avec près de 445 millions d’appareils connectés.

Dans la vie de tous les jours, nous souhaitons acquérir, visualiser et partager de plus en plus de vidéos, partout, à tout moment et surtout avec tous types d’appareils (Smartphones, Tablettes, PC, etc.), avec la meilleure qualité audiovisuelle possible. L’être humain est donc confronté à une quantité d’informations gigantesque à travers diverses applications et services.

Afin de traiter le flux exorbitant d’informations que re¸coit notre cerveau à travers le système visuel et auditif, celui-ci possède un mécanisme attentionnel permettant de sélectionner les informations les plus pertinentes, autrement dit, les régions les plus importantes de l’envi-ronnement. Ce mécanisme sélectif est influencé non seulement par les informations visuelles mais aussi par les informations auditives ainsi que les interactions audiovisuelles. Du côté de la recherche, la modélisation de l’attention visuelle a fait l’objet de nombreuses études et différents modèles de saillance visuelle on été proposés. Cependant, la modélisation de l’attention auditive et plus particulièrement l’influence de l’audio sur l’attention visuelle a été très peu étudiée, voire négligée. Les travaux réalisés dans cette thèse sont divisés en deux parties, à savoir l’attention audiovisuelle et la qualité multimodale, deux parties différentes mais intimement liées.

Ainsi, au cours des travaux réalisés dans cette thèse, nous cherchons tout d’abord à étudier l’influence de l’audio sur les mouvements oculaires des observateurs humains, et donc sur leur attention visuelle, lors de l’exploration libre des vidéos. La prédiction des zones ”saillantes” de la vidéo, qui attirent davantage l’attention visuelle de ces observateurs, sera par la suite

(16)

étudiée. Cette prédiction est basée non seulement sur les indices visuels de la vidéo mais aussi sur le contenu auditif de celle-ci.

La qualité audiovisuelle, telle qu’elle est per¸cue par l’utilisateur final, fait l’objet d’une grande partie de ce travail. En effet, le jugement humain de la qualité est influencé à la fois par la netteté du contenu visuel et la clarté du signal auditif associé. Ainsi, nous cherchons à quantifier l’influence de la qualité du signal audio sur la qualité globale du contenu audiovi-suel, plus particulièrement pour des applications de vidéo-conférence et de streaming vidéo où différents appareils de visualisation peuvent être utilisés.

Principales contributions

Afin d’étudier l’influence de l’information auditive sur l’attention visuelle d’un côté et sur le jugement humain de l’autre, nous avons réalisé une série de tests psychovisuels dont l’objectif est de mieux comprendre notre perception bi-modale des signaux multimédia (au-dio et vidéo). Étant particulièrement intéressé par les applications de vidéo-conférence où différents participants peuvent échanger et au vu du manque de bases de données audiovi-suelles, en général, et en particulier pour ces applications, nous avons été amenés à créer une base de données audiovisuelle où différentes personnes ont reproduit des scénarios de vidéo-conférence. Cette base de données, créée au sein de notre laboratoire, a été nommée SICMedia

Nous avons tout d’abord réalisé une expérimentation oculométrique afin de quantifier l’influence du son sur les mouvements oculaires des observateurs. Les vidéos de la base de données SICMedia ont été présentées aux observateurs avec et sans leur bande-son originale. Cette première expérimentation nous a permis de quantifier, d’une part, l’importance des visages et en particulier des visages parlants dans une séquence vidéo et, d’autre part, l’in-fluence du signal sonore sur les parcours visuels des observateurs, et donc sur leur attention visuelle. Sur la base des résultats de cette expérience, nous avons proposé un modèle de saillance audiovisuelle permettant de prédire les zones de la vidéo les plus pertinentes pour un observateur humain. Les mouvements oculaires des participants dans cette expérience ont été enregistrés grâce à un oculomètre et servent de vérité de terrain lors de la comparaison des régions prédites par le modèle proposé et celles réellement visualisées ou fixées par les participants de cette expérience.

Dans la deuxième partie de ce travail, nous avons réalisé un ensemble de tests psychovi-suels pour évaluer la qualité multimodale (audio et vidéo) et multisupports. Tout d’abord, nous avons étudié l’influence de la présence de l’audio sur le jugement de la qualité. A cette fin, des vidéos dégradées de la base SICMedia ont été présentées aux observateurs en leur demandant de juger leur qualité. Dans un premier temps, nous avons étudié l’influence d’un audio inaltéré sur le jugement de la qualité visuelle dans un contexte de vidéo-conférence. Les résultats ne montrent pas d’influence notable de la présence de l’audio non altéré sur le juge-ment humain. En effet, étant donné que la qualité de cette modalité (audio) est quasi parfaite,

(17)

Introduction g´en´erale

celle-ci n’a pas eu d’influence positive ou négative sur une qualité visuelle dégradée à différents niveaux. Dans un second temps, nous avons poussé nos recherches en réalisant une deuxième expérimentation plus générale. Les signaux auditifs et visuels sont cette fois-ci altérés et in-versement combinés (Une meilleure qualité audio est combinée avec une mauvaise qualité vidéo et inversement). Différents dispositifs d’affichage (Smartphones, Tablettes, écran TV) et plusieurs résolutions d’images ont été utilisés. Les vidéos “stimuli” dans cette troisième expérience ont été acquises dans un contexte de streaming. Une base des données, nommée StreamApp, composée de différentes variétés de vidéos a été créée à cette fin. Les résultats ont montré que la qualité de l’audio joue un rôle primordial dans l’évaluation globale de la qualité audiovisuelle. En effet, une mauvaise qualité audio peut dégrader, d’une fa¸con significative, la qualité audiovisuelle même si le contenu visuel associée est de très bonne qualité.

Organisation du manuscrit

Ce présent document est scindé en deux parties. La première, intitulée “saillance audio-visuelle”, est dédiée à l’étude, l’analyse et la modélisation de la saillance audiovisuelle. La seconde partie, intitulée “qualité audiovisuelle”, est consacrée à l’évaluation de la qualité multimodale et multisupports. Ainsi, le manuscrit est organisé en cinq chapitres et tente de faire une analyse de la saillance et de la qualité audiovisuelle :

— Dans le premier chapitre, nous faisons un état de l’art des caractéristiques et des perfor-mances des principaux modèles d’attention visuelle présents dans la littérature. Nous commen¸cons par une introduction des systèmes visuel et auditif humain ainsi que l’at-tention visuelle et auditive qui leur est associée. Ensuite, nous décrivons les différents facteurs de catégorisation ainsi que les principales classes des modèles de saillance vi-suelle. Enfin, nous mettons l’accent sur les besoins de modèles de saillance audiovisuelle permettant de prendre en compte à la fois les informations visuelles et auditives.

— Le deuxième chapitre traite de l’influence de l’audio sur les mouvements oculaires hu-mains. Il permet d’investiguer d’un côté l’influence de l’audio sur l’attention visuelle et de l’autre, l’importance des visages et en particulier des visages parlants dans la séquence vidéo. Cette influence a été étudiée à travers une première expérimentation oculométrique lors de laquelle des observateurs ont été appelés à regarder librement des séquences vidéo dans deux conditions : visuelle (sans son) et audiovisuelle (avec son). L’analyse est effectuée en comparant les positions oculaires de ces observateurs dans les deux conditions de l’expérience.

— Le troisième chapitre est dédié quant à lui à la modélisation de l’attention audiovi-suelle. Il propose un modèle de saillance audiovisuelle, pour les scènes de conversation ou de vidéo-conférence. Ce modèle prend en compte, outre l’aspect spatio-temporel, l’information sonore dans la séquence vidéo. Une voie auditive dédiée aux positions des locuteurs et des auditeurs dans la vidéo a été ajoutée au modèle à trois branches. Un ensemble de modèles de saillance visuelle de la littérature a été utilisé pour modéliser

(18)

la voie statique de ce modèle afin de choisir les trois modèles plus performants. Un ensemble de méthodes de fusion ont été employées pour créer la carte de saillance au-diovisuelle finale, résultant de la fusion des trois voies : statique, dynamique et auditive. Enfin, différentes mesures ont été utilisées pour quantifier les performances du modèle de saillance proposé.

— Le quatrième chapitre s’intéresse à l’évaluation de la qualité audiovisuelle. Il propose de faire le tour sur les différentes méthodes, subjectives et objectives, d’évaluation de la qualité visuelle. A ce titre, nous décrivons en détail les conditions des tests psychovisuels ainsi que les normes de l’UIT (Union Internationale des Télécommunications) qui y sont associées. Ensuite, nous présentons les différentes classes des méthodes (métriques) ob-jectives d’évaluation de la qualité en mettant l’accent sur celles intégrant des propriétés du système visuel humain (SVH). Enfin, nous mettons en évidence les approches mul-timodales permettant de prendre en compte l’information sonore dans leur processus d’évaluation de la qualité globale telle qu’elle est per¸cue par l’utilisateur final.

— Enfin, le cinquième chapitre est dédié à l’étude de l’influence de la qualité de l’audio sur la qualité de la vidéo et vice versa. Il propose tout d’abord d’évaluer la qualité visuelle en présence d’un audio inaltéré. A cette fin, nous avons mené une campagne de tests psychovisuels pour quantifier l’influence du signal sonore sur le jugement hu-main de la qualité. Le signal audio reste inaltéré dans toute cette expérience. Dans un second temps, nous avons réalisé une deuxième campagne de tests psychovisuels où les deux modalités (audio et vidéo) sont altérées. Dans cette troisième expérience, nous avons utilisé trois types de dispositifs d’affichage pour visualiser les séquences vidéo ; un Smartphone, une tablette et un écran TV (homme cinéma). Différentes résolutions d’images ont été aussi utilisées. Pour évaluer l’influence de l’audio sur la qualité globale, les séquences vidéos et leur bande-son associées sont inversement combinées (meilleure qualité vidéo est associée à une qualité audio médiocre et vice versa). L’influence à la fois du dispositif d’affichage et de la résolution utilisée a été également étudiée.

(19)

Premi`

ere partie

(20)

(21)

Chapitre 1

L’attention visuelle et sa mod´

elisation

Sommaire

1.1 Introduction . . . 7

1.2 Syst`emes visuel et auditif humains . . . 8

1.2.1 Syst`eme visuel humain . . . 8

1.2.2 Syst`eme auditif humain. . . 11

1.3 Attention/Saillance visuelle . . . 12

1.3.1 Attention ou saillance. . . 13

1.3.2 Attention et mouvements oculaires . . . 13

1.3.3 Applications . . . 13

1.4 Cat´egorisations d’attention visuelle . . . 14

1.4.1 Attention exog`ene ou endog`ene . . . 14

1.4.2 Attention ouverte ou couverte . . . 14

1.4.3 Attention spatiale ou spatio-temporelle . . . 14

1.4.4 Attention bas´ee espace ou objet . . . 16

1.5 Mod`eles de pr´ediction de la saillance visuelle . . . 16

1.5.1 Mod`eles cognitifs . . . 16

1.5.2 Mod`eles d’analyse spectrale . . . 20

1.5.3 Mod`eles graphiques . . . 22

1.6 Saillance auditive . . . 23

1.6.1 Mod`ele de Kayser et al. . . 24

1.6.2 Mod`ele de Tsuchida et al. . . 24

1.7 El l’audiovisuel ? . . . 26

1.1 Introduction

La modélisation de l’attention visuelle est un champ de recherche très actif. Depuis l’appa-rition en 1980 de la théorie d’intégration des attributs (Feature Integration theory) de Treis-man et al. [30], reconnue comme étant la base de l’étude de l’attention visuelle, le nombre

(22)

de modèles ne cesse d’augmenter. Dans ce chapitre, nous proposons de dresser un panorama des caractéristiques et des performances des principaux modèles d’attention ou de saillance visuelle présents dans la littérature. Pour ce faire, nous commen¸cons par décrire brièvement le système visuel et le système auditif humains. Ensuite, l’attention visuelle est définie et les différents facteurs de catégorisation (classification) sont présentés. Les principales classes sont alors décrites en mettant en évidence les mécanismes computationnels associés. Nous présentons enfin les quelques modèles préliminaires d’attention “audiovisuelle” intégrant à la fois les informations visuelles et auditives.

1.2 Syst`

emes visuel et auditif humains

Afin d’appréhender au mieux la saillance audiovisuelle, il est important de présenter l’anatomie fonctionnelle des systèmes visuel et auditif impliqués dans cette dernière. Ces deux systèmes traitent une très grande quantité d’informations fournies par l’environnement extérieur. Le traitement de ces informations est rapide et permet de réagir rapidement et correctement. Cette performance est liée à la capacité qu’ont ces systèmes de réduire l’in-formation visuelle afin de ne conserver que des attributs permettant de guider notre atten-tion vers des régions particulières de l’environnement, appelées classiquement des régions saillantes. Ce biais attentionnel est non seulement guidé par les informations visuelles et auditives séparément, mais aussi par leur interaction audiovisuelle.

1.2.1 Syst`

eme visuel humain

Le système visuel humain (SVH) est principalement constitué de deux organes : l’œil, qui est le capteur de la lumière de l’environnement extérieur, et le cortex visuel qui permet ensuite de traiter ces informations visuelles. L’acheminement de ces informations de la rétine (lieu de traduction du message lumineux venant de l’environnement extérieur) au cortex visuel est illustré en figure 1.1 (b).

La figure 1.1 (a) représente une coupe transversale de l’œil humain avec ses principales composantes. La perception visuelle d’une scène est déterminée par les rayons lumineux (émis ou réfléchis) de cette scène. Quand un rayon lumineux traverse l’œil, il passe à travers la cornée, l’humeur aqueuse, l’iris, le cristallin, le corps vitré et enfin la rétine.

La rétine est le lieu de traduction du message lumineux venant de l’environnement extérieur. Elle est composée d’un ensemble de couches de cellules (des photorécepteurs, d’une couche granuleuse interne et des cellules ganglionnaires) [3]. Les photorécepteurs se décomposent en deux types : les bâtonnets et les cônes. Les bâtonnets (environ 100 millions par œil) sont des cellules réparties sur toute la surface de l’œil permettant ainsi la vision scotopique (nocturne ou de faible éclairage). Ils sont également associés à la détection de mouvement [2, 3]. Les cônes (entre 6 et 7 millions par œil chez l’homme) sont des cellules localisées dans le centre de l’œil assurant la vision diurne. Elles sont responsables de l’acuité visuelle et de la vision des couleurs. Ainsi, lorsqu’il y a une quantité de lumière suffisante, l’homme per¸coit une immense variété de couleurs différentes grâce notamment à ses trois

(23)

1.2. Syst`emes visuel et auditif humains

(a) (b)

Figure 1.1 – Sch´ema global du syst`eme visuel humain [2].

types de cônes ; L (sensibles à la lumière rouge, de longueur d’onde 560 nm), M (sensibles à la lumière verte, de longueur d’onde 530 nm) et S (sensibles à la lumière bleue, de longueur d’onde 524 nm) [9, 10, 74]. Les cônes sont concentrées dans une région centrale de la rétine appelée fovéa. Elle est la partie de la rétine où notre vision des détails est la plus précise. C’est pourquoi nos points de fixation doivent évoluer pour analyser les détails. Finalement, le cortex visuel est la partie du SVH responsable du traitement de l’information visuelle. Il se trouve au pôle dorsal du lobe occipital (figure 1.2).

L’information rétinienne est acheminée, dans un premier temps, vers les corps genouillés latéraux gauche et droit, à travers le chiasma optique le long du tractus optique par les nerfs optiques, puis directement vers le cortex visuel primaire (aire V1) [1, 2]. Différents traite-ments progressifs de cette information sont ainsi effectués. Les corps genouillés latéraux sont composés de six couches : les couches 1 à 4 sont impliquées dans le traitement de la couleur et de la forme tandis que les couches 5 et 6 participent aux traitements de l’information relative au mouvement.

Filtrage visuels

Comme mentionné ci-dessus, la rétine et le cortex visuel sont les deux principales parties du SVH. Ainsi, le traitement des informations rétiniennes et corticales a été particulièrement modélisé [9, 74, 19]. Pour la rétine, le fonctionnement des cellules essentielles qui la compose a été modélisé dans [13] par des filtrages spatio-temporels : transformée de Fourier pour la dimension temporelle continue et la transformée en Z pour la dimension spatiale discrète. Cette modélisation, en particulier du filtrage spatiale réalisé par la rétine, a été adoptée par Ho-Phuoc dans [9]. Dans ces travaux, le filtrage “rétinien” appliqué à l’information de luminance est différent de celui appliqué à l’information de chrominance. Par conséquent, les fonctions de sensibilité au contraste différent pour ses deux informations, comme le montre la figure1.3. En résumé, la modélisation de la rétine consiste à renforcer les contrastes (les hautes fréquences spatiales) pour la luminance et un filtrage passe-bas spatial pour les informations

(24)

Figure 1.2 – Diff´erentes couches du syst`eme visuel humain [3]

chromatiques. Enfin, les informations de luminance et la chrominance sont envoyées au cortex visuel, où différents traitements seront appliqués par la suite.

Figure _{1.3 – Fonction de sensibilit´e au contraste normalis´ee pour les voies de chrominance} et de luminance (Image extraite de [9]).

Pour le cortex visuel, les premières réponses neuronales de l’aire V1 consistent en un ensemble de filtres spatio-temporels sélectifs. Dans le domaine fréquentiel, le fonctionnement de l’aire V1 (filtres corticaux) peut être assimilé à une suite de transformations de Fourier complexes. Théoriquement, ces filtres peuvent conjointement effectuer le traitement neuronal de la fréquence spatiale, de l’orientation, du mouvement, et de la vitesse (fréquence tempo-relle) [1, 3].

(25)

1.2. Syst`emes visuel et auditif humains

1.2.2 Syst`

eme auditif humain

Dans le système auditif humain (SAH), les ondes sonores sont captées par le pavillon puis acheminées vers la cochlée, l’organe principal de la perception auditive. Le SAH est composé de trois parties [4] : l’oreille externe, l’oreille moyenne et l’oreille interne comme le montre la figure 1.4.

Figure _{1.4 – Sch´ema du syst`eme auditif humain [4].}

— Oreille externe : Composée d’un pavillon, qui sert à la protection et l’amplification du signal sonore, et d’un conduit auditif externe, qui permet d’acheminer ces ondes vi-bratoires vers l’oreille moyenne. Le conduit auditif possède une fréquence de résonnance qui oscille entre 1 et 3 KHz. C’est pourquoi notre système auditif est très sensible aux fréquences de la parole humaine (environ 3KHz).

— Oreille moyenne : Composée principalement du tympan et est située entre la fenêtre ovale de l’oreille externe et la cochlée de l’oreille interne. Elle permet de convertir les ondes sonores en vibratoires mécaniques à travers un ensemble de petits osselets (mar-teau, enclume et étrier).

— Oreille interne : C’est cette dernière qui contient l’organe principal de l’ou¨ıe, la co-chlée. Cette dernière, renfermant entre 15 et 20 milles cellules ciliées, permet de trans-former l’énergie acoustique en flux nerveux. Ce dernier est par la suite véhiculé vers le cortex auditif par les nerfs auditifs pour un traitement de ces informations sonores, comme dans le cas du cortex visuel. Une lecture plus approfondie de ce mécanisme est disponible en [5].

Notre système auditif est exposé à une source multiple de voix, de sons et de bruits superposés, dont les spectres sont bien différents. Néanmoins, ce système auditif est ca-pable de porter notre attention sur une source sonore bien particulière, parole humaine par

(26)

exemple, même en présence d’un environnement bruité. Cette procédure du SAH permettant de récupérer une source complexe de l’environnement extérieur et de la séparer en “packets” acoustiques (de fréquence et nature différente) peut être décrite par l’Analyse des Scènes Auditives (Auditory Scene Analysis, ASA) [6]. Cette analyse se compose des processus de regroupement séquentiel et simultané :

— Regroupement simultané : Ce type de regroupement sert à rassembler les informations qui proviennent, au SAH, de la même source sonore et à séparer les informations pro-venant de sources distinctes. Ce regroupement est basé essentiellement sur des indices comme l’harmonicité commune et la cohérence de la modulation d’amplitude [7]. — Regroupement séquentiel : Il sert à affecter les événements successifs qui présentent une

certaine cohérence entre eux à des représentations mentales du comportement temporel des sources sonores [6, 7]. Il est basé sur un ensemble d’indices : le contenu fréquentiel, l’enveloppe spectrale, etc.

Bien que les systèmes visuel et auditif humain présentent une anatomie différente, ceux-ci ont des comportements fonctionnels très similaires. Nous trouvons ainsi, par analogie avec le système visuel, le cortex auditif qui est la partie principale du système auditif humain. Il est responsable de l’analyse en détail des informations auditives provenant du milieu extérieur. Ainsi, ce cortex auditif nous permet de distinguer et mémoriser les différentes fréquences so-nores (son grave ou aigu), mais aussi de connaˆıtre l’intensité du son (fort ou faible), sa durée et son timbre. Il possède des voies efférentes inhibitrices permettant de réduire spécifiquement la sensibilité à certaines fréquences sonores. Par conséquent, ceci permet de prêter notre at-tention auditive à des sons particuliers tout en atténuant les autres sons. C’est en quelque sorte une fonctionnalité similaire à la fonction de sensibilité au contraste dans le cas visuel.

Dans le reste de ce chapitre, nous décrivons en détail l’attention visuelle et auditive, puis nous présentons les principaux modèles de saillance visuelle et auditive associés et nous terminons par l’interaction de ces informations attentionnelles.

1.3 Attention/Saillance visuelle

L’attention visuelle est un mécanisme important du système visuel humain qui modélise notre perception visuelle du monde extérieur. Elle permet de sélectionner les régions de la scène les plus distinctives de leur voisinage. Du côté de la recherche, des efforts ont été consacrés à l’étude et la compréhension des principales caractéristiques du système visuel humain, de la rétine aux différentes aires du cortex visuel. Différentes théories fondatrices de l’attention visuelle ainsi que les modèles associés ont été proposés [26, 64]. La première mise en œuvre computationnelle de ces modèles est proposée par Koch et Ullman [14] qui ont intégré des caractéristiques visuelles afin de construire une sorte de carte topographique qui représente la scène. La première implémentation et vérification de ce modèle, appliqué aux scènes synthétiques mais aussi naturelles, a été faite par Laurent Itti [11]. Différentes approches basés sur ce dernier modèle, qui est en amélioration continue jusqu’à nos jours, ont été par la suite proposées.

(27)

1.3. Attention/Saillance visuelle

1.3.1 Attention ou saillance

De manière interchangeable, les termes attention et saillance sont souvent utilisés dans la littérature. Cependant, ces termes ont chacun une définition bien particulière : l’attention est un concept général couvrant tous les facteurs qui influencent le mécanisme de sélection (exogènes ou endogènes). La saillance, quant à elle, caractérise certaines parties de la scène, objets ou autres, qui apparaissent plus distinctifs par rapport à leur voisinage. Le terme “saillant” est souvent utilisé dans les processus attentionnels liés aux facteurs de bas-niveau, par conséquent les modèles ascendants (bottom-up) sont couramment appelés modèles de saillance visuelle.

1.3.2 Attention et mouvements oculaires

Il est difficile d’appréhender l’attention visuelle sans au préalable avoir rappelé sa re-lation avec les mouvements oculaires. Les recherches neuronales et cognitives ont attribué une relation d’interdépendance entre ces deux concepts. Il existe deux types de mouvements oculaires : des mouvements saccadés (saccades et fixations) où les yeux se focalisent sur différentes régions d’une scène lors de son exploration et des mouvements de poursuites, où les yeux suivent des objets en déplacement. L’étude des caractéristiques (biais centré, distri-bution des saccades et fixations, etc.) et des facteurs influen¸cant les mouvements oculaires (bas-niveau, haut niveau, etc.) est détaillée dans [51, 10]. Pour mesurer les mouvements des yeux, les chercheurs font appel à des systèmes oculométriques. L’utilisation de ces systèmes remonte à 1935 avec Buswell [51]. Les résultats fournis par ces eye-trackers qui sont au-jourd’hui largement répandus, constituent la base de validation des modèles attentionnels (Chapitre 3).

1.3.3 Applications

Les applications qui exploitent l’attention visuelle et les modèles attentionnels associés sont aujourd’hui nombreuses : la vision par ordinateur (la reconnaissance et détection d’ob-jets, la poursuite de cibles, la compression, etc.), l’infographie (rendu d’images, éclairage dynamique, etc.) et la robotique (navigation et interaction). La vision par ordinateur, le do-maine qui nous intéresse ici, est le champ qui utilise plus les modèles d’attention visuelle car les tâches réalisées par ceux-ci sont proches de celles de la vision humaine. On trouve ainsi des applications liées au traitement d’images au sens large du terme (segmentation, compression, etc.). Un modèle de saillance visuelle permet de hiérarchiser l’importance des régions d’une image. Par exemple, cette hiérarchie peut être utilisée pour sélectionner et adapter le taux de compression. Un autre exemple d’utilisation est le résumé de vidéos. L’attention visuelle dans ce cas, permet de sélectionner les trames ayant le plus de sémantiques dans la vidéo pour réduire la taille de celle-ci tout en respectant le sens du contenu afin de faciliter son stockage (cas de la vidéosurveillance par exemple). Récemment, cette notion a été utilisée pour l’évaluation de la qualité visuelle [66].

(28)

1.4 Cat´

egorisations d’attention visuelle

Les facteurs de catégorisation qui sont décrits dans ce paragraphe servent à l’analyse et la classification des modèles d’attention visuelle.

1.4.1 Attention exog`

ene ou endog`

ene

Posner [26] a définit en 1980 deux types d’attention : l’attention exogène et l’attention endogène. L’attention exogène (ou ascendante) est un mécanisme automatique basé sur les caractéristiques de la scène. Il s’agit d’un processus externe déclenché par les stimuli externes (stimulus-driven). L’objet qui attire notre attention doit être suffisamment distinctif de son entourage. Un exemple typique d’une attention exogène est une scène contenant une barre horizontale entourée par des barres verticales. L’attention est immédiatement attirée par la barre horizontale. Contrairement à l’attention exogène, l’attention endogène (ou descendante) est un mécanisme volontaire lié à nos objectifs (goal ou task-driven). Un exemple de ce dernier type d’attention est de chercher par exemple une personne qui parle parmi plusieurs dans une séquence vidéo. L’approche exogène étant rapide et simple à modéliser, la majorité des modèles attentionnels l’exploite [11, 64,17].

1.4.2 Attention ouverte ou couverte

Les recherches portant sur l’attention visuelle ont distingué l’attention ouverte de l’atten-tion couverte (le “comment” focaliser son attenl’atten-tion). Ces deux types d’attenl’atten-tion se différencient par les mouvements des yeux. L’attention ouverte consiste à faire bouger les yeux et/ou la tête afin de placer l’objet de notre attention sur la fovéa ; là où une analyse détaillée a lieu. Ce type d’attention est observable et mesurable à l’aide d’un eye-tracker. Par contre, l’atten-tion couverte consiste à focaliser le regard sur un stimulus lors de l’exploral’atten-tion d’une scène sans changer l’orientation du regard. En 1967, Yarbus [28] a étudié la liaison entre l’atten-tion ouverte est les mouvements des yeux à travers des séries d’expérimental’atten-tion. Il a montré que les mouvements des yeux dépendaient de la tâche demandée. La figure 1.5 montre les mouvements des yeux lors d’une observation libre (free watching) d’une scène. Le regard est naturellement attiré par le visage et, en particulier, les yeux, le nez et la bouche. La figure 1.6 montre, au contraire, les mouvements oculaires lors d’une observation d’une scène avec des tâches bien particulières (questions).

Un exemple simple de l’attention visuelle couverte consiste à focaliser le regard sur une personne qui parle tout en étant conscient de l’espace visuel en dehors de la vision fovéale centrale. Un autre exemple de ce type d’attention est la conduite, le conducteur focalise son regard sur la route tout en surveillant simultanément l’état des panneaux et des feux.

1.4.3 Attention spatiale ou spatio-temporelle

La sélection visuelle est, naturellement, dépendante à la fois de la saillance de la scène courante ainsi que du cumul des connaissances acquises les instants précédents. De nom-breux modèles d’attention visuelle sont consacrés à l’étude de l’attention “statique” : modèles

(29)

1.4. Cat´egorisations d’attention visuelle

Figure _{1.5 – Mouvements des yeux lors d’une observation libre d’une sc`ene selon Yarbus} “attention ouverte” (Image extraite de [28]).

Figure_{1.6 – Mouvements oculaires lors d’une observation d’une scène avec différentes tâches} (questions) de 3 minutes chacune. Image extraite de [74]

(30)

d’images fixes [11, 64, 23]. D’autres modèles utilisent l’information de mouvement pour modéliser leur approche “dynamique” : modèles de saillance de vidéos [17, 19]. La majorité des modèles spatio-temporels de saillance calcule, pour estimer le mouvement, le flux op-tique (optical flow ). Différentes méthodes sont alors utilisées : méthodes de correspondance de blocs, méthodes basées sur l’énergie ou méthodes différentielles.

1.4.4 Attention bas´

ee espace ou objet

Que ce soit exogène ou endogène, ouverte ou couverte, spatiale ou spatio-temporelle, la majorité des modèles attentionnels se base sur une représentation spatiale (space-based ) [11,64]. Cela vient du fait qu’une représentation spatiale, en plus de sa simplicité de mise en œuvre, est plus cohérente avec le caractère bas-niveau de l’attention visuelle. Cependant, des modèles d’attention visuelle basés objets (object-based ) ont été proposés dans la littérature. Un panorama des différents modèles d’attention basés objets est décrit dans [29].

1.5 Mod`

eles de pr´

ediction de la saillance visuelle

Depuis 1998, l’année de la publication du premier modèle computationnel d’attention visuelle, biologiquement plausible, par Itti et Koch [11], un intérêt croissant a été porté à ce sujet. Différents modèles, inspirés de la biologie ou simplement basés sur des outils mathématiques, ont été proposés. Ces modèles peuvent être classés, en fonction de leurs mécanismes pour estimer l’attention visuelle, en plusieurs catégories. Nous nous sommes intéressés ici aux modèles permettant, à partir d’une image fixe ou d’une vidéo, de produire une carte de saillance visuelle.

1.5.1 Mod`

eles cognitifs

Presque tous les modèles attentionnels sont directement ou indirectement inspirés des concepts cognitifs. Nous décrivons dans cette section les modèles, qui ont trait aux notions psychologiques ou neurophysiologiques, les plus utilisés dans la littérature pour générer des cartes de saillance.

• Itti et Koch 1998

Détaillé dans de nombreuses thèses et rapports, le modèle bottom-up (cf. paragraphe 1.3.1) d’Itti et Koch utilise, dans sa version originale, trois caractéristiques perceptuelles pour construire une carte de saillance : intensité, couleur et orientation (figure 1.7). L’image d’entrée est décomposée en différents canaux perceptuels à partir desquels une représentation multi-échelles de l’image est construite. Ensuite, un filtrage centre-périphérie est effectué afin d’obtenir 42 cartes de caractéristiques :

— 6 pour l’intensit´e.

(31)

1.5. Mod`eles de pr´ediction de la saillance visuelle

— 24 pour l’orientation (0°, 45°, 90° et 135°)

Ces cartes caractéristiques sont normalisées par un opérateur N (.) permettant de renforcer les cartes contenant un petit nombre de pics d’activité (correspondant aux zones saillantes). Ensuite, elles sont sommées pour obtenir trois cartes de visibilité (conspicuity map) corres-pondant à l’intensité (CI), la couleur (CC) et l’orientation (CO). Enfin, ces trois cartes sont linéairement combinées pour obtenir une seule carte de saillance (CS) :

CS = 1 3

X k=I,C,O

Ck (1.1)

Figure _{1.7 – Architecture du mod`ele de Laurent Itti (Image extraite de [11]).}

Un réseau de neurones de type Winner Takes All (WTA) couplé à un mécanisme d’inhi-bition de retour IOR (Inhid’inhi-bition Of Return) est utilisé afin de prédire une sorte de parcours oculaire. Le réseau WTA génère les différentes focalisations en sélectionnant la zone d’activité maximale de la carte de saillance tandis que le mécanisme d’inhibition désactive temporaire-ment la région déjà visitée. Ce modèle, possédant une architecture simple, est aujourd’hui la référence pour la comparaison des modèles d’attention visuelle. Différentes implémentations

(32)

de ce modèle sont disponibles librement : Saliency Toolbox de Walther [14], VOCUS de Frin-trop [15], etc. Ce modèle, initialement dédié aux images fixes, a été amélioré par Itti lui-même en ajoutant des attributs de mouvement (flicker, motion) afin qu’il soit capable de prédire une carte de saillance vidéo.

En résumé, le modèle d’Itti présente de nombreux avantages : il est simple à œuvre et efficace en temps de calcul (il utilise les mécanismes de WTA et IOR pour choisir les fixations au cours du temps). Toutefois, l’aspect biologique modélisé reste limité.

• Le Meur et al.

Le Meur [17] propose un modèle dérivé du modèle d’Itti en modélisant quelques ca-ractéristiques d’entrée du système visuel humain SVH : la sensibilité aux contrastes, la décomposition perceptuelle et le masquage visuel. En plus, l’espace couleur RVB utilisé par Itti a été remplacé dans ce modèle par l’espace couleur perceptuel de Krauskopf ACr1Cr2 (A : luminance, Cr1 : chrominance, Cr2 : chrominance) afin de simuler le traitement rétinien de l’information visuelle [74, 19].

Ce modèle a été étendu dans le domaine spatio-temporel [18] en combinant les infor-mations chromatiques, achromatiques et temporelles. Dans ce modèle, les caractéristiques visuelles sont extraites séparément en plusieurs canaux parallèles. Pour chaque canal, une carte de caractéristique est obtenue puis une unique carte de saillance est construite à partir de ces canaux. L’architecture de la dernière version de ce modèle est représentée par la figure 1.8.

Contrairement à la méthode de fusion adoptée par Itti (sommation des cartes), Le Meur et al. ont utilisé une méthode de fusion en deux étapes. Tout d’abord, les cartes chromatiques et achromatique sont regroupées en une seule carte (spatiale). Cette carte sera par la suite fu-sionnée avec la carte temporelle. Avant cette étape de fusion, les deux cartes sont normalisées par des valeurs théoriques. Afin de prendre en compte la complémentarité des cartes ainsi que leur redondance, un terme additif et un terme multiplicatif ont été utilisés dans la fusion.

Malgré la prise en compte de certaines propriétés du SVH, le gain en termes de perfor-mances de ce modèle sont très faibles. La complexité calculatoire, dû à la décomposition perceptuelle, est aussi un point critique de ce modèle bio-inspiré. Il n’est pas adapté aux applications nécessitant le temps réel ou presque.

• Marat et al.

Marat et al. [19] ont proposé une approche bottom-up pour prédire une carte de saillance spatio-temporelle de vidéos. Ce modèle permet d’extraire deux signaux de la vidéo corres-pondants aux deux principales sorties de la rétine : la voie parvocellulaire et la voie ma-gnocellulaire. Ces signaux permettent de traiter les informations statiques et dynamiques et de construire une carte de saillance pour chaque voie. Finalement, les deux cartes sont

(33)

(34)

fusionnées pour générer une seule carte de saillance spatio-temporelle. Ce modèle a été va-lidé via une expérimentation d’eye-traking sur une base de données de grande taille (17000 trames). le modèle de Marat a été implémenté en C et est disponible à cette adresse : http://www.gipsa-lab.fr/projet/perception/. On peut choisir de ne calculer que la sor-tie statique, dynamique, ou la fusion de toutes les voies. Cinq méthodes de fusions ont été utilisées pour construire la carte finale : 3 méthodes dites “classiques” et 2 méthodes dites “adaptées”. Pour les méthodes classiques, une fusion moyennée (sommes de deux cartes), une fusion maximum (le maximum de deux cartes) et une fusion multiplicative (multiplication pixel par pixel des deux cartes) ont été testées. En ce qui concerne les méthodes adaptées, les deux cartes sont tout d’abord pondérées par leurs caractéristiques appropriées [19] : le maximum pour les cartes statiques et le skewness (cœfficient de dissymétrie) pour les cartes dynamiques, comme suit :

Ms′= M ax(Ms)× Ms (1.2)

Md′ = Skewness(Mf)× Md (1.3)

Ms et Md sont les cartes statiques et dynamiques, respectivement.

Ensuite, une fusion dite “simple” des deux voies Msd et une fusion “renforcée MRsd ont été définies, comme le montre les équations1.4et1.5. Les résultats de ces méthodes de fusion ont montré que la méthode MRsd, favorisant les pixels saillants dans les deux voies, est la plus performante, en utilisant la métrique NSS (cf. Chapitre 3).

Msd = Ms′+ Md′ (1.4)

MRsd = Ms′+ Md′+ Ms′× Md′ (1.5) Les modèles cognitifs ont l’avantage d’intégrer des aspects biologiques de l’attention vi-suelle. Ils sont simples, faciles à implémenter et extensibles. Cependant, la méthodologie de fusion des cartes, pour obtenir la carte de saillance finale, soulève de nombreuses questions (notamment des valeurs théoriques ont été choisies arbitrairement sans aucune justification, comme dans le cas de Le Meur et al.).

1.5.2 Mod`

eles d’analyse spectrale

Au lieu de traiter une image dans le domaine spatial, les modèles d’analyse spectrale calculent la saillance visuelle dans le domaine fréquentiel. Dans ce paragraphe, nous ne présentons pas les modèles attentionnels bio-inspirés même si ces derniers effectuent une décomposition spatio-fréquentielle (comme celui de Le Meur [18], par exemple). Achanta et al. [23] ont proposé un modèle de saillance basé sur les caractéristiques bas-niveau de la lumi-nance et de la couleur (figure 1.10). L’image d’entrée subit une transformation dans l’espace de couleur CIELAB, ensuite la carte de saillance est calculée comme suit :

(35)

(36)

où Iµ est la moyenne arithmétique sur chaque canal de l’image I, IW hc(x, y) est la version lissée de l’image par un filtrage gaussien de fenêtre 5 × 5 et k.k est la distance Euclidienne.

Figure 1.10 – Architecture du mod`ele d’Achanta et al. [23]

Ce modèle a très rapidement été utilisé dans les comparaisons des performances des nouveaux modèles de saillance visuelle (cf. chapitre 3). Malgré sa simplicité mathématique, ce modèle présente des résultats compétitifs par rapport aux modèles bio-inspirés.

Zhang et al. [24] ont proposé une méthode simple et efficace pour prédire la saillance visuelle basée sur le spectre résiduel. En effet, ils supposent que les singularités statistiques dans le spectre peuvent être responsables pour les régions anormales dans l’image, où les objets deviennent visibles. Cette méthode est indépendante des caractéristiques, catégories, ou d’autres formes de connaissance préalable de l’objet. Une analyse de l’image dans le domaine spectral permet d’extraire le spectre résiduel et par la suite construire une carte de saillance correspondante dans le domaine spatial. Guo et Zhang [25] ont proposé ensuite une approche basée sur le spectre de phase de la transformée de Fourier (PFT Phase spectrum of Fourier Transform). Ils ont montré que l’utilisation de ce dernier, au lieu du modèle basé sur le spectre résiduel, est plus rapide en temps de calcul et donne de meilleurs résultats. Cette approche a été utilisée pour calculer la saillance d’une séquence vidéo par l’ajout de l’information de mouvement.

Les modèles d’analyse spectrale sont simples et faciles à implémenter. La plausibilité biologique de ces modèles reste malgré tout critiquable.

1.5.3 Mod`

eles graphiques

Un modèle de cette catégorie est considéré comme un cadre probabiliste dans lequel un graphe représente une structure conditionnelle indépendante entre des variables aléatoires. L’attention visuelle, liée aux mouvements oculaires, est traitée comme une série chronolo-gique. Harel et al. [16] proposent une approche nommée GBVS (Graph-Based Visual Sa-liency) permettant d’extraire des cartes caractéristiques à plusieurs échelles spatiales. La méthode proposée présente une cohérence remarquable avec le déploiement de l’attention des

(37)

1.6. Saillance auditive

sujets humains lors d’une série d’expérimentations psychovisuelles. Elle permet d’intégrer la notion de biais centré (central bias) favorisant les régions centrales de la scène. Ce modèle, biologiquement plausible, a été largement utilisé dans la littérature dû à sa simplicité est sa rapidité calculatoire.

Au-delà des classes de modèles décrites ci-dessus, différentes approches ont été proposées dans la littérature. Nous trouvons ainsi des modèles basés sur les théories de l’information, comme celui de Bruce [20], où le calcul de la saillance locale sert à maximiser l’information acquise à partir de son environnement. Il traite les parties de la scène les plus informatives et rejettent le reste. Dans [76], les auteurs ont présenté une approche basée sur l’estimation de la saillance locale. Les caractéristiques visuelles sont estimées en utilisant l’acquisition comprimée (Sparse Sampling) et l’estimation de la densité de noyau dans un cadre bayésien. Cette méthode, rapide à mettre en œuvre, permet d’obtenir un gain de 5% par rapport aux autres méthodes classiques (Itti, Achanta, etc). Ce modèle figure parmi les dix premiers modèles de saillance les plus performants sur la base des données MIT [72] (cf. chapitre 3).

1.6 Saillance auditive

Bien que les systèmes visuel et auditif présentent une différence anatomique importante (section 1.2), des recherches neuronales ont montré que leur mécanisme sensoriel est très similaire [68]. De ce fait, différents modèles de saillance auditive ont été proposés avec des résultats encourageants. Les premiers modèles ne datent que de 2005 avec notamment les travaux de Matei [22]. Ces modèles peuvent être classés en deux catégories :

- Modèles basés sur la spatialisation du son : ces modèles tentent d’estimer la localisa-tion spatiale du son en se basant sur des indices physiques. La technique de spatialisalocalisa-tion sonore la plus proche de l’écoute naturelle est la synthèse binaurale [32]. Grâce à deux filtres correspondants aux oreilles gauche et droite, communément appelés HRTF (Head Related Transfer Function) ou les fonctions de transfert binaurale et leurs équivalents temporels, nommés HRIR (Head Related Impulse Response), cette synthèse permet un rendu spatia-lisé d’une source sonore à une position donnée. Le ITD (Interaural Time Difference) ou Différence Interaurale de Temps et le IID (Interaural Intensity Difference) ou Différence In-teraurale d’Intensité sont des indices fondamentaux pour la perception auditive. L’association de l’IID et l’ITD permet une localisation relativement précise de la source sonore [32, 34]. Ces modèles sont généralement con¸cus pour des applications liées aux robots humano¨ıdes, plus précisément l’orientation spatiale de ces robots [31, 33, 34]. Les signaux auditifs dans cette catégorie doivent être stéréophoniques (utilisation d’au moins deux microphones pour l’acquisition du signal audio)

- Modèles basés sur la similarité entre les systèmes visuel et auditif : ces modèles présentent une architecture proche de celle obtenue dans les modèles visuels décrits précédemment. Le signal sonore, dans cette catégorie, est converti en une carte d’intensité temps-fréquence considérée comme une image sur laquelle sont appliqués les mêmes traitements que dans le

(38)

cas visuel [35,36]. Ces modèles sont utilisés pour diverses applications : Détection de parole, analyse des scènes auditives, etc.

1.6.1 Mod`

ele de Kayser et al.

Le concept essentiel de la modélisation de la saillance auditive a été proposé par Chris-toph Kayser [35]. La structure de ce modèle (figure 1.11) est très similaire à celle proposée par Itti dans le cas visuel [11]. La différence repose essentiellement sur l’extraction des ca-ractéristiques. Les cartes sont obtenues au moyen d’un spectrogramme (une représentation visuelle de la manière dont les fréquences, du signal sonore, changent au cours du temps). La carte de saillance auditive extrait les caractéristiques individuelles, telles que la modulation spectrale ou temporelle, de manière parallèle. Après l’extraction des caractéristiques, un en-semble de filtres est utilisé pour quantifier : l’intensité du son, le contraste de fréquence et le contraste temporel. A travers un mécanisme de centre-pourtour, une carte de singularité (conspicuity map) est créée pour chaque caractéristique extraite. Enfin, ces cartes sont fu-sionnées, d’une manière similaire à celle utilisée par Itti (sommation), pour obtenir la carte de saillance auditive finale.

Le modèle a été validé expérimentalement sur des scénarios acoustiques naturels montrant ainsi une bonne corrélation avec le jugement humain et permettant de prédire la détectabilité des sons saillants incorporés dans un milieu bruité, avec un temps de calcul assez faible.

1.6.2 Mod`

ele de Tsuchida et al.

Au lieu de transformer le paradigme visuel proposé par Itti dans le domaine auditif, comme le fait Kayser [35], Tsuchida et al. ont proposé un modèle de saillance auditive nommé ASUN (Auditory Saliency Using Natural Statistics) [36], inspiré du modèle de saillance visuelle SUN de Zhang [24]. Tout d’abord, le signal audio d’entrée (échantillonné à 16 kHz) est converti en un signal spectral dans le domaine des fréquences (cochleagrams) en utilisant un banc de filtres de Gammatone (200-8000 Hz), lissé par une convolution avec une fenêtre de Han-ning de 1 msec et sous-échantillonné à 1 kHz afin d’obtenir une décomposition fréquentielle en 64 dimensions du signal d’entrée. Puis, cette représentation est divisée en 20 bandes de fréquence. Finalement, une analyse en composantes indépendantes est calculée pour chacune de ces 20 bandes séparément, comme le montre la figure 1.12. La saillance à tout point est basée sur la rareté des réponses auditives à ce point (la nouveauté attire l’attention).

Sur les mêmes bases d’études, ce modèle présente des performances meilleures (M = 0.3262, SD = 0.0635) que celles obtenues par le modèle de Kayser (M = 0.0362, SD = 0.0683). Toutefois, la complexité calculatoire est un point faible du modèle, surtout pour son usage dans des applications en temps réel.

D’autres modèles de saillance auditive ont été développés pour des applications parti-culières : pour la détection des paroles [37] ou pour l’analyse des scènes bruitées [38]. Un modèle de saillance auditive basé sur un algorithme de séparation de l’énergie discrète (Dis-crete Energy Separation Algorithm, DESA) a été proposé dans [39]. Il permet la séparation de la parole et de la musique à partir d’un flux audio mélangé. Récemment, ce modèle a été

(39)

uti-1.6. Saillance auditive

Figure _{1.11 – (A) Architecture globale du mod`ele de Kayser et al. [35], (B) Spectogramme} des bulles d’eau dans un environnement bruit´e et sa carte de saillance correspondante. Image extraite de [35]