• Aucun résultat trouvé

Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle

N/A
N/A
Protected

Academic year: 2021

Partager "Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle"

Copied!
153
0
0

Texte intégral

(1)

THÈSE

Pour l'obtention du grade de

DOCTEUR DE L'UNIVERSITÉ DE POITIERS UFR des sciences fondamentales et appliquées

XLIM-SIC

(Diplôme National - Arrêté du 7 août 2006)

École doctorale : Sciences et ingénierie pour l'information, mathématiques - S2IM (Poitiers) Secteur de recherche : Traitement du signal et des images

Présentée par :

Naty Sidaty

Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle

Directeur(s) de Thèse :

Abdelhakim Saadane, Mohamed-Chaker Larabi Soutenue le 11 décembre 2015 devant le jury Jury :

Président Christine Fernandez-Maloigne Professeur, Université de Poitiers

Rapporteur Christophe Charrier Maître de conférences, GREyC, Université de Caen Rapporteur Frédéric Morain-Nicolier Professeur, CReSTIC, Université de Reims

Membre Abdelhakim Saadane Maître de conférences, Université de Nantes

Membre Mohamed-Chaker Larabi Maître de conférences, XLIM, Université de Poitiers

Membre Ahmed Bouridane Professor, Newcastle-upon-tyne, Northumbria University, UK

Pour citer cette thèse :

Naty Sidaty. Exploitation de la multimodalité pour l'analyse de la saillance et l'évaluation de la qualité audiovisuelle [En ligne]. Thèse Traitement du signal et des images. Poitiers : Université de Poitiers, 2015. Disponible sur Internet <http://theses.univ-poitiers.fr>

(2)

DOCTEUR DE L’UNIVERSIT´E DE POITIERS Facult´e des Sciences Fondamentales et Appliqu´ees

Diplˆome National - Arrˆet´e du 7 aoˆut 2006

Ecole Doctorale : Sciences et Ing´enierie pour l’Information, Math´ematiques - S2IM Secteur de Recherche : Traitement du Signal et des Images

Pr´esent´ee par :

Naty SIDATY

Exploitation de la multimodalit´

e pour l’analyse de la saillance et

l’´

evaluation de la qualit´

e audiovisuelle

Directeurs de Th`ese : Mohamed-Chaker Larabi

Abdelhakim Saadane Soutenue le 11 D´ecembre 2015 Devant la Commission d’Examen

JURY

Fr´ed´eric Morain-Nicolier, Professeur, Universit´e de Reims Champagne-Ardenne . . Rapporteur Christophe Charrier, Maˆıtre de Conf´erences HDR, Universit´e de Caen Normandie .Rapporteur Ahmed Bouridane, Professeur, Northumbria University at New Castle, UK . . . Examinateur Christine Fernandez-Maloigne, Professeure, Universit´e de Poitiers . . . Examinateur Mohamed-Chaker Larabi, Maˆıtre de Conf´erences, Universit´e de Poitiers . . . Directeur de Th`ese Abdelhakim Saadane, Maˆıtre de Conf´erences HDR, Universit´e de Nantes . . Directeur de Th`ese

(3)
(4)
(5)
(6)

En r´edigeant cette derni`ere page du manuscrit, je suis oblig´e de reconnaˆıtre que ce tra-vail de th`ese n’aurait pas ´et´e aussi fructueux sans l’aide de plusieurs personnes. Je tiens `a remercier tous ceux qui ont contribu´e, de pr`es ou de loin, `a sa r´ealisation.

Je tiens tout d’abord `a remercier Fr´ed´eric Morain-Nicolier, Professeur `a l’Universit´e de Reims Champagne-Ardenne et Christophe Charrier, Maˆıtre de Conf´erences HDR `a l’Univer-sit´e de Caen Normandie, d’avoir accept´e d’ˆetre les rapporteurs de cette th`ese. Leurs com-mentaires m’ont ´et´e tr`es utiles pour la pr´eparation de la soutenance et de la version finale du manuscrit.

Je remercie ´egalement Ahmed Bouridane, Professeur `a Northumbria University at New-castle (UK) pour sa participation `a mon jury en tant qu’examinateur et Christine Fernandez-Maloigne, Professeure `a l’Universit´e de Poitiers, pour avoir assum´e le rˆole de pr´esidente du jury.

Un tr`es grand merci `a mon directeur de th`ese Abdelhakim Saadane, Maˆıtre de conf´erences HDR `a l’´Ecole Polytechnique de l’Universit´e de Nantes, d’avoir accept´e de diriger ma th`ese. Je le remercie pour sa rigueur scientifique, ses nombreux conseils et ses r´eunions de travail prolong´ees.

Je tiens `a exprimer, en particulier, toute ma gratitude `a Chaker Larabi, Maˆıtre de conf´erences `a l’Universit´e de Poitiers, qui m’a permis de travailler sur un sujet aussi int´eressant et qui m’a guid´e pendant ces ann´ees de th`ese par sa qualit´e remarquable d’encadrement mais aussi et surtout pour ses valeurs humaines, son ouverture d’esprit, sa bonne humeur, sa gen-tillesse et sa pr´esence dynamique qui ont su amener une ambiance particuli`ere au 4`eme´etage.

Je remercie toutes les personnes avec qui j’ai eu la chance de partager mon bureau, Rafik, pour ses remarques et conseils qui m’ont simplifi´e la th`ese, mon cher ami Riadh pour les heures pass´ees ensemble et nos d´elires autour du fameux (Cmake), et Micha¨el pour sa bonne humeur. Un grand merci aussi `a mes compagnons de th`ese, et en particulier `a Badereddine et Nadjib, pour nos nombreuses discussions passionnantes et tous les bons moments pass´es ensemble.

Enfin, un tr`es grand merci `a ma famille pour son soutien durant toutes ces ann´ees d’´etude, et particuli`erement `a mon p`ere Sidaty qui m’a toujours soutenu, dans tous les sens du terme, quels que soient les choix entrepris.

(7)

Table des mati`

eres

Table des mati`eres iii

Table des tableaux v

Table des figures viii

Introduction g´en´erale 1

1. Contexte et objectifs . . . 1

2. Principales contributions . . . 2

3. Organisation du manuscrit . . . 3

I

Saillance Audiovisuelle

5

1 L’attention visuelle et sa mod´elisation 7 1.1 Introduction . . . 7

1.2 Syst`emes visuel et auditif humains . . . 8

1.2.1 Syst`eme visuel humain . . . 8

1.2.2 Syst`eme auditif humain . . . 11

1.3 Attention/Saillance visuelle . . . 12

1.3.1 Attention ou saillance . . . 13

1.3.2 Attention et mouvements oculaires . . . 13

1.3.3 Applications . . . 13

1.4 Cat´egorisations d’attention visuelle . . . 14

1.4.1 Attention exog`ene ou endog`ene . . . 14

1.4.2 Attention ouverte ou couverte . . . 14

1.4.3 Attention spatiale ou spatio-temporelle . . . 14

(8)

1.5 Mod`eles de pr´ediction de la saillance visuelle . . . 16

1.5.1 Mod`eles cognitifs . . . 16

1.5.2 Mod`eles d’analyse spectrale . . . 20

1.5.3 Mod`eles graphiques . . . 22

1.6 Saillance auditive . . . 23

1.6.1 Mod`ele de Kayser et al. . . 24

1.6.2 Mod`ele de Tsuchida et al. . . 24

1.7 El l’audiovisuel ? . . . 26

1.8 Conclusion . . . 28

2 Influence de l’audio sur l’attention visuelle 30 2.1 Introduction . . . 30

2.2 Les visages parlants, objets audiovisuels attirants . . . 31

2.2.1 Appareillages . . . 33

2.2.2 Participants . . . 33

2.2.3 Stimuli . . . 34

2.2.4 Proc´edure . . . 35

2.2.5 Classification des donn´ees . . . 36

2.3 R´esultats et analyse. . . 37

2.3.1 Attention visuelle guid´ee par les visages parlants . . . 37

2.3.2 Variabilit´e des positions oculaires . . . 39

2.3.3 Analyse statistique . . . 44

2.4 Conclusion . . . 46

3 Vers une mod´elisation de l’attention audiovisuelle 47 3.1 Introduction . . . 47 3.2 Mod`ele propos´e . . . 48 3.2.1 Voie statique . . . 48 3.2.2 Voie dynamique . . . 52 3.2.3 Voie auditive . . . 53 3.2.4 Strat´egies de fusion . . . 59

3.3 Traitement des r´esultats d’eye-tracking . . . 60

3.3.1 Cr´eation d’une carte de fixation par image . . . 61

3.3.2 Cr´eation d’une densit´e de saillance . . . 61

3.4 M´etriques quantitatives de similarit´e . . . 63

3.4.1 Coefficient de Corr´elation : CC . . . 63

3.4.2 Aire sous la courbe ROC : AUC . . . 63

3.4.3 Divergence de Kullback-Leibler : KLD . . . 64

3.4.4 Normalized Scanpath Saliency : NSS . . . 65

3.5 Evaluation des performances des mod`eles statiques . . . 65

3.6 Performance globale du mod`ele audiovisuel . . . 67

(9)

Table des mati`eres

II

Qualit´

e Audiovisuelle

74

4 Evaluation de la qualit´e visuelle 76

4.1 Introduction . . . 76

4.2 De la production du signal `a la qualit´e d’exp´erience (QoE) . . . 77

4.3 Evaluation subjective de la qualit´e´ . . . 78

4.3.1 Perception des d´egradations et qualit´e visuelle . . . 79

4.3.2 Organisation des tests subjectifs . . . 80

4.3.3 M´ethodologie d’´evaluation subjective de la qualit´e . . . 81

4.3.4 Les recommandations de l’UIT . . . 86

4.3.5 Les bases des donn´ees . . . 86

4.4 Evaluation objective de la qualit´e . . . 87

4.4.1 Cat´egorisations des m´ethodes objectives . . . 87

4.4.2 M´etriques objectives de qualit´e . . . 89

4.4.3 Evaluation des performances des m´etriques de qualit´e´ . . . 92

4.5 Et la qualit´e audiovisuelle ? . . . 94

4.6 Conclusion . . . 95

5 Evaluation subjective multimodale et multi-supports de la qualit´e 97 5.1 Introduction . . . 97

5.2 Effet de l’audio sur la qualit´e visuelle per¸cue . . . 98

5.2.1 Environnement des tests . . . 98

5.2.2 M´ethodologie d’´evaluation . . . 99

5.2.3 Traitement des donn´ees subjectives . . . 100

5.2.4 Effet de l’audio sur la qualit´e globale . . . 102

5.2.5 Analyse statistique . . . 102

5.3 Effets des diff´erents param`etres sur la qualit´e audiovisuelle . . . 106

5.3.1 Environnement global de l’exp´erience . . . 108

5.3.2 Description de la base d’´etude . . . 109

5.3.3 Organisation et proc´edure d’´evaluation . . . 111

5.3.4 Influence de la r´esolution sur la qualit´e visuelle . . . 113

5.3.5 Influence du dispositif d’affichage sur la qualit´e globale . . . 113

5.3.6 Influence de la qualit´e de l’audio sur la qualit´e globale . . . 115

5.4 Conclusion . . . 115

Conclusion & perspectives 120

Bibliographie 124

(10)

2.1 Caract´eristiques techniques du cam´escope utilis´e. . . 35 2.2 Description de la base de vid´eos construite pour les besoins de l’exp´erience 1. 36 2.3 ANOVA `a un facteur sur les valeurs de la dispersion donn´ees en figure 2.8. . 45 3.1 Pr´ecision de la m´ethode sur notre base de vid´eos . . . 57 3.2 Comparaison entre deux ensembles de cartes de densit´e de saillance dans les

conditions visuelle et audiovisuelle. Pour une grande similarit´e : CC → ±1, N SS → +∞, KLD → 0. . . 66 3.3 Mesures de performances des mod`eles statiques en utilisant la v´erit´e de terrain

“Sans Audio”. . . 68 3.4 Mesures de performances des mod`eles statiques en utilisant la v´erit´e de terrain

“Avec Audio”. . . 68 3.5 Mesures de performance des mod`eles de saillance spatio-temporelle sur la v´erit´e

de terrain “sans audio” en utilisant la s´equence OutsideTalk. . . 69 3.6 Mesures de performance des mod`eles de saillance spatio-temporelle sur la v´erit´e

de terrain “sans audio” en utilisant la s´equence SinglTalk. . . 69 3.7 Mesures de performance des mod`eles de saillance spatio-temporelle sur la v´erit´e

de terrain “sans audio” en utilisant la s´equence AlterTalk.. . . 69 3.8 Mesures de performance des mod`eles de saillance spatio-temporelle sur la v´erit´e

de terrain “sans audio” en utilisant la s´equence SimulTalk. . . 70 3.9 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la v´erit´e de terrain “sans audio” pour la s´equence AllTalk. . . 70 3.10 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la v´erit´e de terrain “avec audio” en utilisant la s´equence OutsideTalk. . . 70 3.11 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la v´erit´e de terrain “avec audio” pour la s´equence SinglTalk. . . 71 3.12 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisanr

la v´erit´e de terrain “avec audio” pour la s´equence AlterTalk. . . 71 3.13 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la v´erit´e de terrain “avec audio” pour la s´equence SimulTalk. . . 71 3.14 Mesures de performance des mod`eles de saillance spatio-temporelle en utilisant

la v´erit´e de terrain “avec audio” pour la s´equence AllTalk. . . 72 3.15 Mesures de performance du mod`ele audiovisuel propos´e, avec l’approche d’Itti

comme voie statique. . . 73 3.16 Mesures de performance du mod`ele audiovisuel propos´e, avec l’approche de

(11)

Liste des tableaux

3.17 Mesures de performance du mod`ele audiovisuel propos´e, avec l’approche de Tavakoli comme voie statique. . . 73 4.1 Distorsions spatiales et temporelles de la qualit´e vid´eo. . . 79 4.2 Conditions de visualisation recommand´ees par l’UIT (issues du rapport ITU-R

BT.710). . . 81 4.3 Principales recommandations de l’UIT relatives aux tests subjectifs d’´evaluation

de la qualit´e (ESQ : ´Evaluation subjective de la qualit´e). . . 86 5.1 Caract´eristiques techniques du dispositif d’affichage utilis´e dans l’exp´erience 2. 99 5.2 Param`etres de quantification (QP) utilis´es pour g´en´erer les s´equences vid´eo

utilis´ees dans cette exp´erience. . . 100 5.3 Exemple d’´echelle de notation utilis´ee dans notre exp´erience. . . 100 5.4 Analyse de variance ANOVA `a trois facteurs sur l’ensemble des donn´ees de

l’exp´erience. . . 106 5.5 Description de la base de vid´eos utilis´ee pour l’exp´erience 3. . . 110 5.6 Analyse de variance multivari´ee MANOVA sur l’ensemble des donn´ees de

(12)

1.1 Sch´ema global du syst`eme visuel humain [2]. . . 9

1.2 Diff´erentes couches du syst`eme visuel humain [3] . . . 10

1.3 Fonction de sensibilit´e au contraste normalis´ee pour les voies de chrominance et de luminance (Image extraite de [9]). . . 10

1.4 Sch´ema du syst`eme auditif humain [4]. . . 11

1.5 Mouvements des yeux lors d’une observation libre d’une sc`ene selon Yarbus “attention ouverte” (Image extraite de [28]). . . 15

1.6 Mouvements oculaires lors d’une observation d’une sc`ene avec diff´erentes tˆaches (questions) de 3 minutes chacune. Image extraite de [74] . . . 15

1.7 Architecture du mod`ele de Laurent Itti (Image extraite de [11]). . . 17

1.8 Mod`ele de saillance spatio-temporel de Le Meur et al.[18]. . . 19

1.9 Mod`ele de saillance spatio-temporel de Marat et al. [19]. . . 21

1.10 Architecture du mod`ele d’Achanta et al. [23] . . . 22

1.11 (A) Architecture globale du mod`ele de Kayser et al. [35], (B) Spectogramme des bulles d’eau dans un environnement bruit´e et sa carte de saillance corres-pondante. Image extraite de [35] . . . 25

1.12 Architecture du mod`ele de Tsuchida et al. [36] . . . 26

1.13 Architecture du mod`ele audiovisuel de Ruesch et al. [44]. . . 28

2.1 Les fixations des participants pour diff´erents sc´enarii mis en œuvre dans [57]. 32 2.2 Appareillage utilis´e dans l’exp´erience 1 : (a) connexion entre l’oculom`etre et l’´ecran de visualisation, (b) conditions de visualisation des stimuli. Images extraites du manuel d’utilisation de Tobii-TX120, Version 3.2. . . 34

2.3 Cam´escope utilis´e pour l’acquisition des vid´eos de tests. . . 35

2.4 Proc´edure de visualisation des stimuli dans l’exp´erience 1. . . 36

2.5 Dur´ee moyenne des fixations des participants sur les visages parlants ou non parlants exprim´ee en pourcentage, dans le cas o`u (a) le son provient de l’ext´erieur, (b) un seul visage parlant, (c) deux locuteurs parlent de mani`ere alternative, (d) deux locuteurs parlent simultan´ement et (e) tous les visages parlent. Dans le cas (e), seulement trois visages sont pr´esents. . . 38

2.6 Carte de chaleur (HeatMap) des fixations des participants pour (a) la trame 99 (SinglTalk ) et (b) la trame 167 ( AlterTalk ). . . 40

(13)

Table des figures

2.8 Valeurs moyennes de la dispersion (et les ´ecart-types) entre les positions ocu-laires des participants intra et inter conditions (visuelle et audiovisuelle) pour les s´equences vid´eo (a) OutsideTalk, (b) SinglTalk, (c) AlterTalk, (d) SimulTalk

et (e) AllTalk. . . 42

2.9 Evolution temporelle des dispersions des positions oculaires entre participants pour l’ensemble des s´equences vid´eo de l’exp´erience : (a) OutsideTalk, (b) SinglTalk, (c) AlterTalk, (d) SimulTalk et (e) AllTalk. . . 43

3.1 Architecture du mod`ele de saillance audiovisuelle. . . 49

3.2 Exemple de r´esultats des mod`eles statiques s´electionn´es sur deux s´equences AlterTalk (en haut) et SinglTalk (en bas), respectivement, de notre base de donn´ees. De haut en bas et de gauche `a droite : l’image originale, les cartes de saillance obtenues par les mod`eles d’Achanta et al.[23], Zhang et al.[24], Harel et al.[16], Itti et al.[11], Vikram et al.[75], Tavakoli et al.[76], Bruce et al.[20] et Nauge et al.[74]. . . 51

3.3 L’architecture globale de la voie dynamique du mod`ele. . . 52

3.4 Exemple d’une carte de saillance temporelle de la s´equence SinglTalk. Les r´egions claires correspondent aux r´egions en mouvement de la vid´eo (La deuxi`eme personne `a partir de la gauche est en train de parler tandis que la premi`ere personne `a partir de la droite est en train de jouer avec l’orange sur la table. 53 3.5 Exemple d’une image de la s´equence SimullTalk o`u les visages sont d´etect´es grˆace `a la m´ethode [83]. . . 55

3.6 Calcul des scores de synchronisation dans la m´ethode [85] . . . 56

3.7 Cartes de saillance auditive pour une trame de la s´equence SinglTalk (en haut) o`u la deuxi`eme personne `a partir de la gauche est en train de parler (la qua-tri`eme personne n’a pas ´et´e d´etect´ee) et une autre trame de la s´equence Si-mulTalk (en bas) o`u la premi`ere et la troisi`eme personne `a partir de la gauche parlent simultan´ement . . . 58

3.8 Exemple d’une image originale de la s´equence SinglTalk (a) avec ses deux cartes de densit´e de saillance dans les conditions visuelle (b) et audiovisuelle (c). 62 3.9 La mesure AUC `a partir de la courbe ROC. . . 64

4.1 Chaˆıne de transmission du signal audiovisuel de sa production `a la qualit´e d’exp´erience, (Image extraite de [99]). . . 78

4.2 Facteurs de d´egradation de la qualit´e vid´eo dans les services d’IPTV, (Image extraite de [102]). . . 80

4.3 Les deux ´echelles comparatives normalis´ees par l’UIT. . . 82

4.4 Pr´esentation des stimuli dans les m´ethodes comparatives. . . 83

4.5 Echelles de notation utilis´ees pour la m´ethode ACR (a) et la m´ethode SSCSQ (b). . . 83

4.6 Pr´esentation des stimuli dans les m´ethodes `a simple stimulus. . . 84

4.7 Pr´esentation des stimuli dans les m´ethodes `a double stimulus. . . 84

4.8 Echelle utilis´ee dans la m´ethode DSCQS. . . 85

(14)

4.10 Trois cat´egories de m´etriques de qualit´e vid´eo (Image extraite de [102]). . . . 88

4.11 Illustration de la corr´elation de Pearson (Image extraite de [74]) . . . 93

4.12 Exemple des mesure de CSpearman, RMSE et RO (Image extraite de [74]). . . 94

5.1 Proc´edure d’´evaluation de la qualit´e dans l’exp´erience 2. . . 101

5.2 Distribution des scores de qualit´e dans les deux conditions de l’exp´erience, visuelles (a) et audiovisuelles (b). . . 102

5.3 Valeurs MOS et les intervalles de confiance associ´es obtenus dans les deux conditions visuelles et audiovisuelles de l’exp´erience, pour toutes les s´equences vid´eo. . . 103

5.4 Influence de l’audio sur le jugement visuel de l’observateur pour les cinq gammes de qualit´e (a) M´ediocre, (b) Mauvaise, (c) Assez Bonne, (d) Bonne et (e) Excellente. . . 104

5.5 Scores subjectifs avec audio versus sans audio pour les vid´eos du test. . . 105

5.6 Images extraites de la base d’´etude. . . 110

5.7 Interfaces des applications utilis´ees, (a) Iphone et Ipad (b) ´ecran TV. . . 111

5.8 Scores de qualit´e pour les trois dispositifs d’affichage (a) iPad, (b) iPhone (en utilisant les cinq r´esolutions) et (c) TV (en utilisant trois r´esolutions) . . . . 114

5.9 Comparaison entre les scores subjectifs des diff´erents dispositifs accompagn´es des intervalles de confiance `a 95% et de la r´egression lin´eaire. . . 116

5.10 Influence de la qualit´e audio sur la qualit´e multimodale tous contenus confon-dus et r´egression logarithmique. . . 117

(15)

Introduction g´

en´

erale

Contexte et objectifs

Malgr´e les contraintes d’h´et´erog´en´eit´es des syst`emes, le trafic des donn´ees sur Internet ne cesse d’augmenter depuis le d´ebit du 21e si`ecle. Selon le Visual Networking Index (VNI) de CISCO, le trafic IP mondial annuel d´epassera le seuil d’un zettaoctet (1 milliard de te-raoctets) en 2016, et le seuil de deux zettaoctets en 2019. Le nombre d’appareils connect´es `a des r´eseaux IP sera, selon le VNI, trois fois plus sup´erieur que la population mondiale en 2019. Il y aura donc en moyenne trois appareils connect´es par habitant en 2019, contre pr`es de deux appareils par habitant en 2014. Ainsi, le trafic IP par habitant atteindra 22 Go en 2019, en hausse de 8 Go par habitant par rapport `a 2014. Le trafic vid´eo, en particu-lier, repr´esente `a peu pr`es les deux tiers du trafic Internet global. En France par exemple, ce trafic atteindra 80% du trafic total d’ici 2018, avec pr`es de 445 millions d’appareils connect´es.

Dans la vie de tous les jours, nous souhaitons acqu´erir, visualiser et partager de plus en plus de vid´eos, partout, `a tout moment et surtout avec tous types d’appareils (Smartphones, Tablettes, PC, etc.), avec la meilleure qualit´e audiovisuelle possible. L’ˆetre humain est donc confront´e `a une quantit´e d’informations gigantesque `a travers diverses applications et services.

Afin de traiter le flux exorbitant d’informations que re¸coit notre cerveau `a travers le syst`eme visuel et auditif, celui-ci poss`ede un m´ecanisme attentionnel permettant de s´electionner les informations les plus pertinentes, autrement dit, les r´egions les plus importantes de l’envi-ronnement. Ce m´ecanisme s´electif est influenc´e non seulement par les informations visuelles mais aussi par les informations auditives ainsi que les interactions audiovisuelles. Du cˆot´e de la recherche, la mod´elisation de l’attention visuelle a fait l’objet de nombreuses ´etudes et diff´erents mod`eles de saillance visuelle on ´et´e propos´es. Cependant, la mod´elisation de l’attention auditive et plus particuli`erement l’influence de l’audio sur l’attention visuelle a ´et´e tr`es peu ´etudi´ee, voire n´eglig´ee. Les travaux r´ealis´es dans cette th`ese sont divis´es en deux parties, `a savoir l’attention audiovisuelle et la qualit´e multimodale, deux parties diff´erentes mais intimement li´ees.

Ainsi, au cours des travaux r´ealis´es dans cette th`ese, nous cherchons tout d’abord `a ´etudier l’influence de l’audio sur les mouvements oculaires des observateurs humains, et donc sur leur attention visuelle, lors de l’exploration libre des vid´eos. La pr´ediction des zones ”saillantes” de la vid´eo, qui attirent davantage l’attention visuelle de ces observateurs, sera par la suite

(16)

´etudi´ee. Cette pr´ediction est bas´ee non seulement sur les indices visuels de la vid´eo mais aussi sur le contenu auditif de celle-ci.

La qualit´e audiovisuelle, telle qu’elle est per¸cue par l’utilisateur final, fait l’objet d’une grande partie de ce travail. En effet, le jugement humain de la qualit´e est influenc´e `a la fois par la nettet´e du contenu visuel et la clart´e du signal auditif associ´e. Ainsi, nous cherchons `a quantifier l’influence de la qualit´e du signal audio sur la qualit´e globale du contenu audiovi-suel, plus particuli`erement pour des applications de vid´eo-conf´erence et de streaming vid´eo o`u diff´erents appareils de visualisation peuvent ˆetre utilis´es.

Principales contributions

Afin d’´etudier l’influence de l’information auditive sur l’attention visuelle d’un cˆot´e et sur le jugement humain de l’autre, nous avons r´ealis´e une s´erie de tests psychovisuels dont l’objectif est de mieux comprendre notre perception bi-modale des signaux multim´edia (au-dio et vid´eo). ´Etant particuli`erement int´eress´e par les applications de vid´eo-conf´erence o`u diff´erents participants peuvent ´echanger et au vu du manque de bases de donn´ees audiovi-suelles, en g´en´eral, et en particulier pour ces applications, nous avons ´et´e amen´es `a cr´eer une base de donn´ees audiovisuelle o`u diff´erentes personnes ont reproduit des sc´enarios de vid´eo-conf´erence. Cette base de donn´ees, cr´e´ee au sein de notre laboratoire, a ´et´e nomm´ee SICMedia

Nous avons tout d’abord r´ealis´e une exp´erimentation oculom´etrique afin de quantifier l’influence du son sur les mouvements oculaires des observateurs. Les vid´eos de la base de donn´ees SICMedia ont ´et´e pr´esent´ees aux observateurs avec et sans leur bande-son originale. Cette premi`ere exp´erimentation nous a permis de quantifier, d’une part, l’importance des visages et en particulier des visages parlants dans une s´equence vid´eo et, d’autre part, l’in-fluence du signal sonore sur les parcours visuels des observateurs, et donc sur leur attention visuelle. Sur la base des r´esultats de cette exp´erience, nous avons propos´e un mod`ele de saillance audiovisuelle permettant de pr´edire les zones de la vid´eo les plus pertinentes pour un observateur humain. Les mouvements oculaires des participants dans cette exp´erience ont ´et´e enregistr´es grˆace `a un oculom`etre et servent de v´erit´e de terrain lors de la comparaison des r´egions pr´edites par le mod`ele propos´e et celles r´eellement visualis´ees ou fix´ees par les participants de cette exp´erience.

Dans la deuxi`eme partie de ce travail, nous avons r´ealis´e un ensemble de tests psychovi-suels pour ´evaluer la qualit´e multimodale (audio et vid´eo) et multisupports. Tout d’abord, nous avons ´etudi´e l’influence de la pr´esence de l’audio sur le jugement de la qualit´e. A cette fin, des vid´eos d´egrad´ees de la base SICMedia ont ´et´e pr´esent´ees aux observateurs en leur demandant de juger leur qualit´e. Dans un premier temps, nous avons ´etudi´e l’influence d’un audio inalt´er´e sur le jugement de la qualit´e visuelle dans un contexte de vid´eo-conf´erence. Les r´esultats ne montrent pas d’influence notable de la pr´esence de l’audio non alt´er´e sur le juge-ment humain. En effet, ´etant donn´e que la qualit´e de cette modalit´e (audio) est quasi parfaite,

(17)

Introduction g´en´erale

celle-ci n’a pas eu d’influence positive ou n´egative sur une qualit´e visuelle d´egrad´ee `a diff´erents niveaux. Dans un second temps, nous avons pouss´e nos recherches en r´ealisant une deuxi`eme exp´erimentation plus g´en´erale. Les signaux auditifs et visuels sont cette fois-ci alt´er´es et in-versement combin´es (Une meilleure qualit´e audio est combin´ee avec une mauvaise qualit´e vid´eo et inversement). Diff´erents dispositifs d’affichage (Smartphones, Tablettes, ´ecran TV) et plusieurs r´esolutions d’images ont ´et´e utilis´es. Les vid´eos “stimuli” dans cette troisi`eme exp´erience ont ´et´e acquises dans un contexte de streaming. Une base des donn´ees, nomm´ee StreamApp, compos´ee de diff´erentes vari´et´es de vid´eos a ´et´e cr´e´ee `a cette fin. Les r´esultats ont montr´e que la qualit´e de l’audio joue un rˆole primordial dans l’´evaluation globale de la qualit´e audiovisuelle. En effet, une mauvaise qualit´e audio peut d´egrader, d’une fa¸con significative, la qualit´e audiovisuelle mˆeme si le contenu visuel associ´ee est de tr`es bonne qualit´e.

Organisation du manuscrit

Ce pr´esent document est scind´e en deux parties. La premi`ere, intitul´ee “saillance audio-visuelle”, est d´edi´ee `a l’´etude, l’analyse et la mod´elisation de la saillance audiovisuelle. La seconde partie, intitul´ee “qualit´e audiovisuelle”, est consacr´ee `a l’´evaluation de la qualit´e multimodale et multisupports. Ainsi, le manuscrit est organis´e en cinq chapitres et tente de faire une analyse de la saillance et de la qualit´e audiovisuelle :

— Dans le premier chapitre, nous faisons un ´etat de l’art des caract´eristiques et des perfor-mances des principaux mod`eles d’attention visuelle pr´esents dans la litt´erature. Nous commen¸cons par une introduction des syst`emes visuel et auditif humain ainsi que l’at-tention visuelle et auditive qui leur est associ´ee. Ensuite, nous d´ecrivons les diff´erents facteurs de cat´egorisation ainsi que les principales classes des mod`eles de saillance vi-suelle. Enfin, nous mettons l’accent sur les besoins de mod`eles de saillance audiovisuelle permettant de prendre en compte `a la fois les informations visuelles et auditives.

— Le deuxi`eme chapitre traite de l’influence de l’audio sur les mouvements oculaires hu-mains. Il permet d’investiguer d’un cˆot´e l’influence de l’audio sur l’attention visuelle et de l’autre, l’importance des visages et en particulier des visages parlants dans la s´equence vid´eo. Cette influence a ´et´e ´etudi´ee `a travers une premi`ere exp´erimentation oculom´etrique lors de laquelle des observateurs ont ´et´e appel´es `a regarder librement des s´equences vid´eo dans deux conditions : visuelle (sans son) et audiovisuelle (avec son). L’analyse est effectu´ee en comparant les positions oculaires de ces observateurs dans les deux conditions de l’exp´erience.

— Le troisi`eme chapitre est d´edi´e quant `a lui `a la mod´elisation de l’attention audiovi-suelle. Il propose un mod`ele de saillance audiovisuelle, pour les sc`enes de conversation ou de vid´eo-conf´erence. Ce mod`ele prend en compte, outre l’aspect spatio-temporel, l’information sonore dans la s´equence vid´eo. Une voie auditive d´edi´ee aux positions des locuteurs et des auditeurs dans la vid´eo a ´et´e ajout´ee au mod`ele `a trois branches. Un ensemble de mod`eles de saillance visuelle de la litt´erature a ´et´e utilis´e pour mod´eliser

(18)

la voie statique de ce mod`ele afin de choisir les trois mod`eles plus performants. Un ensemble de m´ethodes de fusion ont ´et´e employ´ees pour cr´eer la carte de saillance au-diovisuelle finale, r´esultant de la fusion des trois voies : statique, dynamique et auditive. Enfin, diff´erentes mesures ont ´et´e utilis´ees pour quantifier les performances du mod`ele de saillance propos´e.

— Le quatri`eme chapitre s’int´eresse `a l’´evaluation de la qualit´e audiovisuelle. Il propose de faire le tour sur les diff´erentes m´ethodes, subjectives et objectives, d’´evaluation de la qualit´e visuelle. A ce titre, nous d´ecrivons en d´etail les conditions des tests psychovisuels ainsi que les normes de l’UIT (Union Internationale des T´el´ecommunications) qui y sont associ´ees. Ensuite, nous pr´esentons les diff´erentes classes des m´ethodes (m´etriques) ob-jectives d’´evaluation de la qualit´e en mettant l’accent sur celles int´egrant des propri´et´es du syst`eme visuel humain (SVH). Enfin, nous mettons en ´evidence les approches mul-timodales permettant de prendre en compte l’information sonore dans leur processus d’´evaluation de la qualit´e globale telle qu’elle est per¸cue par l’utilisateur final.

— Enfin, le cinqui`eme chapitre est d´edi´e `a l’´etude de l’influence de la qualit´e de l’audio sur la qualit´e de la vid´eo et vice versa. Il propose tout d’abord d’´evaluer la qualit´e visuelle en pr´esence d’un audio inalt´er´e. A cette fin, nous avons men´e une campagne de tests psychovisuels pour quantifier l’influence du signal sonore sur le jugement hu-main de la qualit´e. Le signal audio reste inalt´er´e dans toute cette exp´erience. Dans un second temps, nous avons r´ealis´e une deuxi`eme campagne de tests psychovisuels o`u les deux modalit´es (audio et vid´eo) sont alt´er´ees. Dans cette troisi`eme exp´erience, nous avons utilis´e trois types de dispositifs d’affichage pour visualiser les s´equences vid´eo ; un Smartphone, une tablette et un ´ecran TV (homme cin´ema). Diff´erentes r´esolutions d’images ont ´et´e aussi utilis´ees. Pour ´evaluer l’influence de l’audio sur la qualit´e globale, les s´equences vid´eos et leur bande-son associ´ees sont inversement combin´ees (meilleure qualit´e vid´eo est associ´ee `a une qualit´e audio m´ediocre et vice versa). L’influence `a la fois du dispositif d’affichage et de la r´esolution utilis´ee a ´et´e ´egalement ´etudi´ee.

(19)

Premi`

ere partie

(20)
(21)

Chapitre 1

L’attention visuelle et sa mod´

elisation

Sommaire

1.1 Introduction . . . 7

1.2 Syst`emes visuel et auditif humains . . . 8

1.2.1 Syst`eme visuel humain . . . 8

1.2.2 Syst`eme auditif humain. . . 11

1.3 Attention/Saillance visuelle . . . 12

1.3.1 Attention ou saillance. . . 13

1.3.2 Attention et mouvements oculaires . . . 13

1.3.3 Applications . . . 13

1.4 Cat´egorisations d’attention visuelle . . . 14

1.4.1 Attention exog`ene ou endog`ene . . . 14

1.4.2 Attention ouverte ou couverte . . . 14

1.4.3 Attention spatiale ou spatio-temporelle . . . 14

1.4.4 Attention bas´ee espace ou objet . . . 16

1.5 Mod`eles de pr´ediction de la saillance visuelle . . . 16

1.5.1 Mod`eles cognitifs . . . 16

1.5.2 Mod`eles d’analyse spectrale . . . 20

1.5.3 Mod`eles graphiques . . . 22

1.6 Saillance auditive . . . 23

1.6.1 Mod`ele de Kayser et al. . . 24

1.6.2 Mod`ele de Tsuchida et al. . . 24

1.7 El l’audiovisuel ? . . . 26

1.8 Conclusion . . . 28

1.1

Introduction

La mod´elisation de l’attention visuelle est un champ de recherche tr`es actif. Depuis l’appa-rition en 1980 de la th´eorie d’int´egration des attributs (Feature Integration theory) de Treis-man et al. [30], reconnue comme ´etant la base de l’´etude de l’attention visuelle, le nombre

(22)

de mod`eles ne cesse d’augmenter. Dans ce chapitre, nous proposons de dresser un panorama des caract´eristiques et des performances des principaux mod`eles d’attention ou de saillance visuelle pr´esents dans la litt´erature. Pour ce faire, nous commen¸cons par d´ecrire bri`evement le syst`eme visuel et le syst`eme auditif humains. Ensuite, l’attention visuelle est d´efinie et les diff´erents facteurs de cat´egorisation (classification) sont pr´esent´es. Les principales classes sont alors d´ecrites en mettant en ´evidence les m´ecanismes computationnels associ´es. Nous pr´esentons enfin les quelques mod`eles pr´eliminaires d’attention “audiovisuelle” int´egrant `a la fois les informations visuelles et auditives.

1.2

Syst`

emes visuel et auditif humains

Afin d’appr´ehender au mieux la saillance audiovisuelle, il est important de pr´esenter l’anatomie fonctionnelle des syst`emes visuel et auditif impliqu´es dans cette derni`ere. Ces deux syst`emes traitent une tr`es grande quantit´e d’informations fournies par l’environnement ext´erieur. Le traitement de ces informations est rapide et permet de r´eagir rapidement et correctement. Cette performance est li´ee `a la capacit´e qu’ont ces syst`emes de r´eduire l’in-formation visuelle afin de ne conserver que des attributs permettant de guider notre atten-tion vers des r´egions particuli`eres de l’environnement, appel´ees classiquement des r´egions saillantes. Ce biais attentionnel est non seulement guid´e par les informations visuelles et auditives s´epar´ement, mais aussi par leur interaction audiovisuelle.

1.2.1

Syst`

eme visuel humain

Le syst`eme visuel humain (SVH) est principalement constitu´e de deux organes : l’œil, qui est le capteur de la lumi`ere de l’environnement ext´erieur, et le cortex visuel qui permet ensuite de traiter ces informations visuelles. L’acheminement de ces informations de la r´etine (lieu de traduction du message lumineux venant de l’environnement ext´erieur) au cortex visuel est illustr´e en figure 1.1 (b).

La figure 1.1 (a) repr´esente une coupe transversale de l’œil humain avec ses principales composantes. La perception visuelle d’une sc`ene est d´etermin´ee par les rayons lumineux (´emis ou r´efl´echis) de cette sc`ene. Quand un rayon lumineux traverse l’œil, il passe `a travers la corn´ee, l’humeur aqueuse, l’iris, le cristallin, le corps vitr´e et enfin la r´etine.

La r´etine est le lieu de traduction du message lumineux venant de l’environnement ext´erieur. Elle est compos´ee d’un ensemble de couches de cellules (des photor´ecepteurs, d’une couche granuleuse interne et des cellules ganglionnaires) [3]. Les photor´ecepteurs se d´ecomposent en deux types : les bˆatonnets et les cˆones. Les bˆatonnets (environ 100 millions par œil) sont des cellules r´eparties sur toute la surface de l’œil permettant ainsi la vision scotopique (nocturne ou de faible ´eclairage). Ils sont ´egalement associ´es `a la d´etection de mouvement [2, 3]. Les cˆones (entre 6 et 7 millions par œil chez l’homme) sont des cellules localis´ees dans le centre de l’œil assurant la vision diurne. Elles sont responsables de l’acuit´e visuelle et de la vision des couleurs. Ainsi, lorsqu’il y a une quantit´e de lumi`ere suffisante, l’homme per¸coit une immense vari´et´e de couleurs diff´erentes grˆace notamment `a ses trois

(23)

1.2. Syst`emes visuel et auditif humains

(a) (b)

Figure 1.1 – Sch´ema global du syst`eme visuel humain [2].

types de cˆones ; L (sensibles `a la lumi`ere rouge, de longueur d’onde 560 nm), M (sensibles `a la lumi`ere verte, de longueur d’onde 530 nm) et S (sensibles `a la lumi`ere bleue, de longueur d’onde 524 nm) [9, 10, 74]. Les cˆones sont concentr´ees dans une r´egion centrale de la r´etine appel´ee fov´ea. Elle est la partie de la r´etine o`u notre vision des d´etails est la plus pr´ecise. C’est pourquoi nos points de fixation doivent ´evoluer pour analyser les d´etails. Finalement, le cortex visuel est la partie du SVH responsable du traitement de l’information visuelle. Il se trouve au pˆole dorsal du lobe occipital (figure 1.2).

L’information r´etinienne est achemin´ee, dans un premier temps, vers les corps genouill´es lat´eraux gauche et droit, `a travers le chiasma optique le long du tractus optique par les nerfs optiques, puis directement vers le cortex visuel primaire (aire V1) [1, 2]. Diff´erents traite-ments progressifs de cette information sont ainsi effectu´es. Les corps genouill´es lat´eraux sont compos´es de six couches : les couches 1 `a 4 sont impliqu´ees dans le traitement de la couleur et de la forme tandis que les couches 5 et 6 participent aux traitements de l’information relative au mouvement.

Filtrage visuels

Comme mentionn´e ci-dessus, la r´etine et le cortex visuel sont les deux principales parties du SVH. Ainsi, le traitement des informations r´etiniennes et corticales a ´et´e particuli`erement mod´elis´e [9, 74, 19]. Pour la r´etine, le fonctionnement des cellules essentielles qui la compose a ´et´e mod´elis´e dans [13] par des filtrages spatio-temporels : transform´ee de Fourier pour la dimension temporelle continue et la transform´ee en Z pour la dimension spatiale discr`ete. Cette mod´elisation, en particulier du filtrage spatiale r´ealis´e par la r´etine, a ´et´e adopt´ee par Ho-Phuoc dans [9]. Dans ces travaux, le filtrage “r´etinien” appliqu´e `a l’information de luminance est diff´erent de celui appliqu´e `a l’information de chrominance. Par cons´equent, les fonctions de sensibilit´e au contraste diff´erent pour ses deux informations, comme le montre la figure1.3. En r´esum´e, la mod´elisation de la r´etine consiste `a renforcer les contrastes (les hautes fr´equences spatiales) pour la luminance et un filtrage passe-bas spatial pour les informations

(24)

Figure 1.2 – Diff´erentes couches du syst`eme visuel humain [3]

chromatiques. Enfin, les informations de luminance et la chrominance sont envoy´ees au cortex visuel, o`u diff´erents traitements seront appliqu´es par la suite.

Figure 1.3 – Fonction de sensibilit´e au contraste normalis´ee pour les voies de chrominance et de luminance (Image extraite de [9]).

Pour le cortex visuel, les premi`eres r´eponses neuronales de l’aire V1 consistent en un ensemble de filtres spatio-temporels s´electifs. Dans le domaine fr´equentiel, le fonctionnement de l’aire V1 (filtres corticaux) peut ˆetre assimil´e `a une suite de transformations de Fourier complexes. Th´eoriquement, ces filtres peuvent conjointement effectuer le traitement neuronal de la fr´equence spatiale, de l’orientation, du mouvement, et de la vitesse (fr´equence tempo-relle) [1, 3].

(25)

1.2. Syst`emes visuel et auditif humains

1.2.2

Syst`

eme auditif humain

Dans le syst`eme auditif humain (SAH), les ondes sonores sont capt´ees par le pavillon puis achemin´ees vers la cochl´ee, l’organe principal de la perception auditive. Le SAH est compos´e de trois parties [4] : l’oreille externe, l’oreille moyenne et l’oreille interne comme le montre la figure 1.4.

Figure 1.4 – Sch´ema du syst`eme auditif humain [4].

— Oreille externe : Compos´ee d’un pavillon, qui sert `a la protection et l’amplification du signal sonore, et d’un conduit auditif externe, qui permet d’acheminer ces ondes vi-bratoires vers l’oreille moyenne. Le conduit auditif poss`ede une fr´equence de r´esonnance qui oscille entre 1 et 3 KHz. C’est pourquoi notre syst`eme auditif est tr`es sensible aux fr´equences de la parole humaine (environ 3KHz).

— Oreille moyenne : Compos´ee principalement du tympan et est situ´ee entre la fenˆetre ovale de l’oreille externe et la cochl´ee de l’oreille interne. Elle permet de convertir les ondes sonores en vibratoires m´ecaniques `a travers un ensemble de petits osselets (mar-teau, enclume et ´etrier).

— Oreille interne : C’est cette derni`ere qui contient l’organe principal de l’ou¨ıe, la co-chl´ee. Cette derni`ere, renfermant entre 15 et 20 milles cellules cili´ees, permet de trans-former l’´energie acoustique en flux nerveux. Ce dernier est par la suite v´ehicul´e vers le cortex auditif par les nerfs auditifs pour un traitement de ces informations sonores, comme dans le cas du cortex visuel. Une lecture plus approfondie de ce m´ecanisme est disponible en [5].

Notre syst`eme auditif est expos´e `a une source multiple de voix, de sons et de bruits superpos´es, dont les spectres sont bien diff´erents. N´eanmoins, ce syst`eme auditif est ca-pable de porter notre attention sur une source sonore bien particuli`ere, parole humaine par

(26)

exemple, mˆeme en pr´esence d’un environnement bruit´e. Cette proc´edure du SAH permettant de r´ecup´erer une source complexe de l’environnement ext´erieur et de la s´eparer en “packets” acoustiques (de fr´equence et nature diff´erente) peut ˆetre d´ecrite par l’Analyse des Sc`enes Auditives (Auditory Scene Analysis, ASA) [6]. Cette analyse se compose des processus de regroupement s´equentiel et simultan´e :

— Regroupement simultan´e : Ce type de regroupement sert `a rassembler les informations qui proviennent, au SAH, de la mˆeme source sonore et `a s´eparer les informations pro-venant de sources distinctes. Ce regroupement est bas´e essentiellement sur des indices comme l’harmonicit´e commune et la coh´erence de la modulation d’amplitude [7]. — Regroupement s´equentiel : Il sert `a affecter les ´ev´enements successifs qui pr´esentent une

certaine coh´erence entre eux `a des repr´esentations mentales du comportement temporel des sources sonores [6, 7]. Il est bas´e sur un ensemble d’indices : le contenu fr´equentiel, l’enveloppe spectrale, etc.

Bien que les syst`emes visuel et auditif humain pr´esentent une anatomie diff´erente, ceux-ci ont des comportements fonctionnels tr`es similaires. Nous trouvons ainsi, par analogie avec le syst`eme visuel, le cortex auditif qui est la partie principale du syst`eme auditif humain. Il est responsable de l’analyse en d´etail des informations auditives provenant du milieu ext´erieur. Ainsi, ce cortex auditif nous permet de distinguer et m´emoriser les diff´erentes fr´equences so-nores (son grave ou aigu), mais aussi de connaˆıtre l’intensit´e du son (fort ou faible), sa dur´ee et son timbre. Il poss`ede des voies eff´erentes inhibitrices permettant de r´eduire sp´ecifiquement la sensibilit´e `a certaines fr´equences sonores. Par cons´equent, ceci permet de prˆeter notre at-tention auditive `a des sons particuliers tout en att´enuant les autres sons. C’est en quelque sorte une fonctionnalit´e similaire `a la fonction de sensibilit´e au contraste dans le cas visuel.

Dans le reste de ce chapitre, nous d´ecrivons en d´etail l’attention visuelle et auditive, puis nous pr´esentons les principaux mod`eles de saillance visuelle et auditive associ´es et nous terminons par l’interaction de ces informations attentionnelles.

1.3

Attention/Saillance visuelle

L’attention visuelle est un m´ecanisme important du syst`eme visuel humain qui mod´elise notre perception visuelle du monde ext´erieur. Elle permet de s´electionner les r´egions de la sc`ene les plus distinctives de leur voisinage. Du cˆot´e de la recherche, des efforts ont ´et´e consacr´es `a l’´etude et la compr´ehension des principales caract´eristiques du syst`eme visuel humain, de la r´etine aux diff´erentes aires du cortex visuel. Diff´erentes th´eories fondatrices de l’attention visuelle ainsi que les mod`eles associ´es ont ´et´e propos´es [26, 64]. La premi`ere mise en œuvre computationnelle de ces mod`eles est propos´ee par Koch et Ullman [14] qui ont int´egr´e des caract´eristiques visuelles afin de construire une sorte de carte topographique qui repr´esente la sc`ene. La premi`ere impl´ementation et v´erification de ce mod`ele, appliqu´e aux sc`enes synth´etiques mais aussi naturelles, a ´et´e faite par Laurent Itti [11]. Diff´erentes approches bas´es sur ce dernier mod`ele, qui est en am´elioration continue jusqu’`a nos jours, ont ´et´e par la suite propos´ees.

(27)

1.3. Attention/Saillance visuelle

1.3.1

Attention ou saillance

De mani`ere interchangeable, les termes attention et saillance sont souvent utilis´es dans la litt´erature. Cependant, ces termes ont chacun une d´efinition bien particuli`ere : l’attention est un concept g´en´eral couvrant tous les facteurs qui influencent le m´ecanisme de s´election (exog`enes ou endog`enes). La saillance, quant `a elle, caract´erise certaines parties de la sc`ene, objets ou autres, qui apparaissent plus distinctifs par rapport `a leur voisinage. Le terme “saillant” est souvent utilis´e dans les processus attentionnels li´es aux facteurs de bas-niveau, par cons´equent les mod`eles ascendants (bottom-up) sont couramment appel´es mod`eles de saillance visuelle.

1.3.2

Attention et mouvements oculaires

Il est difficile d’appr´ehender l’attention visuelle sans au pr´ealable avoir rappel´e sa re-lation avec les mouvements oculaires. Les recherches neuronales et cognitives ont attribu´e une relation d’interd´ependance entre ces deux concepts. Il existe deux types de mouvements oculaires : des mouvements saccad´es (saccades et fixations) o`u les yeux se focalisent sur diff´erentes r´egions d’une sc`ene lors de son exploration et des mouvements de poursuites, o`u les yeux suivent des objets en d´eplacement. L’´etude des caract´eristiques (biais centr´e, distri-bution des saccades et fixations, etc.) et des facteurs influen¸cant les mouvements oculaires (bas-niveau, haut niveau, etc.) est d´etaill´ee dans [51, 10]. Pour mesurer les mouvements des yeux, les chercheurs font appel `a des syst`emes oculom´etriques. L’utilisation de ces syst`emes remonte `a 1935 avec Buswell [51]. Les r´esultats fournis par ces eye-trackers qui sont au-jourd’hui largement r´epandus, constituent la base de validation des mod`eles attentionnels (Chapitre 3).

1.3.3

Applications

Les applications qui exploitent l’attention visuelle et les mod`eles attentionnels associ´es sont aujourd’hui nombreuses : la vision par ordinateur (la reconnaissance et d´etection d’ob-jets, la poursuite de cibles, la compression, etc.), l’infographie (rendu d’images, ´eclairage dynamique, etc.) et la robotique (navigation et interaction). La vision par ordinateur, le do-maine qui nous int´eresse ici, est le champ qui utilise plus les mod`eles d’attention visuelle car les tˆaches r´ealis´ees par ceux-ci sont proches de celles de la vision humaine. On trouve ainsi des applications li´ees au traitement d’images au sens large du terme (segmentation, compression, etc.). Un mod`ele de saillance visuelle permet de hi´erarchiser l’importance des r´egions d’une image. Par exemple, cette hi´erarchie peut ˆetre utilis´ee pour s´electionner et adapter le taux de compression. Un autre exemple d’utilisation est le r´esum´e de vid´eos. L’attention visuelle dans ce cas, permet de s´electionner les trames ayant le plus de s´emantiques dans la vid´eo pour r´eduire la taille de celle-ci tout en respectant le sens du contenu afin de faciliter son stockage (cas de la vid´eosurveillance par exemple). R´ecemment, cette notion a ´et´e utilis´ee pour l’´evaluation de la qualit´e visuelle [66].

(28)

1.4

Cat´

egorisations d’attention visuelle

Les facteurs de cat´egorisation qui sont d´ecrits dans ce paragraphe servent `a l’analyse et la classification des mod`eles d’attention visuelle.

1.4.1

Attention exog`

ene ou endog`

ene

Posner [26] a d´efinit en 1980 deux types d’attention : l’attention exog`ene et l’attention endog`ene. L’attention exog`ene (ou ascendante) est un m´ecanisme automatique bas´e sur les caract´eristiques de la sc`ene. Il s’agit d’un processus externe d´eclench´e par les stimuli externes (stimulus-driven). L’objet qui attire notre attention doit ˆetre suffisamment distinctif de son entourage. Un exemple typique d’une attention exog`ene est une sc`ene contenant une barre horizontale entour´ee par des barres verticales. L’attention est imm´ediatement attir´ee par la barre horizontale. Contrairement `a l’attention exog`ene, l’attention endog`ene (ou descendante) est un m´ecanisme volontaire li´e `a nos objectifs (goal ou task-driven). Un exemple de ce dernier type d’attention est de chercher par exemple une personne qui parle parmi plusieurs dans une s´equence vid´eo. L’approche exog`ene ´etant rapide et simple `a mod´eliser, la majorit´e des mod`eles attentionnels l’exploite [11, 64,17].

1.4.2

Attention ouverte ou couverte

Les recherches portant sur l’attention visuelle ont distingu´e l’attention ouverte de l’atten-tion couverte (le “comment” focaliser son attenl’atten-tion). Ces deux types d’attenl’atten-tion se diff´erencient par les mouvements des yeux. L’attention ouverte consiste `a faire bouger les yeux et/ou la tˆete afin de placer l’objet de notre attention sur la fov´ea ; l`a o`u une analyse d´etaill´ee a lieu. Ce type d’attention est observable et mesurable `a l’aide d’un eye-tracker. Par contre, l’atten-tion couverte consiste `a focaliser le regard sur un stimulus lors de l’exploral’atten-tion d’une sc`ene sans changer l’orientation du regard. En 1967, Yarbus [28] a ´etudi´e la liaison entre l’atten-tion ouverte est les mouvements des yeux `a travers des s´eries d’exp´erimental’atten-tion. Il a montr´e que les mouvements des yeux d´ependaient de la tˆache demand´ee. La figure 1.5 montre les mouvements des yeux lors d’une observation libre (free watching) d’une sc`ene. Le regard est naturellement attir´e par le visage et, en particulier, les yeux, le nez et la bouche. La figure 1.6 montre, au contraire, les mouvements oculaires lors d’une observation d’une sc`ene avec des tˆaches bien particuli`eres (questions).

Un exemple simple de l’attention visuelle couverte consiste `a focaliser le regard sur une personne qui parle tout en ´etant conscient de l’espace visuel en dehors de la vision fov´eale centrale. Un autre exemple de ce type d’attention est la conduite, le conducteur focalise son regard sur la route tout en surveillant simultan´ement l’´etat des panneaux et des feux.

1.4.3

Attention spatiale ou spatio-temporelle

La s´election visuelle est, naturellement, d´ependante `a la fois de la saillance de la sc`ene courante ainsi que du cumul des connaissances acquises les instants pr´ec´edents. De nom-breux mod`eles d’attention visuelle sont consacr´es `a l’´etude de l’attention “statique” : mod`eles

(29)

1.4. Cat´egorisations d’attention visuelle

Figure 1.5 – Mouvements des yeux lors d’une observation libre d’une sc`ene selon Yarbus “attention ouverte” (Image extraite de [28]).

Figure1.6 – Mouvements oculaires lors d’une observation d’une sc`ene avec diff´erentes tˆaches (questions) de 3 minutes chacune. Image extraite de [74]

(30)

d’images fixes [11, 64, 23]. D’autres mod`eles utilisent l’information de mouvement pour mod´eliser leur approche “dynamique” : mod`eles de saillance de vid´eos [17, 19]. La majorit´e des mod`eles spatio-temporels de saillance calcule, pour estimer le mouvement, le flux op-tique (optical flow ). Diff´erentes m´ethodes sont alors utilis´ees : m´ethodes de correspondance de blocs, m´ethodes bas´ees sur l’´energie ou m´ethodes diff´erentielles.

1.4.4

Attention bas´

ee espace ou objet

Que ce soit exog`ene ou endog`ene, ouverte ou couverte, spatiale ou spatio-temporelle, la majorit´e des mod`eles attentionnels se base sur une repr´esentation spatiale (space-based ) [11,64]. Cela vient du fait qu’une repr´esentation spatiale, en plus de sa simplicit´e de mise en œuvre, est plus coh´erente avec le caract`ere bas-niveau de l’attention visuelle. Cependant, des mod`eles d’attention visuelle bas´es objets (object-based ) ont ´et´e propos´es dans la litt´erature. Un panorama des diff´erents mod`eles d’attention bas´es objets est d´ecrit dans [29].

1.5

Mod`

eles de pr´

ediction de la saillance visuelle

Depuis 1998, l’ann´ee de la publication du premier mod`ele computationnel d’attention visuelle, biologiquement plausible, par Itti et Koch [11], un int´erˆet croissant a ´et´e port´e `a ce sujet. Diff´erents mod`eles, inspir´es de la biologie ou simplement bas´es sur des outils math´ematiques, ont ´et´e propos´es. Ces mod`eles peuvent ˆetre class´es, en fonction de leurs m´ecanismes pour estimer l’attention visuelle, en plusieurs cat´egories. Nous nous sommes int´eress´es ici aux mod`eles permettant, `a partir d’une image fixe ou d’une vid´eo, de produire une carte de saillance visuelle.

1.5.1

Mod`

eles cognitifs

Presque tous les mod`eles attentionnels sont directement ou indirectement inspir´es des concepts cognitifs. Nous d´ecrivons dans cette section les mod`eles, qui ont trait aux notions psychologiques ou neurophysiologiques, les plus utilis´es dans la litt´erature pour g´en´erer des cartes de saillance.

• Itti et Koch 1998

D´etaill´e dans de nombreuses th`eses et rapports, le mod`ele bottom-up (cf. paragraphe 1.3.1) d’Itti et Koch utilise, dans sa version originale, trois caract´eristiques perceptuelles pour construire une carte de saillance : intensit´e, couleur et orientation (figure 1.7). L’image d’entr´ee est d´ecompos´ee en diff´erents canaux perceptuels `a partir desquels une repr´esentation multi-´echelles de l’image est construite. Ensuite, un filtrage centre-p´eriph´erie est effectu´e afin d’obtenir 42 cartes de caract´eristiques :

— 6 pour l’intensit´e.

(31)

1.5. Mod`eles de pr´ediction de la saillance visuelle

— 24 pour l’orientation (0°, 45°, 90° et 135°)

Ces cartes caract´eristiques sont normalis´ees par un op´erateur N (.) permettant de renforcer les cartes contenant un petit nombre de pics d’activit´e (correspondant aux zones saillantes). Ensuite, elles sont somm´ees pour obtenir trois cartes de visibilit´e (conspicuity map) corres-pondant `a l’intensit´e (CI), la couleur (CC) et l’orientation (CO). Enfin, ces trois cartes sont lin´eairement combin´ees pour obtenir une seule carte de saillance (CS) :

CS = 1 3

X k=I,C,O

Ck (1.1)

Figure 1.7 – Architecture du mod`ele de Laurent Itti (Image extraite de [11]).

Un r´eseau de neurones de type Winner Takes All (WTA) coupl´e `a un m´ecanisme d’inhi-bition de retour IOR (Inhid’inhi-bition Of Return) est utilis´e afin de pr´edire une sorte de parcours oculaire. Le r´eseau WTA g´en`ere les diff´erentes focalisations en s´electionnant la zone d’activit´e maximale de la carte de saillance tandis que le m´ecanisme d’inhibition d´esactive temporaire-ment la r´egion d´ej`a visit´ee. Ce mod`ele, poss´edant une architecture simple, est aujourd’hui la r´ef´erence pour la comparaison des mod`eles d’attention visuelle. Diff´erentes impl´ementations

(32)

de ce mod`ele sont disponibles librement : Saliency Toolbox de Walther [14], VOCUS de Frin-trop [15], etc. Ce mod`ele, initialement d´edi´e aux images fixes, a ´et´e am´elior´e par Itti lui-mˆeme en ajoutant des attributs de mouvement (flicker, motion) afin qu’il soit capable de pr´edire une carte de saillance vid´eo.

En r´esum´e, le mod`ele d’Itti pr´esente de nombreux avantages : il est simple `a œuvre et efficace en temps de calcul (il utilise les m´ecanismes de WTA et IOR pour choisir les fixations au cours du temps). Toutefois, l’aspect biologique mod´elis´e reste limit´e.

• Le Meur et al.

Le Meur [17] propose un mod`ele d´eriv´e du mod`ele d’Itti en mod´elisant quelques ca-ract´eristiques d’entr´ee du syst`eme visuel humain SVH : la sensibilit´e aux contrastes, la d´ecomposition perceptuelle et le masquage visuel. En plus, l’espace couleur RVB utilis´e par Itti a ´et´e remplac´e dans ce mod`ele par l’espace couleur perceptuel de Krauskopf ACr1Cr2 (A : luminance, Cr1 : chrominance, Cr2 : chrominance) afin de simuler le traitement r´etinien de l’information visuelle [74, 19].

Ce mod`ele a ´et´e ´etendu dans le domaine spatio-temporel [18] en combinant les infor-mations chromatiques, achromatiques et temporelles. Dans ce mod`ele, les caract´eristiques visuelles sont extraites s´epar´ement en plusieurs canaux parall`eles. Pour chaque canal, une carte de caract´eristique est obtenue puis une unique carte de saillance est construite `a partir de ces canaux. L’architecture de la derni`ere version de ce mod`ele est repr´esent´ee par la figure 1.8.

Contrairement `a la m´ethode de fusion adopt´ee par Itti (sommation des cartes), Le Meur et al. ont utilis´e une m´ethode de fusion en deux ´etapes. Tout d’abord, les cartes chromatiques et achromatique sont regroup´ees en une seule carte (spatiale). Cette carte sera par la suite fu-sionn´ee avec la carte temporelle. Avant cette ´etape de fusion, les deux cartes sont normalis´ees par des valeurs th´eoriques. Afin de prendre en compte la compl´ementarit´e des cartes ainsi que leur redondance, un terme additif et un terme multiplicatif ont ´et´e utilis´es dans la fusion.

Malgr´e la prise en compte de certaines propri´et´es du SVH, le gain en termes de perfor-mances de ce mod`ele sont tr`es faibles. La complexit´e calculatoire, dˆu `a la d´ecomposition perceptuelle, est aussi un point critique de ce mod`ele bio-inspir´e. Il n’est pas adapt´e aux applications n´ecessitant le temps r´eel ou presque.

• Marat et al.

Marat et al. [19] ont propos´e une approche bottom-up pour pr´edire une carte de saillance spatio-temporelle de vid´eos. Ce mod`ele permet d’extraire deux signaux de la vid´eo corres-pondants aux deux principales sorties de la r´etine : la voie parvocellulaire et la voie ma-gnocellulaire. Ces signaux permettent de traiter les informations statiques et dynamiques et de construire une carte de saillance pour chaque voie. Finalement, les deux cartes sont

(33)

1.5. Mod`eles de pr´ediction de la saillance visuelle

(34)

fusionn´ees pour g´en´erer une seule carte de saillance spatio-temporelle. Ce mod`ele a ´et´e va-lid´e via une exp´erimentation d’eye-traking sur une base de donn´ees de grande taille (17000 trames). le mod`ele de Marat a ´et´e impl´ement´e en C et est disponible `a cette adresse : http://www.gipsa-lab.fr/projet/perception/. On peut choisir de ne calculer que la sor-tie statique, dynamique, ou la fusion de toutes les voies. Cinq m´ethodes de fusions ont ´et´e utilis´ees pour construire la carte finale : 3 m´ethodes dites “classiques” et 2 m´ethodes dites “adapt´ees”. Pour les m´ethodes classiques, une fusion moyenn´ee (sommes de deux cartes), une fusion maximum (le maximum de deux cartes) et une fusion multiplicative (multiplication pixel par pixel des deux cartes) ont ´et´e test´ees. En ce qui concerne les m´ethodes adapt´ees, les deux cartes sont tout d’abord pond´er´ees par leurs caract´eristiques appropri´ees [19] : le maximum pour les cartes statiques et le skewness (cœfficient de dissym´etrie) pour les cartes dynamiques, comme suit :

Ms′= M ax(Ms)× Ms (1.2)

Md′ = Skewness(Mf)× Md (1.3)

Ms et Md sont les cartes statiques et dynamiques, respectivement.

Ensuite, une fusion dite “simple” des deux voies Msd et une fusion “renforc´ee MRsd ont ´et´e d´efinies, comme le montre les ´equations1.4et1.5. Les r´esultats de ces m´ethodes de fusion ont montr´e que la m´ethode MRsd, favorisant les pixels saillants dans les deux voies, est la plus performante, en utilisant la m´etrique NSS (cf. Chapitre 3).

Msd = Ms′+ Md′ (1.4)

MRsd = Ms′+ Md′+ Ms′× Md′ (1.5) Les mod`eles cognitifs ont l’avantage d’int´egrer des aspects biologiques de l’attention vi-suelle. Ils sont simples, faciles `a impl´ementer et extensibles. Cependant, la m´ethodologie de fusion des cartes, pour obtenir la carte de saillance finale, soul`eve de nombreuses questions (notamment des valeurs th´eoriques ont ´et´e choisies arbitrairement sans aucune justification, comme dans le cas de Le Meur et al.).

1.5.2

Mod`

eles d’analyse spectrale

Au lieu de traiter une image dans le domaine spatial, les mod`eles d’analyse spectrale calculent la saillance visuelle dans le domaine fr´equentiel. Dans ce paragraphe, nous ne pr´esentons pas les mod`eles attentionnels bio-inspir´es mˆeme si ces derniers effectuent une d´ecomposition spatio-fr´equentielle (comme celui de Le Meur [18], par exemple). Achanta et al. [23] ont propos´e un mod`ele de saillance bas´e sur les caract´eristiques bas-niveau de la lumi-nance et de la couleur (figure 1.10). L’image d’entr´ee subit une transformation dans l’espace de couleur CIELAB, ensuite la carte de saillance est calcul´ee comme suit :

(35)

1.5. Mod`eles de pr´ediction de la saillance visuelle

(36)

o`u Iµ est la moyenne arithm´etique sur chaque canal de l’image I, IW hc(x, y) est la version liss´ee de l’image par un filtrage gaussien de fenˆetre 5 × 5 et k.k est la distance Euclidienne.

Figure 1.10 – Architecture du mod`ele d’Achanta et al. [23]

Ce mod`ele a tr`es rapidement ´et´e utilis´e dans les comparaisons des performances des nouveaux mod`eles de saillance visuelle (cf. chapitre 3). Malgr´e sa simplicit´e math´ematique, ce mod`ele pr´esente des r´esultats comp´etitifs par rapport aux mod`eles bio-inspir´es.

Zhang et al. [24] ont propos´e une m´ethode simple et efficace pour pr´edire la saillance visuelle bas´ee sur le spectre r´esiduel. En effet, ils supposent que les singularit´es statistiques dans le spectre peuvent ˆetre responsables pour les r´egions anormales dans l’image, o`u les objets deviennent visibles. Cette m´ethode est ind´ependante des caract´eristiques, cat´egories, ou d’autres formes de connaissance pr´ealable de l’objet. Une analyse de l’image dans le domaine spectral permet d’extraire le spectre r´esiduel et par la suite construire une carte de saillance correspondante dans le domaine spatial. Guo et Zhang [25] ont propos´e ensuite une approche bas´ee sur le spectre de phase de la transform´ee de Fourier (PFT Phase spectrum of Fourier Transform). Ils ont montr´e que l’utilisation de ce dernier, au lieu du mod`ele bas´e sur le spectre r´esiduel, est plus rapide en temps de calcul et donne de meilleurs r´esultats. Cette approche a ´et´e utilis´ee pour calculer la saillance d’une s´equence vid´eo par l’ajout de l’information de mouvement.

Les mod`eles d’analyse spectrale sont simples et faciles `a impl´ementer. La plausibilit´e biologique de ces mod`eles reste malgr´e tout critiquable.

1.5.3

Mod`

eles graphiques

Un mod`ele de cette cat´egorie est consid´er´e comme un cadre probabiliste dans lequel un graphe repr´esente une structure conditionnelle ind´ependante entre des variables al´eatoires. L’attention visuelle, li´ee aux mouvements oculaires, est trait´ee comme une s´erie chronolo-gique. Harel et al. [16] proposent une approche nomm´ee GBVS (Graph-Based Visual Sa-liency) permettant d’extraire des cartes caract´eristiques `a plusieurs ´echelles spatiales. La m´ethode propos´ee pr´esente une coh´erence remarquable avec le d´eploiement de l’attention des

(37)

1.6. Saillance auditive

sujets humains lors d’une s´erie d’exp´erimentations psychovisuelles. Elle permet d’int´egrer la notion de biais centr´e (central bias) favorisant les r´egions centrales de la sc`ene. Ce mod`ele, biologiquement plausible, a ´et´e largement utilis´e dans la litt´erature dˆu `a sa simplicit´e est sa rapidit´e calculatoire.

Au-del`a des classes de mod`eles d´ecrites ci-dessus, diff´erentes approches ont ´et´e propos´ees dans la litt´erature. Nous trouvons ainsi des mod`eles bas´es sur les th´eories de l’information, comme celui de Bruce [20], o`u le calcul de la saillance locale sert `a maximiser l’information acquise `a partir de son environnement. Il traite les parties de la sc`ene les plus informatives et rejettent le reste. Dans [76], les auteurs ont pr´esent´e une approche bas´ee sur l’estimation de la saillance locale. Les caract´eristiques visuelles sont estim´ees en utilisant l’acquisition comprim´ee (Sparse Sampling) et l’estimation de la densit´e de noyau dans un cadre bay´esien. Cette m´ethode, rapide `a mettre en œuvre, permet d’obtenir un gain de 5% par rapport aux autres m´ethodes classiques (Itti, Achanta, etc). Ce mod`ele figure parmi les dix premiers mod`eles de saillance les plus performants sur la base des donn´ees MIT [72] (cf. chapitre 3).

1.6

Saillance auditive

Bien que les syst`emes visuel et auditif pr´esentent une diff´erence anatomique importante (section 1.2), des recherches neuronales ont montr´e que leur m´ecanisme sensoriel est tr`es similaire [68]. De ce fait, diff´erents mod`eles de saillance auditive ont ´et´e propos´es avec des r´esultats encourageants. Les premiers mod`eles ne datent que de 2005 avec notamment les travaux de Matei [22]. Ces mod`eles peuvent ˆetre class´es en deux cat´egories :

- Mod`eles bas´es sur la spatialisation du son : ces mod`eles tentent d’estimer la localisa-tion spatiale du son en se basant sur des indices physiques. La technique de spatialisalocalisa-tion sonore la plus proche de l’´ecoute naturelle est la synth`ese binaurale [32]. Grˆace `a deux filtres correspondants aux oreilles gauche et droite, commun´ement appel´es HRTF (Head Related Transfer Function) ou les fonctions de transfert binaurale et leurs ´equivalents temporels, nomm´es HRIR (Head Related Impulse Response), cette synth`ese permet un rendu spatia-lis´e d’une source sonore `a une position donn´ee. Le ITD (Interaural Time Difference) ou Diff´erence Interaurale de Temps et le IID (Interaural Intensity Difference) ou Diff´erence In-teraurale d’Intensit´e sont des indices fondamentaux pour la perception auditive. L’association de l’IID et l’ITD permet une localisation relativement pr´ecise de la source sonore [32, 34]. Ces mod`eles sont g´en´eralement con¸cus pour des applications li´ees aux robots humano¨ıdes, plus pr´ecis´ement l’orientation spatiale de ces robots [31, 33, 34]. Les signaux auditifs dans cette cat´egorie doivent ˆetre st´er´eophoniques (utilisation d’au moins deux microphones pour l’acquisition du signal audio)

- Mod`eles bas´es sur la similarit´e entre les syst`emes visuel et auditif : ces mod`eles pr´esentent une architecture proche de celle obtenue dans les mod`eles visuels d´ecrits pr´ec´edemment. Le signal sonore, dans cette cat´egorie, est converti en une carte d’intensit´e temps-fr´equence consid´er´ee comme une image sur laquelle sont appliqu´es les mˆemes traitements que dans le

(38)

cas visuel [35,36]. Ces mod`eles sont utilis´es pour diverses applications : D´etection de parole, analyse des sc`enes auditives, etc.

1.6.1

Mod`

ele de Kayser et al.

Le concept essentiel de la mod´elisation de la saillance auditive a ´et´e propos´e par Chris-toph Kayser [35]. La structure de ce mod`ele (figure 1.11) est tr`es similaire `a celle propos´ee par Itti dans le cas visuel [11]. La diff´erence repose essentiellement sur l’extraction des ca-ract´eristiques. Les cartes sont obtenues au moyen d’un spectrogramme (une repr´esentation visuelle de la mani`ere dont les fr´equences, du signal sonore, changent au cours du temps). La carte de saillance auditive extrait les caract´eristiques individuelles, telles que la modulation spectrale ou temporelle, de mani`ere parall`ele. Apr`es l’extraction des caract´eristiques, un en-semble de filtres est utilis´e pour quantifier : l’intensit´e du son, le contraste de fr´equence et le contraste temporel. A travers un m´ecanisme de centre-pourtour, une carte de singularit´e (conspicuity map) est cr´e´ee pour chaque caract´eristique extraite. Enfin, ces cartes sont fu-sionn´ees, d’une mani`ere similaire `a celle utilis´ee par Itti (sommation), pour obtenir la carte de saillance auditive finale.

Le mod`ele a ´et´e valid´e exp´erimentalement sur des sc´enarios acoustiques naturels montrant ainsi une bonne corr´elation avec le jugement humain et permettant de pr´edire la d´etectabilit´e des sons saillants incorpor´es dans un milieu bruit´e, avec un temps de calcul assez faible.

1.6.2

Mod`

ele de Tsuchida et al.

Au lieu de transformer le paradigme visuel propos´e par Itti dans le domaine auditif, comme le fait Kayser [35], Tsuchida et al. ont propos´e un mod`ele de saillance auditive nomm´e ASUN (Auditory Saliency Using Natural Statistics) [36], inspir´e du mod`ele de saillance visuelle SUN de Zhang [24]. Tout d’abord, le signal audio d’entr´ee (´echantillonn´e `a 16 kHz) est converti en un signal spectral dans le domaine des fr´equences (cochleagrams) en utilisant un banc de filtres de Gammatone (200-8000 Hz), liss´e par une convolution avec une fenˆetre de Han-ning de 1 msec et sous-´echantillonn´e `a 1 kHz afin d’obtenir une d´ecomposition fr´equentielle en 64 dimensions du signal d’entr´ee. Puis, cette repr´esentation est divis´ee en 20 bandes de fr´equence. Finalement, une analyse en composantes ind´ependantes est calcul´ee pour chacune de ces 20 bandes s´epar´ement, comme le montre la figure 1.12. La saillance `a tout point est bas´ee sur la raret´e des r´eponses auditives `a ce point (la nouveaut´e attire l’attention).

Sur les mˆemes bases d’´etudes, ce mod`ele pr´esente des performances meilleures (M = 0.3262, SD = 0.0635) que celles obtenues par le mod`ele de Kayser (M = 0.0362, SD = 0.0683). Toutefois, la complexit´e calculatoire est un point faible du mod`ele, surtout pour son usage dans des applications en temps r´eel.

D’autres mod`eles de saillance auditive ont ´et´e d´evelopp´es pour des applications parti-culi`eres : pour la d´etection des paroles [37] ou pour l’analyse des sc`enes bruit´ees [38]. Un mod`ele de saillance auditive bas´e sur un algorithme de s´eparation de l’´energie discr`ete (Dis-crete Energy Separation Algorithm, DESA) a ´et´e propos´e dans [39]. Il permet la s´eparation de la parole et de la musique `a partir d’un flux audio m´elang´e. R´ecemment, ce mod`ele a ´et´e

(39)

uti-1.6. Saillance auditive

Figure 1.11 – (A) Architecture globale du mod`ele de Kayser et al. [35], (B) Spectogramme des bulles d’eau dans un environnement bruit´e et sa carte de saillance correspondante. Image extraite de [35]

Figure

Figure 1.3 – Fonction de sensibilit´e au contraste normalis´ee pour les voies de chrominance et de luminance (Image extraite de [9]).
Figure 1.6 – Mouvements oculaires lors d’une observation d’une sc`ene avec diff´erentes tˆaches (questions) de 3 minutes chacune
Figure 1.8 – Mod`ele de saillance spatio-temporel de Le Meur et al.[18].
Figure 1.9 – Mod`ele de saillance spatio-temporel de Marat et al. [19].
+7

Références

Documents relatifs

En d´ eduire une expression simple de f (on pourra distinguer plusieurs cas suivant les intervalles et les valeurs de a consid´ er´

Bien sˆ ur les ´ ecritures des deux signataires devront apparaˆ ıtre de mani` ere significative dans la copie. Probl`

[r]

En quelle ann´ ee le nombre de plaintes pour blessures non mortelles est-il le plus faible.. En quelle ann´ ee le nombre de plaintes pour blessures non mortelles est-il relativement

En d’autres termes, pour tout nombre premier p, il existe ` a isomorphisme pr` es un et un seul groupe d’ordre p, qui est le groupe cyclique (donc ab´ elien) C

Dans un anneau principal, tout id´ eal premier non-nul est maximal (et donc, pour les id´ eaux non-nuls, les notions de premier et de maximal

L'ancienne église de Broc. de voir que ce château qui, au temps de sa grandeur, était distrait par un fol, maintenant que les temps l'ont dépouillé de son pouvoir, est consolé par un

D´ esignons par Ω le compl´ ementaire du support