• Aucun résultat trouvé

3. Organisation du manuscrit

1.7 El l’audiovisuel ?

Dans les sections pr´ec´edentes, nous avons pr´esent´e les mod`eles de saillance visuelle les plus utilis´es dans la litt´erature. Des approches auditives, inspir´ees de ces mod`eles visuels ont ´et´e ´egalement pr´esent´ees. La quasi-totalit´e de ces mod`eles attentionnels, particuli`erement de vid´eos, ne prennent pas en compte le caract`ere ‘audio’ en traitant la vid´eo comme une suc- cession d’images fixes. La notion d’attention ‘audiovisuelle’ est malheureusement n´eglig´ee. Cependant, des recherches sur les bases neurophysiologiques du traitement bi-modal chez l’homme ont soulign´e une influence mutuelle des ces deux informations sensorielles. Les ´etudes portant sur l’interaction audiovisuelle sont class´ees en deux cat´egories : l’influence de l’information auditive sur la perception visuelle et l’influence de l’information visuelle sur la perception auditive. Des ´etudes r´ecentes ont soulign´e une influence particuli`ere du signal “parole” sur la perception visuelle [46].

Un exemple de l’interaction audiovisuelle o`u la vision est alt´er´ee par l’audio est l’effet de McGurk [47]. Dans cette exp´erience, les participants sont appel´es `a regarder une vid´eo sans le son, puis ´ecoutez cette vid´eo sans la regarder et enfin ´ecouter la vid´eo en la regardant. Les syllabes auditives (ba) sont coupl´ees avec une pr´esentation visuelle des mouvements

1.7. El l’audiovisuel ?

articulatoires correspondants `a une autre syllabe (ga). Dans les conditions audiovisuelles (vid´eo + audio), la majorit´e des participants ont entendu (da). La perception est donc erron´ee suite `a la non correspondance entre le signal auditif et le signal visuel. Une vid´eo de cet effet est disponible sur ce lien : https://www.youtube.com/watch?v=G-lN8vWm3m0. Une autre interaction audiovisuelle bien connue est la “lecture labiale”. Le mouvement des l`evres de l’orateur permet `a l’auditeur de mieux extraire les informations acoustiques utiles `a partir d’une source bruit´ee [48]. L’influence de l’audio sur la perception visuelle a ´et´e largement ´etudi´ee. Des r´esultats exp´erimentaux ont montr´e que le signal sonore peut guider la vision si les deux signaux viennent de la mˆeme source. Dans [49], les auteurs ont d´emontr´e que la synchronisation audiovisuelle peut am´eliorer la perception visuelle.

En tenant compte de l’influence multimodale des signaux auditifs et visuels, des mod`eles pr´eliminaires d’attention audiovisuelle permettant de pr´edire “spatialement” l’attention au- diovisuelle ont ´et´e propos´es. Dans [42], les auteurs ont propos´e un mod`ele de saillance audio- visuelle pour le r´esum´e de vid´eos bas´e sur des mod`eles visuels et auditifs. La mod´elisation de l’attention visuelle est r´ealis´ee en utilisant des mod`eles perceptuels prenant en compte, autre que le mouvement et la saillance statique, l’aspect s´emantique de la vid´eo (les visages, par exemple) et la mod´elisation du mouvement de la cam´era. L’attention auditive est, quant `a elle, bas´ee sur l’´energie acoustique du signal sonore, en supposant que l’attention humaine est attir´ee par l’un des deux cas suivants : un son fort mesur´e par l’´energie moyenne du signal ou l’augmentation et la diminution soudaine de l’intensit´e sonore, mesur´ee par le pic d’´energie. Finalement, les courbes obtenues sont fusionn´ees, lin´eairement, en une seule courbe d’atten- tion audiovisuelle.

Un autre domaine d’application des mod`eles de saillance audiovisuelle concerne les syst`emes de perception des robots. En effet, le mod`ele de saillance audio permet au robot de localiser la source sonore dans l’espace [43]. Dans [44], les auteurs ont propos´e un mod`ele d’attention multimodale pour les d´eplacements des robots. Le mouvement des yeux et du cou du robot est bas´e sur les cartes de saillance visuelle et auditive. L’architecture de ce mod`ele est illustr´ee dans la figure 1.13. La carte de saillance auditive est bas´ee sur la d´etection spatiale de la source sonore. Les cartes visuelles et auditives sont combin´ees en une seule carte de saillance en prenant la valeur maximale de chaque carte `a chaque emplacement.

Des ´etudes exp´erimentales ont montr´e que notre perception est bien multimodale et que notre attention n’est pas seulement influenc´ee par la vision et l’audition mais aussi par les interactions audiovisuelles. Dans [50], les auteurs ont r´ealis´e un ensemble de tests sur une image statique avec des sources sonores localis´ees en haut, en bas, `a gauche et `a droite sur cette image. Ils ont enregistr´e les mouvements oculaires des participants dans trois condi- tions : auditives, visuelles et audiovisuelles. Ils ont constat´e que le mouvement des yeux des participants dans les conditions audiovisuelles sont spatialement biais´es vers la r´egion de l’image correspondant `a la source sonore.

Song et al. [67] ont r´ealis´e des s´eries d’exp´erimentations pour examiner l’influence de diff´erents types de son (parole, musique, bruit, etc.) toujours sur les mouvements des yeux des partici- pants. Les r´esultats ont montr´e que la nature de l’audio a une influence sur les mouvements des yeux et que cette influence est plus importante dans la classe de voix humaine (parole, chansons, etc.).

Figure 1.13 – Architecture du mod`ele audiovisuel de Ruesch et al. [44].

Des ´etudes r´ecentes ont montr´e que le contenu s´emantique a une importance majeure pour les observateurs lors de l’exploration d’un contenu visuel. Les objets et les visages sont connus pour leur s´emantique par rapport au reste du contenu dans diff´erentes applications (vid´eoconf´erence, r´eunions, ´emissions TV, etc.). Un mod`ele de saillance permettant de pr´edire la carte de saillance d’une vid´eo de telles applications, prenant en compte les caract´eristiques de bas et de haut niveaux ainsi que l’importance du caract`ere audio, semble ˆetre indispen- sable. R´ecemment, dans [67], Song et al. ont propos´e un mod`ele pr´eliminaire de saillance audiovisuelle dans lequel le visage parlant est localis´e manuellement dans la s´equence vid´eo. Ce mod`ele suppose un seul visage parlant dans la vid´eo, or dans des vid´eos de conversations ou de conf´erences, plusieurs personnes peuvent converser.

Documents relatifs