• Aucun résultat trouvé

Partie I - De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie

Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ?

3.3 Corrélations audiovisuelles

Notre travail de recherche est centré sur la question du liage entre les modalités

auditives et visuelles, ce qui nous conduit un pas plus loin que les travaux précédents de la

Gestalt, de Bregman ou Treisman. Dans notre cas, nous devons supposer l’existence de traits

primitifs représentés dans des cartes de primitives monosensorielles, et il se pose alors la

question du liage entre ces cartes dans les modalités auditive et visuelle.

On le voit, tous les modèles et toutes les propositions théoriques attribuent un rôle

central aux propriétés de cohérence – essentiellement spatiale/positionnelle et temporelle –

entre les éléments à lier. Ceci nous ramène à la description initiale de l’information visuelle

que nous avions introduite dans le chapitre 1, entre redondance et complémentarité. Ce sont

bien les propriétés de redondance audiovisuelle qui sont susceptibles de servir de base aux

processus de liage, s’ils existent. Nous allons donc présenter maintenant les études qui ont

cherché à caractériser ces redondances, et à établir le contenu des corrélations audiovisuelles.

3.3.1 Yehia et collègues

Yehia et ses collaborateurs (Yehia et al, 1998) ont mesuré la corrélation entre les

mouvements faciaux, les mouvements du tractus vocal et le signal acoustique. Pour recueillir

leurs données ils ont utilisé un système OPTOTRAK (qui permet de mesurer une trajectoire 3D

de capteurs infrarouges, placés sur la joue, le menton, les lèvres, etc.) avec 12 points pour

mesurer la dynamique labiale, ainsi qu’un système EMMA (articulographe électromagnétique)

avec 7 points pour capturer le mouvement du tractus vocal. Leurs résultats précurseurs

montrent que 80-90% de la variance des mouvements faciaux peut être déterminée à partir des

mesures sur le tractus vocal et vice versa. Ils observent également une corrélation de 70 à 85%

entre la géométrie du tractus vocal et les paramètres caractérisant le signal acoustique. Ils

montrent enfin que la forme de la langue peut être estimée assez correctement à partir des

mouvements faciaux grâce à ces corrélations élevées (Figure 32).

Figure 32 – Reconstruction du mouvement de la langue à partir des données faciales pour deux sujets

masculins. La première ligne contient le signal acoustique, puis les lignes 2 à 6 présentent en noir les

patterns articulatoires temporels et en gris les patterns estimés à partir de l’information faciale. Sur la

dernière ligne on compare en noir l’amplitude RMS (moyenne quadratique) mesurée sur le signal et en

gris l’amplitude RMS estimée à partir de l’information faciale. Le coefficient de corrélation pour chaque

comparaison entre données et estimations est inscrit dans le coin supérieur droit. Figure tirée de (Yehia et

3.3.2 Barker et Berthommier

Barker & Berthommier (Barker & Berthommier, 1999) ont proposé une étude similaire,

mais avec une technique de mesure d’articulation visuelle par« chroma key », qui permet une

mesure précise de la dynamique labiale (technique que nous avons utilisée également, qui

extrait un contour de lèvres maquillées en bleu à partir d’enregistrement visuel, et qui sera

présentée plus en détail dans la suite de cette thèse).Ils obtiennent des résultats similaires

(70-75% pour la reconstruction d’information acoustique à partir des données visuelles et 55-60%

pour reconstruire le mouvement labial à partir des mesures acoustiques). Ils observent

cependant que la reconstruction du signal acoustique à partir des seules données labiales est

moins efficace.

3.3.3 Grant et collègues

Grant et al. (Grant & Seitz, 2000) ont mesuré la corrélation entre les mouvements

labiaux et l’enveloppe de l’amplitude acoustique, qui était précédemment séparée en 3

sous-bandes. Ils ont obtenu une cohérence temporelle entre les variations d’ouverture des lèvres et

l’enveloppe acoustique pour la bande intermédiaire. Ils ont pu ainsi mettre en correspondance

ces taux de corrélation audiovisuelle avec les effets de la modalité visuelle sur la détection

auditive, que nous avons déjà présentés dans la section1.2.3.

3.3.4 Chandrasekaran et collègues

Chandrasekaran et al. (Chandrasekaran et al, 2009) ont également observé une

corrélation robuste et une forte correspondance temporelle entre l’ouverture de la bouche et

l’enveloppe acoustique, ainsi qu’entre l’ouverture de la bouche et la première résonance du

tractus vocal (~75%) (Figure 33). Ils montrent également que l’ouverture de la bouche et

l’enveloppe auditive sont modulées temporellement dans une fenêtre de fréquences de l’ordre

de 2-7 Hz.

Figure 33– Corrélations moyennes entre l’aire de l’ouverture de la bouche et l’enveloppe acoustique. Figure

tirée de (Chandrasekaran et al, 2009)

3.3.5 Jiang et collègues

Jiang et al. (Jiang et al, 2002) ont étudié la régression multilinéaire entre le mouvement

du visage, de la langue et le signal acoustique. En termes de lieu d’articulation le lieu de la

langue est un meilleur prédicteur que les lieux bilabial ou glottal. Il existe une certaine

asymétrie dans la prédiction, en ce sens qu’il est plus simple de prédire les mouvements

articulatoires que l’inverse. Ceci peut être dû au fait que l’acoustique de la parole est plus

informative que les mouvements visuels. Ce travail montre aussi que les prédictions sont

meilleures pour les syllabes que pour des phrases.

3.3.6 Berthommier

Berthommier (Berthommier, 2004) propose d’appliquer les propriétés de cohérence

audiovisuelle pour des applications réalistes qui pourraient permettre de synthétiser

l’information vidéo à partir du signal auditif et ainsi d’augmenter l’intelligibilité d’un signal

auditif dans des conditions très bruités grâce à l’information visuelle. Pour ce faire il applique

sur un signal audio bruité un filtre estimé à partir de l’information visuelle. Son étude montre

un gain d’intelligibilité d’environ 4 dB, correspondant à environ 20% d’augmentation du score

de compréhension de mots, consistant en des nombres ou des chiffres (Figure 34).

Figure 34 – Effet d’amélioration d’un signal auditif bruité a l’aide de données visuelles. Figure tirée de

(Berthommier, 2004)

Pour expliquer les résultats obtenus, Berthommier (Berthommier, 2004) propose un

modèle, où l’étape de mesures de corrélations audiovisuelles est une étape de bas niveau,

préalable au traitement et à la fusion ultérieure des signaux auditifs et visuels avant décision.

Nous discuterons ce modèle en détail dans le chapitre suivant.

3.4 Conclusion

Nous avons ainsi passé en revue les éléments factuels qui nous conduisent à supposer

l’existence d’un mécanisme de liage audiovisuel préalable à la fusion et à la décision, présenté

quelques architectures cognitives disponibles dans la littérature pour traiter de ce type de

mécanismes, et décrit les principales études permettant de mettre en évidence des effets de

corrélation audiovisuelle susceptibles de servir de base aux mécanismes de liage. Nous allons

maintenant aborder notre thème central, qui est celui de la mise en évidence explicite d’un

processus de liage audiovisuel en perception de la parole.

Documents relatifs