Partie I - De la parole audiovisuelle à la question du liage : un état de l’art pour une stratégie Chapitre 3. Un mécanisme de liage audiovisuel préalable à la fusion ? 3.3 Corrélations audiovisuelles Notre travail de recherche est centré sur la question du liage entre les modalités auditives et visuelles, ce qui nous conduit un pas plus loin que les travaux précédents de la Gestalt, de Bregman ou Treisman. Dans notre cas, nous devons supposer l’existence de traits primitifs représentés dans des cartes de primitives monosensorielles, et il se pose alors la question du liage entre ces cartes dans les modalités auditive et visuelle. On le voit, tous les modèles et toutes les propositions théoriques attribuent un rôle central aux propriétés de cohérence – essentiellement spatiale/positionnelle et temporelle – entre les éléments à lier. Ceci nous ramène à la description initiale de l’information visuelle que nous avions introduite dans le chapitre 1, entre redondance et complémentarité. Ce sont bien les propriétés de redondance audiovisuelle qui sont susceptibles de servir de base aux processus de liage, s’ils existent. Nous allons donc présenter maintenant les études qui ont cherché à caractériser ces redondances, et à établir le contenu des corrélations audiovisuelles. 3.3.1 Yehia et collègues Yehia et ses collaborateurs (Yehia et al, 1998) ont mesuré la corrélation entre les mouvements faciaux, les mouvements du tractus vocal et le signal acoustique. Pour recueillir leurs données ils ont utilisé un système OPTOTRAK (qui permet de mesurer une trajectoire 3D de capteurs infrarouges, placés sur la joue, le menton, les lèvres, etc.) avec 12 points pour mesurer la dynamique labiale, ainsi qu’un système EMMA (articulographe électromagnétique) avec 7 points pour capturer le mouvement du tractus vocal. Leurs résultats précurseurs montrent que 80-90% de la variance des mouvements faciaux peut être déterminée à partir des mesures sur le tractus vocal et vice versa. Ils observent également une corrélation de 70 à 85% entre la géométrie du tractus vocal et les paramètres caractérisant le signal acoustique. Ils montrent enfin que la forme de la langue peut être estimée assez correctement à partir des mouvements faciaux grâce à ces corrélations élevées (Figure 32). Figure 32 – Reconstruction du mouvement de la langue à partir des données faciales pour deux sujets masculins. La première ligne contient le signal acoustique, puis les lignes 2 à 6 présentent en noir les patterns articulatoires temporels et en gris les patterns estimés à partir de l’information faciale. Sur la dernière ligne on compare en noir l’amplitude RMS (moyenne quadratique) mesurée sur le signal et en gris l’amplitude RMS estimée à partir de l’information faciale. Le coefficient de corrélation pour chaque comparaison entre données et estimations est inscrit dans le coin supérieur droit. Figure tirée de (Yehia et 3.3.2 Barker et Berthommier Barker & Berthommier (Barker & Berthommier, 1999) ont proposé une étude similaire, mais avec une technique de mesure d’articulation visuelle par« chroma key », qui permet une mesure précise de la dynamique labiale (technique que nous avons utilisée également, qui extrait un contour de lèvres maquillées en bleu à partir d’enregistrement visuel, et qui sera présentée plus en détail dans la suite de cette thèse).Ils obtiennent des résultats similaires (70-75% pour la reconstruction d’information acoustique à partir des données visuelles et 55-60% pour reconstruire le mouvement labial à partir des mesures acoustiques). Ils observent cependant que la reconstruction du signal acoustique à partir des seules données labiales est moins efficace. 3.3.3 Grant et collègues Grant et al. (Grant & Seitz, 2000) ont mesuré la corrélation entre les mouvements labiaux et l’enveloppe de l’amplitude acoustique, qui était précédemment séparée en 3 sous-bandes. Ils ont obtenu une cohérence temporelle entre les variations d’ouverture des lèvres et l’enveloppe acoustique pour la bande intermédiaire. Ils ont pu ainsi mettre en correspondance ces taux de corrélation audiovisuelle avec les effets de la modalité visuelle sur la détection auditive, que nous avons déjà présentés dans la section1.2.3. 3.3.4 Chandrasekaran et collègues Chandrasekaran et al. (Chandrasekaran et al, 2009) ont également observé une corrélation robuste et une forte correspondance temporelle entre l’ouverture de la bouche et l’enveloppe acoustique, ainsi qu’entre l’ouverture de la bouche et la première résonance du tractus vocal (~75%) (Figure 33). Ils montrent également que l’ouverture de la bouche et l’enveloppe auditive sont modulées temporellement dans une fenêtre de fréquences de l’ordre de 2-7 Hz. Figure 33– Corrélations moyennes entre l’aire de l’ouverture de la bouche et l’enveloppe acoustique. Figure tirée de (Chandrasekaran et al, 2009) 3.3.5 Jiang et collègues Jiang et al. (Jiang et al, 2002) ont étudié la régression multilinéaire entre le mouvement du visage, de la langue et le signal acoustique. En termes de lieu d’articulation le lieu de la langue est un meilleur prédicteur que les lieux bilabial ou glottal. Il existe une certaine asymétrie dans la prédiction, en ce sens qu’il est plus simple de prédire les mouvements articulatoires que l’inverse. Ceci peut être dû au fait que l’acoustique de la parole est plus informative que les mouvements visuels. Ce travail montre aussi que les prédictions sont meilleures pour les syllabes que pour des phrases. 3.3.6 Berthommier Berthommier (Berthommier, 2004) propose d’appliquer les propriétés de cohérence audiovisuelle pour des applications réalistes qui pourraient permettre de synthétiser l’information vidéo à partir du signal auditif et ainsi d’augmenter l’intelligibilité d’un signal auditif dans des conditions très bruités grâce à l’information visuelle. Pour ce faire il applique sur un signal audio bruité un filtre estimé à partir de l’information visuelle. Son étude montre un gain d’intelligibilité d’environ 4 dB, correspondant à environ 20% d’augmentation du score de compréhension de mots, consistant en des nombres ou des chiffres (Figure 34). Figure 34 – Effet d’amélioration d’un signal auditif bruité a l’aide de données visuelles. Figure tirée de (Berthommier, 2004) Pour expliquer les résultats obtenus, Berthommier (Berthommier, 2004) propose un modèle, où l’étape de mesures de corrélations audiovisuelles est une étape de bas niveau, préalable au traitement et à la fusion ultérieure des signaux auditifs et visuels avant décision. Nous discuterons ce modèle en détail dans le chapitre suivant. 3.4 Conclusion Nous avons ainsi passé en revue les éléments factuels qui nous conduisent à supposer l’existence d’un mécanisme de liage audiovisuel préalable à la fusion et à la décision, présenté quelques architectures cognitives disponibles dans la littérature pour traiter de ce type de mécanismes, et décrit les principales études permettant de mettre en évidence des effets de corrélation audiovisuelle susceptibles de servir de base aux mécanismes de liage. Nous allons maintenant aborder notre thème central, qui est celui de la mise en évidence explicite d’un processus de liage audiovisuel en perception de la parole. Dans le document Analyse de scènes de parole multisensorielle : Mise en évidence et caractérisation d’un processus de liage audiovisuel préalable à la fusion. (Page 44-49)