• Aucun résultat trouvé

E. D’autres indices visibles ?

E.2. Sourcils, mouvements de la tête et perception audiovisuelle de la focalisation

E.2.2. Les travaux du KTH (Stockholm, Suède)

Plusieurs études sur l’intervention des mouvements des sourcils et des mouvements de la tête dans la perception audiovisuelle de la « prominence »14 (proéminence) ont été menées au KTH de Stockholm par Björn Granström, David House et collègues (Granström et al. [1999], House et al. [2001a, 2001b] et Granström & House [2004, 2005]). Ces études s’inscrivent dans le cadre d’un projet de grande envergure dont le but est d’améliorer la synthèse audiovisuelle de la parole afin de la rendre plus naturelle et surtout plus efficace. C’est ainsi que Björn Granström, David House et collègues se sont intéressés aux gestes faciaux non articulatoires potentiellement liés à la parole et surtout à la prosodie et à l’expressivité i.e. les mouvements de la tête, la forme des sourcils, les mouvements des sourcils

(haussement), les mouvements et clignements des yeux. Les articles de Granström & House [2004, 2005] constituent des synthèses des études précédentes.

Nous nous attacherons ici à décrire uniquement les parties de ces travaux qui concernent directement la proéminence. Dans cette perspective, les études menées au KTH visaient essentiellement à répondre à trois questions majeures : (1) dans quelle mesure les mouvements de sourcils peuvent-ils être des indices pour la perception de la proéminence ?; (2) les mouvements de la tête constituent-ils un indice plus fort pour la perception de la proéminence que les mouvements des sourcils ?; (3) quelle est la sensibilité perceptive à l’alignement temporel des mouvements de la tête et des sourcils avec la syllabe accentuée ? Afin de répondre à ces questions, plusieurs tests perceptifs ont été mis en place pour le suédois en utilisant le système de synthèse multimodale du KTH (cf. Beskow [1997]).

FIGURE I.6 – D’après Granström et al. [1999] : images de la tête parlante (Alf) utilisée pour les tests perceptifs décrits dans Granström et al. [1999] sans mouvement des sourcils (à droite) et en train de

hausser les sourcils (à gauche).

Dans l’étude de Granström et al. [1999] (reprise ensuite dans Granström & House [2004, 2005]), les auteurs ont mené un test perceptif pour lequel, à paramètres acoustiques et articulatoires identiques, étaient associés divers patrons de mouvements des sourcils (haussement). Ces mouvements ont été ajoutés manuellement à la synthèse automatique. Peu d’indications sont fournies sur l’amplitude des mouvements synthétisés ou sur la façon dont les auteurs l’ont choisie. La seule information fournie est que « The degree of eyebrow movement was chosen to create a subtle movement that was distinctive although not too obvious. » (le degré de mouvement des sourcils a été choisi de façon à créer un mouvement subtil distinctif mais pas trop évident) et que la durée des mouvements était de 500ms. La figure I.6 illustre un cas de mouvements des sourcils par rapport à un cas sans mouvement de sourcils. Le corpus utilisé pour le test était constitué d’une seule phrase qui comportait cinq mots de contenu lesquels étaient associés tour à tour à un mouvement de sourcils. Le signal acoustique ne comportait quant à lui aucun indice pouvant signaler la proéminence. Le test a été passé par 21 sujets, dont six pour qui le suédois n’était pas la langue maternelle bien qu’ils le parlent très bien. La tâche des sujets était de détecter le mot qui leur avait paru le plus focalisé dans la phrase (« most stressed/most prominent »). Il est ressorti de ce test que le haussement de sourcil est un bon indice pour signaler la proéminence sur un mot dans une phrase. Il apparaît que c’est un indice indépendant des indices acoustiques et articulatoires. Les auteurs observent de plus que les sujets dont le suédois n’était pas la langue maternelle étaient encore plus sensibles que les autres aux mouvements des sourcils pour la détection de la proéminence. Ils proposent ainsi que les mouvements de sourcils pourraient être des indices plus universels pour signaler la proéminence. Les indices acoustiques signalant la focalisation varient en effet beaucoup d’une langue à l’autre en quantité et en nature. On pourra regretter que cette étude ne comporte pas d’analyse comparative

avec les indices acoustiques mais les auteurs précisent qu’ils prévoient de le faire dans une prochaine étude.

Dans la lignée de ces résultats, une autre étude a été menée (House et al. [2001a, 2001b] reprise ensuite dans Granström & House [2004, 2005]). Elle a combiné l’étude de l’influence des mouvements des sourcils (« raising » : haussement) et hochement de la tête (« nodding ») pour la perception de la proéminence. Une même phrase a été utilisée pendant tout le test. Deux mots de contenu de cette phrase, séparés par un mot de fonction, étaient marqués d’un accent focal (« focal accent ») en acoustique. Des mouvements de tête et de sourcils ont ensuite été ajoutés de diverses façons. La figure I.7 donne des exemples d’images extraites de séquences pour lesquelles la tête parlante ne bouge ni les sourcils ni la tête (gauche) et pour lesquelles la tête parlante bouge les deux (droite). Encore une fois, peu d’indications sont données sur l’amplitude des mouvements des sourcils et de la tête. On sait cependant que les mouvements de la tête sont un « slight vertical lowering » (léger abaissement vertical) dont l’amplitude ne dépasse pas 3% de la dynamique totale possible. Les mouvements des sourcils sont apparemment d’amplitude comparable à ceux qui avaient été synthétisés pour l’étude de Granström et al. [1999] c’est-à-dire qu’ils sont assez subtils (pas plus de 4% par rapport à la dynamique totale possible). On voit, sur la figure I.7, que les mouvements sont assez subtils et paraissent difficiles à percevoir en statique mais les auteurs précisent qu’en dynamique ces mouvements sont nettement visibles. Les durées des mouvements de la tête et des sourcils sont de 300ms. Deux jeux de stimuli ont été confectionnés. Pour le premier, les mouvements de la tête et des sourcils étaient synchronisés et six alignements différents ont été testés allant d’un alignement parfait avec la voyelle accentuée du premier mot à un alignement parfait avec la voyelle accentuée du second mot accentué. Pour le deuxième jeu de stimuli, les mouvements de la tête et des sourcils n’étaient plus synchronisés. Dans trois cas, les mouvements de la tête étaient systématiquement alignés avec la voyelle accentuée du second mot accentué et les mouvements des sourcils variaient de position, du début de la voyelle accentuée du premier mot accentué vers le second mot accentué. Pour les trois autres cas, les mouvements des sourcils étaient systématiquement alignés avec la voyelle du second mot accentué et les mouvements de la tête variaient de position, du début de la voyelle du premier mot accentué vers le second mot accentué. Un total de 33 sujets a été testé, leur tâche étant de dire quel était le mot (parmi les deux mots considérés) qui était le plus accentué (« most prominently accented »). Pour le premier jeu de stimuli, il a été constaté de façon nette que l’alignement des mouvements avec l’audio influençait la perception. Pour le second jeu, les résultats étaient moins clairs. Les auteurs ont conclu que les mouvements des sourcils aussi bien que les mouvements de la tête étaient des indices puissants pour signaler la proéminence lorsqu’ils étaient alignés avec la voyelle accentuée d’un mot potentiellement

« prominent » (i.e. accentué acoustiquement). Il apparaît que la sensibilité temporelle à l’alignement avec l’audio est d’environ 100ms. Cependant, quand les mouvements ne sont pas parfaitement alignés avec la voyelle accentuée du mot potentiellement « prominent », les sujets ont tendance à les intégrer au mot potentiellement « prominent » le plus proche. Cette étude ne permet pas de discriminer les mouvements de la tête des mouvements des sourcils en terme de poids d’influence. Les auteurs observent tout de même un léger avantage pour les mouvements de la tête. Enfin, les auteurs concluent que « synchronization with the stressed syllable is important, but perhaps not absolutely critical as a large degree of visual integration seems to occur within 100ms of synchronization with the syllable. » (la synchronisation avec la syllabe accentuée est importante, mais peut-être pas critique puisqu’une large part de l’intégration visuelle semble avoir lieu avec une synchronisation avec la syllabe ne dépassant pas les 100 ms). On pourra souligner le fait que pendant le test perceptif, les sujets pouvaient visionner les stimuli autant de fois qu’ils le désiraient avant de

répondre. Il se peut ainsi que la perception ne soit plus tout à fait naturelle. Dans le doute, les sujets auront pu visionner plusieurs fois et détecter des indices non détectés spontanément et donc non perçus « instinctivement ».

FIGURE I.7 – D’après House et al. [2001a] : images de la tête parlante utilisée pour les tests perceptifs décrits dans House et al. [2001a] sans mouvement des sourcils (gauche) et avec haussement des sourcils

et abaissement de la tête (droite).

Ces études permettent donc de penser que les mouvements des sourcils et de la tête peuvent être de bons indices pour la perception de la focalisation. Il apparaît aussi que la synchronisation temporelle de ces mouvements avec le signal acoustique peut jouer un rôle. Néanmoins, ces études ne permettent pas de mieux comprendre comment ces mouvements pourraient être contrôlés en liaison avec le signal de parole. Il semble donc difficile pour le moment de les intégrer à un système de synthèse. Rappelons en effet que pour les tests décrits ci-dessus, les mouvements ont été programmés à la main.