Perception audiovisuelle de la focalisation prosodique : interactions entre modalités

et visuelle

Swerts & Krahmer [2004] ont mené une étude sur la perception audiovisuelle de la « prominence »16. Cette étude concernait le néerlandais et visait à déterminer les effets respectifs de l’information auditive et visuelle pour percevoir la « prominence ». Pour cela, les auteurs ont conçu deux expériences. La première avait pour but de déterminer si les sujets pouvaient détecter une syllabe accentuée dans une séquence de trois syllabes sans sens dans trois conditions différentes : audio seul, visuel seul et audiovisuel. La seconde expérience avait pour but d’analyser les comportements perceptifs dans le cas où les informations auditives et visuelles sont conflictuelles. Les auteurs ont filmé les productions de 20 locuteurs de face. Seules les productions de cinq d’entre eux ont été retenues pour le test perceptif. La figure I.8 donne des exemples d’images enregistrées en version neutre vs. accentuée. Les locuteurs devaient lire une séquence de trois syllabes CV sans sens (soit /ma ma ma/ soit /ga ga ga/) en rendant l’une d’entre elle « more prominent than the other two » (plus proéminente que les deux autres). Si les auteurs ont choisi d’utiliser une consonne labiale et une consonne vélaire, c’était dans le but d’étudier si « frontal sounds would have clearer visual correlates of prominence than sounds produced in the back » (les sons frontaux correspondraient à des corrélats visuels plus marqués que les sons produits à l’arrière). Toutes les productions ont été enregistrées pour deux modes d’élocution : un mode « normal » (« natural speaking mode ») et un mode « exagéré » (« exaggerated » speaking mode) pour lequel les locuteurs devaient imaginer qu’ils parlaient à quelqu’un qui était plus loin (« someone standing at a larger distance »). Un total de 45 sujets a été testé soit en audiovisuel (AV) soit en audio seul (A) soit en visuel seul (V). Leur tâche était de dire quelle syllabe ils percevaient comme ayant été produite avec « the strongest accent » (l’accent le plus fort). Chaque stimulus a été présenté deux fois. Les auteurs ont trouvé des effets significatifs de la position de l’accent (il semblerait que l’accent soit mieux détecté s’il porte sur la première ou la dernière syllabe), de la modalité (A~AV>V), du mode d’élocution (résultats non communiqués) et du locuteur (résultats non communiqués). Des interactions significatives ont été mesurées entre l’accent et la modalité, entre la modalité et le locuteur et entre le locuteur et la syllabe considérée (i.e. /ma/ ou /ga/). On remarquera qu’aucun effet principal de la consonne n’a été mesuré. Les pourcentages de réponses correctes sont les suivant : en audiovisuel, 97,11%, en audio seul, 97,33% et en visuel seul 92,89% (notons que ces scores élevés surtout en visuel seul sont liés à la tâche : focalisation sur une seule syllabe très ouverte). On remarque donc clairement grâce aux performances en visuel seul, qu’il existe des indices « visibles » de la proéminence puisque les sujets parviennent très bien, à partir de la modalité visuelle seule, à détecter et localiser la proéminence. Etant donné l’importance des scores mesurés, les auteurs concluent à l’existence d’un effet plafond et pensent donc qu’il est difficile, d’après ces résultats de déterminer l’importance relative des indices acoustiques et visuels sur la perception.

Les auteurs ont donc mis en place une seconde expérience pour laquelle ils ont manipulé les stimuli enregistrés pour les deux locuteurs les mieux perçus de la première expérience afin que les informations acoustiques et visuelles deviennent conflictuelles. Un troisième locuteur a été enregistré.

Il avait pour tâche d’exagérer les expressions faciales produites. Cet enregistrement a été effectué dans le but de pouvoir tester s’il existait un gradient des effets des indices visuels sur la perception. Un total de 55 sujets a passé le test. La tâche perceptive était exactement identique à celle de la première expérience mais cette fois-ci le test n’avait lieu que pour la condition audiovisuelle. Chaque stimulus leur était également présenté deux fois. Les auteurs ont mesuré des effets significatifs de l’accent acoustique (« auditory accent »), de l’accent visuel (« visual accent ») et du locuteur et une interaction significative entre le locuteur et l’accent visuel. Globalement, les réponses des sujets tendent pour une large majorité à être en faveur de la syllabe ayant reçu l’accent acoustique. Cependant, lorsque cela n’est pas le cas, les réponses s’orientent le plus souvent vers la syllabe ayant reçu l’accent visuel. Les auteurs concluent que « the auditory cues are stronger than the visual cues though the latter cannot be ignored » (les indices acoustiques sont plus forts que les indices visuels bien que ces derniers ne puissent être ignorés). Ils notent aussi un effet de la position de la syllabe accentuée. L’effet des indices acoustiques est en effet plus fort pour la syllabe initiale que pour la syllabe finale. Les auteurs suggèrent que ceci serait dû au phénomène de déclinaison de F0 qui rendrait ainsi un pic de F0 sur la dernière syllabe moins fort qu’un pic de F0 sur la première syllabe. On pourra noter que cette hypothèse n’est peut-être pas la bonne puisqu’il a été montré que les auditeurs savent compenser le phénomène de déclinaison (Liberman & Pierrehumbert [1984]). Les auteurs constatent que les indices acoustiques ont moins d’effet chez le locuteur ayant exagéré les expressions faciales. Les auteurs précisent de plus que les résultats perceptifs bien que s’orientant vers l’accent acoustique sont beaucoup moins bons que les résultats obtenus pour la première expérience. Les sujets ont de plus apparemment trouvé le test difficile et les stimuli parfois étranges ce qui n’avait pas été rapporté lors de la première expérience. Les sujets ont donc clairement été perturbés par ces informations conflictuelles.

FIGURE I.8 – D’après Swerts & Krahmer [2004] : huit images extraites des enregistrements de quatre des locuteurs pour une syllabe inaccentuée (gauche) et accentuée (droite).

Il existe donc des indices visuels à la « prominence » et ceux-ci sont importants compte tenu des résultats obtenus en visuel seul pour la première expérience. La deuxième expérience montre que l’acoustique prévaut sur le visuel mais les auteurs disent tout de même que « visual cues can interfere with auditory information, in attracting some of the perceived accents » (les indices visuels peuvent interférer avec l’information acoustique, en attirant vers eux certains des accents perçus). Pour la

suite, les auteurs pensent développer une expérience de perception pour laquelle seule une partie du visage du locuteur serait montrée aux sujets et ce afin d’évaluer les différences inter-locuteurs en ce qui concerne les indices « visibles » produits. Ils prévoient également d’étudier les seuils de combinaison des indices acoustiques et visuels à l’aide de continua de F0 et d’informations visuelles. Ils voudraient de plus évaluer la charge cognitive imposée aux sujets lorsqu’ils doivent évaluer des stimuli pour lesquelles les informations auditives et visuelles sont conflictuelles. Enfin ils reconnaissent que les résultats obtenus ici ne sont que préliminaires puisque l’étude ne portait pas sur de « vrais » mots ou de « vrais » énoncés et que la situation de communication n’était pas naturelle.

Swerts & Krahmer [2005] décrivent une autre étude conduite dans le but d’étudier deux points cruciaux. Le premier est l’importance des indices faciaux en comparaison aux indices acoustiques et le second est l’exploration des zones faciales qui seraient les plus importantes pour la perception des mots proéminents. Cette étude concerne aussi le néerlandais. Huit locuteurs ont été filmés de face en train de prononcer une phrase « each time with emphasis on one of the [three] words » (avec à chaque fois, focalisation sur l’un des [trois] mots). Deux tests perceptifs ont eu lieu. Le premier était en fait une expérience de mesure du temps de réaction. Les enregistrements décrits précédemment ont été manipulés afin que, pour certains, les informations auditives et visuelles soient congruentes et pour d’autres non. La tâche des sujets était d’indiquer « which word they perceived as the most prominent one » (quel mot ils percevaient comme étant le plus proéminent) et ce aussi vite que possible. Il apparaît que le temps de réaction est plus lent lorsque les informations acoustiques et visuelles ne sont pas congruentes. L’analyse n'a été menée que pour les stimuli conflictuels pour lesquels la réponse a porté sur le mot marqué par l’information acoustique. Les auteurs concluent que

« subjects are sensitive to visual information to prominence, even in cases where they do not use this information in their actual choice » (les sujets sont sensibles à l’information visuelle même dans les cas pour lesquels ils n’utilisent pas cette information pour effectuer leur choix final).

Pour le second test perceptif, les enregistrements ont été manipulés afin qu’ils correspondent tous à une F0 monotone (i.e. pas d’information acoustique) avec un accent visuel sur l’un des trois noms. Les sujets voyaient soit la partie haute, soit la partie basse du visage et soit la partie gauche, soit la partie droite du visage. Ils étaient placés à une distance de soit 50cm, soit 250 cm, soit 380 cm de l’écran. La tâche était exactement la même que pour le premier test. Les résultats montrent que la détection de la proéminence est de plus en plus difficile à mesure que la distance à l’écran augmente. Il apparaît que la partie haute du visage donne plus d’information aux sujets que la partie basse. Les résultats perceptifs sont aussi meilleurs pour la partie gauche que pour la partie droite du visage. Notons que le fait que la partie haute du visage apparaisse comme étant la plus utile est peut être dû au fait que les mouvements de sourcils produits semblaient d’amplitude assez forte. Rappelons que, bien que les enregistrements utilisés correspondaient à des productions « humaines », les locuteurs savaient qu’ils devaient produire une focalisation (pas de tâche naturelle pour la production) et qu’il est ainsi possible qu’ils aient exagéré certains de leurs mouvements. Dans le futur les auteurs voudraient distinguer « l’effet locuteur » de « l’effet observateur » notamment en menant exactement le même test avec les images miroirs de celles utilisées ici.

Ces deux études permettent donc de penser qu’il existe bien des informations visuelles à la focalisation prosodique (au moins pour le néerlandais). Il apparaît de plus que le processus de perception combine les deux modalités (auditives et visuelles) pour prendre une décision perceptive unique, puisque quand ces informations sont conflictuelles, non seulement les performances perceptives sont moins bonnes mais les temps de réaction sont plus longs. Les deux modalités jouent donc apparemment un rôle conjoint. Il apparaît aussi que les parties haute et gauche du visage

fourniraient le plus d’informations visuelles utiles. On notera qu’aucune tâche naturelle n’avait été mise au point pour la production de la focalisation et qu’il est ainsi possible que les productions analysées ne soient pas tout à fait naturelles.

G. Bilan : la « visibilité » de la focalisation dans la

Dans le document Deixis prosodique multisensorielle : production et perception audiovisuelle de la focalisation contrastive en français (Page 87-90)