Intégration des informations manuelles et labiales

CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup

I.7. Intégration des informations manuelles et labiales

Il est évident que la forme labiale, la forme de main et la position de main ont un rôle particulier dans la

perception du code LPC, quelle que soit la nature du format dans lequel elles sont encodées. En

atteste la remarquable amélioration des performances en lecture labiale quand le code manuel est

ajouté. La question qui se pose maintenant est de savoir comment ces informations sont intégrées par

le sourd décodeur pour l’identification d’un percept unique. Nous disposons à l’heure actuelle d’assez

peu d’études ayant posé cette question.

Alegria et al. (1999), dans une étude sur l’identification des mots et pseudo-mots perçus par des

sourds LPC précoces et LPC tardifs (voir plus haut), ont étudié cette question en analysant pour les

pseudo-mots, les erreurs liées aux caractéristiques de la structure particulière du code LPC. Ils se sont

intéressés particulièrement aux erreurs liées à la structure CV du code, les CS errors, pouvant donner

des percepts phonémiques supplémentaires dans le cas de suites syllabiques non-CV (VC-CV, V-CVC

et V-CCV), et aux erreurs liées à des substitutions phonémiques au sein de chaque clé. L’analyse de

ces erreurs devrait en effet donner des indices sur la façon dont les clés sont traitées en rapport avec

la lecture labiale. Nous rappelons que la syllabe CV est l’unité de base du système LPC : elle est

codée à la fois par la forme de main pour la consonne et par la position pour la voyelle. La parole en

LPC est resyllabisée en suites de syllabes CV ; dans la construction de ce code, une voyelle isolée V

est codée à la position adéquate en utilisant la forme de main dite « neutre » (main ouverte,

configuration 5 sur la Figure 5), de même, les consonnes isolées (C ou une suite consonantique Cn)

sont codées avec la configuration de main adéquate positionnée à la position « côté ». Ainsi, le nombre

de clés ne va pas forcément correspondre au nombre de syllabes CV réellement articulées (il faut deux

clés pour coder la structure CVCV, mais il en faut également deux pour coder la structure CCV). Dès

lors, il se peut que le sourd perçoive des segments qui n’ont pas été prononcés (par exemple une

voyelle dans C[V]CV). De plus, nous rappelons que chaque clé code un sous-ensemble de phonèmes,

qui sont clairement distincts aux lèvres. Les substitutions au sein d’une même clé signifieraient que les

sourds traiteraient l’information manuelle sans intégrer l’information labiale. Les résultats montrent

d’une part que les erreurs de substitutions au sein d’une même clé se produisent surtout pour les

consonnes (c’est-à-dire pour les configurations de main) plutôt que pour les voyelles, avec une

tendance à être plus importantes pour les LPC précoces. D’autre part, en ce qui concerne le nombre

de syllabes identifiées par rapport au nombre réellement articulé, il apparaît que le code LPC aide à

déterminer le nombre de syllabes exact quand les syllabes produites sont de type CV seulement. Pour

les autres types de structures, les sujets ont en effet tendance à interpréter le nombre supplémentaire

de clés comme des syllabes supplémentaires. En particulier, ils se pourraient qu’ils décodent la

consonne isolée C codée sur le « côté » comme une syllabe [C] contenant un schwa (par exemple,

[bli] à la place de [bli] ; rappelons que le schwa est codé sur le côté en LPC). Les auteurs font donc

l’hypothèse que ces erreurs apparaissent dans le cas où la visibilité labiale des segments est

insuffisante. Les erreurs analysées tendraient à montrer que les clés manuelles peuvent parfois être

interprétées indépendament de la lecture labiale.

Dans une étude plus récente, Alegria et Lechat (2005) ont testé cette intégration main-lèvres dans le

cadre d’un paradigme McGurk, en présentant à 20 sujets sourds, répartis en LPC précoce (exposition

au code avant l’âge de 2 ans ; âge moyen : 9 ans) et LPC tardif (âge moyen : 11 ans et 8 mois), des

informations labiales et manuelles concordantes et discordantes. Ce conflit main-lèvres devrait en effet

révéler la façon dont les deux informations se combinent et leur importance respective. Les auteurs ont

également manipulé la saillance des informations labiales liée aux effets de coarticulation : les

consonnes très visibles aux lèvres, comme les consonnes protruses, vont réduire l’intelligibilité des

voyelles et les voyelles arrondies vont réduire la perception des consonnes (voir section I.2.3). Les

stimuli testés étaient des syllabes CV (avec C= [5, <, s, z, f, v, k, ¯] et V= [a, ã, o, n]) produites avec et

sans code et présentés sans son dans trois conditions : en lecture labiale seule, en lecture labiale +

clés correctes et en lecture labiale + clés discordantes. Les voyelles testées étaient les voyelles

ouvertes [a, ã] présentées en contexte favorable (avec [s, z]) ou défavorable ([5, <]). La condition

discordante consistait à associer la position « menton » (correspondant à [', u, n] ; pour un rappel voir

Figure 5 p. 22) au [a] (codée sur le « côté ») et la position « cou » (correspondant à [e, y, œ]) au [ã]

(codée à la position « bouche »). Les consonnes testées étaient les labiodentales [f, v] et les

consonnes postérieures [k, ¯], beaucoup moins visibles aux lèvres, présentées en contexte favorable

[a, ã] et en contexte défavorable [o, n]. La condition discordante consistait à associer la configuration 1

(correspondant à [p, d, <]) à [v, k] et la configuration 4 (correspondant à [b, n, Ä]) à [f, ¯]. Ainsi les cas

de discordance mettent en conflit une forme labiale qui ne correspond à aucune des formes labiales

des phonèmes codés par la main. Les sujets devaient regarder les stimuli filmés et donner leur

réponse par écrit sur la consonne ou sur la voyelle. Les auteurs retrouvent les résultats classiques :

dans la condition concordante, l’ajout des clés améliore significativement les scores d’identification par

rapport à la lecture labiale seule et de manière plus importante pour les LPC précoces. La saillance

des informations labiales a également un effet pour les LPC précoces : l’utilisation des informations

manuelles est plus importante quand les consonnes sont difficiles à lire sur les lèvres (en contexte

vocalique défavorable et selon le lieu d’articulation de la consonne), il en va de même pour les voyelles

avec cependant un effet beaucoup moins marqué. L’analyse des erreurs montre également une

différence entre les deux groupes de sujets. Les LPC tardifs font en général beaucoup plus d’erreurs

que les LPC précoces. De plus, les erreurs des LPC précoces sont davantage liées à la structure du

code, les CS errors. Dans la condition discordante, les sourds (surtout les LPC précoces) vont choisir

les consonnes les moins visibles aux lèvres qui représenteront une sorte de compromis entre ce qu’ils

voient sur la main et ce qu’ils voient aux lèvres. Ainsi les LPC précoces vont mieux exploiter les

informations manuelles qui vont être intégrées avec les informations labiales selon le degré de

saillance de ces dernières.

Selon les auteurs, l’intégration main-lèvres semble donc suivre des principes similaires à ceux

observés en perception de parole audio-visuelle. Deux sortes de modèles de traitement de parole

pouvant rendre compte de l’intégration main-lèvres sont proposés (Alegria et al., 1992, 1999 ; Alegria &

Lechat, 2005). Le premier est un modèle hiérarchique, dans lequel l'information de lecture labiale, qui

serait première, fournirait le corps de l'information phonologique et l'information manuelle, plus tardive

et optionnelle, permettrait de résoudre les ambiguïtés restantes. Le second modèle repose sur une

véritable intégration des informations manuelles et labiales, les deux informations ayant un poids

équivalent : « the Lip-reading/Cues compound would produce a unique amodal phonemic percept

conceptually similar to Summerfield's 'common metric' [1987] which integrates auditory and lip-reading

information to generate a vocal tract filter function. » (p. 468). Ainsi le code LPC serait dans le premier

cas conçu comme un indice « artificiel » dans une approche de type résolution de problèmes, alors que

dans le second cas, il serait conçu comme une des entrées (au même titre que la lecture labiale) d’un

système de traitement automatique de la parole. Les auteurs proposent (1992) que cette modélisation

dépende de l’âge et du degré d’exposition au code : « Subjects early exposed to C[ued] S[peech] could

process it phonemically because they have developed normal phonemic representations of speech.

Subjects exposed to CS later can be limited to use it as an artificial signal in a problem solving way. »

(p. 128).

Afin de mieux comprendre comment se réalise l’intégration des deux informations labiale et manuelle,

nous nous proposons d’étudier précisément les relations de ces deux systèmes et l’organisation de

leur coordination. Nous défendons l’idée que percevoir de la parole, c’est d’une certaine manière

récupérer les gestes articulatoires de celui qui a produit cette parole. Ainsi nous faisons l’hypothèse

que quand le sourd perçoit de la LPC, il va récupérer le code par la vision mais plus spécifiquement la

manière dont a été produit ce code. Pour comprendre le mécanisme d’intégration LPC-parole, il faut

donc comprendre comment le code est produit par les codeurs. Hormis les quelques indications

données pour la pratique du code, il n’y a pas d’étude consacrée à la production du code LPC, à savoir

comment la main et la parole se coordonnent naturellement dans la pratique quotidienne de codeurs

professionnels. Nous pouvons trouver néanmoins quelques indices sur cette coordination dans le

domaine des technologies, où les clés de ce code manuel ont été intégrées à des systèmes de

synthèse.

I.8. Que nous apprennent les technologies innovantes sur la

Dans le document La Langue Française Parlée Complétée: Production et Perception (Page 48-51)

Intégration des informations manuelles et labiales

CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup

I.7. Intégration des informations manuelles et labiales

Il est évident que la forme labiale, la forme de main et la position de main ont un rôle particulier dans la

perception du code LPC, quelle que soit la nature du format dans lequel elles sont encodées. En

atteste la remarquable amélioration des performances en lecture labiale quand le code manuel est

ajouté. La question qui se pose maintenant est de savoir comment ces informations sont intégrées par

le sourd décodeur pour l’identification d’un percept unique. Nous disposons à l’heure actuelle d’assez

peu d’études ayant posé cette question.

Alegria et al. (1999), dans une étude sur l’identification des mots et pseudo-mots perçus par des

sourds LPC précoces et LPC tardifs (voir plus haut), ont étudié cette question en analysant pour les

pseudo-mots, les erreurs liées aux caractéristiques de la structure particulière du code LPC. Ils se sont

intéressés particulièrement aux erreurs liées à la structure CV du code, les CS errors, pouvant donner

des percepts phonémiques supplémentaires dans le cas de suites syllabiques non-CV (VC-CV, V-CVC

et V-CCV), et aux erreurs liées à des substitutions phonémiques au sein de chaque clé. L’analyse de

ces erreurs devrait en effet donner des indices sur la façon dont les clés sont traitées en rapport avec

la lecture labiale. Nous rappelons que la syllabe CV est l’unité de base du système LPC : elle est

codée à la fois par la forme de main pour la consonne et par la position pour la voyelle. La parole en

LPC est resyllabisée en suites de syllabes CV ; dans la construction de ce code, une voyelle isolée V

est codée à la position adéquate en utilisant la forme de main dite « neutre » (main ouverte,

configuration 5 sur la Figure 5), de même, les consonnes isolées (C ou une suite consonantique Cn)

sont codées avec la configuration de main adéquate positionnée à la position « côté ». Ainsi, le nombre

de clés ne va pas forcément correspondre au nombre de syllabes CV réellement articulées (il faut deux

clés pour coder la structure CVCV, mais il en faut également deux pour coder la structure CCV). Dès

lors, il se peut que le sourd perçoive des segments qui n’ont pas été prononcés (par exemple une

voyelle dans C[V]CV). De plus, nous rappelons que chaque clé code un sous-ensemble de phonèmes,

qui sont clairement distincts aux lèvres. Les substitutions au sein d’une même clé signifieraient que les

sourds traiteraient l’information manuelle sans intégrer l’information labiale. Les résultats montrent

d’une part que les erreurs de substitutions au sein d’une même clé se produisent surtout pour les

consonnes (c’est-à-dire pour les configurations de main) plutôt que pour les voyelles, avec une

tendance à être plus importantes pour les LPC précoces. D’autre part, en ce qui concerne le nombre

de syllabes identifiées par rapport au nombre réellement articulé, il apparaît que le code LPC aide à

déterminer le nombre de syllabes exact quand les syllabes produites sont de type CV seulement. Pour

les autres types de structures, les sujets ont en effet tendance à interpréter le nombre supplémentaire

de clés comme des syllabes supplémentaires. En particulier, ils se pourraient qu’ils décodent la

consonne isolée C codée sur le « côté » comme une syllabe [C] contenant un schwa (par exemple,

[bli] à la place de [bli] ; rappelons que le schwa est codé sur le côté en LPC). Les auteurs font donc

l’hypothèse que ces erreurs apparaissent dans le cas où la visibilité labiale des segments est

insuffisante. Les erreurs analysées tendraient à montrer que les clés manuelles peuvent parfois être

interprétées indépendament de la lecture labiale.

Dans une étude plus récente, Alegria et Lechat (2005) ont testé cette intégration main-lèvres dans le

cadre d’un paradigme McGurk, en présentant à 20 sujets sourds, répartis en LPC précoce (exposition

au code avant l’âge de 2 ans ; âge moyen : 9 ans) et LPC tardif (âge moyen : 11 ans et 8 mois), des

informations labiales et manuelles concordantes et discordantes. Ce conflit main-lèvres devrait en effet

révéler la façon dont les deux informations se combinent et leur importance respective. Les auteurs ont

également manipulé la saillance des informations labiales liée aux effets de coarticulation : les

consonnes très visibles aux lèvres, comme les consonnes protruses, vont réduire l’intelligibilité des

voyelles et les voyelles arrondies vont réduire la perception des consonnes (voir section I.2.3). Les

stimuli testés étaient des syllabes CV (avec C= [5, <, s, z, f, v, k, ¯] et V= [a, ã, o, n]) produites avec et

sans code et présentés sans son dans trois conditions : en lecture labiale seule, en lecture labiale +

clés correctes et en lecture labiale + clés discordantes. Les voyelles testées étaient les voyelles

ouvertes [a, ã] présentées en contexte favorable (avec [s, z]) ou défavorable ([5, <]). La condition

discordante consistait à associer la position « menton » (correspondant à [', u, n] ; pour un rappel voir

Figure 5 p. 22) au [a] (codée sur le « côté ») et la position « cou » (correspondant à [e, y, œ]) au [ã]

(codée à la position « bouche »). Les consonnes testées étaient les labiodentales [f, v] et les

consonnes postérieures [k, ¯], beaucoup moins visibles aux lèvres, présentées en contexte favorable

[a, ã] et en contexte défavorable [o, n]. La condition discordante consistait à associer la configuration 1

(correspondant à [p, d, <]) à [v, k] et la configuration 4 (correspondant à [b, n, Ä]) à [f, ¯]. Ainsi les cas

de discordance mettent en conflit une forme labiale qui ne correspond à aucune des formes labiales

des phonèmes codés par la main. Les sujets devaient regarder les stimuli filmés et donner leur

réponse par écrit sur la consonne ou sur la voyelle. Les auteurs retrouvent les résultats classiques :

dans la condition concordante, l’ajout des clés améliore significativement les scores d’identification par

rapport à la lecture labiale seule et de manière plus importante pour les LPC précoces. La saillance

des informations labiales a également un effet pour les LPC précoces : l’utilisation des informations

manuelles est plus importante quand les consonnes sont difficiles à lire sur les lèvres (en contexte

vocalique défavorable et selon le lieu d’articulation de la consonne), il en va de même pour les voyelles

avec cependant un effet beaucoup moins marqué. L’analyse des erreurs montre également une

différence entre les deux groupes de sujets. Les LPC tardifs font en général beaucoup plus d’erreurs

que les LPC précoces. De plus, les erreurs des LPC précoces sont davantage liées à la structure du

code, les CS errors. Dans la condition discordante, les sourds (surtout les LPC précoces) vont choisir

les consonnes les moins visibles aux lèvres qui représenteront une sorte de compromis entre ce qu’ils

voient sur la main et ce qu’ils voient aux lèvres. Ainsi les LPC précoces vont mieux exploiter les

informations manuelles qui vont être intégrées avec les informations labiales selon le degré de

saillance de ces dernières.

Selon les auteurs, l’intégration main-lèvres semble donc suivre des principes similaires à ceux

observés en perception de parole audio-visuelle. Deux sortes de modèles de traitement de parole

pouvant rendre compte de l’intégration main-lèvres sont proposés (Alegria et al., 1992, 1999 ; Alegria &

Lechat, 2005). Le premier est un modèle hiérarchique, dans lequel l'information de lecture labiale, qui

serait première, fournirait le corps de l'information phonologique et l'information manuelle, plus tardive

et optionnelle, permettrait de résoudre les ambiguïtés restantes. Le second modèle repose sur une

consonne isolée C codée sur le « côté » comme une syllabe [C] contenant un schwa (par exemple,

[bli] à la place de [bli] ; rappelons que le schwa est codé sur le côté en LPC). Les auteurs font donc