CHAPITRE I. La vision pour percevoir la parole : « Quand les lèvres ont besoin d’un coup
I.7. Intégration des informations manuelles et labiales
Il est évident que la forme labiale, la forme de main et la position de main ont un rôle particulier dans la
perception du code LPC, quelle que soit la nature du format dans lequel elles sont encodées. En
atteste la remarquable amélioration des performances en lecture labiale quand le code manuel est
ajouté. La question qui se pose maintenant est de savoir comment ces informations sont intégrées par
le sourd décodeur pour l’identification d’un percept unique. Nous disposons à l’heure actuelle d’assez
peu d’études ayant posé cette question.
Alegria et al. (1999), dans une étude sur l’identification des mots et pseudo-mots perçus par des
sourds LPC précoces et LPC tardifs (voir plus haut), ont étudié cette question en analysant pour les
pseudo-mots, les erreurs liées aux caractéristiques de la structure particulière du code LPC. Ils se sont
intéressés particulièrement aux erreurs liées à la structure CV du code, les CS errors, pouvant donner
des percepts phonémiques supplémentaires dans le cas de suites syllabiques non-CV (VC-CV, V-CVC
et V-CCV), et aux erreurs liées à des substitutions phonémiques au sein de chaque clé. L’analyse de
ces erreurs devrait en effet donner des indices sur la façon dont les clés sont traitées en rapport avec
la lecture labiale. Nous rappelons que la syllabe CV est l’unité de base du système LPC : elle est
codée à la fois par la forme de main pour la consonne et par la position pour la voyelle. La parole en
LPC est resyllabisée en suites de syllabes CV ; dans la construction de ce code, une voyelle isolée V
est codée à la position adéquate en utilisant la forme de main dite « neutre » (main ouverte,
configuration 5 sur la Figure 5), de même, les consonnes isolées (C ou une suite consonantique Cn)
sont codées avec la configuration de main adéquate positionnée à la position « côté ». Ainsi, le nombre
de clés ne va pas forcément correspondre au nombre de syllabes CV réellement articulées (il faut deux
clés pour coder la structure CVCV, mais il en faut également deux pour coder la structure CCV). Dès
lors, il se peut que le sourd perçoive des segments qui n’ont pas été prononcés (par exemple une
voyelle dans C[V]CV). De plus, nous rappelons que chaque clé code un sous-ensemble de phonèmes,
qui sont clairement distincts aux lèvres. Les substitutions au sein d’une même clé signifieraient que les
sourds traiteraient l’information manuelle sans intégrer l’information labiale. Les résultats montrent
d’une part que les erreurs de substitutions au sein d’une même clé se produisent surtout pour les
consonnes (c’est-à-dire pour les configurations de main) plutôt que pour les voyelles, avec une
tendance à être plus importantes pour les LPC précoces. D’autre part, en ce qui concerne le nombre
de syllabes identifiées par rapport au nombre réellement articulé, il apparaît que le code LPC aide à
déterminer le nombre de syllabes exact quand les syllabes produites sont de type CV seulement. Pour
les autres types de structures, les sujets ont en effet tendance à interpréter le nombre supplémentaire
de clés comme des syllabes supplémentaires. En particulier, ils se pourraient qu’ils décodent la
consonne isolée C codée sur le « côté » comme une syllabe [C] contenant un schwa (par exemple,
[bli] à la place de [bli] ; rappelons que le schwa est codé sur le côté en LPC). Les auteurs font donc
l’hypothèse que ces erreurs apparaissent dans le cas où la visibilité labiale des segments est
insuffisante. Les erreurs analysées tendraient à montrer que les clés manuelles peuvent parfois être
interprétées indépendament de la lecture labiale.
Dans une étude plus récente, Alegria et Lechat (2005) ont testé cette intégration main-lèvres dans le
cadre d’un paradigme McGurk, en présentant à 20 sujets sourds, répartis en LPC précoce (exposition
au code avant l’âge de 2 ans ; âge moyen : 9 ans) et LPC tardif (âge moyen : 11 ans et 8 mois), des
informations labiales et manuelles concordantes et discordantes. Ce conflit main-lèvres devrait en effet
révéler la façon dont les deux informations se combinent et leur importance respective. Les auteurs ont
également manipulé la saillance des informations labiales liée aux effets de coarticulation : les
consonnes très visibles aux lèvres, comme les consonnes protruses, vont réduire l’intelligibilité des
voyelles et les voyelles arrondies vont réduire la perception des consonnes (voir section I.2.3). Les
stimuli testés étaient des syllabes CV (avec C= [5, <, s, z, f, v, k, ¯] et V= [a, ã, o, n]) produites avec et
sans code et présentés sans son dans trois conditions : en lecture labiale seule, en lecture labiale +
clés correctes et en lecture labiale + clés discordantes. Les voyelles testées étaient les voyelles
ouvertes [a, ã] présentées en contexte favorable (avec [s, z]) ou défavorable ([5, <]). La condition
discordante consistait à associer la position « menton » (correspondant à [', u, n] ; pour un rappel voir
Figure 5 p. 22) au [a] (codée sur le « côté ») et la position « cou » (correspondant à [e, y, œ]) au [ã]
(codée à la position « bouche »). Les consonnes testées étaient les labiodentales [f, v] et les
consonnes postérieures [k, ¯], beaucoup moins visibles aux lèvres, présentées en contexte favorable
[a, ã] et en contexte défavorable [o, n]. La condition discordante consistait à associer la configuration 1
(correspondant à [p, d, <]) à [v, k] et la configuration 4 (correspondant à [b, n, Ä]) à [f, ¯]. Ainsi les cas
de discordance mettent en conflit une forme labiale qui ne correspond à aucune des formes labiales
des phonèmes codés par la main. Les sujets devaient regarder les stimuli filmés et donner leur
réponse par écrit sur la consonne ou sur la voyelle. Les auteurs retrouvent les résultats classiques :
dans la condition concordante, l’ajout des clés améliore significativement les scores d’identification par
rapport à la lecture labiale seule et de manière plus importante pour les LPC précoces. La saillance
des informations labiales a également un effet pour les LPC précoces : l’utilisation des informations
manuelles est plus importante quand les consonnes sont difficiles à lire sur les lèvres (en contexte
vocalique défavorable et selon le lieu d’articulation de la consonne), il en va de même pour les voyelles
avec cependant un effet beaucoup moins marqué. L’analyse des erreurs montre également une
différence entre les deux groupes de sujets. Les LPC tardifs font en général beaucoup plus d’erreurs
que les LPC précoces. De plus, les erreurs des LPC précoces sont davantage liées à la structure du
code, les CS errors. Dans la condition discordante, les sourds (surtout les LPC précoces) vont choisir
les consonnes les moins visibles aux lèvres qui représenteront une sorte de compromis entre ce qu’ils
voient sur la main et ce qu’ils voient aux lèvres. Ainsi les LPC précoces vont mieux exploiter les
informations manuelles qui vont être intégrées avec les informations labiales selon le degré de
saillance de ces dernières.
Selon les auteurs, l’intégration main-lèvres semble donc suivre des principes similaires à ceux
observés en perception de parole audio-visuelle. Deux sortes de modèles de traitement de parole
pouvant rendre compte de l’intégration main-lèvres sont proposés (Alegria et al., 1992, 1999 ; Alegria &
Lechat, 2005). Le premier est un modèle hiérarchique, dans lequel l'information de lecture labiale, qui
serait première, fournirait le corps de l'information phonologique et l'information manuelle, plus tardive
et optionnelle, permettrait de résoudre les ambiguïtés restantes. Le second modèle repose sur une
véritable intégration des informations manuelles et labiales, les deux informations ayant un poids
équivalent : « the Lip-reading/Cues compound would produce a unique amodal phonemic percept
conceptually similar to Summerfield's 'common metric' [1987] which integrates auditory and lip-reading
information to generate a vocal tract filter function. » (p. 468). Ainsi le code LPC serait dans le premier
cas conçu comme un indice « artificiel » dans une approche de type résolution de problèmes, alors que
dans le second cas, il serait conçu comme une des entrées (au même titre que la lecture labiale) d’un
système de traitement automatique de la parole. Les auteurs proposent (1992) que cette modélisation
dépende de l’âge et du degré d’exposition au code : « Subjects early exposed to C[ued] S[peech] could
process it phonemically because they have developed normal phonemic representations of speech.
Subjects exposed to CS later can be limited to use it as an artificial signal in a problem solving way. »
(p. 128).
Afin de mieux comprendre comment se réalise l’intégration des deux informations labiale et manuelle,
nous nous proposons d’étudier précisément les relations de ces deux systèmes et l’organisation de
leur coordination. Nous défendons l’idée que percevoir de la parole, c’est d’une certaine manière
récupérer les gestes articulatoires de celui qui a produit cette parole. Ainsi nous faisons l’hypothèse
que quand le sourd perçoit de la LPC, il va récupérer le code par la vision mais plus spécifiquement la
manière dont a été produit ce code. Pour comprendre le mécanisme d’intégration LPC-parole, il faut
donc comprendre comment le code est produit par les codeurs. Hormis les quelques indications
données pour la pratique du code, il n’y a pas d’étude consacrée à la production du code LPC, à savoir
comment la main et la parole se coordonnent naturellement dans la pratique quotidienne de codeurs
professionnels. Nous pouvons trouver néanmoins quelques indices sur cette coordination dans le
domaine des technologies, où les clés de ce code manuel ont été intégrées à des systèmes de
synthèse.
I.8. Que nous apprennent les technologies innovantes sur la
Dans le document
La Langue Française Parlée Complétée: Production et Perception
(Page 48-51)