Des critères formels pour l’expression d’une fonction linguistique ?127

4.3 Apport de la capture de mouvement dans l’appréhension du flux signé119

4.4.1 Des critères formels pour l’expression d’une fonction linguistique ?127

Nous avons évoqué en section 1.5 les critères d’ajustement temporels qui sont sensés distinguer le gestuel expressif du gestuel linguistique dans un flux signé. La question se pose tout particulièrement pour le non-manuel, et davantage encore pour les expressions faciales. Baker-Schenk (1983) suggère que, contrai-rement à l’expression grammaticale du visage, les expressions faciales émotion-nelles peuvent se produire sans correspondant signé et peuvent continuer après l’arrêt de la séquence signée, c’est-à-dire que les marqueurs non manuels émo-tionnels ne respectent pas obligatoirement les frontières prosodiques. L’expres-sion émotionnelle du visage est censée être graduelle, alors que les composantes de l’expression du visage dans la prosodie ’linguistique’ de la langue des signes sont censées être absolues et discrètes : elles ont un point de départ et d’arrivée clair. Cette distinction entre, par exemple, un secouement de tête grammatical et un autre type de mouvement de tête à valeur aﬀective ne serait pas opérante chez les ’parlants’ qui “commencent et arrêtent les secouements de tête sans se préoccuper des constituants syntaxiques de [la langue vocale]” (Adamo-Villani & Wilbur 2015 : 309).

Reilly (2000) examine à ce propos la façon dont les enfants signeurs intègrent le langage et l’émotion pour signaler un changement de perspective dans les narrations. L’auteure rappelle que la morphologie faciale accompagne les signes manuels et qu’elle a différents rôles : lexical (un sourire avec le signe pour ’heu-reux’), adverbial (la moue pour un aspect régulier ou sans effort), syntaxique (une orientation spécifique de la tête et du corps pour l’expression du condi-tionnel) et rejoint Baker-Schenk avec des expressions faciales ‘linguistiques’ qui se distinguent des expressions affectives en ce qu’elles accompagnent toujours du manuel et qu’elles durent juste le temps du manuel sur lequel elles portent. Les expressions faciales émotionnelles sont au contraire variables en intensité et en durée. Reilly rappelle également qu’avant 2 ans, les enfants produisent des énoncés à un signe avec une expression émotionnelle adaptée (comme le fait un enfant ‘locuteur langue vocale’ avec une expression adaptée au mot qu’il pro-nonce). Les enfants produisent également avant 2 ans les expressions faciales qui deviendront syntaxiques (comme celle qui accompagne l’interrogation) mais avec un timing, une synchronisation inappropriés. Entre 2 ans et 2 ;6 en revanche, alors que l’enfant commence à combiner les signes, les expressions disparaissent souvent de ses énoncés. Il semblerait donc que l’enfant utilise, dans la première période du développement du langage, les expressions faciales qui assurent une fonction de communication ou d’expression affective, et que, lorsqu’il découvre les expressions comme des composants linguistiques, il éprouve alors des diffi-cultés à les utiliser et se concentre sur le manuel en omettant le non manuel adapté.

Van der Kooij et al. (2006) observent également l’alignement clair des mou-vements de la tête et du corps par rapport à des signes manuels spécifiques et soutiennent que cet alignement constitue une preuve de leur statut linguistique, plutôt que gestuel.

Pourtant, là encore, nous notons que les études sur les gestes coverbaux peuvent montrer des propriétés analogues d’alignement temporel. C’est vrai pour les gestes manuels : les gestes des mains sont coordonnés avec les événe-ments prosodiques, comme les accents de hauteur et les limites des groupes pro-sodiques (Loehr 2004) ; mais c’est également vrai pour les gestes non manuels : Graf et al. (2002) observent par exemple que “les mouvements de la tête et du vi-sage pendant la parole présentent une grande variété de modèles qui dépendent de la personnalité, de l’humeur, du contenu du texte parlé et d’autres facteurs. Malgré de grandes variations d’une personne à l’autre, les mouvements de la tête et du visage sont fortement corrélés à la structure prosodique du texte”67. En outre, l’ajustement temporel est un phénomène beaucoup plus complexe que “commencer et finir en même temps” ; il s’agit de prendre en compte non seulement le pic du mouvement non manuel et son alignement temporel avec le pic prosodique vocal de la séquence, mais également de prendre en compte les rapports temporels entre les bordures d’unités prosodiques et gestuelles. Dans tous les cas, cet ajustement entre linguistique (vocal) et gestuel non manuel est décrit par Estève-Guibert et al. (2017) comme non aléatoire. De la même façon, Paggio (2015) observe que “les mouvements de la tête ont tendance à commencer légèrement avant le début de la séquence vocale correspondante et à se terminer légèrement après, mais aussi qu’il y a des retards dans les deux sens de l’ordre de -/+ 1s. Divers facteurs susceptibles d’influer sur la durée du délai d’attente sont étudiés. Il existe de fortes corrélations entre la durée du retard et la durée des séquences vocales associées aux mouvements de la tête”.68

Il nous semble donc intéressant, là encore, de nuancer ce qui relèverait stric-tement de la spécificité des langues des signes et ce qui relèverait de processus liés à une gestualité partagée, allant au-delà d’un inventaire de gestes manuels symboliques, déictiques ou rythmiques, en incluant tout le volet non manuel intégré aussi bien aux systèmes signés qu’aux systèmes ’parlés’.

4.4.2 Des schémas communs ?

Si manuel et vocal répondent à un mécanisme cognitif sous-jacent commun, ou à tout le moins deux mécanismes étroitement reliés, il semble logique que ce(s) mécanisme(s) inclu(en)t le non-manuel. Que ce soit un système intégré ou deux systèmes séparés mais qui interagissent, les liens entre gestualité et production vocale sont étroits. Et la question n’est pas tant de savoir si les deux interagissent mais à quelle étape de la formulation ils interagissent (Ferré 2014).

67“Head and facial movements during speech exhibit a wide variety of patterns that depend on personality, mood, content of the text being spoken, and other factors. Despite large variations from person to person, patterns of head and facial movements are strongly correlated with the prosodic structure of the text”.

68“[...] head movements tend to start slightly before the onset of the corresponding speech sequence and to end slightly after, but also that there are delays in both directions in the range of -/+ 1s. Various factors that may infuence delay duration are investigated. Strong corre-lations are found between delay length and the duration of the speech sequences associated with the head movements”.

Focus L’expression de la focalisation fait l’objet de plusieurs études sur la multimodalité du langage en ciblant soit l’organisation temporelle entre gestes et parole, soit la catégorisation des gestes qui accompagnent respectivement diﬀérents types de focus, ou diﬀérents constituants morphosyntaxiques ou dis-cursifs (Ferré 2014). Ainsi en ce qui concerne la perception, House et al. (2001) indiquent que “les mouvements des sourcils et de la tête sont de puissants repères visuels de proéminence et que la sensibilité perceptuelle à la synchronisation est de l’ordre d’une durée de syllabe typique de 100-200 ms”.

Néanmoins, et pour revenir un instant sur le degré plus ou moins fort de marquage (évoqué en section 4.1.4), on notera avec intérêt l’observation de Ferré (2014) selon laquelle “les orateurs ne préfèrent généralement pas exprimer l’emphase dans plusieurs modes en même temps, mais utilisent des marqueurs d’emphase selon une distribution complémentaire”. Cette proposition nourrit par ailleurs la position de l’auteure sur la question du stade de planification des gestes en lien avec la langue parlée : Ferré (2014) soutient le modèle de Kita & Özyürek (2003, Interface Model, qui propose que les facteurs linguistiques in-fluencent la production des gestes) tout en ajoutant qu’il peut y avoir diﬀérents types de planification selon le type de gestes concernés. Les gestes représentatifs seraient planifiés au stade de la conceptualisation du message tandis que les gestes grammaticaux et prosodiques seraient planifiés ailleurs.

Par ailleurs, nous notons avec intérêt que Dohen & Loevenbruck (2005, cité dans Ferré 2014) regroupe diﬀérentes manifestations gestuelles faciales du focus contrastif sous un chapeau général d’hyper-articulation en précisant que “l’hy-perarticulation peut être réalisée de diﬀérentes manières, incluant l’augmen-tation de l’amplitude des mouvements d’ouverture et de fermeture des lèvres et/ou de la mâchoire, l’augmentation de l’étirement ou du resserrement des lè-vres”(op.cit. p. 2414). Ceci nous intéresse particulièrement dans cette idée des patrons communs à un procédé dynamique pour modifier la structure infor-mationnelle : on fait passer une information au premier plan par un procédé d’hyperarticulation qui se manifeste par tel ou tel geste facial, telle ou telle caractéristique prosodique vocale.

Parenthèse Lelandais et Ferré (2014 : 213) étudient les liens entre production vocale et gestuelle dans l’expression de parenthétiques en anglais, dans le cadre d’interactions spontanées.

Speakers mark the unexpected shift of frames with specific prosodic patterns suggesting a break in linearity (demarcative function), while gestural patterns ‘tie’ the parenthetical segment to mainline discourse in establishing coherence for the whole sequence (referential func-tion). It is in the resumption part that local, editing action on dis-course is indexed: parenthetical segments are signaled as such retro-spectively.

Il nous semble intéressant de comparer à l’avenir les données ’MarqSpat enten-dantes’ avec les observations de Lelandais et Ferré selon lesquelles, notamment,

certains gestes construisent la cohérence et la cohésion dans l’ensemble de la sé-quence parenthétique en établissant des références (avec, par exemple, des petits gestes de pointage, la répétition de gestes métaphoriques ou le figement d’un geste). Et là encore, nous les rejoignons lorsqu’elles soulignent que “les moda-lités (modes) sont des ressources dynamiques et flexibles pour l’indexation des parenthèses et leur fonction particulière de cadrage”.

4.4.3 Les langues ’vocales’ sont en réalité des systèmes multimodaux

Dans le document Les langues des signes, des langues incarnées (Page 129-132)