La Théorie de la Variabilité Adaptative - Le système auditif et la perception du pitch tonal

3 La production et la perception des tons lexicaux

3.2. Le système auditif et la perception du pitch tonal

3.3.3. La Théorie de la Variabilité Adaptative

Cette théorie de Lindblom (1987, 1990) présente une corrélation intrinsèque entre la perception et la production de la parole. Elle traite d‟ailleurs principalement du sujet de la variabilité et de l‟invariance en parole. Perkell et Klatt (1986) ont remarqué un manque d'invariance fréquemment manifeste dans les signaux de la parole. D‟après Lindblom (1987, 1990) et MacNeilage (1970), ce manque est la conséquence d‟une organisation adaptative en production de la parole. Le locuteur peut modifier sa performance selon les besoins communicatifs et situationnels, à travers le contrôle de l‟interaction entre les facteurs orientés par la production et les contraintes, orientées par l‟effet acoustique. L‟étude de Verbanck et al. (2010) donne illustration de ce contrôle,

montrant que le locuteur natif, face à un interlocuteur non-natif, modifie certains aspects acoustiques de sa parole (rapports des triangles vocaliques, variation significative de la monotonie du pitch, etc.), et ce afin de s‟adapter au besoin de communication. Ce contrôle articulatoire montre une prise de conscience, par le locuteur, de l‟accès de l‟auditeur aux informations acoustiques produites. Le locuteur produit donc le signal en estimant en même temps les besoins perceptifs en cours. Autrement dit, au lieu de chercher une invariance phonétique, on devrait plutôt chercher les seuils/les critères d‟une discriminabilité suffisante dans les signaux de la parole.

Pourtant, autre que l‟exigence de distinctivité perceptive de la part de l‟auditeur, le locuteur devrait aussi prendre en compte le « principe d'économie » de sa part. De ce point de vue minimaliste, le locuteur fait un effort dans l‟objectif de trouver une

« diagonale idéale » qui présente un point d‟équilibre optimal entre toutes les contraintes à respecter, entre production et perception de la parole. La conséquence est que cet effort mène à une production appartenant à un continuum entre hyper- et hypoarticulation. Lindblom a mentionné, par exemple, que dans un contexte bruité, le locuteur devrait privilégier la distinctivité perceptive (ce qui peut l'amener à un cas d'hyper-articulation).

La figure 21 illustre une adaptation mutuelle entre le locuteur et l‟auditeur dans la communication, avec l‟axe horizontal représentant la quantité d‟information explicite dans le signal sous le contrôle du locuteur, et l'axe vertical la quantité d'information préalable à toute locution.

Figure 21 : Domaines d‟hyper- et d‟hypo-articulation en parole, en fonctions des informations du contexte et des informations dans le signal, selon la Théorie de la Variabilité Adaptative (adaptée de Lindblom 1987).

Lindblom (1987) soutient l'idée que le locuteur adopte une stratégie de variabilité adaptative, tout en prenant en compte la compétence et l‟exigence de l‟auditeur, et qu'il fait un effort pour s'approcher au maximum de la diagonale idéale.

Ohala (1988) a fait des commentaires sur cette théorie, proposant d‟ajouter à cette théorie une adaptabilité de la part de l‟auditeur dans la communication. Il a mentionné que le rôle de l‟auditeur n‟est pas passif : l‟auditeur fait un effort de sa part dans l‟analyse du signal acoustique afin de « donner un sens » à ce qu‟il a entendu.

Dans la même étude, Ohala a rappelé aussi que la variabilité adaptative en production de la parole ne signifie pas une variation aléatoire. Il a repris la problématique des variations « fossilisées » en parole que Lindblom avait mentionnée, supposant que la formation de ces variations « fossilisées » soit mécanique, sans objectif. La variabilité adaptative qu‟on observe existe plutôt dans la forme de ces variations « fossilisées » alors que ces dernières elles-mêmes ne connaissent pas nécessairement de la variabilité adaptative. Il en a donné des exemples dans son étude de 1993 sur la coarticulation.

Dans l‟exemple suivant :

Bas Latin Slavo (esclave) > *stlavo > sklavo > Italien schiavo (Ohala 1993 : 160)

D‟après Ohala, le fait que [sl] devient [stl] est dû à une obstruction créée pour la

« raison d‟être coarticulatoire » ou par la transition articulatoire. Dans la production de [s] et de [l], les points de contact entre la langue et le palais sont complémentaires : pour produire [s], le contact a lieu sur les côtés de la zone alvéolaire mais pas au milieu ; et pour [l], le contact a lieu au milieu de la zone alvéolaire mais pas sur les côtés. Ainsi, une obstruction dans toute la zone alvéolaire pourrait avoir lieu lorsqu‟on passe de [s] à [l]. Ce genre de cas de coarticulation fossilisée ne fait pas partie des résultats relatifs aux interactions locuteur-auditeur.

D‟ailleurs, Sock (1998) a rappelé que la notion d'adaptabilité du locuteur, sur laquelle repose cette théorie, fait rejeter toute notion d‟invariants physiques dans le signal, mais ne propose pas explicitement des informations sur l‟approche concrète à adopter en vue d‟une modélisation d‟interactions locuteur-auditeur.

D‟autres chercheurs supposent que la préoccupation dans l‟interaction conversationnelle est les compromis que les interlocuteurs trouvent et rectifient à travers leur dialogue.

Plus précisément, “perception-behavior link posits the existence of a natural and nonconscious connection between the act of perceiving and the act of behaving, such that perceiving an action being done by another makes one more likely to engage in that same behavior” (Chartrand et Bargh 1999 : 900). Un tel comportement d‟imitation mutuelle a aussi été observé au niveau lexical (Goldinger 1998) et au niveau des représentations phonétiques (Pardo 2006). Sur la dimension phonétique, l‟imitation se trouve dans plusieurs variables : F0, intensité, variation des bandes formantiques à basses fréquences, etc. (Gregory 1990, Gregory et al. 1997, Gregory et Webster 1996, Babel 2012). En ce qui concerne la variabilité dans l‟interaction, Pardo (2006) constate, à travers son étude sur la convergence phonétique dans les dialogues interactifs, que les auditeurs présentent une sensibilité aux convergences phonétiques qui peuvent marquer des fonctions non-linguistiques dans un dialogue alors que selon Goldinger (1998), les détails perceptifs sont conservés dans la mémoire et s‟intègrent dans la perception ultérieure.

3.3.4. La Théorie d'Activation diffuse (Spreading activation theory) et les modèles connexionnistes

Quillian (1962, 1966, 1967, 1969) a proposé une telle théorie qui explique la structuration des informations sémantiques dans le système cognitif humain. Sur la base de cette théorie, il tentait de simuler la mémorisation des informations sémantiques et la recherche de ces informations dans la mémoire. Aussi, il a appliqué cette théorie pour expliquer la compréhension sémantique de la parole. Cette théorie connexionniste propose un réseau sémantique (semantic network) qui consiste en un ensemble de nœuds qui représentent chacun un concept et en liens entre eux. D‟après cette théorie, lorsque les informations d‟origine de formes de surface accèdent au réseau, elles activent le premier nœud et ensuite gagnent tous les nœuds liés à ce premier. Cette extension du niveau d‟activation continue. Lorsqu‟un autre nœud activé est lié à ce nœud activé, une intersection est enregistrée entre les deux. En suivant toutes les intersections, il est possible de tracer le cheminement (path) qui propose le plan optimal sémantique. Ce cheminement doit être mis en évaluation avec les contraintes syntaxiques et environnementales pris en considération. Dans ce processus, les liens entre les nœuds dans la mémoire ne présentent pas nécessairement les mêmes qualités.

Ils sont considérés comme pouvant devenir assez complexes afin d‟enregistrer les relations entre les concepts de manière plus précise (Collins et Loftus 1975).

Les études de Rips et al. (1973) et de Smith et al. (1974) ont constaté, suite à la comparaison entre le modèle de réseau que Quillian propose et le modèle de traits, que le modèle de traits pourrait mieux s‟adapter au traitement des données, puisque chaque concept présente une série des valeurs permanentes sur de multiples dimensions sémantiques. Cependant, Collins et Loftus (1975) ont indiqué, visant le résultat de cette comparaison, que le modèle du réseau sémantique présent le traitement sémantique sur un plan plus large, et que tous les traitements réalisés sur la base des traits peuvent être implémentés dans le réseau sémantique.

Une série de modèles connexionnistes sur la base de l‟activation diffuse a été développée dans différents domaines qui concernent le traitement de la parole naturelle, tels que la psycholinguistique, l‟apprentissage des langues, la pathologie du langage, la linguistique informatique, etc. (Diederich 1990). Ces modèles se rejoignent sur le même principe dans leur construction. C‟est que les phénomènes cognitifs peuvent être simulés par l‟activité d‟un ensemble d‟éléments simples (Feldman et Ballard 1982). En revanche, Fahlman et al. (1983) ont précisé trois catégories principales de modèles connexionnistes : les systèmes passe-message (Message-passing models), les systèmes passe-marque (Marker-passing models) et les systèmes passe-valeur (Value-passing models). Ces catégories ont été définies d‟après le type d‟informations communiquées et les principes du traitement de ces informations dans chaque modèle.

À partir de ce courant connexionniste, la théorie d‟activation diffuse a connu son développement à tous les niveaux linguistiques du traitement de la parole. Selon Dell (1986), Dell et O'Seaghdha (1991) et Dell et al. (1997), il existe plusieurs niveaux du traitement linguistique dans le système cognitif : sémantique, syntaxique, morphologique et phonologique. Le traitement de la parole a lieu à ces quatre niveaux en parallèle, mais avec de l‟interaction entre ces différents niveaux. À chaque niveau, le traitement doit respecter certains principes catégoriels. À part ces principes, il doit se référer à un « dictionnaire » (lexicon) qui consiste en un réseau connexionniste. Ce dictionnaire contient les nœuds qui les relient aux signifiés de tous les niveaux (mot, morphème, phonème, etc.), ainsi que les liens entre les nœuds. L‟activation se diffuse dans ce réseau et active les nœuds concernés. À la fin du traitement, les règles d‟insertion sont appliquées afin de trouver le cheminement optimal qui combine les résultats du traitement à tous les niveaux linguistiques. En général, le nœud le plus activé, qui correspond à la catégorie appropriée, sera choisi. En outre, une fois un nœud

est choisi, son niveau d‟activation est considéré revenir à zéro, afin d‟éviter que ce nœud soit choisi répétitivement.

Vigliocco et Hartsuiker (2002) ont fait les mêmes constats dans leur étude. D‟après ces auteurs, il existe, à chaque niveau du traitement, un (ou plusieurs) module(s) à la disposition des informations qui accèdent à ce niveau. Ce module produit un type d‟informations spécifiques ou de représentations qui gagnera le prochain niveau ou le prochain module du traitement. Toutefois, ils considèrent que chaque niveau, ou chaque module, reçoit un minimum nécessaire d‟informations de la part du module précédent.

En ce qui concerne la production et la perception des représentations phonétiques, Hayes et al. (2004) montrent une illustration de la production de la parole selon le modèle de Dell (1986). Le codage phonologique sollicite l‟activation des nœuds de mots, de syllabes, d‟attaques, de rimes, de phonèmes et de traits. Lorsqu‟on produit un mot, l‟activation du nœud de ce mot s‟étend aux nœuds des attaques et des rimes correspondantes. L‟activation de ces derniers passe ensuite aux nœuds des phonèmes et des traits correspondants. Dans ce processus, l‟activation des nœuds des attaques et des rimes va déclencher aussi l‟activation des autres mots en paire minimale avec le mot à produire. Cela influence les représentations phonétiques finales (Hayes et al. 2004 : 352-353). Par ailleurs, ces auteurs mentionnent que dans certains modèles connexionnistes, l‟activation d‟un nœud empêche l‟activation d‟un autre nœud, ce qui est contraire à ce que le modèle de Delle pose. Tel est le cas dans le modèle TRACE⁴⁴ : à partir des traits acoustiques perçus, l‟activation d‟un mot empêche l‟activation d‟un autre mot qui partage les phonèmes avec ce premier. Hayes et al. (2004) ont également mentionné que dans ces modèles connexionnistes, les fréquences ont un impact sur les seuils d‟activation des unités (linguistiques), dans le processus du codage : les unités utilisées à haute fréquence sont codées de manière plus fiable que les unités utilisées à basse fréquence ⁴⁵.

44 TRACE est un modèle connexionniste qui simule la perception de la parole. Il est proposé par McClelland et Elman (1986).

45 “High-frequency units require less activation to fire than low-frequency units, so high-frequency units are more reliably encoded. Also, high-frequency neighbours to a word will provide more competition than low-frequency neighbours to a word as high-frequency neighbours will be more likely to fire when only partially activated.” (Hayes et al. 2004 : 353)

Les gestes articulatoires liés aux traits tonals sont effectués au niveau laryngal. En voix modale, la réalisation du pitch dépend des mouvements du cricothyroïde et des mouvements du vocalis. Le signal acoustique produit est un son complexe périodique. La hauteur du son s‟appuie principalement sur la fréquence fondamentale (F0). Toutefois, les études existantes ont constaté que mis à part F0, les variations sur d‟autres dimensions acoustiques du signal pourraient être exploitées par l‟auditeur dans la distinction des tons.

En voix chuchotée, la glotte est maintenue légèrement ouverte et les plis vocaux connaissent peu d‟activité vibratoire, ce qui rend la réalisation du voisement problématique. Par conséquent, au niveau acoustique, le signal d‟un segment tonique en chuchotement est un bruit de bande modulé en fréquence et en amplitude. La recherche des indices tonals

PARTIE II

Partie expérimentale

Dans le document Les tons lexicaux du chinois mandarin en voix modale et en voix chuchotée ~ Association Francophone de la Communication Parlée (Page 100-108)