Cibles perçues - Représentation phonétique

1.4 Représentation phonétique

1.4.2 Cibles perçues

A part le développement méthodologique d'extraction des cibles acoustiques, la connais-sance phonétique des catégories phonologiques pourrait être approfondie par des études en perception. Traditionnellement, les théories phonologiques (segmentales et suprasegmen-tales) ont fait prévaloir la production sur la perception de la parole pour la description des systèmes phonémiques. Cela est principalement dû au fait que, bien que les réalisations des catégories phonologiques soient relativement faciles à observer et mesurer, explorer les mé-canismes de perception est une tâche beaucoup plus ardue. Ce manque d'intérêt constitue un paradoxe dans la mesure où la perception joue un rôle fondamental dans l'acquisition du langage et dans la construction des représentations cognitives (Pierrehumbert, 2000;

Nguyen, 2004).

L'idée que la perception puisse jouer un rôle crucial dans la dénition des catégories intonatives est à la base du travail de Kohler (1987) sur l'allemand. Il faut noter que les études de Kohler ne s'inscrivent pas dans le cadre métrique-autosegmentale, mais dans celui du modèle KIM (Kiel Intonation Model) développé par Kohler et ses collaborateurs (Kohler, 1991; Niebuhr, 2003, inter alia). Dans le papier du 1987, Kohler manipule la position du pic de f₀ de la conguration en montée-descente relativement à la voyelle ac-centuée. La voyelle était celle de la syllabe -lo- de gelogen, qui était inséré dans la phrase Sie hat ja gelogen (elle jasait). La manipulation d'alignement du pic est créée sur un continuum temporel de la syllabe prétonique à la syllabe post-tonique en pas de 30 ms. Ce continuum doit en fait couvrir l'espace sémantique de trois catégories pragmatique éta-bli/nouveau/emphatique. L'expérience de perception se base sur le paradigme complet

de perception catégorielle déjà utilisé dans la perception segmentale (Repp, 1984), et com-prend donc un test d'identication et un test de discrimination. Kohler (1987) montre que le continuum de f₀ est partitionné dans trois types d'alignement, early/medial/late peak, et que ce contraste est catégoriel. Les trois type d'alignement correspondent à trois ca-tégories pragmatiques : lorsque le pic est aligné avant le début de la voyelle (early peak), l'accent véhicule le sens d' établi, tandis que l'alignement du pic à l'intérieur de la voyelle medial peak véhicule l'idée de nouveau. Finalement, la valeur pragmatique emphatique est véhiculée uniquement lorsque le pic est aligné avec la consonne suivante late peak.

Le contraste entre early/medial/late peak est catégoriel, bien que Kohler trouve que la fonction de réponse est plus raide pour le contraste early/medial que pour medial/late.

Ce travail de Kohler a inuencé beaucoup de la littérature suivante sur l'intonation, et le paradigme de perception catégorielle a été employé pour montrer l'existence de catégories intonatives en contraste d'alignement et même de scaling dans plusieurs langues (voir Varnell Bosch (2006) pour un état de l'art).

La notion de cible tonale perçue est explicitement adoptée par D'Imperio (2000, 2005). Le travail de D'Imperio est inspiré au cadre de la Théorie AM, et la notion de cible perçue est donc complémentaire à celle déjà fournie pour les cibles acoustiques.

Selon la chercheuse, les cibles perçues peuvent être dénies comme la représentation mentale d'une cible tonale en tenant compte des contraintes auditives. Si les cibles tonales sont dénies au niveau acoustique à travers une paire de coordonnées def₀ et de temps, une cible perçue sera alors dénie par la traduction de ces valeurs au niveau perceptif (D'Imperio, 2005, p. 92).

Dans son travail de thèse, D'Imperio (2000) étudie le rôle de la perception dans la dénition des cibles tonales en italien napolitain. Dans une expérience de production pré-liminaire avec deux locuteurs, elle observe comment l'alignement tonal varie en fonction de plusieurs facteurs : la modalité intonative, la structure syllabique, et l'identité de la consonne initiale de la syllabe postaccentuelle. Les mots cibles sont au nombre de quatre : deux ayant une syllabe fermée, dont la coda consonantique est suivie par une occlusive nasale ou vélaire (mammo/mango maman⁵/mangue et les deux autres ayant une

syl-5. En italien, la durée consonantique est phonologique. Mammo est en réalité masculin, et avec ce

labe ouverte, dont la voyelle est suivie par une occlusive nasale ou vélaire (nano/mago nain/magicien). Les mots sont paroxytons et ils sont insérés en position nale d'énoncé dans deux phrases brèves. Les phrases sont lues comme armations à focalisation étroite ou comme questions oui/non. Le focus est retardé, de sorte que les mots cibles portent un accent nucléaire sur la syllabe tonique. Nous portons notre attention, dans ce paragraphe, sur l'eet de la modalité intonative sur la réalisation de l'accent nucléaire montant LH et de l'accent de syntagme suivant L-. D'Imperio (2000) observe que les trois cibles tonales sont plus retardées dans les questions oui/non que dans les armations. Elle remarque cependant que la modalité intonative provoque la variation d'autres paramètres acous-tiques, tels que la hauteur des cibles et la pente de f₀. En particulier, elle note que la valeur mélodique de la cible L de l'accent nucléaire est plus élevée dans les armations, tandis que la cible L de l'accent de syntagme est plus élevée dans les questions. Les ré-sultats de l'analyse de la pente montrent une certaine variabilité inter-locuteurs : chez un locuteur, la pente de la montée nucléaire est plus raide dans les armations que dans les questions tandis que la situation est inversée pour le deuxième locuteur. Quels sont les indices pertinents pour la dénition des cibles tonales perceptives ? En accord avec la dénition métrique-autosegmentale de cible tonale, D'Imperio (2000) émet l'hypothèse que l'alignement acoustique est déterminant dans la dénition des cibles perçues et que cette information est employée par les Napolitains pour l'identication du contraste entre questions et armations.

De plus, elle relève qu'en acoustique la cible H est parfois réalisée non comme un pic de f₀, mais comme un plateau haut. Par conséquent, on peut se demander où localiser la cible dans le plateau, vu que tous ses points (le début du plateau, le milieu, etc.) sont tous de bons candidats pour sa localisation. D'Imperio (2000) arme que cette ambiguïté peut être résolue uniquement en perception.

Dans une étude de perception très sophistiquée, elle teste donc l'eet perceptif de plusieurs facteurs phonétiques sur la perception de la modalité intonative. Elle manipule donc l'alignement tonal, la hauteur mélodique, la pente, et la forme de la conguration en montée-descente de f₀ constituée par l'accent nucléaire et l'accent de syntagme suivant.

terme on peut désigner un homme qui joue le rôle d'une maman.

Une phrase interrogative résynthétisée Vedrai il nono ? (Verras-tu le neuvième ?) est employée comme base pour la création des stimuli, dans laquelle un seul accent est réalisé, à savoir un accent nucléaire sur nono. En ce qui concerne l'alignement, elle manipule la localisation temporelle des cibles de l'accent nucléaire L*+H et de l'accent de syntagme L-⁶ en 7 pas de 15 ms relativement au début de la voyelle accentuée. Dans cette série de stimuli, la cible H est réalisée comme un pic def₀, liée aux cibles L par des interpolations linéaires. De plus, pour tester l'eet de la forme, elle ajoute à son corpus deux autres séries de stimuli. Une série inclue 4 stimuli modiés dans l'alignement, où la cible H est réalisée comme un plateau de 45 ms. L'autre série inclue également 4 stimuli, modiés dans l'alignement, où la forme du contour en montée-descente est asymétrique. L'asymétrie est obtenue par des variations simultanées des valeurs mélodiques de la conguration LHL.

Donc, par exemple, dans un stimulus le premier L a une valeur mélodique très basse, tandis que le H et le deuxième L ont une valeur très élevée ; dans le deuxième, les deux L ont des valeurs plus élevée, et le H a une valeur plus basse, etc.

En suivant le paradigme de perception catégorielle, la pertinence perceptive de ces facteurs est explorée par un test d'identication : trente locuteurs doivent écouter chaque stimulus et puis l'identier comme une question oui/non ou une armation à focalisation étroite (two-forced choiced task). Les résultats ont montré que l'alignement avancé/retardé par rapport à la voyelle accentuée est employé systématiquement par les auditeurs na-politains. Pour les stimuli à la gauche du continuum d'alignement, l'identication des questions est très basse ; lorsque l'alignement est décalé vers la droite, l'identication des questions augmente (g. 1.17). Il faut préciser que la contribution de chaque cible à la perception du contraste intonatif est indépendante. En fait, dans deux autres séries de stimuli, D'Imperio (2000) modie respectivement l'alignement de la cible L de l'accent nucléaire et de la cible L de l'accent de syntagme. Elle observe que la manipulation de ces cibles inuence l'identication des questions et des armations, ceci indépendamment de la position du pic. Au contraire, ni la manipulation de hauteur ni celle de pente ne semblent avoir un impact important pour l'identication de la modalité intonative.

6. Pour souci de simplicité, nous adoptons la transcription L- au lieu de HL- pour l'accent de syntagme.

En fait, dans les expériences décrites dans cette thèse, le constituant focalisé est toujours court, ce qui donne une conguration en montée-descente de l'accent nucléaire et de l'accent de syntagme.

Figure 1.17 Résultats de la manipulation d'alignement sur l'identication des questions en napolitain. Le score moyen de réponse (axe des abscisses) est fonction des pas d'alignement temporel (axe des ordonnées). T1, T2... T7 = pas d'alignement 1, 2 ...7. Tiré de D'Imperio (2000), p. 165.

En ce qui concerne la manipulation de forme, la présence du pic/plateau inuence aussi la perception de la modalité intonative. Ceci est visible lorsque l'on compare les résultats d'identication des stimuli présentant le pic avec ceux des stimuli présentant un plateau. Lorsque les stimuli présentant un pic ont le pic aligné avec le début du plateau, le pourcentage de réponses questions est beaucoup plus élevé dans les stimuli ayant un plateau. Au contraire, l'écart entre les deux séries est beaucoup plus petit lorsque les stimuli présentant le pic sont alignés avec la n du plateau. Les résultats pour les stimuli asymétriques sont plus diciles à interpréter car l'identication des réponses ne semble pas être dû uniquement aux valeurs mélodiques des trois cibles et à l'alignement.

La chercheuse émet l'hypothèse que pour ces stimuli, la cible perçue est le résultat d'une pondération globale entre les valeurs mélodiques atteintes par la montée def0et des celles atteintes par la descente. Cependant, cette hypothèse n'est pas explorée.

Les résultats de cette expérience montrent que l'alignement des tons L et H de l'accent nucléaire et de l'accent de syntagme L- est l'indice le plus robuste de l'identication into-native. De plus, en napolitain, la position temporelle de la cible perceptive dépend aussi de la forme du contour, car dans les stimuli ayant un plateau, la cible perceptive H est

alignée à la n du plateau (pour des résultats similaires en anglais et en italien de Pise, voir respectivement Knight & Nolan, 2006, et Gili Fivela & D'Imperio, 2007). D'Imperio (2000) établit donc une relation très étroite entre variabilité d'alignement tonal, représen-tation phonologique et sens : les résultats des expériences de production et de perception montrent que la variabilité systématique d'alignement de l'accent nucléaire est phono-logique, ce qui conrme l'existence de deux catégories montantes en napolitain, L*+H et L+H* (voir aussi D'Imperio & House (1997); D'Imperio (1999, 2002b) pour d'autres preuves empiriques). La grammaticalisation de l'alignement est utilisée pour véhiculer deux signications diérentes, respectivement celle des questions et des armations.

Deux observations découlent des découvertes de D'Imperio (2000). En premier lieu, la distinction entre les deux catégories tonales L*+H et L+H* - et donc celle de modalité intonative - repose principalement sur une variabilité d'alignement subtile mais systéma-tique, qui peut même se réaliser à l'intérieur de la syllabe accentuée (D'Imperio, 2000).

Cependant, nous nous demandons si cette variabilité contrastive peut être inuencée par d'autres facteurs de variabilité, tels que l'identité segmentale ou la structure de la syllabe accentuée, et de quelles façons. Quelles sont les conséquences de ces facteurs sur la re-présentation acoustique de l'intonation ? Et comment l'auditeur fait-il face à de possibles eets segmentaux lorsqu'il doit interpréter le sens d'un contour ?

De plus, si la notion stricte de compositionalité du contour est vraie et si le nucleus est réellement le c÷ur sémantique des contours intonatifs (par. 1.2), nous nous atten-drions à ce que l'alignement de l'accent nucléaire et de l'accent de syntagme soit la seule source d'information de modalité intonative. Cependant, nous avons observé au cours de ce chapitre l'existence d'une variabilité dans la région prénucléaire. Nous avons parlé de cette variabilité en termes de variabilité de forme et de pente du contour, an de sou-ligner l'absence de points d'inexion très visibles dans la courbe (en particulier dans les questions, où il n'y a pas de pic maximal de f₀). Cette variabilité est-elle systématique ? Inuence-t-elle la représentation phonétique et phonologique du contour prénucléaire ? A-t-elle un impact sur le sens ?

Dans le document Le rôle de la variabilité phonétique dans la représentation des contours intonatifs et de leur sens. ~ Association Francophone de la Communication Parlée (Page 64-70)