• Aucun résultat trouvé

CHAPITRE V — Vérification de la fiabilité du système d’évaluation prototypique semi-

2.2 L’organisation mélodique

Cette sous-section s’organise autour de trois axes : 1) les rapports entre les termes « mélodie » et « intonation », 2) l’adaptation perceptive de la hauteur mélodique aux contraintes physiologiques et acoustiques, 3) les approches de la mélodie anglaise, puis 4) les résultats de recherches sur la mélodie non native.

2.2.1 Mélodie et intonation

Dans son Dictionary of Linguistics and Phonetics, Crystal nomme la mélodie « intonation » et la définit ainsi :

intonation (n.) A term used in the study of SUPRASEGMENTAL

PHONOLOGY, referring to the distinctive use of patterns of PITCH, or melody. The study of intonation is sometimes called intonology. [...] (Crystal, 2008: 252) Il ajoute que, parmi les finalités de l’utilisation de l’intonation, la détermination de la structure grammaticale présente une similarité avec la ponctuation dans l’écriture, bien que s’opérant de manière beaucoup plus contrastée. Outre cette première fonction, la mélodie est aussi utilisée pour traduire un état mental personnel (personal attitude) tel que le sarcasme, la perplexité, la colère, etc. Les corrélats acoustiques correspondants sont alors la différence de hauteur mélodique (marquant un contraste), ainsi que d’autres traits prosodiques ou paralinguistiques. D’autres rôles sont dévolus à la mélodie, dont celui de marquer une appartenance à un groupe social (Crystal, 2008: 252). Comme on l’a vu dans l’Introduction, d’autres prosodistes différencient les notions de « mélodie » et d’« intonation », attribuant à cette dernière le sens de « prosodie ». Aussi, afin d’éviter toute ambiguïté, je précise que je rejoins la définition de Crystal et utiliserai essentiellement le terme de « mélodie » dans cette étude pour éviter toute ambiguïté.

2.2.2 Adaptation perceptive de la hauteur mélodique aux contraintes physiologiques et acoustiques

L’organisation mélodique de la parole est basée sur la hauteur de la voix, laquelle dépend essentiellement de la longueur des cordes vocales du locuteur. Ainsi, lors de la tension et la vibration des cordes vocales13, les voix d’hommes se situent autour de 120 Hertz en moyenne, celles de femmes vers 240 Hz, celles d’enfants vers 350 Hz et celle de nouveau-nés peuvent atteindre 3 000 Hz (Léon, 2011 : 77). Ces mesures correspondent à la fréquence

13

fondamentale (F0) de la voix, c’est-à-dire aux mesures de l’harmonique de premier rang. Ces mesures sont le plus souvent effectuées en Hertz (Hz) ou en demi-tons (DT). Cette moyenne correspond au « fondamental usuel », équivalant souvent à la note musicale du rire, des pauses pleines, et des syllabes inaccentuées dans la parole spontanée (Léon, 2011 : 78). Il précise que c’est à partir du « fondamental usuel » de chaque locuteur qu’un auditeur pourra distinguer les mouvements mélodiques entendus et leur ampleur.

L’organisation mélodique d’un locuteur s’inscrit dans un « registre », lui-même inséré dans une « tessiture ». « La tessiture de la voix est l’étendue des notes où l’on parle ou chante sans difficulté. » (Léon, 2011 : 78). En d’autres mots, il s’agit là de l’étendue des possibles, alors que « Le registre est la zone où l’on parle ou chante naturellement. » (idem). Le « registre » est donc l’actualisation du possible dans une occurrence déterminée. Soumis aux contraintes biologiques, il est tributaire de la longueur du groupe de souffle. Vaissière (2006 : 108) schématise la diminution de l’ampleur du registre de parole en fonction de la durée du groupe de souffle.

Figure 10 – Contour typique de F0 à l’échelle de l’énoncé, dans diverses langues (Vaissière, [1983] 2016 : 106)

On voit qu’entre deux pauses respiratoires, indépendamment des divers contours mélodiques, la fréquence fondamentale de la parole adopte une tendance à la baisse tandis que les poumons se vident (cause physiologique). Ainsi, le début de l’énoncé sera marqué par une F0 et une intensité maximales, en opposition à la fin de l’énoncé où F0 et intensité seront minimales.

Di Cristo note un ajustement de la perception face à ces contraintes physiologiques (2013 : 94). Il s’agit là d’une normalisation perceptive de l’effet de déclinaison observé

acoustiquement. La figure suivante distingue le schéma acoustique a de la normalisation opérée perceptivement représentée en b.

Figure 11 – Illustration de la normalisation de l’effet de déclinaison (P1 et P2 désignent deux proéminences consécutives) (Di Cristo, 2013 : 94)

Ce que Di Cristo nomme « les ruptures de correspondances entre la matérialité acoustique et la substance auditivo-perceptive de la prosodie, dans le cas du paramètre F0 » est aussi évoqué par d’autres ajustements perceptifs par rapport aux données acoustiques. Ainsi la « perception différentielle de F0 » nécessite une différence de F0 suffisante (supérieure au « seuil différentiel de fréquence ») pour que l’oreille humaine soit capable de percevoir une différence de hauteur mélodique entre deux syllabes contiguës (2013 : 94), comme le schématisent les graphiques a (1) et a (2) ci-dessous (Di Cristo, 2013 : 95). D’autre part, lorsque la courbe mélodique n’est pas statique (grande majorité des cas), la perception de la variation mélodique est tributaire de la durée du mouvement ainsi que de son ampleur : un mouvement mélodique de faible durée (inférieure à 200 millisecondes) sera perçu comme statique aux deux tiers de son mouvement de F0 (voir graphique b (1) ci-dessous). De même, lorsque la variation est audible, la hauteur mélodique perçue sera réduite par rapport à celle détectée acoustiquement (voir graphique b (2) (2013 : 95 et 100)).

Figure 12 – Illustration de quelques contraintes auditivo-perceptives concernant F0 (Di Cristo, 2013 : 95)

Par ailleurs, les microvariations de la fréquence fondamentale sur certaines consonnes, bien qu’elles soient audibles, sont interprétées comme négligeables par le système perceptif de l’auditeur par rapport à la F0 des voyelles (Di Cristo, 2013 : 91). Ce dernier précise que les consonnes non voisées devant voyelle occasionnent un bombement de la F0, alors que les consonnes voisées provoquent une dépression de la F0 d’importance variable : les consonnes sonorantes telles que [l, m, n et r] sont bien moins affectées que les consonnes obstruantes voisées (occlusives et constrictives).

Ainsi, Di Cristo résume ces adaptations en expliquant qu’il s’agit de « contraintes de bas niveau imposées par l’organe auditif et à des effets de normalisation de niveau plus élevé, qui sont attribuables au système de perception. » (2013 : 91). Afin de déterminer le profil suprasegmental des unités étudiées, la prise de mesures devra donc tenir compte des incidences liées à ces phénomènes en les neutralisant ou en en réduisant la portée.

Les faits rapportés ci-dessus montrent la « nature pluriparamétrique des signaux prosodiques » (Di Cristo, 2013 : 99-100), à la fois physiologique, acoustique et perceptive. Ainsi, chacun de ces paramètres doit être analysé à la lumière des autres pour comprendre et estimer à leur juste valeur les ruptures de correspondance entre elles, et surtout entre les

mesures acoustiques et leur réception auditivo-perceptive. C’est ainsi que pourront être interprétés linguistiquement les différents paramètres prosodiques qui établissent les faits.

2.2.3 Approches de la mélodie anglaise

Définie avec concision comme l’utilisation linguistique de la hauteur mélodique et de ses variations d’une manière systématique et spécifique à chaque langue14

, Gut la précise (2009 : 195) :

The broad definition of intonation includes paralinguistic features such as tempo, voice quality and loudness, which can be employed in order to express the emotional state of a speaker. Less broad definitions of intonation include only linguistic, i.e. meaning distinguishing, phenomena produced with the prosodic features tone, stress and quantity and their physical correlates fundamental frequency, intensity, duration and spectral characteristics.

The narrowest definitions of intonation are restricted to postlexical phonological phenomena, thus excluding word stress, tone and quantity (Ladd 1996, Hirst and Di Cristo 1998). In this conception, which is the one adopted in this chapter, intonation refers to the use of suprasegmental features to convey postlexical meanings in a linguistically structured way. Morphosyntactic and semantic structures as well as the prosodic features stress, accent and tone, which form part of the lexicon, are thus not included in this definition.

Ces définitions posent la question du statut phonologique de l’intonation, de son caractère catégoriel aux unités discrètes.

Gut récapitule les deux modélisations rivales de l’intonation que sont l’École britannique de l’intonation et l’approche métrique autosegmentale. L’École britannique (Palmer 1922, Kingdon 1958, O’Connor et Arnold 1961, Halliday 1967) décrit les contours mélodiques semblablement à une partition de musique, signalant les propriétés accentuelles, de hauteur et de mouvement mélodique de chaque syllabe. Le système se base sur le contour mélodique (tone), a specific pitch movement on a stressed syllable (2009 : 196). Sa structure est hiérarchisé en unités tonales (tone units, TU). Trim (1959) distingue les major tone units

(MU, signalés par ǁ), correspondant souvent à une phrase, des minor tone units (TU, représentés par ǀ). Quatre degrés accentuels sont associés à cette approche : absence d’accent

14 Gut (2009 : 195) : The term intonation refers to the linguistic use of pitch and pitch movement in a systematic, language-specific way.

lexical (unstressed syllables), syllabes portant l’accent lexical sans correspondre à une variation mélodique (stressed syllables), syllabes marquant une proéminence mélodique (accented syllables) et syllabes portant le mouvement mélodique principal d’une unité intonative (nucleus, nuclei). L’unité intonative de base comprend obligatoirement un noyau (nucleus) auquel peuvent s’adjoindre une tête (head) ou même une pré-tête (prehead) ; les syllabes suivant le noyau forment la queue (tail). Gut souligne (2009 : 198) que l’approche britannique se distingue par la conception des cibles tonales, les contours mélodiques (dynamic pitch contours) en représentant le fondement.

L’approche métrique autosegmentale (autosegmental-metrical, AM) (Pierrehumbert 1980, Liberman and Pierrehumbert 1984, Beckman and Pierrehumbert 1986, Pierrehumbert and Beckman 1988) se distingue par une division de l’intonation en cibles tonales discrètes et indépendantes (2009 : 198). Un énoncé intonatif anglais est caractérisé par les accents de hauteur, ou accents tonals, chromatiques ou mélodiques, un relief tonal donné mélodiquement à une syllabe (pitch accents, PA), les accents de phrase se situent à la fin des segments de phrases (phrase accents), et les tons de frontières sont les unités mélodiques marquant la fin des énoncés intonatifs (boundary tones). Deux niveaux tonals (H pour high) et L (pour low) marquent les hauteurs mélodiques hautes ou basses les unes par rapport aux autres. Le système permet une structuration hiérarchique et est compatible avec la transcription ToBI (Tone and Break Indices), adaptable à de nombreuses langues (pour l’anglais américain : Silverman et al. 1992, Beckman et Ayers 1994). Le système ToBI est notamment compatible avec l’utilisation de logiciels de transcription automatique, même si la transcription est effectuée manuellement sur une ligne d’annotation qui lui est réservée. Gut rapporte que Roach (1994) mentionne une tentative de conversion automatique de l’annotation britannique en ToBI (2009 : 201).

Ces définitions spécifiques sur les divers positionnements et le traitement de la matière intonative éclaireront les sections suivantes ainsi que les choix et descriptions effectués au cours de l’étude de cette thèse.

2.2.4 Résultats de recherches sur la mélodie non native

Cette présentation de résultats de travaux de recherche sur la mélodie non native est essentiellement agencée en quatre sous-sections thématiques et synthétiques, qui abordent 1) le découpage en unités intonatives, 2) la qualité tonale et des contours mélodiques, 3) la gamme de fréquence fondamentale (registre), et 4) le positionnement de l’accent mélodique.

2.2.4.1 Découpage en unités intonatives

Quelle que soit l’approche envisagée, il est essentiel de pouvoir délimiter l’unité intonative (intonation phrase), qui ne correspond pas toujours à une unité syntactique. Gut réaffirme (2009 : 209) la contrainte de la distribution des unités intonatives en lecture de l’anglais. Elle rapporte le consensus des lecteurs sur la localisation des unités tonales majeures (MU) dans 100% des cas, et sur celle des unités tonales mineures (TU) dans 80% des cas. Les frontières des unités tonales majeures correspondent toujours à celles des propositions syntaxiques, ce qui ne se produit que parfois pour les frontières des unités tonales mineures, plus sujettes à la variabilité personnelle des locuteurs. Yang (2004) corrobore la recherche de Gut (2005) : dans les narrations 73% de toutes les frontières syntaxiques sont suivies d’une pause.

En ce qui concerne le découpage des unités intonatives, Gut résume la tendance générale des non natifs d’accroître le nombre des unités et de diminuer le nombre des mots qu’elles contiennent, ce qui en réduit la durée. Ainsi, les frontières ne correspondent plus à celles des locuteurs natifs. Un consensus existe pour en attribuer la cause à une moindre capacité à procéduraliser la lecture en L2.

Suite à ses travaux, Gut affirme que la longueur moyenne de tous les énoncés anglais non natifs est de 3,96 mots. Le pourcentage des énoncés interrompus sur l’ensemble des énoncés est de 15,81%. À partir du tableau de Gut 8.2 (2009 : 229), j’ai réduit les résultats non natifs en fonction du style de parole à l’anglais (voir tableau ci-dessous).

mean length of phrases (in words) percentage interrupted phrases

reading passage 5.13 7.19

retellings 3.3 *** 21.25 ***

free speech 3.36 *** 20.26 ***

Tableau 3 – Longueur moyenne des énoncés et pourcentage des énoncés interrompus en anglais non natif selon le style de parole (***=significatif avec p<0.001 ; *=significatif avec p<0.05) (d’après Gut 2009 : 229)

On remarque de grandes disparités suivant les styles de parole. La longueur moyenne des énoncés (on peut penser qu’il s’agit des IPs) en lecture est de deux mots supérieure à celle des reformulations et des conversations. De même, la proportion des énoncés interrompus est très nettement supérieure dans ces deux derniers cas.

La comparaison entre natifs et non natifs montre que le nombre d’énoncés moyen en lecture des non natifs (58,58) est bien supérieur à celui des natifs (37). Son corollaire est que

ces énoncés sont plus courts par le nombre de mots qui les composent (natifs : 7,62 ; non natifs : 5,13). Les passages de lecture ne contiennent pas d’énoncés interrompus chez les natifs, alors qu’en reformulation leur proportion est plus faible (11,88%) que chez les non natifs (21,25%).

2.2.4.2 Qualité tonale et des contours mélodiques

Positionnement de Vaissière (2006)

Vaissière note que « Le français est souvent décrit comme une langue « montante » » (2006 : 111). D’après cette description, ce qui caractérise l’interlangue des anglicistes francophones devrait être la continuation marquée en fin de groupe de souffle.

Positionnement et résultats de Gut (2009)

En ce qui concerne les tons chez les locuteurs non natifs, Gut (2009 : 217) mentionne la difficulté qu’ont les locuteurs d’anglais nigériens à produire des tons complexes bi- directionnels (fall-rise et surtout rise-fall) par rapport aux locuteurs d’anglais britannique (Udofot 1997, 2003, Gut 2004, Eka 1985). Elle rapporte aussi l’expérimentation de Grover et

al. (1987) où la phrase I saw Anne but not Eric était lue : Anne était lue avec une chute par les

natifs anglophones et avec une montée par les natifs francophones. De nombreuse études interphonologiques tendent à prouver que l’intonation en L2 subit l’influence de la L1, à plus forte raison si les tons de la L2 n’existent pas dans la L1. Selon Grosser (1997), les natifs britanniques produisent 20% de tons descendants-montants ; il présente une hiérarchie acquisitionnelle tonale : les tons simples sont acquis avant les tons complexes, et les chutes sont produites avant les montées. En outre, les non natifs ne produisent pas toujours les tons aux endroits adéquats.

Le tableau suivant détaille la fréquence relative de chaque type de ton nucléaire dans les trois styles de parole que sont la lecture, la reformulation d’histoire et la conversation libre en anglais chez les non natifs. On peut voir que seul le ton rise-fall-rise est quasiment absent, tous les autres tons se produisent dans tous les styles de parole. Toutefois, c’est en conversation libre que se produisent davantage les tons plats (c’est-à-dire dans environ 80% de l’ensemble des cas), alors qu’en lecture et en reformulation leur réalisation correspond à 63% des cas). Par contre, les chutes sont bien plus fréquentes en lecture qu’en reformulation et en conversation. Quel que soit le style de parole, le rise-fall se rencontre deux fois moins souvent que le fall-rise.

fall rise high mid low rise- fall fall- rise rise- fall- rise n reading passage 23.76 14.68 14 26.74 19.31 0.44 1.07 -- 2723 retelling 11.03 21.14 26.22 31.54 8.7 0.4 0.97 -- 1541 free speech 10.24 8.59 17.29 39.54 23.02 0.34 0.88 0.1 908

Tableau 4 – Fréquence de tons nucléaires (en %) en anglais non natif selon le style de parole (d’après Gut 2009 : 233)

En fin d’énoncé, l’analyse des tons de frontières indique que c’est en lecture que l’on trouve les tons les plus bas (43,55%) alors que les tons hauts se produisent à 29,75% et les tons moyens à 6,7%15.

L’analyse acoustique révèle l’envergure du mouvement mélodique dans les chutes et les montées selon le style de parole : les chutes sont légèrement plus fortes (4,38 demi-tons) dans la lecture que dans la reformulation (3,47 DT) et la conversation (3,09 DT). Le phénomène est quasiment inversé pour le ton montant avec 3,95 DT en lecture, 4,28 DT en reformulation et 4,15 DT en conversation.

Le tableau suivant de comparaison des tons entre natifs et non natifs est une reproduction partielle de celui de Gut (2009 : 235). Elle remarque que les natifs produisent moins de tons plats que les non natifs. Les chutes sont deux fois plus utilisées par les natifs que les non natifs. Il en est de même pour le ton fall-rise, bien que le ton montant soit plus fréquent chez les non natifs. Gut précise aussi que les locuteurs anglophones natifs ne produisent pas de tons rise-fall-rise dans les noyaux.

fall rise level rise-fall fall-rise rise-

fall-rise n

non-native English 17.64 15.54 65.4 0.4 1 0.02 5172

native English 36.8 12.8 47.9 0.4 2.1 -- 234

Tableau 5 – Comparaison de la fréquence de tons nucléaires (en %) en anglais non natif et natif (d’après Gut 2009 : 233)

Les tons de frontières bas sont plus fréquents chez les natifs. Contrairement aux non natifs, les locuteurs natifs marquent une forte préférence pour le ton montant dans les syllabes précédant le noyau et le ton descendant en position nucléaire.

15 La forte proportion des tons hauts présentée pour la lecture dans le tableau de la page 234 de Gut (2009) est confirmée par le commentaire qui en est fait page 233. Il semble néanmoins qu’il y ait une erreur dans les pourcentages car le total des occurrences correspond à 80% seulement et non 100%, contrairement aux données correspondant à la reformulation et à la conversation.

Les non natifs réalisent des chutes de moindre envergure que les natifs : les natifs parviennent à un mouvement moyen de 7,81 demi-tons, ce qui représente plus du double de l’envergure de la chute moyenne des non natifs. Les montées nucléaires chez les natifs anglophones sont de moindre envergure que les chutes, mais sont de taille inférieure à celles des non natifs (voir tableau ci-dessous).

fall rise

non-native English 3.64 4.129

native English 7.81 3.8

**

Tableau 6 – Comparaison de l’envergure du mouvement mélodique nucléaire chez les natifs et non natifs dans la moyenne des chutes et des montées (d’après Gut 2009 : 237)

Positionnement et résultats de Horgues (2010)

Dans ses expérimentations et rapports de résultats, Horgues (2010) ne dissocie pas les phénomènes de registre de ceux de mélodie. Aussi, c’est dans cette section que je rapporterai conjointement les résultats de ces deux domaines.

Horgues réserve une large part de ses expérimentations à la perception et son test

TPer1 montre que les seuls indices prosodiques (rythmiques et mélodiques) qui résistent au filtrage et à la resynthèse sont suffisants pour que les auditeurs détectent les locuteurs francophones en anglais L2. Elle observe une montée mélodique devant frontière. Dans le cadre de la focalisation intonative, Horgues remarque que les francophones éprouvent une difficulté à réaliser une chute mélodique de forte amplitude sur un nombre restreint de syllabes et un noyau trop tardif dans les cas de désaccentuation de mots grammaticaux. La désaccentuation prosodique post nucléaire est moins marquée que chez les natifs : chute mélodique moins ample, présence de fluctuations mélodiques dans la queue de l’IP, irrégularité du décrescendo d’intensité. Dans l’intonation des structures interrogatives, les questions partielles sont associées à un contour descendant dans les deux groupes de lecteurs alors que les questions totales sont systématiquement caractérisées par une montée chez les francophones alors qu’elles sont « panachées » dans le groupe contrôle. Le contour bidirectionnel fall-rise pose problème aux francophones dans la mesure où ils éprouvent des difficultés à le reproduire en répétition sur une seule syllabe (son ampleur est très restreinte si elle ne disparaît pas complètement).

Dans l’étude des réalisations acoustiques de son test TPer2, Horgues repère deux influences de la L1 surtout dans le contour mélodique montant sur syllabe devant frontière et le decrescendo d’intensité très restreint après noyau. La modification des stimuli par

resynthèse dans TPer3 confirme le rôle mélodique et accentuel de la prosodie non native dans l’impression d’accent français. Cela corrobore les observations de Vaissière (2006) énoncées plus haut pour la mélodie et plus bas pour le rythme.

Le test TPer4 a repéré l’accent français dans les stimuli en conversation spontanée filtrée. Horgues remarque que les auditeurs anglophones ne saisissent pas mieux le degré d’accent français qu’en lecture. Horgues observe que le ton fall-rise n’est utilisé que par les apprenants les plus avancés, et remplacé le cas échéant par un ton simple.

Positionnement et résultats de Herment et al. (2014)

L’étude Herment et al. (2014) compare des réalisations prosodiques de questions polaires et en wh- en anglais étudiées chez des natifs anglophones et des apprenants anglicistes francophones à partir du corpus de lecture AixOx. Elle trouve sa justification dans le souhait de prouver l’utilité pédagogique du corpus et de la visualisation des contours et de