• Aucun résultat trouvé

CHAPITRE V — Vérification de la fiabilité du système d’évaluation prototypique semi-

2.1 L’organisation temporelle de la prosodie

Selon Di Cristo (2013 : 13), la dimension temporelle de la prosodie regroupe trois classes de phénomènes articulés autour de la durée des unités linguistiques, des pauses et du tempo.

En ce qui concerne la prosodie des apprenants, Gut mentionne les conceptions psycholinguistiques et didactiques pour aborder la notion d’aisance (fluency) en production orale (2009 : 79). Ainsi, les études sur les corrélats temporels de l’aisance en production orale se fondent sur l’hypothèse que l’aisance constitue un élément isolable de la maîtrise langagière indiquant la nature et l’efficacité des processus en jeu dans la production orale et pouvant être quantifié en mesurant la vitesse d’élocution, la durée des tours de parole, et les marqueurs de disfluence tels que les répétitions, reprises et pauses, entre autres mesures. Selon une conception récente, Gut (2009 : 80-81) mentionne une répartition en trois groupes que sont les caractéristiques temporelles, les marqueurs de disfluence et les traits d’interactivité. Les deux derniers groupes concernent essentiellement les critères d’étude de la conversation. Ainsi, les mesures temporelles destinées à apprécier quantitativement l’aisance sont les pauses, le débit de parole et la proportion de pauses dans le discours.

2.1.1 La durée des unités linguistiques

Alors que l’étude du phonème relève du domaine segmental, le domaine prosodique peut prendre en compte une grande diversité d’unités lorsqu’il s’agit de mesurer la variation. Di Cristo (2005 : 152) compile dans une figure synthétique la variation terminologique des diverses unités privilégiées par des chercheurs en fonction de la nature prosodique.

Figure 9 – Unités prosodiques selon les chercheurs de l’anglais et du français (Di Cristo, 2004 : 161)

Dans cette présentation récapitulative, on observe une hiérarchisation des unités prosodiques bien plus fine et élaborée en anglais qu’en français. Alors que l’unité la plus large est répertoriée sous les termes d’« énoncé » (Selkirk, Nespor et Vogel, Hayes), de « syntagme intonatif complet » en anglais (Beckman et Pierrehumbert), et de « macro unité intonative » en français (Di Cristo et Hirst), l’unité la plus réduite est la syllabe, mais uniquement chez Selkirk, Nespor et Vogel, et Hayes. L’analyse prosodique de la syllabe n’obtient pas les faveurs des prosodistes du français. Par contre, parmi les petites entités, le pied est analysé par les prosodistes de la syllabe anglaise ainsi que par Di Cristo et Hirst pour le français. Le syntagme intonatif, dont l’appellation peut varier suivant les chercheurs prosodiques, est l’unité reconnue par tous.

Gut récapitule les résultats de l’étude de Grosjean et Deschamps (1975) sur les corrélats temporels de l’aisance en conversation libre des natifs anglophones (2009 : 83). La longueur moyenne d’une entité (mean length of run) est de 12,61 syllabes.

Dans son étude, Gut considère les mesures quantitatives des unités suivantes : l’intégralité du discours, la syllabe, la pause silencieuse, la pause remplie, tronçon de parole sans pause, le mot (2009 : 93-94). Elle combine leur nombre ou durée pour obtenir des

résultats. Ainsi, dans sa comparaison entre natifs et non natifs en lecture, Gut signale (2009 : 98) que les non natifs auront tendance à insérer davantage de mots dans leur lecture, sans que cette augmentation soit significative, mais cela indiquerait une propension à prendre de faux départs et à se reprendre.

L’étude menée ici relève essentiellement du français et de l’anglais. Il me semble alors nécessaire d’utiliser des unités de mesure communes à ces deux langues à titre comparatif. Bien que des recherches très intéressantes aient apporté une vue globalisante des phénomènes prosodiques au niveau de l’énoncé ou paragraphe (par exemple, en anglais, Wichmann 2000, Wells 2006, et Di Cristo 2013 en prosodie générale), il me semble préférable de surtout cibler des unités linguistiques de petite et moyenne durée afin de cerner et décrire finement les caractéristiques prosodiques à ces deux niveaux. En conséquence, le choix du syntagme intonatif devrait être privilégié pour l’unité de taille moyenne. Par contre, étant donné le peu de consensus sur les unités de petite taille, cette étude devrait se référer à la fois à la syllabe et au pied pour ancrer ses investigations.

2.1.2 Les pauses

La pause possède un statut assez particulier. Di Cristo (2013 : 14) la définit comme « la manifestation physique (pause objective) ou perceptive (pause subjective) d’une interruption ponctuelle du flux régulier de la parole ». Il précise que sa nature et sa fonctionnalité sont complexes. On peut les catégoriser suivant leur perception : la « pause silencieuse » marquera une absence de parole (un silence), alors que la « pause remplie » sera marquée par « l’allongement exceptionnel d’une syllabe ou par la production d’interjections telles que « euh » ou « hum » » (2013 : 14-15). Cette seconde catégorie de pauses englobe les hésitations, les « faux-départs » et les répétitions. Les pauses silencieuses, quant à elles, sont dites « respiratoires » étant donné qu’elles coïncident souvent avec la nécessité qu’a le locuteur de prendre son souffle pour parler ensuite. Pour cela, elles surviennent généralement entre les unités grammaticales de manière à ne pas désorganiser le message sémantique. Ainsi que le résume Di Cristo (2013 : 15), « Les pauses respiratoires sont donc la conséquence d’un compromis entre l’exécution de contraintes de bas niveau (ou physiologiques) et de contraintes linguistiques de haut niveau (ou cognitives). » Cette réflexion de Di Cristo semble s’appliquer davantage à certains styles de parole, telle la parole spontanée, plutôt qu’à la lecture. Pourtant, l’existence de pauses et leur nature revêt une importance considérable, qui doit être prise en considération.

Gut rapporte que les chercheurs catégorisent les pauses selon leur durée Gut (2009 : 80-81). Riggenbach (1991) considère ainsi les micro-pauses (< 0,2 secondes), les hésitations (entre 0,3 et 0,4 seconde) et les pauses véritables (entre 0,5 et 3 secondes). Elle ajoute que la durée minimale d’une pause est de 0,1 seconde selon Trofimovich et Baker (2006), mais peut se rapprocher de trois secondes suivant d’autres chercheurs. Gut précise que Campione et Véronis (2002) catégorisent les pauses silencieuses (unfilled pauses) en trois sortes : courtes (< 0,2 secondes), moyennes (de 0,2 à 1 seconde) et longues (> 1 seconde), la dernière catégorie ne concernant que la parole spontanée. Les pauses remplies (filled pauses), quant à elles, seraient constituées de termes non lexicaux marquant une hésitation ou d’une élongation de certains sons (drawls). Ainsi les mesures des corrélats de l’aisance en termes de pauses se basent sur le nombre et la durée des ces pauses, le pourcentage entre la durée totale des pauses et la durée de parole effective (pause ratio), le nombre de pauses vides ou remplies par minute ou toutes les 100 syllabes.

Gut présente la proportion des pauses dans le discours sous la dénomination de

phonation/time ratio, reprenant Towell (2002), Cucchiarini et al. (2000, 2002) (2009 : 81). On

l’obtient en divisant la durée totale de parole par la durée totale de l’enregistrement. Riggenbach (1991), Freed (1995), Freed et al. (2004), Segalowitz et Freed (2004), O’Brien et

al. (2007) se réfèrent au nombre de mots dans le discours pour mesurer la durée de parole,

alors que O’Brien et al. (2007) ne prennent en considération que le tronçon sans pause le plus long. Le nombre de syllabes par seconde (mean speech rate) des natifs anglophones en lecture (Gut 2009 : 83) est de 4,5 à 5,9 selon les travaux de Dauer (1983) et de 4,7 chez Fant et al. (1991). En conversation libre, Deese (1980) l’évalue entre 5,48 et 11,25 alors que Grosjean et Deschamps (1975) l’estiment à 5,17. Gut rapporte que Deese (1980) retient une moyenne constante de 5,5 syllabes par seconde panachée d’occasionnelles pointes en conversation libre (2009 : 84). Ces passages accélérés correspondent à des propositions dépourvues d’emphase à l’intensité réduite et à l’intonation plate, ou bien à des ponts reliant des sections dotées d’une intonation normale. Selon selon Fant et al. (1991), la proportion de pauses dans le discours est de 31,8% lorsqu’on raconte une histoire (retelling). On remarque qu’elle est plus basse dans les entretiens radiophoniques d’anglais spontané (16,85% selon Grosjean et Deschamps (1975)). La durée moyenne des pauses varie selon le style de parole (speaking style). On doit noter les différences entre production en lecture (ou retelling) et en conversation libre. Le nombre de syllabes par seconde est manifestement plus important en conversation libre qu’en lecture. Elle note remarque en outre que la proportion de pauses silencieuses ne varie pas

suivant le style de parole alors que les pauses remplies sont quasiment inexistantes en lecture. Après avoir répertorié les principales études sur les corrélats temporels de l’interlangue de 1980 à 2007, Gut remarque (2009 : 92) que seuls la vitesse d’élocution, le nombre et la durée des pauses silencieuses, la durée moyenne d’un tronçon compact et la quantité de parole exprimée sont des indicateurs d’aisance validés dans plus d’une recherche.

Dans son expérimentation sur les 161 enregistrements des non-natifs de l’anglais (expérimentation décrite dans le Chapitre II), Gut constate qu’en moyenne, les pauses silencieuses constituent 9,75% du corpus et les pauses pleines 15,1% (2009 : 95). En lecture, les non natifs prononcent quelques pauses remplies (2009 : 98).

2.1.3 Le tempo

Di Cristo (2013 : 16) utilise le terme de « tempo » pour signifier ce que d’aucuns nomment « débit », « vitesse d’élocution » ou même « vitesse d’articulation ». Ces notions ont pour finalité d’« évaluer subjectivement, ou quantifier, la vitesse de déroulement de la parole (estimée concrètement en nombre de syllabes par unité de temps, celle-ci étant habituellement la seconde) ». Il souligne que le tempo est souvent assimilé à un trait idiolectal caractérisant un sociolecte, une langue, un dialecte, ou un parler régional. Elles assurent alors une « fonction identificatrice plurielle », mais peuvent aussi être sources d’informations de nature linguistique ou paralinguistique. Les variations du débit de parole sont en outre liées à certains styles de discours, dont le commentaire sportif est un exemple révélateur, ou à des critères plus individuels tels que l’expression des attitudes et des émotions. La parole s’inscrivant dans la dimension temporelle, Hirst prévoit une influence de la vitesse d’élocution sur les autres domaines prosodiques dans la parole d’un locuteur.

De Looze (2010 : 61) restreint l’hypothèse de Di Cristo sur l’importance de cette incidence. À la suite des premières études menées sur l'anglais et le français résumées dans Goldman-Eisler (1968), Lane et Grosjean (1973), Grosjean et Deschamps (1975) et Grosjean (1977), elle affirme que « la variation de la vitesse de parole est le résultat de la variation de la durée et du nombre de pauses plutôt que de la vitesse d'articulation ». Elle cite ensuite les résultats rapportés par Goldman-Eisler (1956) à partir d'un corpus de parole spontanée (entretiens en anglais) : « moyenne de vitesse d'articulation de 4.4 syllabes par seconde [...] pour les locuteurs les plus lents et de 5.9 syll/sec pour les locuteurs les plus rapides, alors que cette variation inter-sujets est cinq fois supérieure pour la durée des pauses ». En effet, De Looze avance que ces travaux (Goldman-Eisler, 1958; Goldman-Eisler, 1961, 1968) prouvent

que le phénomène de durée et de nombre de pauses d’une part, et celui de la vitesse d’articulation d’autre part sont complètements indépendants l’un de l’autre. Elle rapporte la conclusion de Goldman-Eisler (1961) : la vitesse d'articulation est une « constante personnelle d'invariance remarquable » (a personality constant of remarkable invariance), en conformité avec d’autres expérimentations postérieures.

Léon (2011 : 146) note que le débit révèle des constantes modelant l’image de la langue. À la suite d’une étude sur le discours spontané académique en français, il remarque que le débit des femmes (5,9 syllabes par seconde) est très légèrement supérieur à celui des hommes (5,7 syllabes par seconde), mais pas de manière significative. En ce qui concerne l’anglais, Rogers (2000 : 286) rapporte le débit de parole moyen de cinq syllabes par seconde selon Laver (1994). Par ailleurs, Léon (2011 : 139) conçoit une variation temporelle de nature phonostylistique : à la « variation émotive incontrôlée généralisée » s’oppose le « style caractéristique d’un tempérament », lequel, à partir d’un « indice », devient parfois un « signal » phonostylistique, tout en pouvant être plus ou moins conscient. Ainsi les phonostyles peuvent provenir de la perception phonostylistique d’un dialecte par exemple, d’une émotion, d’une attitude, ou bien d’un type de discours ((2011 : 147). Cependant, sur le plan de la perception, Léon dresse le bilan de l’étude de Fant, Kruckenberg et Nord et mentionne leur observation : la perception du tempo est concomitante du temps de pause.

Pour analyser le discours des apprenants, le débit de parole a été calculé de manières diverses détaillées par Gut (2009 : 81) :

 Nombre de mots par minute, soit brut, soit après qu’aient été écartées reprises, répétions, apartés et autres ajouts au discours de base (Lennon 1990),

Nombre de mots par minute (O’Brien et al. 2007),

 Nombre de syllabes par minute (Towell 2002, Trofimovich et Baker 2006),

Nombre de phones par unité de temps (Cucchiarini et al. 2000, 2002),

 Durée moyenne d’un tronçon dépourvu de pauses (Deschamps 1980, Lennon

1990, Freed 1995, Towell 2002, Cucchiarini et al. 2000, 2002, Freed, Segalowitz et Dewey 2004, Segalowitz et Freed 2004, O’Brien et al. 2007),

Fréquence d’occurrence et longueur des pauses à l’intérieur d’une t-unit, c’est- à-dire une proposition principale suivie de ses propositions subordonnées (Lennon 1990),

Pourcentage et durée moyenne des pauses aux frontières des t-units (Lennon 1990).

On remarque dans cette liste, l’importance non négligeable que jouent les pauses dans les mesures du débit.

Au regard de ces travaux, je peux déduire que la dimension temporelle de la parole pourrait être interprétée, voire métaphoriquement figurée, par le schéma ci-dessous à trois termes :

TEMPO = PAUSES & VITESSE D’ARTICULATION

Si l’on pouvait comparer ce schéma à une équation12, on verrait que l’on peut déduire un terme à partir des deux autres, l’un d’eux devenant l’inconnue. Il sera donc inutile d’établir des prises de mesures sur les trois éléments, puisque deux suffiront. Par contre, afin de comprendre et d’identifier la source de la variation temporelle par ses multiples facettes, la nature phonostylistique de l’acte de parole devra aussi être déterminée.

En ce qui concerne les résultats de son expérimentation sur les non natifs germanophones de l’anglais, Gut note que la vitesse d’élocution moyenne est de 2,63 syllabes par seconde avec pauses et 4,19 syllabes par seconde sans tenir compte des pauses. La longueur moyenne d’un tronçon sans pause est de 6,22 syllabes (2009 : 95). La vitesse d’élocution est plus rapide en lecture, de même que la longueur d’un tronçon dépourvu de pauses (2009 : 97). En comparant les natifs et non natifs selon diverses variables en lecture (tableau ci-dessous), Gut note que la vitesse d’élocution (speechrate) des non natifs et leur taux d’articulation (artrate) sont plus faibles, leurs tronçons dépourvus de pauses (mlr) sont plus courts (2009 : 98). Gut précise en outre que le degré d’homogénéité parmi les non natifs est plus important que celui des natifs en ce qui concerne la vitesse d’élocution et la longueur moyenne des tronçons sans pauses (2009 : 99).

12 Cette représentation reste métaphorique : on ne saurait additionner des pauses (en millisecondes) et des vitesses d’articulation (par exemple en syllabes par seconde).

silratio fillratio speech rate

art rate mlr words

non-native English reading passage style

9.81% (6.27) 1.35% (1.67) 3.3 (0.82) 4.4 (0.76) 7.3 (1.78) 273.3 native English reading

passage style 9.03% (11.05) 0% -- 4.1 (0.76) 5.6 (0.64) 9.44 (2.19) 264 n.s. n.s. * ** ** n.s.

Tableau 1– Valeurs moyennes et écarts types (entre parenthèses) de cinq variables de l’aisance en lecture chez les natifs et non natifs anglophones (*** = significatif avec p < 0,001 ; ** = significatif avec p < 0.01, * = significatif avec p < 0.005) d’après Gut (2009 : 99)

Gut précise (2009 : 102) que le seul point commun entre la production native et non native en termes d’intercorrélation des variables temporelles de l’aisance est la corrélation entre la vitesse d’élocution et le taux d’articulation, ainsi qu’avec la longueur des tronçons dépourvus de pauses. Soucieuse de discriminer qualitativement les différences individuelles en matière d’aisance selon les types de tâches, Gut classe hiérarchiquement les locuteurs non natifs suivant leur taux d’articulation dans les trois styles de parole induits par les tâches de lecture, la reformulation d’une histoire et la conversation libre (2009 : 102). Cette analyse débouche sur la constatation que tous les locuteurs tendent à observer le même rang dans les trois tâches assignées, ainsi que le montre son tableau ci-dessous.

reading passage retelling free

reading passage --

Retelling .75*** --

Free .42** .41** --

Tableau 2 – Corrélation des classements hiérarchiques de taux d’articulation chez chacun des locuteurs non natifs dans chaque style de parole (*** = significatif avec p < 0.001, ** = significatif avec p < 0.01) de Gut (2009 : 103)

La variable du taux d’articulation est donc relativement indépendante des styles de parole. Les conclusions que Gut tire de son étude sur l’aisance est que le discours des non natifs se caractérise par une grande proportion de pauses, pleines ou silencieuses. La proportion de pauses, la vitesse d’élocution et la longueur moyenne des tronçons non ponctués permettent systématiquement de différencier le discours natif du discours non natif.

Horgues (2010) avait constaté que le débit des apprenants francophones était plus lent que celui des natifs anglophones. Ferrragne (2013 : 156) constate la supériorité de durée globale de lecture des apprenants par rapport à celle des natifs pour chacun des quatre textes lus (différence significative vérifiée par test de Tukey-Kramer). Il en conclut la robustesse de la variable de vitesse de lecture pour discriminer les apprenants des natifs.