• Aucun résultat trouvé

CHAPITRE V — Vérification de la fiabilité du système d’évaluation prototypique semi-

3.1 Concepts prosodiques définitoires

De nombreuses définitions de la prosodie de la parole émaillent les dictionnaires linguistiques et la littérature spécialisée. Vaissière (2006 : 100-101) en donne une vue détaillée visant l’exhaustivité, qui a toute sa place ici :

La prosodie est une notion difficile à définir. Du point de vue acoustique, elle correspond aux variations de la fréquence fondamentale, de la qualité de voix (variations dans le mode de vibration des plis vocaux), aux variations de la durée et de l’intensité physique des sons, ainsi qu’aux variations allophoniques [...]. Les modifications de ces paramètres impliquent parfois la participation de l’ensemble des organes dits « de la parole », aux niveaux glottique, sous-glottique et supraglottique : rythme de parole, mode de vibrations des plis vocaux, intensité du geste d’expulsion de l’air des poumons, vitesse, force et précision des gestes de la langue et des lèvres. En fonction de la déviation de ces paramètres par rapport aux valeurs attendues pour le même énoncé qui aurait été énoncé de façon neutre, le « ton » de la voix sera perçu comme triste et mélancolique, ou encore joyeux et enjoué. D’un autre point de vue, la prosodie peut être définie par ses fonctions : fonction lexicale, démarcative, pragmatique, comportementale, émotionnelle,

identificatrice, stylistique ; du point de vue linguistique, la prosodie est souvent décrite comme la somme des phénomènes d’accentuation lexicale et d’intonation, ainsi que des facteurs de performance, dont le rythme. Toutes ces définitions sont acceptables, mais il faut veiller à ne pas mélanger les différents points de vue dans une description des faits.

Ainsi, cette présentation concerne divers niveaux d’analyse ou d’interprétation et peut être résumée comme le fait Di Cristo (2013 : 1), en écrivant que la prosodie et les éléments qui la déterminent peuvent être définis de plusieurs manières : par leur nature formelle, par leur matérialité physique ou auditive, par leur fonctionnalité ou même par leur contribution à la signification du message. Reprenant les diverses définitions du terme à partir de nombreux ouvrages de référence, Di Cristo (2013 : 20-21) récapitule que, de par ses racines grecques, signifiant « chant mélodique » ou « métrique », le terme « prosodie » est souvent confondu avec celui d’« intonation » dont il peut être synonyme. Sa particularité est de se référer à des phénomènes qui, échappant à la double articulation du langage et ne recoupant pas les domaines traitant des segments, phones et phonèmes, on leur attribue un caractère « suprasegmental » puisque leur unités linguistiques (« prosodèmes ») englobent et dépassent celle des éléments phonétiques et phonémiques.

Si Wells (2006 : 2) assimile les sens des termes intonation, prosody et

suprasegmentals, Crystal (2008 : 393) stipule que le domaine prosodique est restreint par

rapport à celui du domaine suprasegmental, lequel englobe celui du paralinguistique.

prosody (n.) A term used in suprasegmental phonetics and phonology to refer

collectively to variations in pitch, loudness, tempo and rhythm. Sometimes it is used loosely as a synonym for ‘suprasegmental’, but in a narrower sense it refers only to the above variables, the remaining suprasegmental features being labelled paralinguistic.

Ainsi, la prosodie se limite à l’étude des quatre éléments qui la composent : la hauteur mélodique, l’intensité, le tempo et le rythme. Néanmoins, Crystal (2008 : 349) note dans sa définition du paralinguistique (paralanguage), que ce terme correspond à des variations de la voix d’une fréquence inférieure à celle des corrélats prosodiques, surtout en ce qui concerne l’intonation et l’accentuation. Le domaine paralinguistique semble se définir par un « ton de voix » indiquant un comportement spécifique, un rôle social, ou quelque signification se rapportant à la manière de s’exprimer.

paralanguage (n.) A term used in suprasegmental phonology to refer to

variations in tone of voice which seem to be less systematic than prosodic features (especially intonation and stress). Examples of paralinguistic

features would include the controlled use of breathy or creaky voice, spasmodic

features (such as giggling while speaking), and the use of secondary articulation (such as lip-rounding or nasalization) to produce a tone of voice signalling attitude, social role, or some other language-specific meaning. Some analysts broaden the definition of paralanguage to include kinesic features; some exclude paralinguistic features from linguistic analysis.

Cette définition de la paralangue ne me semble pas convaincante pour clairement délimiter les domaines prosodiques et paralinguistiques dans la mesure où certains des quatre éléments prosodiques sont susceptibles d’avoir une incidence sur l’inflexion de la voix (tone of voice) caractérisant le locuteur et non plus le message linguistique. Cet aspect méritera une certaine vigilance dans l’étude en cours.

Tenant compte des diverses définitions, Di Cristo propose un essai de définition synthétique (2013 : 21) :

La prosodie est une branche de la linguistique consacrée à l’analyse des propriétés formelles (phonologie prosodique), de la matérialité (phonétique prosodique) et de la fonctionnalité des éléments non verbaux de l’expression orale, non coextensifs aux phonèmes, tels que l’accent, les tons, l’intonation, la quantité, le tempo et les pauses, que l’on qualifie collectivement de prosodèmes. La matérialité physique des prosodèmes se manifeste par les variations de la fréquence fondamentale (FO), de la durée et de l’intensité (paramètres prosodiques acoustiques), ces variations étant perçues par l’auditeur comme des changements respectifs de hauteur, de longueur et de volume sonore (paramètres prosodiques auditifs). Les informations prosodiques ont la particularité d’être polysémiques et de véhiculer à la fois des informations d’ordre linguistique, paralinguistique et extralinguistique, qui se révèlent déterminantes pour l’interprétation des énoncés du discours et de la conversation.

On peut remarquer que Di Cristo élargit ici le champ des domaines sous incidence prosodique, mais réduit les corrélats acoustiques des prosodèmes à trois : la fréquence fondamentale (FO), la durée et de l’intensité (paramètres prosodiques acoustiques), chacun permettant de mesurer la hauteur mélodique, la longueur et le volume sonore, dont la raison d’exister est d’être entendus, c’est-à-dire perçus auditivement.

Par ailleurs, Laver et Hutcheson (1972 : 12) considèrent d’autres distinctions, des canaux qui sont le « vocal » et le « non vocal » (non-vocal) ainsi que le « verbal » et le « non verbal » (non-verbal). Wacewicz et Żywiczyński (2012 : 118) résument leur classification des signaux communicatifs en quatre catégories :

 communication vocale et verbale, c’est-à-dire les énoncés construits avec des unités linguistiques,

 signaux vocaux et non verbaux, qui correspondent à l’intonation,

l’accentuation, le rythme ou la qualité vocale, lesquels excluent les unités linguistiques,

 signaux verbaux non vocaux: expression d’unités linguistiques excluant le domaine de la parole, mais englobant d’autres canaux comme l’écriture ou le langage des signes,

 signaux ni verbaux ni vocaux : signes ne relevant ni d’unités linguistiques ni d’une production vocale, mais pouvant inclure contact oculaire, postures, gestes manuels ou corporels, à condition que ceux-ci ne soient pas des signaux (dotés d’une signification établie par convention).

Ce classement recadre la place de la prosodie parmi les signes et signaux émaillant un acte de communication en présentiel. Si l’on se fie à ce classement, le sujet de cette thèse cible donc les activités vocales mais écarte celles qui sont non vocales étant donné que ces dernières ne sont aucunement liées au domaine de la parole (speech production)5. Laver et Hutcheson (1972 : 13) ajoutent une nouvelle catégorie à leur classement : l’extralinguistique, dont les signes se caractérisent par leur incapacité à varier selon la situation, et incluent par exemple la qualité vocale du locuteur. Cette catégorie sera elle aussi à écarter des analyses évaluatives car elle est soumise aux caractéristiques intrinsèques des individus, lesquelles ne sont pas transférables et ne peuvent dans ce cas être prises en compte. Dans son étude sur « la relation voix-parole », Lothe (1982 : 233) rappelle que la distinction de Laver et Hutcheson entre « linguistique », « extralinguistique » et « paralinguistique » provenait au départ des travaux de Trager (1958)6, Crystal et Quirk (1964)7 et Abercrombie (1967-1968) et que l’ensemble de

5 Ce point trouvera son importance lors de la présentation du corpus de travail : parmi les signaux vocaux non verbaux, on pourra inclure les pauses pleines, exprimant l’état physique ou émotionnel du locuteur (corporeals selon J. J. Ohala (1994 : 2) précisent Wacewicz et Żywiczyński). Le langage corporel (body language, Pease 1981), faisant lui aussi partie des signes non vocaux, sera écarté lui aussi étant donné que le corpus de travail n’est pas multimodal.

6 Trager, G. L. (1958). “Paralanguage: A First Approximation”. Studies in Linguistics, vol. 13 (1-12). 7

ces chercheurs soutenaient que ces phénomènes n’étaient ni personnels, ni idiosyncratiques mais de nature culturelle et variaient donc selon les groupes (travaux d’Abercrombie 1967- 1968)8.

La préférence de Lothe (1982 : 235) va à une distinction prosodique en niveaux d’analyse et considère que l’on observe une plus grande généralisation et une plus grande abstraction au fur et à mesure que l’on étudie ce qui caractérise la parole et/ou la voix d’un locuteur, de plusieurs locuteurs, ou ce qui caractérise les patrons linguistiques de la parole quel que soit le locuteur. Elle essaie de réconcilier le point de vue du locuteur et celui de l’auditeur et s’appuie sur l’analyse auditive pour réussir cette alliance.

En effet, il est difficile d’obtenir un consensus sur les liens unissant matérialité prosodique et abstraction. Sur le plan phonétique et jusqu’à nos jours, l’École britannique de l’intonation utilise la catégorisation de Halliday (1963) en tonality, tonicity et tone (3Ts) signifiant respectivement le découpage en unités intonatives (intonation phrases, IPs), l’emplacement des proéminences dans la chaîne parlée et la mélodie (Wells 2013). Ce n’est pourtant pas le cas de Di Cristo (2013 : 83), qui propose le schéma ci-dessous pour retrouver l’organisation des correspondances entre les faits concrets et les entités abstraites.

Figure 1 – Schéma des correspondances entre les composantes formelles et matérielles de la prosodie (Di Cristo, 2013 : 83)

Ce schéma présente deux tableaux dont celui de gauche synthétise la manière dont les entités abstraites sont traitées en prosodie formelle. Aux deux niveaux que sont le domaine lexical et le domaine supra-lexical, on observe une adaptation des trois T ciblées sur le rythme par

8 Abercrombie, D. (1967). Elements of General Phonetics. Edinburgh University Press.

Abercrombie, D. (1968). “Paralanguage”. British Journal of Disorders of Communication, vol. 3, p. 55-59; in: Laver-Hudcheson (1972: 64-70).

l’accentuation lexicale ou les proéminences supra-lexicales, et sur la mélodie par les tons ou l’intonation, à l’exception de tonality, qui est remplacée par la notion de « quantité » au niveau lexical, et « tempo, pauses » au niveau supra-segmental. Le second tableau, intitulé « Matérialité prosodique », est subdivisé en trois colonnes représentant les étapes chronologiques que sont la production physiologique, la transmission (phénomène physique dont on peut rendre compte en acoustique) et la réception par perception. L’humain est à la fois source et aboutissement, mais faute de bénéficier d’un encadrement spécifique à la production et à la réception, le chercheur doit se contenter des mesures acoustiques qu’il pourra effectuer à partir d’enregistrements. Vaissière (2006 : 43) affirme que certaines données ne peuvent être prises qu’en milieu hospitalier ou en laboratoire de phonétique à cause du matériel lourd généralement utilisé par les cliniciens pour mesures électromyographiques de l’activité électrique, ou prises de données cinéradiographiques (par flexoscope, variété d’endoscope). Elle note l’utilisation de plus en plus fréquente de « L’imagerie par résonance magnétique (IRM), la transillumination du larynx, l’imagerie

cérébrale fonctionnelle, l’électroencéphalographie (EEG) et la magnétoencéphalographie

(MEG) ». Ces traitements et outils permettent alors d’étudier précisément gestes et activité corporelle pendant la phonation. La phase de transmission ne peut être détaillée finement que grâce à un enregistrement effectué pendant la phase de production pour étude acoustique de ce que l’on peut mesurer : durée, fréquence fondamentale, amplitude et spectre. La phase de réception par audition ne peut être sondée que par le truchement de questionnaires ou leurs équivalents pour tenter d’évaluer ce que l’humain perçoit comme longueur, mélodie, intensité ou timbre de voix. Ce schéma représente la vue la plus synthétique et complète des divers aspects de la parole telle qu’elle peut s’inscrire dans cette recherche.

De même que la parole est destinée à être perçue (ce qui présuppose un auditeur ou interlocuteur), et non prioritairement à être mesurée, cette même parole est appelée à avoir un impact sur la réalité du monde dans laquelle elle s’inscrit. Lacheret (2007) affirme :

Concernant plus spécifiquement la prosodie, l’objectif est de comprendre comment les phénomènes intonatifs contribuent à l’inscription des sujets dans les situations dans lesquelles ils sont engagés (environnement matériel, social et cognitif). [...] La prosodie et l’action, la prosodie en action, l’angle d’attaque choisi insiste sur l’aspect situé de la cognition.

Elle préconise comme angle d’attaque la vision incarnée de la cognition, que l’on trouve dans la théorie de l’énaction chez Varela et al. (1993) et chez Bottineau (2007). Bottineau (2008)

insiste sur cette faculté révolutionnaire qu’a la parole de modifier non seulement le monde mais aussi les acteurs que sont le locuteur et l’auditeur-interlocuteur : « [...] language is to be reconsidered in terms of sensorimotor interactions with an environment in which both the individual and the environment are modified [...] ». Il devient très clair que l’on ne peut étudier la prosodie sans prendre en compte ses multiples facettes, ni le monde dans lequel elle évolue : la matérialité prosodique doit être préservée dans sa diversité, l’objet d’étude provenant de la matérialisation de l’activité humaine.

En conséquence, ce travail de recherche prend appui sur les considérations exposées précédemment en favorisant l’organisation prosodique de Di Cristo. Il prend aussi en compte la théorie de l’énaction car l’individu est un tout qu’il faut relier à son environnement, ses expériences passées, ses modes de pensée et éventuellement son profil d’apprentissage pour comprendre les phénomènes en jeu. Il semble peu approprié à la difficulté de la présente tâche de penser que la seule étude automatique ou manuelle de corpus de plus en plus vastes puisse compenser un manque de discernement que seul le choix raisonné d’outils et de conceptions appropriés pourra éclairer.

Pour clarifier les notions utilisées dans ce travail, voici comment je désignerai les domaines étudiés. Je garderai au mot « intonation » le sens de « mélodie » et utiliserai ce dernier terme afin d’éviter toute confusion. La « prosodie » regroupera les domaines mélodiques, rythmiques (accentuation et métrique) et de temporalité (tempo et pauses). Je rejoins ainsi l’organisation prosodique présentée par Di Cristo en amont.