Relations entre discours, intonation et gestualité en anglais britannique

(1)

HAL Id: tel-00135076

https://tel.archives-ouvertes.fr/tel-00135076

Submitted on 6 Mar 2007

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Gaelle Ferre

To cite this version:

Gaelle Ferre. Relations entre discours, intonation et gestualité en anglais britannique. Linguistique. Université de la Sorbonne nouvelle - Paris III, 2004. Français. �tel-00135076�

(2)

________________________

N° attribué par la bibliothèque

oooooooooo

R

ELATIONS ENTRE DISCOURS

,

INTONATION ET GESTUALITÉ EN ANGLAIS BRITANNIQUE

~ TOME I ~

THÈSE DE DOCTORAT

pour obtenir le grade de Docteur de l’Université de Paris III Discipline!: Sciences du Langage

présentée et soutenue publiquement le 5 mars par

Gaëlle FERRÉ

Directeur de thèse!: Mary-Annick Morel Professeur à l’Université de Paris III

JURY!:

Danielle Bouvet (Univ. Lumière – Lyon 2, examinateur) Laurent Danon-Boileau (Univ. Paris V, rapporteur) Alain Deschamps (Univ. Paris VII, rapporteur) Amina Mettouchi (Univ. Nantes, examinateur) Mary-Annick Morel (Univ. Paris III, directeur) Jacqueline Vaissière (Univ. Paris III, examinateur)

(3)

(4)

-2004-gestualité, nous analysons dans un premier temps les constituants du paragraphe oral, tel qu’il a été défini par Morel et Danon-Boileau (1998). Nous en déduisons qu’il existe des différences structurelles et prosodiques entre l’anglais et le français qui expliquent les différences sur le plan de la gestualité : l’anglais oral ayant une structure syntaxique très liée, certains gestes tels que les gestes d’organisation du discours sont peu utilisés par les locutrices.

En revanche, l’étude des pauses, de la gestion des tours de parole et des hyperparagraphes (unités plus larges que le paragraphe oral) fait ressortir le fait que les rapports de co-locution et de co-énonciation passent par les mêmes marques prosodiques et gestuelles en français et en anglais, malgré quelques différences interculturelles.

Relations between discourse, intonation and gestures in a conversation between two young English ladies.

ABSTRACT!:

This work is a single-case study based on a conversation between two young British ladies recorded on a video. We first analyzed the constituents of the oral paragraph which has been defined by Morel and Danon-Boileau (1998), showing the links that exist between discourse, intonation and gestures. We come to the point that the structural and prosodical differences between English and French have an impact on gestures : since oral English globally keeps a harmonious syntactic structure as compared to oral French, some gestures such as gestures of discourse organization are rarely used by speakers.

But then, the study of pauses, speaking turns and hyperparagraphs (larger units than the oral paragraph) shows that locution (the way speaking turns are managed) and

co-énonciation (the speaker’s representation of his interlocutor’s way of thinking) are

realized with the same prosodical and gestural marks, even though we notice some intercultural differences between the two languages.

DISCIPLINE!: SCIENCES DU LANGAGE!: LINGUISTIQUE ET PHONÉTIQUE GÉNÉRALES

MOTS-CLES!: INTONATION. ÉNONCIATION. GESTUALITÉ. CONVERSATION ORALE NON LUE. ANGLAIS BRITANNIQUE. PHONÉTIQUE. COMPARAISON AVEC LE FRANÇAIS

KEY-WORDS!: : PROSODY. ENUNCIATION THEORY. GESTURES. NON-READ ORAL CONVERSATION IN BRITISH ENGLISH. PHONETICS. COMPARISON WITH FRENCH

U.F.R.!: Littérature et linguistique françaises et latines, Centre de Linguistique

(5)

(6)

Je voudrais tout d’abord remercier ma directrice de thèse, Madame le Professeur Mary-Annick Morel, pour sa très grande disponibilité. Madame Morel possède, en plus de ses qualités de chercheurs et de directrice d’une équipe, des qualités humaines rares qui réchauffent le cœur. Elle m’a beaucoup appris pendant ces trois années de doctorat et est un modèle au quotidien pour nombre de ses étudiants. Je la remercie aussi pour la confiance qu’elle m’a accordée, sans même me connaître au tout début de notre rencontre, confiance que je ressens encore aujourd’hui.

Je souhaite ensuite remercier tout spécialement mes deux locutrices, Michelle Fisher et Zoe Lacey, pour leur talent et leur gai babillage. Lorsque l’on travaille aussi longtemps sur un corpus somme toute assez restreint, l’on pourrait s’attendre à ressentir une certaine lassitude. Après trois ans cependant, c’est avec le même plaisir que je les écoute, et certains passages particulièrement cocasses me font toujours rire. Comme il est plaisant de travailler dans ces conditions.

Je tiens également à remercier le personnel de l’Université de Nantes. M. Fargeas, responsable du Service audiovisuel, qui m’a autorisée à utiliser le studio d’enregistrement et a mis des techniciens à ma disposition, mais aussi M. Surget, qui a gentiment installé le studio en suivant mes instructions et a réalisé le montage vidéo, ainsi que M. Dupont, qui a réalisé le transfert du corpus sur les CD-Rom et m’a judicieusement conseillée sur les questions de format vidéo. Je remercie également Éric Quézin, responsable du service audiovisuel du Centre International de Langues de l’Université de Nantes, qui m’a gentiment prêté du matériel et conseillé dans son utilisation. Je remercie aussi vivement les enseignants et le personnel technique du Département Information et Communication qui ont été régulièrement sollicités et m’ont offert un soutien considérable, tout particulièrement Emmanuel Morin et Laurent Guillaume. Enfin, je remercie l’équipe Acoustique, Acquisition et Interprétation de cette même Université qui m’a permis de rencontrer d’autres chercheurs, m’a considérée comme membre de l’équipe à part entière et n’a jamais hésité à me donner des missions de confiance. Je pense tout spécialement à Virginie Braud, qui a préparé sa thèse presque en même temps que moi, avec qui j’ai pu parler de mes états d’âmes, et qui m’a également apporté beaucoup lors de l’impression de mon travail.

Je n’oublie pas les membres de mon jury. C’est un grand honneur pour moi de les recevoir à l’Université de Paris III car ils m’ont beaucoup appris lors des séminaires et des entretiens que nous avons pu avoir. Danielle Bouvet, qui a accepté de participer au colloque qu’Amina Mettouchi et moi-même avons organisé en mars, Laurent Danon-Boileau, qui a organisé un grand nombre de séminaires sur la gestualité. Je remercie aussi tout spécialement Jacqueline Vaissière, qui avait dirigé mon travail de DEA. Elle m’a appris en particulier la rigueur dans le travail de description et a grandement participé à élargir mes horizons dans le domaine de la phonétique expérimentale.

J’ai une pensée spéciale pour Philippe Bourdin et Amina Mettouchi, mes conseillers en tout et mes amis sincères, qui ont toujours été présents dans les temps difficiles, me remettant constamment sur les rails dans les moments de doute. Ils m’ont assistée tant sur le plan personnel que dans le travail, me conseillant des lectures, relisant des articles avec tant de bonté. J’espère que nous serons toujours amis.

Merci aussi à Bernard Hamel, qui a gentiment accepté de relire l’intégralité de ce travail et m’emmène régulièrement au restaurant où nous parlons littérature. Ce sont des moments précieux que je n’oublierai pas où que je sois.

Je remercie chaleureusement Olivier Corbin, qui a été très présent et m’a aidée à organiser ma soutenance, rendant moins angoissante l’attente et la préparation de cette journée.

(7)

Je voudrais enfin remercier deux amis particulièrement chers à mon cœur!: Jean Dermy et Gabriel Parnet. Un soir, alors que Jean se savait gravement malade, il s’est adressé à Gabriel en ces termes : “Si je devais disparaître un jour, je ne te laisserais comme héritage qu’une contrainte morale. Fais en sorte que Gaëlle finisse sa thèse.” Gabriel a accepté ce pauvre héritage et à partir de ce moment, je ne pouvais plus me défiler. Comment aurais-je pu en effet faire manquer Gabriel à sa promesse et ne pas réaliser la dernière volonté de quelqu’un qui n’est plus là aujourd’hui pour voir ce qu’il souhaitait le plus au monde, mais qui aurait été heureux, j’en suis certaine. Jean nous manque tellement à tous.

(8)

(9)

(10)

CHAPITRE 1 INTRODUCTION. . . 1 3

1.1 OBJET DE LA RECHERCHE ET HYPOTHÈSES... 13

1.2 HISTORIQUE DES ÉTUDES SUR LA GESTUALITÉ... 16

CHAPITRE 2 MÉTHODOLOGIE!: DE L’ENREGISTREMENT DU CORPUS À LA PRISE DES MESURES. . . 2 3 2.1 LOCUTEURS... 23

2.2 SITUATION D’ENREGISTREMENT... 23

2.3 MATÉRIEL D’ENREGISTREMENT ET MONTAGE... 25

2.4 LE DÉCOUPAGE DU CORPUS ET SA TRANSCRIPTION... 27

2.4.1 Analyse intonative... 27

2.4.2 Numérisation et étiquetage du signal ... 29

2.4.3 Extraction et traitement des données... 31

2.4.4 Calcul du débit... 31

2.5 DÉFINITION DU TONE-UNIT... 32

2.5.1 L’accent... 32

2.5.2 Définition traditionnelle du Tone-Unit... 33

2.5.3 Le TU dans un corpus de parole spontanée... 34

2.6 CALCUL DES PLAGES INTONATIVES POUR CHAQUE LOCUTRICE... 38

2.7 LES CLASSIFICATIONS DES GESTES... 39

2.7.1 Quelques définitions... 40

2.7.2 Terminologie employée dans notre étude pour décrire les gestes... 44

CHAPITRE 3 DESCRIPTION DES ANNEXES. . . 4 7 3.1 PREMIÈRE ANNEXE!: TRANSCRIPTION BRUTE... 47

3.2 DEUXIÈME ANNEXE!: RÉSULTATS CHIFFRÉS OBTENUS AVEC PRAAT ET CALCULS... 51

3.3 TROISIÈME ANNEXE: ANALYSE DU CORPUS EN PARAGRAPHES ORAUX... 53

3.3.1 Transcription de l’intonation... 53

3.3.2 Analyse discursive... 55

3.4 QUATRIÈME ANNEXE: TRANSCRIPTION DES GESTES... 59

(11)

PREMIÈRE PARTIE

LE PARAGRAPHE ORAL ANGLAIS

CHAPITRE 4 LE PRÉAMBULE. . . 7 1

4.1 INTRODUCTION...71

4.2 LES LIGATEURS...72

4.2.1 Les ligateurs discursifs...72

4.2.2 Les ligateurs énonciatifs... 108

4.2.3 Récapitulation des gestes et des marques prosodiques rencontrés sur les ligateurs les plus fréquents... 140

4.2.4 L’accumulation de ligateurs ... 145

4.3 L’EXPRESSION DE LA MODALITÉ!: POINT DE VUE ET MODUS... 148

4.4 LE CADRE... 167

4.4.1 Analyse discursive du cadre... 168

4.4.2 La mimo-gestualité mise en œuvre dans le cadre ... 175

4.5 LE SUPPORT LEXICAL... 180

CHAPITRE 5 LES PONCTUANTS . . . 1 8 7 5.1 LES MARQUEURS D’APPEL À L’ATTENTION OU À L’ADHÉSION DE L’AUTRE... 187

5.2 MARQUEURS DE RUPTURE DE LA CO-ÉNONCIATION... 201

CHAPITRE 6 LE POSTRHÈME. . . 2 1 1 6.1 LES MARQUEURS DE POINT DE VUE... 213

6.2 LA DISLOCATION À DROITE... 222

CHAPITRE 7 LE RHÈME. . . 2 2 5 7.1 LE RHÈME DANS LE PARAGRAPHE ORAL... 225

7.2 NATURE DU RHÈME... 231

7.2.1 Rhèmes étatifs et événementiels ... 232

7.2.2 Rhèmes évaluatifs... 236

7.3 L’INCISE... 242

7.4 EMPHASE ET FOCALISATION... 257

7.4.1 Contextes d’apparition de l’emphase et de la focalisation ... 259

7.4.2 Les saillances sur le plan discursif... 262

7.4.3 Réalisation prosodique et mimo-gestuelle de l’emphase et de la focalisation ... 267

DEUXIÈME PARTIE

LA DYNAMIQUE CONVERSATIONNELLE

(12)

8.1 INTRODUCTION... 281

8.2 NATURE DES PAUSES DU CORPUS... 281

8.3 LA REPRISE DE SOUFFLE AUDIBLE (NOTÉE (H)) ... 285

8.4 LES PAUSES SILENCIEUSES INTER-CONSTITUANTS... 289

8.5 LES PAUSES SILENCIEUSES INTRA-CONSTITUANTS... 299

8.5.1 Les indices prosodiques qui permettent de distinguer entre les trois types de pause... 301

8.5.2 Les indices discursifs qui permettent de distinguer entre les trois types de pause... 304

8.5.3 Les indices gestuels qui permettent de distinguer entre les trois types de pause... 306

8.5.4 Conclusion ... 311

CHAPITRE 9 LES INTERVENTIONS DE L’INTERLOCUTRICE. . . 3 1 5 9.1 INTRODUCTION... 315

9.2 LES RÉPLIQUES BRÈVES DE L’INTERLOCUTRICE... 316

9.2.1 Les répliques qui marquent une anticipation de la pensée / parole de l’autre ... 316

9.2.2 Les répliques d’aide à la formulation... 319

9.2.3 Les commentaires humoristiques... 321

9.2.4 Les commentaires appréciatifs... 323

9.3 LES RÉGULATEURS VERBAUX... 326

9.3.1 Les marqueurs d’acceptation... 327

9.3.2 Ignorance... 343

9.3.3 Refus... 345

9.3.4 Prise de distance par rapport au discours de la locutrice... 346

CHAPITRE 10 AU DELÀ DU PARAGRAPHE!: L’HYPERPARAGRAPHE . . . 3 5 3 10.1 INTRODUCTION... 353

10.2 HYPERPARAGRAPHE OU PARAGRAPHES DISTINCTS!? ... 354

10.3 ANALYSE DÉTAILLÉE D’UN EXTRAIT DU CORPUS... 358

10.3.1 Présentation de l’extrait ... 358

10.3.2 Analyse en paragraphes oraux et hyperparagraphes ... 358

10.3.3 Analyse détaillée de l’extrait ... 362

CHAPITRE 11 ORGANISATION DU DISCOURS, LOCUTION ET CO-ÉNONCIATION. . . 3 8 3 11.1 LES GESTES RELEVANT DE L’ORGANISATION DU DISCOURS... 383

11.1.1 Gestes à caractère méta-discursif révélant la construction du discours... 384

11.1.2 Gestes d’accentuation du dire... 391

11.1.3 Gestes exprimant la temporalité ... 395

11.1.4 Gestes figurant l’espace ou actualisant deux objets de discours dans l’espace... 401

11.2 LES GESTES SPÉCIFIQUES À LA GESTION DES RAPPORTS DE CO-LOCUTION... 408

(13)

11.2.2 Les gestes de prise en force de la parole... 417

11.2.3 Les gestes de conservation de la parole... 420

11.3 LES GESTES RELEVANT DE LA CO-ÉNONCIATION... 422

11.3.1 Les gestes qui marquent le refus de prise en compte de la dimension co-énonciative ... 422

11.3.2 Les gestes qui marquent la prise en compte de la dimension co-énonciative ... 424

11.4 CONCLUSION... 428 CHAPITRE 12 CONCLUSION. . . 4 3 3 BIBLIOGRAPHIE. . . 4 4 1 RÉFÉRENCES CITÉES... 441 RÉFÉRENCES COMPLÉMENTAIRES... 447

TOME II — ANNEXES

ANNEXE 1 TRANSCRIPTION ET TRADUCTION DU CORPUS. . . 4 6 3 ANNEXE 2 RÉSULTATS CHIFFRÉS . . . 5 0 3 ANNEXE 3 TRANSCRIPTION DES PARAGRAPHES ORAUX. . . 6 6 9 ANNEXE 4 TRANSCRIPTION DE LA GESTUALITÉ . . . 7 3 1 ANNEXE 5 COURBES ET PHOTOGRAPHIES. . . 9 0 5

(14)

Introduction

1.1 Objet de la recherche et hypothèses

Lors d’une conférence sur le geste à Austin, Texas1_{nous avons rencontré Adam Kendon}

qui nous a demandé avec son habituelle courtoisie sur quoi portait notre recherche. Nous lui expliquons alors que nous travaillons sur les relations entre gestes et intonation en anglais britannique. Il marque une pause, fronce les sourcils et annonce de sa voix toujours très posée!: “But the British don’t gesture.” (“Mais les Anglais ne font pas de gestes.”). Embarras. Nous n’avions alors pas commencé à noter de manière systématique la gestualité, et si nous n’allions rien trouver!? Et puis il fallait bien dire quelque chose, là, immédiatement. Nous donnons une vague réponse!: “Well, they do sometimes.” (“Et bien si, parfois.”). Et après nous avoir brièvement expliqué qu’à l’ère victorienne, les traités de savoir-vivre anglais prescrivaient toute gesticulation, considérée comme vulgaire, et recommandaient d’afficher un visage impassible, il poursuit!: “By the way, what do you think of that Caberney Sauvignon!?” C’était clair, le Caberney valait bien plus que l’on s’y arrête que la gestualité des Anglais.

Envie aussi lorsque Amina Mettouchi, à son retour d’un voyage en Kabylie, nous montre les films qu’elle y a tournés!: des heures d’enregistrement et les gestes qui s’enchaînent les uns après les autres. Nous regardons un film en avance rapide, car elle cherche un passage précis et les gens n’ont de cesse de s’agiter dans tous les sens. Nous regardons d’abord, les yeux écarquillés et la main devant la bouche, laissant échapper un “Oh là là”, et lorsqu’elle nous dit qu’elle ne sait pas si cela va aller, sur le plan des gestes, c’est le rire puis le fou rire. Une chose est certaine, c’est que nos Anglaises, même en avance rapide, semblent bien sages à côté de tous ces gens.

Dieu merci, la peur s’en est allée avec le début de la transcription de la gestualité, travail fastidieux, mais rassurant. Les Anglaises de notre corpus font des gestes!! Nous avons regardé de nombreux extraits de corpus, dans le cadre de conférences, mais aussi au sein de l’équipe de recherche sur le français contemporain de Paris III, et nous voyons bien effectivement des différences. À quoi tiennent-elles!? La première impression est que les gestes des mains sont moins nombreux dans notre corpus que sur des corpus de français,

(15)

moins amples également. Les mains restent la plupart du temps très près du buste et parfois même, seuls les doigts sont en mouvement. Les mouvements de tête sont également moins amples et plus lents!: la tête se déplace progressivement et presque imperceptiblement sur la droite ou la gauche, et il est parfois difficile de déterminer quand elle a quitté sa position de repos. Le regard mutuel entre les interlocutrices est également plus rare, moins tenu. Il semble que nos deux locutrices s’évitent constamment du regard. Cela rend un regard très mobile. Voilà pour les premières impressions.

Nous voudrions montrer comment gestualité, discours et intonation sont intimement liés dans la conversation — “comprendre la façon dont parole et geste renvoient l’un à l’autre et s’articulent, préciser l’apport du geste à la signification globale, comprendre en quoi les gestes participent à une forme de vie.” (Popelard & Wall, 2003, p. 15). Nous voudrions montrer également que les différences qui existent entre l’anglais et le français en ce qui concerne la gestualité et l’intonation reposent en grande partie sur la structure syntaxique des deux langues. Le français oral présente une structure décondensée, où le discours se construit par ajouts d’information successifs, alors que l’anglais est au contraire une langue très “condensée”, dans laquelle l’information est donnée en bloc ou presque. Cela expliquerait sans doute la gestualité beaucoup plus abondante des corpus de kabyle d’Amina Mettouchi, qui nous a révélé qu’en kabyle, la décondensation est encore plus importante qu’en français puisque tout élément du discours peut être antéposé ou postposé.

Ce que nous allons présenter dans ce travail est une étude de cas (a single-case study), construite autour d’un corpus de conversation à bâtons rompus d’une demi-heure où deux locutrices sont enregistrées (le corpus est décrit de manière plus précise dans les sections 2.1 à 2.3 de ce travail). Nous avons pleinement conscience des inconvénients que présente ce type d’analyse!: il s’agit d’un corpus bref, faisant appel à un nombre très restreint de locuteurs et l’on peut craindre que certaines hypothèses soient difficilement généralisables. Cependant, les études qui prennent en compte la mimo-gestualité en sont encore à leur début, comme nous le verrons dans le court historique que nous présentons dans la section suivante de ce chapitre. Ceci a pour conséquence qu’il n’existe pas encore de base de données comprenant des corpus annotés mise à la disposition des chercheurs. De plus, il n’existe pas non plus de logiciel permettant un étiquetage automatique des gestes. Lorsque l’on sait en plus que cette thèse concerne tous les types de geste, en plus des dimensions discursive et prosodique, on peut facilement imaginer l’ampleur de la tâche de transcription, puis d’analyse qu’elle implique. Ceci dit, elle s’inscrit dans la ligne de travail de l’équipe de recherche sur l’oral de Paris III et nous espérons bien continuer à contribuer à ce travail d’équipe dans le futur, ce qui permettra sans doute de donner plus de poids à certaines des remarques que nous allons faire ici. En ce sens, il ne s’agit pas d’un travail fermé et autonome, comme certains chercheurs considèrent les études de cas,

(16)

mais au contraire d’un travail ouvert sur les autres et qui appelle une suite.

Notre approche va donc consister à analyser la structure discursive de l’anglais, ce qui nous permettra de mettre en relation les marques posturo-mimo-gestuelles2_{et l’intonation}

avec le discours dans la conversation. Notre travail sera donc présenté sous forme de deux grandes parties!: (1) analyse discursive de l’anglais et (2) analyse de constituants plus larges que le paragraphe oral, en mettant l’accent sur la gestualité. La littérature concernant uniquement l’intonation de l’anglais étant très abondante, il ne nous a pas semblé nécessaire d’analyser l’intonation en soi, mais uniquement dans sa relation avec le discours et la gestualité. Nous nous proposons de comparer les gestes de nos locutrices avec ceux réalisés dans des extraits de corpus français, ainsi que quelques autres corpus, étant donné le nombre restreint de corpus annotés.

Les extraits que nous avons choisis pour les gestes français sont ceux donnés d’une part par Danielle Bouvet et Mary-Annick Morel (2002). Il s’agit d’un court extrait de conversation à bâtons rompus entre deux jeunes Françaises, mais qui est analysé dans le détail et fournit un bon point de comparaison dans la mesure où les deux locutrices ont à peu près le même âge que nos propres locutrices et où il s’agit du même style de conversation. D’autre part, nous utiliserons le corpus plus long décrit également dans le détail et donné par Danielle Bouvet (2001). Le corpus est ici légèrement différent dans la mesure où il s’agit du récit d’une histoire par une locutrice française, destiné à des enfants. Cependant, le corpus est riche en gestes d’organisation du discours et fournit également un bon point de comparaison. Nous utiliserons également le corpus décrit par McNeill (1992). Il s’agit du récit d’un dessin animé (préalablement visionné) par un locuteur américain. Ce corpus présente l’avantage de porter sur de l’anglais et d’être transcrit de manière assez précise tant sur le plan de la prosodie que sur le plan de la gestualité (comme c’est d’ailleurs aussi le cas des corpus précédents) mais malheureusement pas dans son intégralité. Nous n’avons pas connaissance de l’existence de corpus annotés et mis à la disposition du public pour de l’anglais britannique, mais nous nous proposons d’utiliser nos propres expériences conversationnelles pour vérifier des affirmations de manière ponctuelle. Si nous avons fait le choix de ne pas utiliser comme corpus de départ des émissions télévisées, c’est essentiellement dû au fait que ces enregistrements ne sont pas exploitables pour l’analyse de la conversation. En effet, dès lors que plus d’un locuteur est présent, les caméras effectuent constamment des zooms sur les visages des locuteurs, masquant par là tout le travail des mains qui sont alors hors champ, mais masquant aussi l’interlocuteur, ce qui a pour effet de cacher l’impact du discours sur ce dernier. Les émissions télévisées sont en plus souvent préparées par les

2_{!Les marques posturo-mimo-gestuelles (}

PMG) correspondent aux déplacements du buste (postures), à

l’expression du visage (mimiques et orientation du regard) et à la gestualité (mouvements de tête et des mains).

(17)

intervenants (il ne s’agit plus du tout de conversations, mais d’interviews ou de débats), et sont rarement diffusées en direct, ce qui implique qu’elles sont passées par le montage, et que l’on y a supprimé tous les “défauts” de l’oral, à savoir en premier lieu tout le travail de recherche de formulation, qui nous semble pourtant essentiel.

1.2 Historique des études sur la gestualité

La gestualité a intéressé les auteurs depuis l’antiquité!: les manuels de rhétorique classique, et plus tard les manuels de savoir-vivre, faisaient déjà état de la gestualité et des auteurs comme Quintilien connaissaient l’impact des gestes sur l’interlocuteur. Le but était alors d’intégrer la gestualité pour servir le discours et son but principal!: convaincre par la démonstration. Les manuels de savoir-vivre quant à eux voyaient plutôt la gestualité de manière négative, il ne s’agissait plus de gesticuler pour accompagner le discours, mais de faire état des gestes à proscrire pour se comporter “comme il fallait” dans le monde, certains gestes étant considérés comme vulgaires. Les Anglais, à l’époque victorienne en particulier, en sont arrivés à un point où toute gesticulation était proscrite, ainsi que toute démonstration d’émotion. Les deux approches sont très similaires en ceci qu’elles ne considèrent pas la gestualité comme partie intégrante du discours, mais comme un artifice permettant soit d’atteindre un but (avoir plus de prestance dans le cas de la rhétorique classique), soit de déterminer artificiellement une norme sociale de comportement (les manuels de savoir-vivre). Les gestes et attitudes sont alors mis au même compte qu’un ensemble de comportements tels que l’art de tenir ses couverts à table. À cette époque, la gestualité n’était absolument pas considérée comme faisant partie intégrante de la linguistique.

Cette attitude vis-à-vis des gestes s’est malheureusement maintenue à travers l’histoire de la linguistique (malheureusement car elle a eu un impact important sur la considération du statut des langues des signes), et dans tous les manuels de linguistique générale depuis Ferdinand de Saussure (1967) jusqu’à une époque récente, soit l’on ne trouve pas un seul mot de la gestualité (et ceci est presque préférable), soit la gestualité est mentionnée dans une vague note en passant, mais l’on se garde bien alors d’entrer dans le détail de ce que l’on ne connaît pas, dont on suspecte que cela pourrait jouer un rôle dans le discours, mais dont on est en tout cas quasiment certain qu’il n’y a là rien de linguistique. Le débat est évidemment tourné vers la question de l’arbitraire du signe, qui a tellement nuit aux langues des signes. Le débat n’est cependant pas nouveau puisqu’il fait déjà l’objet de

Cratyle (Platon), mais il ne s’agit alors que de la langue et il n’est pas question de la

gestualité. Cuxac (2000), dans son ouvrage sur la Langue des Signes Française, décrit très bien le problème!: pour qu’un signe soit considéré comme un élément de la langue, il faut qu’il soit arbitraire, or, dans les langues des signes, mais c’est également le cas de la

(18)

gestualité des langues orales, les signes ne sont pas toujours arbitraires et sont au contraire motivés. Soit le signe tire son origine d’un comportement remontant à la petite enfance, soit il reprend une ou plusieurs des caractéristiques physiques de ce qu’il représente. Par exemple, lorsque notre locutrice Michelle parle des barquettes de fraises qu’elle avait achetées dans les magasins Marks and Spencer (prononcé [mA˘ksn¡spens´z]), elle utilise les deux mains en opposition qui tracent ainsi un rectangle d’une certaine dimension. Ce rectangle est directement associable au périmètre des barquettes de fraises, et en ceci, les représente. Mais il ne représente pas l’intégralité des barquettes de fraises, qui ont aussi un volume et un contenu et sont fabriquées dans un matériau particulier. Michelle a simplement pris l’élément le plus saillant des barquettes de fraises, censé représenter leur taille. Le geste n’aurait pas été adéquat si elle avait voulu opposer des barquettes en plastique à des barquettes en carton par exemple.

Mais l’iconicité des gestes va plus loin, car comme le dit Danielle Bouvet (2001), même les gestes d’organisation du discours (beaucoup moins figuratifs que le geste que nous venons de décrire) sont ancrés dans notre propre appréhension de la réalité. Les énoncés introduits par des conjonctions telles que “d’un côté… d’un autre côté…” ou encore “d’une part… d’autre part…”, sont souvent accompagnés d’un geste de la main vers la droite ou la gauche du locuteur sur la première partie de l’énoncé et un geste dans la direction opposée sur la deuxième partie. On ne peut pas dire de ces gestes qu’ils représentent le discours, mais ils ont néanmoins une motivation dans la mesure où, dans notre monde réel, nous avons une certaine idée d’objets posés l’un à côté de l’autre, et si nous nous plaçons face à ces objets, l’un d’eux se trouve situé plus à notre droite et l’autre plus à notre gauche. De cette perception de la réalité, on peut ensuite considérer deux objets de discours comme deux objets physiques et situer physiquement ces deux objets de discours à notre droite et à notre gauche. Danielle Bouvet cite Lakoff et Johnson et en déduit que toute notre perception est basée sur un certain nombre de principes physiques tels que “le moins est en bas / le plus est en haut” (2001:17), “l’avenir est devant soi, le passé derrière”, qui nous permettent d’assimiler ensuite des objets de discours de manière métaphorique ou métonymique, par comparaison avec ces principes. Ainsi, lorsque nos locutrices haussent par exemple les sourcils sur un élément du discours qu’elles veulent mettre en relief, le haussement de sourcils est-il motivé par le principe “le plus est en haut”, et si je mets cet élément en relief, c’est que je le considère comme plus important que ce qui l’entoure, que je veux que tu remarques cette saillance, donc je hausse les sourcils. Ce qui a posé problème et participé à l’éviction des gestes dans les études linguistiques, c’est que le geste est polysémique!: on ne peut pas dire, pour reprendre notre dernier exemple, que le haussement de sourcils corresponde systématiquement à une mise en relief d’un élément du discours, de même qu’on ne peut pas dire que les mains figurant un rectangle signifient des barquettes de fraises. Elles pourraient signifier tout aussi bien

(19)

n’importe quel objet de forme rectangulaire, ayant cette dimension, et un certain volume. La gestualité a donc connu le sort de la prosodie, elle aussi longtemps laissée pour compte (mais réhabilitée bien avant le geste comme nous allons le voir). Parce qu’il était difficile de parvenir à une segmentation de la prosodie aussi fine que celle des sons de la parole, on en a déduit que la prosodie était un élément “para-linguistique” (alors que la gestualité était alors considérée comme “extra-linguistique”). Certains chercheurs ont cependant eu la conviction que la gestualité jouait un rôle plus important que l’on voulait bien le croire et on entreprit des recherches dans les années 1950, recherches hélas catastrophiques et qui ont contribué pour une grande part à l’absence de travaux sur la gestualité en linguistique entre les années cinquante et les années quatre-vingt dix. Deux grands courants se distinguent alors dans les études sur la gestualité.

En ce qui concerne l’étude des interactions, les psychologues se constituent en un groupe!: l’école de Palo Alto, qui rassemble des chercheurs autour de Bateson tels que Watzlawick et qui travaillent sur les comportements pathologiques. Ils ont construit “une théorie de la communication dont différents aspects ont largement dépassé le champ de la psychologie!: - l’importance de la multicanalité ;

- la distinction entre “contenu” et “relation”, toute communication portant sur un contenu et établissant une relation.” V. Traverso (1999:8)

Les anthropologues et les sociologues d’autre part, dans la mouvance des grands travaux sur “La pensée sauvage” (Levi-Strauss, 1962), avec des chercheurs tels que Sapir (1967), Sebeok et Ramsay (1969), Sebeok (1972), Whorf (1969), Lorenz (1970) et Thorpe (1977)3_{se sont mis à disséquer la gestualité des “peuples barbares”, indiens de tous}

horizons et à comparer cette gestualité à la gestualité américaine. Il s’agissait alors d’études portant non pas sur la gestualité produite en association avec le discours, mais sur ce que l’on nomme les emblèmes (qui ont aussi fait le principal objet des recherches de G. Calbris & L. Porcher, plus tard, en 1989, ce qui montre bien l’impact que ce type d’étude a eu sur les gestualistes). Les emblèmes sont justement les gestes qui se passent de discours, car ils sont totalement conventionnalisés, comme par exemple le fait de secouer la main pour dire au-revoir, de se passer la main sur le front en expirant bruyamment avec la bouche pour dire “j’ai eu chaud”, ou bien encore de placer une main près de la joue, pouce tendu vers l’oreille et auriculaire vers la bouche pour signifier qu’“on se téléphone”. Ces études, très intéressantes sur le plan des variations interculturelles, mais également motivées par le développement du tourisme et l’ouverture des frontières, ne sont cependant pas d’une grande utilité dans la compréhension du

3_{!Thorpe, W. H. (1977). “The Comparison of Vocal Communication in Animals and Man”. In R. A.}

(20)

fonctionnement des langues. Nous n’avons trouvé aucun emblème dans notre conversation à bâtons rompus, ce qui n’est guère surprenant puisque les locutrices étaient assises à portée de voix l’une de l’autre et, parlant la même langue, ne manisfestaient aucun problème de compréhension mutuelle dû à une différence de culture, qui aurait pu justifier l’emploi d’emblèmes. Effectivement, c’est essentiellement lorsque les locuteurs ne peuvent pas s’entendre que le geste vient alors se substituer au langage, et il faut bien, pour que la communication se fasse, utiliser alors une série de gestes conventionnels, sans quoi l’interlocuteur ne comprendrait pas de quoi il retourne. Ceci avait déjà été remarqué par Andrea de Jorio en 1832, dans son ouvrage portant sur le geste napolitain, et qui était tombé dans l’oubli total jusqu’à une date récente où Adam Kendon l’a traduit en anglais (2000).

Enfin, en sociologie, les interactions ont été étudiées par des chercheurs tels que Goffman et Hall, ainsi que Jackson et Scheflen. L’apport de ces différents mouvements a été de construire l’analyse sur les données réelles qui étaient considérées comme prioritaires, ainsi que sur la prépondérance de l’individu et de l’événement. Ce qui importe alors, c’est la manière dont la situation est construite.

Le deuxième mouvement, apparu lui-aussi dans les années 1950, a été lancé par le linguiste américain Birdwhistell et déjà largement décrit dans Kristéva (1968)4_{. La linguistique était}

alors complètement empreinte de structuralisme et par cette découverte extraordinaire!: le trait distinctif. Le phonème /b/ s’oppose au phonème /p/ par son trait de voisement. Le trait distinctif devient alors la plus petite unité dans le découpage linguistique de la parole. Adoptant cette approche, Birdwhistell propose de découper les gestes en unités minimales de sens!: les kinèmes (correspondant aux phonèmes de la langue) composés eux-aussi de traits distinctifs.

Ce fut là la petite mort des études sur la gestualité, car cette étude a abouti et ne pouvait aboutir qu’à une impasse. Le geste se superpose certes à la parole, mais les unités qui le composent ne sont pas assimilables aux unités qui composent la parole, tout d’abord parce qu’en termes de synchronisation, il ne faut pas nécessairement le même temps pour produire un son et pour réaliser un mouvement, et ensuite (nous allions dire et surtout), parce qu’il n’y a d’intérêt à étudier le geste que sur des segments plus étendus que les sons de la parole!: le fait de lever la main n’a pas plus de sens que le fait de produire un [p] isolé et si les phonèmes d’une langue sont en nombre fini, les gestes sont plutôt comme les sons d’une langue, en nombre infini et ne s’opposent pas entre eux. “Les gestes comme les paroles appartiennent à un processus global.” (Popelard et Wall, 2003, p.!17) “Comme un énoncé verbal, un geste n’existe pas à l’état isolé. Il prend sens dans

4_{!Kristéva, J. (1968). “Le geste, pratique ou communication!?” In Langages, 10. “Pratiques et langages}

(21)

un contexte.” (op. cit., p.!39) C’est aussi l’opinion de Garitte, Le Maner & Le Roch5

pour lesquels les analyses de Birdwhistell et des chercheurs qui l’ont suivi “décontextualisent le geste et sont d’un faible secours pour comprendre son fonctionnement, son rôle et son statut.” (p.!73) Une étude qui considère donc le geste avec un découpage aussi fin va nécessairement vers l’infini et le non-sens. De plus, comme nous le disions plus haut, on ne peut pas attribuer une valeur à un geste donné car les gestes sont polysémiques.

Devant l’échec de cette démarche, les études portant sur la gestualité ont donc été plus ou moins abandonnées dans le domaine de la linguistique, pour ne revenir que difficilement dans les années 1990 dans les études linguistiques. Difficilement en effet, car on lit encore des choses comme “En effet, si l’on peut parler avec un visage de marbre — donc sans utiliser de signe mimo-gestuel — on ne peut pas parler sans se servir de sa voix.” (Rittaud-Hutinet, 1995:152) Ce type d’affirmation, que l’on rencontre fréquemment (et notamment dans les études qui ont réhabilité la prosodie!: on démontre la validité des études sur la prosodie, en rabaissant la gestualité), montre que les gens confondent et comparent des choses qui ne sont pas comparables. La citation que nous venons de donner repose en effet sur une erreur et une fausse comparaison. Elle présuppose en premier lieu que parler avec un visage de marbre ne fait pas appel à la mimo-gestualité, or il nous semble au contraire qu’un locuteur qui parle avec un visage de marbre utilise le signe mimo-gestuel [visage de marbre]. De plus, l’auteur compare ici deux choses qui ne sont pas comparables, c’est-à-dire un signe [visage de marbre] et un moyen [voix]. Pour que la comparaison soit valide, il aurait fallu comparer soit deux signes (comme par exemple [visage de marbre] et [intonation monocorde]), soit deux moyens (comme [corps], [face] ou [visage] et [voix]). Et l’on se rend compte que si l’on remplace les termes de la comparaison en les apariant correctement, on aboutit aux deux truismes suivants!:

“On ne peut pas parler sans [corps], de même qu’on ne peut pas parler sans se servir de sa [voix]” (il s’agit de parler au sens d’oralité ici bien sûr),

“On peut parler avec un [visage de marbre], de même qu’avec une [intonation monocorde].”

De manière assez révélatrice de la fuite devant la gestualité, ce même ouvrage fait d’ailleurs constamment référence aux gestes avec des formules telles que “Sans doute des signes mimo-gestuels sont-ils également présents” (id., p.!133), alors que l’on apprend plus loin (p.!157 seulement)!: “Dans le corpus étudié, les interlocuteurs étant enregistrés à la fois

5_{!Garitte, C., Le Maner, G., & Le Roch, G. (1998). “La communication gestuelle dans une situation}

conversationnelle entre pairs du même âge de 6 à 10 ans”. In CALAP. “Corps et dialogue”. Paris: LEAPLE et CNRS (URA 1031). pp.!71-89.

(22)

en vidéo et en audio6_{(pour une meilleure prise de son), le cadre du studio pouvait être}

considéré comme relativement inhibant, tout au moins au début de l’échange.” C'est vraiment dommage de n’être pas allée voir si les signes mimo-gestuels étaient présents ou non. Il eut certainement mieux valu ne pas les mentionner du tout dans ces conditions. C’est d’autant plus dommage que l’ouvrage est intéressant par ailleurs, en ce qui concerne l’étude de l’intonation et des stratégies conversationnelles. Mais ce n’est qu’un exemple parmi tant d’autres.

Reste un argument de poids pour les chercheurs qui considèrent encore aujourd’hui les gestes comme extra-linguistiques!: le téléphone. Il est vrai qu’au téléphone, l’interlocuteur ne pouvant pas voir nos gestes, nous pourrions penser que ceux-ci ne sont pas utiles à la communication et donc ne font pas partie du système linguistique. Cependant, nous pouvons rétorquer que le téléphone enlève beaucoup à la communication, et notamment les hautes fréquences de la voix. Et pourtant, malgré l’absence de ces fréquences, la communication téléphonique fonctionne. Devrait-on dans ce cas considérer que parce que ces fréquences ne sont pas essentielles à une bonne communication, elles ne font pas partie de la voix!? Certes, il arrive que ces fréquences fassent défaut, en particulier pour les noms propres que le contexte ne peut pas restituer. Lorsque nous réservons une table au restaurant, il nous faut épeler “F - comme François - E - deux R - É comme Émilie”, sans quoi, en arrivant pour dîner, on nous répond!: “Nous avons bien une réservation au nom de Serry, mais rien au nom de Ferré”. Mais si l’on y pense, il en va exactement de même pour les gestes. Inutile de dire au téléphone!: “Il était gros comme ça”. Il faut décrire pour que la communication se passe normalement. Et lorsque l’on regarde les gens téléphoner (depuis l’essor du portable, c’est avec joie que l’on peut observer à loisir les gens téléphoner dans la rue ou au café), on s’aperçoit qu’ils continuent à gesticuler, à hausser les sourcils, etc. Il y a à cela deux raisons!: d’une part sans doute l’habitude des interactions en vis-à-vis joue-t-elle un rôle important dans le maintien d’une gestualité non visible de l’interlocuteur, d’autre part, il a été montré dans des études récentes (Cosnier & Brossard, 1984 ; McNeill, 20007_{; Özyürek, 2000}8_{; Kita, 2000}9_{; Tabensky, 2001) que la}

gestualité participe non seulement au décodage du discours par l’interlocuteur, mais aussi facilite l’encodage du dire par le locuteur lui-même. Ceci explique pourquoi le geste est présent chez les locuteurs au téléphone. Nous pensons cependant néanmoins que ce geste

6_{!Les italiques sont de nous.}

7_{!McNeill, D. (2000). “Catchments and Contexts: Non-Modular Factors in Speech and Gesture}

Production”. In D. McNeill (Ed.), Language and Gesture. Cambridge: Cambridge University Press. pp.!312-328.

8_{!Özyürek, A. (2000). “The Influence of Addressee Location on Spatial Language and Representational}

Gestures of Direction”. In D. McNeill (Ed.), Language and Gesture. Cambridge: Cambridge University Press. pp.!64-83.

9_{!Kita, S. (2000). “How Representational Gestures Help Speaking”. In D. McNeill (Ed.), Language and}

(23)

non visible de l’interlocuteur est visualisé par celui-ci en fonction d’une part de sa connaissance des habitudes gestuelles de son interlocuteur lorsqu’il le connaît, mais aussi en fonction de ses propres comportements gestuels. À ce sujet, un article récent de Decety & Jackson est paru dans La Recherche (2003), dans lequel les auteurs montrent que “L’imagerie cérébrale révèle que les mêmes zones [du cerveau] sont actives lorsque nous produisons une action ou lorsque nous voyons quelqu’un la produire. C’est donc par analogie avec nos propres états mentaux que nous en attribuons aux autres.” (p.!79) et “les résultats de plusieurs études de neuro-imagerie, réalisées depuis trois ou quatre ans par notre équipe et d’autres, convergent pour attribuer à cette région [l’hémisphère droit] un rôle clé à la fois dans le contrôle de nos propres actions et dans la perception de celles réalisées par autrui. C’est le cas lorsque nous interagissons avec autrui, comme dans l’imitation, lorsque nous observons les mouvements d’une autre personne, lorsque nous

imaginons les actions d’autrui et même lorsque nous tentons d’évaluer à quoi pensent les

autres.”10_{(pp.!85-86) Ceci est encore nouveau et directement lié aux progrès de}

l’imagerie cérébrale, mais implique que l’on peut parfaitement se représenter l’autre (et reconstituer sa gestualité) à partir de ses propres actions. S’il est des gestes qui se perçoivent comme le sourire, il en est d’autres qui s’imaginent.

Les études sur la gestualité ont connu un essor formidable depuis les années 1990. Il suffit de voir se développer les associations nationales et internationales tournant autour du geste (GeVoix en France, Gesture pour l’internationale) et les conférences (ORAGE : Oralité et gestualité ; GESTURE), dont les actes sont publiés, mais aussi la revue Gesture publiée par l’association du même nom. De plus, lors des conférences, l’on prend conscience de la diversité des travaux sur le geste qui en font un domaine tellement riche : geste et conversation, geste et esthétique, geste et sémantique, geste et discours, geste et intonation, acquisition du geste, geste et langues des signes, sociologie, psychologie, anthropologie du geste, modélisation informatique. Nous ne possédons pas encore de machine qui parle réellement, mais posséderons-nous un jour des machines qui parlent en faisant des gestes ? Ce n’est à notre avis qu’en considérant la parole dans son tout que nous pourrons y parvenir.

(24)

analyser la structure discursive de la conversation en anglais, que nous mettons en relation avec l’intonation et la mimo-gestualité. L’hypothèse qui guidera ce travail est que la structure particulièrement condensée de l’anglais, par rapport au français oral, peut expliquer la rareté de certains schémas intonatifs et la quasi absence de certains gestes.

Chapitre 2

Méthodologie!: de l’enregistrement du corpus à la prise des mesures

2.1 Locuteurs

Nous avons choisi d’enregistrer deux locutrices de langue maternelle anglaise. Ce choix de deux locutrices plutôt que deux locuteurs est motivé par le fait que la plupart des études concernant l’intonation sont basées sur des conversations entre locuteurs, mises à part les études qui portent sur les différences de stratégies entre les sexes. Nos deux locutrices ont 23 ans et étaient, à l’époque de l’enregistrement, lectrices dans le département d’anglais de l’Université de Nantes!; Michelle vient de Londres, et Zoe, de Durham. Nous connaissions Michelle et lui avions demandé de faire cet enregistrement de conversation à bâtons rompus avec une amie de son choix. Nous lui avions simplement demandé de choisir une amie chez laquelle elle ne reconnaissait pas un accent régional trop marqué. D’ailleurs, elles évoquent ce point au cours de la conversation, et si Zoe pense avoir un léger accent, Michelle lui avoue ne pas en avoir conscience. Lors de notre analyse, nous avons repéré quelques prononciations légèrement différentes!: par exemple, Michelle prononce “Tyne and Wear” [taIn´nwe´], alors que Zoe le prononce [tIn´nwe´], mais nous pensons que ces différences de prononciation, rares par ailleurs, portent essentiellement sur le lexique, et que l’intonation n’est absolument pas touchée.

2.2 Situation d’enregistrement

Le but de notre étude est de travailler sur les stratégies des locuteurs lors d’une conversation à bâtons rompus. Nous avons donc essayé de faire en sorte que cette

(25)

conversation soit le plus spontanée possible. Il est clair qu’on ne peut travailler sur la prosodie sans micros, et que filmer des gens dans la rue avec deux caméras et du matériel de qualité est quasiment impossible pour ce type d’étude. Nous sommes par conséquent bien obligée d’avouer que cette conversation entre nos deux locutrices n’est pas réellement de la conversation spontanée dans la mesure où a) elle a été provoquée, b) elle s’est déroulée dans un cadre particulier (étranger aux locutrices) que nous allons décrire. Cependant, les deux locutrices se sont rapidement laissées entraîner par leur conversation, et ont très vite oublié micros et caméras.

La conversation s’est déroulée dans le Service Audiovisuel de l’Université de Nantes dans un studio d’enregistrement. Ceci permettait d’avoir à la fois un éclairage correct et une insonorisation suffisante. Toutefois, l’enregistrement n’a pas eu lieu en chambre sourde (cela aurait rajouté au caractère artificiel de la rencontre, sans toutefois apporter une grosse amélioration de la qualité d’enregistrement, qui était déjà tout à fait convenable). Afin de rendre l’atmosphère plus conviviale, nous avions aménagé une sorte de salon, comportant deux fauteuils et une table basse. Pour cette même raison, nous avions autorisé les locutrices à conserver le gobelet de café avec lequel elles étaient arrivées. Nous pensons que le “mug” n’est pas un mythe en Grande-Bretagne, et qu’il manque quelque chose à une conversation amicale sans café ou sans thé. Les locutrices ont d’ailleurs conservé leur gobelet en main, même vide, pendant une grande partie de la conversation. Ceci n’est pas gênant pour l’étude de la gestualité!: la manipulation d’objets fait partie intégrante de celle-ci.

Nous avions installé les locutrices dans deux fauteuils qui se faisaient face. Ceci est important dans la mesure où la plupart des études portant sur la gestualité utilisent des corpus où les locuteurs sont assis l’un à côté de l’autre. Si avons avons choisi de les placer en vis-à-vis, c’est parce que nous pensons que la position de repos de la tête est dans l’alignement du corps. Or, si l’on place les deux locuteurs côte-à-côte, comment savoir si le locuteur détourne la tête de son interlocuteur, ou s’il place simplement sa tête en position de repos. La tête étant en position de repos dans l’alignement du corps, il nous était ainsi plus facile de déduire que si la locutrice tournait la tête à droite ou à gauche, celle-ci s’éloignait de sa position de repos.

Les consignes qui avaient été données aux deux locutrices étaient de parler le plus possible, comme elles le font très régulièrement dans la vie quotidienne (Michelle nous a avoué rester souvent trois heures au téléphone avec Zoe, y compris lorsqu’elles se sont vues dans la journée, et elles se voient très fréquemment, non seulement à l’Université où elles travaillent toutes deux, mais aussi en dehors des heures de cours, soit en ville, soit chez l’une ou chez l’autre). Pour le cas où la situation un peu stressante de ce lieu qu’elles ne connaissaient pas les bloquerait dans leur entretien, nous leur avions fourni des thèmes

(26)

possibles, mais non obligatoires, de conversation (par exemple, l’approche des vacances de Noël et leurs projets respectifs, les étudiants et la façon dont se déroulaient leurs cours…). Certains de ces thèmes ont été utilisés, d’autres non. Elles avaient également pour consigne de se présenter en début d’enregistrement (ceci afin de faciliter l’archivage et la réutilisation de notre corpus par d’autres chercheurs). Par ailleurs, elles savaient que cette conversation devait être utilisée dans le cadre de notre thèse, portant sur la linguistique, mais en aucun cas elles ne savaient que cette thèse porterait plus précisément sur les liens entre discours, intonation et gestualité. Enfin, afin de ne pas inhiber leur conversation, le technicien et moi-même avons quitté la pièce, leur précisant qu’elles seraient seules et non observées pendant une demi-heure.

2.3 Matériel d’enregistrement et montage

Chaque locutrice était filmée par un caméscope 3CCD 2/3, en format Betacam SP, situé en face d’elle, à droite de l’interlocutrice (soit légèrement de biais, sachant que pour des raisons de place, le caméscope qui filmait Zoe était un peu plus éloigné de Michelle, mais le biais, s’il est un peu plus important pour Zoe, ne constitue cependant pas une gêne pour l’observation des mouvements de la face). Le plan d’enregistrement permettait de voir les locutrices de la tête aux cuisses (ce qui permettait de filmer les mains, y compris lorsqu’elles reposaient sur les cuisses des locutrices). En revanche, nous n’avons pas filmé les jambes et les pieds des locutrices car le plan aurait été alors trop éloigné pour pouvoir distinguer les micro-mouvements de la face.

Figure 1!: Schéma représentant les emplacements des locutrices et des caméscopes lors de l’enregistrement. Loc1 = Michelle, Loc2 = Zoe ; C1 et C2 = caméras.

La prise de son a été effectuée grâce à deux micros-cravate avec une capsule omnidirectionnelle, chaque micro étant relié à la caméra qui filmait la locutrice. Nous avons fait le réglage du son pour chaque locutrice avant de quitter la pièce. Les deux images ont été ensuite montées à l’écran par le technicien audiovisuel, M. Surget, via une régie analogique (mélangeur vidéo, mixage son…) qui a utilisé deux magnétoscopes lecteurs et un enregistreur, toujours en Betacam SP, puis a reporté le montage en format vidéo VHS

(27)

pour que nous puissions l’utiliser. Nous possédons donc trois bandes vidéo!: une bande en gros plan pour Zoe, une pour Michelle, et une bande en plus petit plan qui rassemble les deux locutrices. Pour chaque bande, lorsque la locutrice regarde la personne qui visionne la bande, elle regardait en fait l’interlocutrice lors de la conversation puisque celle-ci était située en face d’elle.

Pour l’analyse du son, nous avons transféré le son de la bande vidéo sur deux cassettes audio de bonne qualité, ce qui nous a permis de faire l’analyse de la parole à partir de n’importe quelle platine cassette. En effet, nous aurions pu transférer le son sur des cassettes DAT, mais ceci implique nécessairement par la suite d’avoir accès à un lecteur DAT pour faire l’analyse de la parole. De plus, la qualité de l’enregistrement est suffisamment bonne pour pouvoir faire l’acquisition à partir de cassettes audio normales. Nous avons choisi d’enregistrer une seule locutrice par cassette, afin de pouvoir traiter les passages où il y a chevauchement de parole.

Pour l’analyse de la vidéo, nous avons transféré l’intégralité du corpus monté (bande sur laquelle les deux locutrices apparaissent) sur CD-Rom, à raison de 5 minutes de corpus par CD-Rom, soit un nombre total de 6 CD-Rom. Les choix de format ont été décidés en vue d’obtenir le meilleur rapport qualité d’image / taille du fichier, mais aussi en fonction de la compatibilité avec les logiciels de lecture vidéo. Chaque séquence est une séquence QuickTime, enregistrée au format avi. La taille de l’image est de 710 x 280 pixels, la profondeur de pixel, 16 bits et le nombre d’images par seconde est de 25. Chaque séquence comporte une piste vidéo et une piste audio. L’échantillonnage de la piste audio s’est faite à 44100!Hz, 16 bits, Mono. Afin de procéder à l’annotation de la gestualité, nous avons utilisé deux logiciels. Pour le visionnage, QuickTime Player est largement suffisant!: il permet de visionner le film image par image (en utilisant les flèches du clavier) et d’adapter la taille de l’image en fonction des besoins (si l’on agrandit trop l’image pour obtenir par exemple une taille écran, on perd beaucoup en qualité, mais on gagne en confort pour un repérage grossier. En revanche, si l’on veut noter les micro-mouvements des sourcils ou de la bouche, une taille d’image inférieure est préférable). Nous utilisons également le logiciel Final Cut Pro, qui est en fait un logiciel de montage vidéo, et qui permet par conséquent d’extraire des séquences plus courtes ainsi que de faire des ralentis. En revanche, nous trouvons que ce logiciel est trop complexe pour une utilisation lors de la notation et donc trop lourd à utiliser pour repérer les gestes.

Nous savons également qu’il existe depuis peu des logiciels spécifiques à l’étiquetage de la gestualité, mais nous n’avons pas pu y avoir accès pour cette thèse ; nous espérons néanmoins pouvoir les utiliser dans l’avenir, car nous pensons que les deux logiciels

(28)

présentent un réel intérêt. Le premier logiciel se nomme TASX11_{et le deuxième Anvil}12_,

utilisé par l’équipe de recherche sur le geste des Universités de Chicago et Saint-Louis. N’ayant pu avoir accès à ces logiciels, nous ne sommes pas en mesure de décider lequel est le meilleur, mais tous deux présentent des avantages certains. Ils permettent de visionner la vidéo image par image, d’importer les tires de segmentation effectuées sous Praat et de les compléter par de nouvelles tires d’annotation des gestes. Ceci permet d’aligner le début des gestes sur les tires de texte et de voir immédiatement apparaître les effets de synchronisation ou les décalages entre la gestualité et l’intonation. Par exemple, à quel endroit de la pause le geste débute-t-il!? Le changement de direction du regard est-il initié exactement au moment de la prise de parole ou bien précède-t-il légèrement celle-ci et de combien de temps!? Ce type de calcul est impossible à réaliser lorsqu’on note manuellement le début du geste. L’analyse image par image ne permet absolument pas de faire une segmentation en termes de millisecondes. Il peut y avoir un léger décalage entre geste et image sans qu’il soit possible de chiffrer en temps ce décalage. Il serait possible, en théorie, lors de l’annotation de la gestualité, de noter également les temps de début et de fin de chaque séquence gestuelle, mais cela serait sans doute le travail de toute une vie, puisque cela exigerait par la suite de faire tous les calculs manuellement pour obtenir par exemple, la durée d’une séquence gestuelle. Nous ne pensons pas non plus qu’il soit nécessairement très important de savoir de combien de temps est un décalage. Ce qui compte est avant tout que le décalage soit visible à l’écran. Les études qui portent plus précisément sur la synchronisation entre geste et parole ont en revanche besoin de ce type de logiciel. Dans notre étude, en ce qui concerne les gestes, nous parlerons très peu de durée, l’important pour nous, dans un premier temps, étant plus de savoir ce qui se passe lorsque les locutrices parlent ou se taisent.

2.4 Le découpage du corpus et sa transcription 2.4.1 Analyse intonative

Pour l’analyse de la parole, nous avons choisi d’utiliser le logiciel Praat, créé par Paul Boersma et David Weenick (1992-2002) aux Pays-Bas. Plusieurs raisons ont motivé ce choix de logiciel, certaines plus valables que d’autres, alors que les autres membres de l’école doctorale ont plutôt utilisé jusqu’à une date récente le logiciel Anaproz de François Colombo (ingénieur en automatique spécialisé dans le dialogue Homme-Machine) et le logiciel Unice développé par le LIMSI-CNRS.

11_{!Time Aligned Signal Data eXchange Format. Programme développé par Jan-Torsten Milde et Ulrike}

Gut à l’Université de Bielefeld en Allemagne, et présenté lors de la conférence “Speech Prosody 2002” qui s’est tenue à Aix-en-Provence (11-13 avril 2002).

12_{!Programme développé par Michael Kipp au DFKI (German Research Center for Artificial Intelligence)}

(29)

La première raison qui a motivé notre choix en faveur de Praat, est son caractère non commercial. La gratuité du logiciel ne devrait pas entrer en ligne de compte lorsqu’il s’agit de recherche scientifique, nous avons malheureusement été obligée d’en tenir compte, car l’équipe de recherche A.A.I. (Acoustique, Acquisition et Interprétation!; dirigée par J.-P. Angoujard), qui nous accueille gentiment dans ses locaux à Nantes, et met son matériel à notre disposition, ne pouvait pas se permettre de consacrer une part importante de son budget à l’achat d’un logiciel onéreux (exigeant souvent une carte son aussi coûteuse et l’achat de nouveau matériel informatique). Cette équipe avait décidé d’utiliser le logiciel Anaproz, qui a fonctionné un certain temps, puis n’a plus fonctionné du tout. Après maintes tentatives pour le remettre en service, nous avons préféré abandonner.

Nous nous sommes alors tournée vers le logiciel Praat, car nous l’avions déjà utilisé (dans le cadre de l’enseignement de phonétique acoustique dans le département d’anglais de l’Université de Nantes, nous utilisions Praat pour travailler avec les étudiants). Ceci présentait pour nous l’avantage de travailler sur un logiciel que nous connaissions déjà (d’où un gain de temps considérable, puisque l’apprentissage du fonctionnement du logiciel n’était plus à faire), et dont nous avions pu tester la fiabilité. Fiabilité qui est d’ailleurs incontestable, nombre de chercheurs travaillant en phonétique acoustique s’en sont rendu compte et utilisent également Praat pour leurs analyses.

Nous pensons également que Praat est préférable à Anaproz pour l’analyse acoustique du signal de parole, car il possède de nombreuses fonctionnalités qu’Anaproz ne possède pas. Le désavantage de Praat réside toutefois dans sa complexité d’utilisation par rapport à Anaproz. Apprendre à utiliser ce logiciel est relativement long et certaines procédures sont très complexes. Anaproz est d’une utilisation relativement aisée en comparaison et les procédures prennent peu de temps. Un autre désavantage de Praat est que ce logiciel n’est pas réellement conçu pour créer des images, mais pour obtenir des données chiffrées. Or, lorsque l’on travaille sur la prosodie, une image est souvent beaucoup plus parlante qu’une série de chiffres. En ce qui concerne la mémoire requise pour utiliser le logiciel et obtenir des calculs rapides, nous pensons que les deux logiciels sont à égalité (tous deux nécéssitent beaucoup de mémoire pour fonctionner rapidement). Par rapport à Anaproz, Praat (et notamment sa version la plus récente Praat 4.0) permet un étiquetage minutieux multi-tires (nous reviendrons plus loin sur ce point, dans la description de notre propre étiquetage de corpus), et un affichage possible, dans la fenêtre d’édition du signal, de la courbe du fondamental, de l’intensité, du spectrogramme. Ceci apporte une aide considérable dans la segmentation. En revanche, il ne permet pas, comme le fait Anaproz, de découper la fourchette d’intonation en quatre niveaux, ce que nous avons dû faire manuellement afin de pouvoir comparer nos données aux données d’autres chercheurs qui utilisent ce logiciel (sachant de plus que ce découpage en quatre niveaux est particulièrement intéressant car il permet de généraliser plus facilement). Enfin, Praat

(30)

permet d’obtenir les valeurs exactes du fondamental, de l’intensité et des formants des voyelles en n’importe quel point de la courbe, ainsi que l’extraction automatique de ces valeurs et des durées des segments après étiquetage.

Nous pouvons résumer les avantages et inconvénients des deux logiciels dans le tableau suivant!:

Tableau 1!: Tableau récapitulatif des avantages et inconvénients des logiciels Praat 4.0 et Anaproz pour l’analyse prosodique

Logiciel Désavantages Avantages

Anaproz • importante mémoire requise pour

la numérisation et le traitement des données

• résultats chiffrés parfois imprécis en certains endroits du signal • impossibilité d’afficher le spectrogramme

• fonctionne sur PC uniquement

• utilisation aisée ; procédures rapides et simples

• bonne qualité des tracés obtenus, grande lisibilité

• intégration possible des tracés dans des logiciels de traitement de texte • division de la fourchette intonative en niveaux qui facilitent le traitement des tracés et permettent la généralisation

Praat • importante mémoire requise pour

la numérisation et le traitement des données

• complexité d’utilisation ;

complexité de certaines procédures • mauvaise qualité des tracés obtenus, traitement difficile des images

• fonctionne sur PC et Macintosh • intégration possible des tracés dans des logiciels de traitement de texte • grande précision des résultats chiffrés

• étiquetage multi-tires du signal • extraction automatique des données après étiquetage

• visualisation possible de la F0, de l’intensité et du spectrogramme dans la fenêtre d’édition

• obtention de données chiffrées possible en n’importe quel endroit du signal

• possibilité de réduire le temps d’exploitation après étiquetage en utilisant des scripts, et exportation quasi-automatique des données dans Excel

2.4.2 Numérisation et étiquetage du signal

Nous avons procédé à la numérisation du signal en reliant une platine cassette Sony à un ordinateur (Macintosh de type PowerPC 603e/180) et avons enregistré avec une fréquence d’échantillonnage de 44000 Hz pour une plus grande précision des données. En revanche, cette haute fréquence d’échantillonnage exigeant plus de mémoire, nous n’avons pu enregistrer le signal que par très petites sections dans Praat (< 1mn). Ceci n’est pas gênant pour l’étiquetage (sinon que c’est particulièrement long), en revanche, ça le devient pour les calculs de moyennes et de fourchettes intonatives de chaque locutrice. Nous avons réalisé ces calculs sur un autre ordinateur, qui permettait l’acquisition d’un signal plus

(31)

long.

Nous avons ensuite procédé à un premier étiquetage (interval tier) afin de pouvoir calculer la durée des segments. Nous avons choisi comme segment repère la syllabe. Ceci peut sembler étrange pour un corpus anglais, mais cela nous permettait de pouvoir par la suite mesurer les allongements syllabiques, ce que n’aurait pas permis un étiquetage plus large comme par exemple le tone-unit (TU) dont nous parlerons plus tard. Cela nous permet également de pouvoir tenir compte des syllabes accentuées et inaccentuées. Cependant, nous avons opté pour un découpage syllabique légèrement différent d’un découpage sur un corpus de français. En effet, nous n’avons pas admis l’existence de re-syllabations (comme se serait le cas en français par exemple lors d’une liaison), sauf dans les cas de contraction d’auxiliaire!: par exemple “he’s” ne compte qu’une syllabe. Pour les mots polysyllabiques, nous avons, lorsque le cas se présentait, effectué un découpage morphologique!: par exemple “going” compte deux syllabes /go/+/ing/, où l’on a dans la première syllabe la base verbale “go”, à laquelle s’ajoute la marque du gérondif -ing, et dans un mot comme “coming”, le découpage /com/+/ing/ pour des raisons d’homogénéisation. En ce qui concerne les polysyllabiques qui ne sont pas décomposables en morphèmes, nous avons appliqué le découpage syllabique décrit pour le français par J.-P. Angoujard (1997) et qui prend en compte l’échelle de sonorité, par exemple “comprehension” compte quatre syllabes /com/+/pre/+/hen/+/sion/. Nous avons donc considéré qu’une syllabe comporte nécessairement une voyelle (en comptant comme une seule voyelle les diphtongues de type [e´] par exemple dans “wear”). Il va de soi qu’il nous faudra tenir compte de ce choix de découpage dans nos calcul de durée, puisque l’on obtient des types syllabiques variés (syllabes ouvertes et fermées, avec attaques doubles ou simples, voire même sans attaque, de même pour les codas). Nous avons fait une exception dans notre découpage syllabique pour un type de mot particulier!: la préposition “to” est souvent prononcée [th_{], avec élision de la voyelle, et nous avons}

cependant décidé de la compter comme une syllabe. Lorsqu’elle est réalisée sous une forme pleine, cette préposition se prononce [tU] ou [t´], sans élision vocalique, et surtout, sans aspiration de l’occlusive sourde puisque le mot est inaccentué. Or, dans les cas dont nous parlions, on peut considérer que cette aspiration est une forme extrêmement réduite de la voyelle. Nous avons donc mesuré la durée de cette syllabe, mais n’avons bien entendu pas calculé de fréquence fondamentale, ni d’intensité pour la syllabe. Pour revenir à notre étiquetage, nous avons segmenté le corpus en syllabes, en fixant la frontière au premier et au dernier passage par zéro (Praat permet non seulement de réaliser un zoom important pour visualiser des segments très petits, mais possède en plus un ajustement automatique au passage par zéro le plus proche de l’endroit où est placé le curseur). Nous n’avons pas tenu compte de la durée des syllabes commençant par une occlusive sourde lorsque celle-ci était précédée d’une pause silencieuse, car dans ce cas, il est difficile de