• Aucun résultat trouvé

Chapitre 5 Méthodologie

5.4 Transcriptions des données et annotations des disfluences

Les paroles enregistrées ont été transcrites en prenant bien soin de noter toutes les diverses manifestations des hésitations ou disfluences. Nous avons ainsi calculé et relevé systématiquement et de manière très précise les pauses (pauses silencieuses, pauses remplies) ainsi que toutes les disfluences (bruits de gorge, rires et fragments de mot). Nous n’avons pas transcrit certaines informations acoustiques, qui ne nous paraissaient pas pertinentes pour cette recherche (pauses respiratoires, spectre acoustique de la parole). Nous n’avons gardé que

128

la transcription (énoncés et pauses remplies) ainsi que les pauses notées en millisecondes et

groupes d’hésitation (désormais GH), comportant au minimum deux types de pauses, une

pause silencieuse et une pause remplie).

Les transcriptions ont été faites de façon à faire apparaître les énoncés sous forme de segments de parole [transcriptions des locuteurs non-natifs (Annexe 5) ; transcriptions des locuteurs natifs (Annexe 6)] et la durée des hésitations (pauses vides mais aussi les autres hésitations dépassant 500ms). Nous rappelons ici qu’un segment de parole consiste en une suite de mots encadrés par deux grandes pauses supérieures ou égales à 250ms. Les données transcrites sous Word l’ont été ensuite sous Excel, ce qui nous a permis d’effectuer les calculs de manière aisée (un exemple de fichier Excel se trouve en Annexe 15).

5.4.1 Les annotations

5.4.1.1 Les hésitations

Elles comprennent les pauses remplies, les syllabes allongées ainsi que d’autres bruits comme le raclement de gorge, le claquement de langue, les rires, et les fragments de mots. Rappelons que nous cherchons à identifier les séquences préfabriqués qui ne peuvent en aucun cas être interrompues par une quelconque disfluence selon le critère nécessaire de cohérence prosodique (voir chapitre 2 et ce chapitre, section 5.5.2). Dans cette recherche, les pauses qu’elles soient silencieuses ou remplies sont considérées comme les signes d’un traitement non automatique. C’est pourquoi une SP ne peut être interrompue par une pause, et ce même au niveau débutant.

a) Les pauses silencieuses

Si l’on considère les études déjà entreprises, le minimum de temps de silence pris en compte pour délimiter le segment de parole varie selon les recherches. Nous rappelons que Grosjean et Deschamps (1972 :133) considèrent une pause non sonore à partir de 0.25 sec « Seules les pauses dépassant 0,25 sec furent comptées, afin de ne pas prendre en considération les coupures dues à l’articulation (ex : les plosives) ». Selon les chercheurs, la durée peut être plus ou moins grande. Riggenbach (1991) propose de mesurer les micro-pauses à partir de 200ms et les pauses d’hésitation à partir de 400ms comme Freed et al. (2004). Pour des questions pratiques de reprographie, Towell et al. (1996) et Towell (2002) ont déterminé la pause à partir de 280ms, sinon la limite aurait été de 250ms et Wood (2010) choisit une durée de 300ms. Cordier (2013), Hilton (2008b) ont choisi la limite basse de 200ms comme indiqué déjà par Raupach (1984). Cependant, dans cette recherche, nous avons choisi de compter les

129

pauses silencieuses à partir de 250ms, durée qui semble mieux correspondre à une pause d’hésitation et non à une pause respiratoire.

b) Les pauses sonores

Les pauses sonores ou remplies, prises en compte dans cette recherche, sont les pauses qui ne contiennent aucune information sémantique (euh, hein, mm) et qui, de ce fait, ne sont pas des mots, alors que des séquences comme j’sais pas ou je pense sont traitées par certains chercheurs comme des mots ne véhiculant aucune information sémantique (Riggenbach, 1991). Néanmoins, dans cette recherche, nous traiterons ces dernières comme des séquences discursives car elles contiennent des informations sémantiques et ont une fonction de « remplisseurs ». Lorsque l’apprenant n’arrive pas à trouver un mot ou une information lexicale, il s’appuie sur ces séquences qui lui permettent de garder la parole et qui font partie des stratégies de l’oral.

Pour certains chercheurs (Cordier, 2013), les pauses remplies ou sonores de plus de 400ms indiquent un changement de segment. Contrairement à Cordier, nous n’avons pas fait ce choix ; en effet, les sujets ayant des langues maternelles différentes, il n’était pas possible de les prendre en compte, certains apprenants faisant un usage de pauses sonores plus important que d’autres. En revanche, une séquence préfabriquée ne peut être interrompue par une pause remplie.

c) Les groupes d’hésitation (GH)

Un segment de parole peut être délimité par une grande pause mais aussi par un groupe d’hésitation, composé d’au moins deux types de pauses (pause silencieuse et pause sonore). Nous avons décidé, après avoir longuement hésité, de prendre en compte la durée totale du groupe d’hésitation (pauses vides et remplies). Nous avons pris ce parti, peut-être contestable, de noter la durée de l’ensemble de la pause alors que certains sujets produisent plus de GH que d’autres, ce qui peut être dû à leur LM ou tout simplement à leur « style » oral. Cependant, nous trouvons les mêmes différences dans notre groupe contrôle.

5.4.1.2 Les syllabes allongées

Nous trouvons dans les productions une grande quantité de syllabes allongées en finale de mot mais aussi dans le mot. Elles ont été signalées par deux points, ou plus selon la durée de l’allongement : [:] entre 0.25 et 0.40s, [::] entre 0.40 et 0.70s, [:::] plus de 0.70s). Seules les syllabes allongées à partir de 0.40s, sont prises en compte pour les mettre en rapport avec la durée de la pause silencieuse choisie (0.25s). D’autres chercheurs (Cordier, 2013) ont choisi

130

également 0.40s, la durée d’une syllabe en production orale étant autour de 200 à 300 ms, d’après Zellner (1994 : 47) cité par Cordier (2013 : 119). Déterminer la durée de l’allongement est important si l’on considère qu’une séquence est un groupe mémorisé et produit en bloc. Ceci signifie qu’une séquence identifiée comme préfabriquée ne peut contenir de syllabe allongée d’une durée supérieure ou égale à 0.40s. Si l’allongement intervient à l’intérieur d’une SP, nous ne pouvons l’identifier comme une SP. Ce qui n’est pas l’avis d’autres chercheurs, notamment Bardovi-Harlig (2010) qui accepte une hésitation à l’intérieur d’une SP qu’elle considère en cours d’acquisition. Nous avons cependant accepté que la dernière syllabe de la SP soit allongée. A notre avis, après avoir produit la séquence, le locuteur peut s’appuyer sur la syllabe finale, ce qui ne serait pas dû à un manque d’automatisation de la SP mais plutôt considéré comme une stratégie de planification de la suite à venir. En revanche, aucune des unités qui composent la séquence ne doit contenir de syllabe allongée excepté la dernière syllabe du dernier mot. L’allongement est souvent d’ailleurs accompagné d’une pause remplie et/ou une pause vide.

5.4.1.3 Les reprises (ou corrections) : répétitions, reformulations, abandons ou faux départs Les disfluences comprennent non seulement les pauses silencieuses, les pauses remplies (euh,

hein, hum, mm), les allongements, mais aussi toutes les corrections (répétitions,

reformulations, abandons). Toutes les corrections ont été notées par une, deux ou trois barres obliques : (répétitions [/], reformulations [//], abandons [///]). Les répétitions n’entrainent pas de changement de segment contrairement au choix fait par Cordier (2013). On pourra donc trouver des répétitions à l’intérieur du segment de parole.

5.4.1.4 Les syllabes finales

A l’intérieur du segment, nous avons également transcrit les syllabes finales accentuées. Lorsqu’une syllabe finale ouverte se termine par un e muet /un schwa/ et qu’elle est appuyée, elle est suivie de deux points [:], et comptée comme syllabe pleine, l’abeille: (3 syllabes) ≠

l’abeille (2 syllabes). Si le mot est allongé par un /schwa/ marqué, nous avons transcrit euh et

l’avons compté comme une pause remplie. En cas d’allongement de la consonne finale comme par exemple donc (1 syllabe) suivie d’un /schwa/ appuyé, nous l’avons transcrit donc

euh et nous l’avons compté comme une seule syllabe suivie d’une pause remplie. Chaque

pause remplie d’une durée de 400ms ou plus est noté eu:h. Certains apprenants utilisant un grand nombre de euh, il n’était pas envisageable de les considérer comme des syllabes

131

articulées. Ceci étant, le « e » d’appui pour reprendre le terme de Candea (2002) peut être systématique chez certains locuteurs en L1, et notamment chez les locuteurs parisiens.

5.4.1.5 Autres annotations

Les autres bruits ont été transcrits de la manière suivante et selon les instructions du corpus Parole (Hilton, 2008b) :

[&=bche] pour tout bruit de bouche (claquement de langue) [&=ahem] pour raclement de gorge

[&=rire] pour les rires

Les fragments de mots ont été notés comme suit : [&che] pour che-(val) et n’ont pas été comptées comme des répétitions.

Enfin pour repérer et calculer de manière aisée le nombre de ces disfluences, le texte est transcrit sous format Word de manière linéaire sans la durée des pauses, seul (.) indique qu’il y a une pause. Cela permet de rendre la lecture plus facile et de visualiser la place des pauses sans gêne pour le lecteur.

5.4.2 Choix du logiciel

Un des objectifs de cette recherche est d’examiner le développement des SP dans une perspective longitudinale en relation avec le développement de la fluence. La transcription de toutes les productions orales de nos sujets devait se faire en ayant à l’esprit qu’il nous fallait aussi identifier les segments de parole fluides, c’est-à-dire ininterrompus par une pause silencieuse ou par un groupe d’hésitation (contenant au moins une pause silencieuse et une pause remplie). Nous devions pouvoir également compter le nombre de syllabes des segments de parole, identifier les SP à l’intérieur de ces segments et compter le nombre de syllabes préfabriquées à l’intérieur de chaque segment.

Aussi, nous avons choisi le logiciel PRAAT, créé par Paul Boersma et David Weenink de l’institut de phonétique de l’université d’Amsterdam (2008), pour transcrire des données audio. Toutes ses fonctionnalités n’ont pas été exploitées parce que nous ne travaillons pas en phonologie. Il nous a permis cependant de visualiser le spectre de parole afin de détecter passages vocaux et pauses. Ce logiciel propose d’utiliser différentes rangées ou tier pour les annotations. Autant d’annotations différentes autant de tier possibles. Nous avons soigneusement transcrit le texte dans une première rangée (tier) et dans un deuxième noté les pauses en millisecondes.

132

5.4.3 Mesures et analyses

Dans un premier temps, après avoir enregistré le travail de transcription, fait sur les tier, en fichier textgrid (Annexe 14), nous l’avons transformé en fichier « Word », en éliminant toutes les informations qui ne nous étaient pas directement utiles (durée de chaque segment de parole, par exemple). Puis nous avons rapatrié les données dans un fichier Excel pour faciliter les calculs. Toutes ces manipulations ont été faites manuellement.

Toutes les transcriptions ont été rapportées sous Word sous forme de tableau mettant en regard les deux tâches, BD (t1) et (t2) Film (t1) et (t2) et dans un format Excel. Nous avons utilisé le format Excel pour transcrire les segments de parole (colonne B), la durée des pauses notée en ms (colonne C), le nombre de mots de chaque segment (colonne D), le nombre de syllabes du segment (colonne E) le nombre de SP (colonne F) et le nombre de syllabes contenues dans les SP (colonne G) avec le total sous chaque colonne. Nous présentons (Annexe 15) un exemple de fichier Excel avec les données brutes d’un apprenant (FA) qui permet de comprendre comment le travail a été fait. Un tableau complémentaire dans la même Annexe 15 indique les résultats obtenus à partir des données brutes.