• Aucun résultat trouvé

Chapitre II L'annotation des nabol

II. a.1 Observer la pratique du nisvai

L’annotation d’une pratique narrative est une tâche qui présente de nombreuses difficultés pratiques. La segmentation du flot de paroles en de plus petites unités est une étape qui simplifie cette tâche. Cette segmentation rend la tâche d’annotation quantifiable et permet une ré-écoute concentrée de ces segments précis. Comme le remarque Bazillon (2011, p. 34), la ré-écoute par segment court est nécessaire pour de nombreuses raisons : dysfluence des locuteurs, problème dans la qualité sonore de l’enregistrement, et dans notre cas ajoutons une maîtrise intermédiaire de la langue nisvaie. Employer une unité linguistique plutôt que des repères temporels95 pour segmenter

le texte oral a pour finalité de produire des segments dont la relation avec le texte sera interprétable linguistiquement.

Tedlock (1983) propose une réflexion sur la transcription de narrations orales et notamment leur segmentation. Il défend une transcription basée non pas uniquement sur l'analyse phonologique, mais également sur la perception phonétique : il propose de tenir compte des pauses et silences afin de segmenter la parole. L’emploi d'une unité phonétique pour segmenter la parole se base sur l’hypothèse d’une coordination entre la matérialité de la voix et les unités de structuration de la narration, ou, formulé autrement, l'auteur estime que les aspects phonétiques sont pris en compte par les locuteurs lors de la production des textes. L'auteur se penche d'abord sur le groupe de souffle (1983, p. 199), mais observe que l'unité ne permet pas d'observer toutes les pauses et silences que marquent les orateurs et qu'il estime pertinentes lors de la production de textes oraux. Il note toutefois l'intérêt de prendre en compte les contours intonatifs (1983, p .202). L’existence d’une relation entre les structures linguistiques d’une langue et les groupes de souffles ou les unités d’intonations de ses locuteurs a fait l’objet de nombreuses observations (Crookes, 1990 ; Martin, 2013 ; Rochet-Capellan et Fuchs, 2013, et Brotchie au Vanuatu, 2009, en particulier p. 364). La prise en compte de la prosodie lors de la transcription permettra d'étudier leur relation avec l'organisation du texte.

95 Ces repères définissant un intervalle dans un fichier audio peuvent être notés par exemple 1'20'' à 1'24'' ou 1:20 à 1:24.

Le groupe de souffle et l'unité d'intonation ont été considérés pour segmenter de manière cohérente la parole des locuteurs sans analyser leur contenu linguistique. Ces unités ont fait l’objet de multiples définitions. Nous nous concentrerons sur celles qui sont pertinentes pour l'annotation des nabol. L’unité d’intonation correspond à « une portion de paroles prononcées au cours d’un contour intonatif cohérent. Elle tend à être marquée par une pause et un décalage montant de la hauteur de la voix au début et par l’allongement de la dernière syllabe »96. La contrainte

physiologique qu’est la respiration produit des pauses qui délimitent la parole, mais les unités d’intonation ne correspondent pas uniquement à cette segmentation de la parole par les inspirations. Les unités d’intonation segmentent la parole en davantage d'unités que les groupes de souffle. Chafe estime que l’unité d’intonation est une unité qui fait le lien entre les processus mentaux et la linguistique, car elle est d’une durée suffisamment courte pour la mémoire auditive, une mémoire du court terme (1994, p. 55).

Moins lié à la prosodie, mais davantage à l’articulation, le groupe de souffle permet également une segmentation du flot de la parole à travers son observation. Plusieurs définitions de groupe de souffle existent. Rochet-Capellan et Fuchs (2013) proposent la définition suivante97: L’intervalle de

parole produit au cours d’une seule exhalation. Wang et al. (2010) étudient trois caractéristiques afin de décrire un groupe de souffle : sa durée, la pause entre deux groupes de souffle et le temps d’inspiration. Si Wang et al. ne définissent pas ce qu’est un groupe de souffle, le temps d’inspiration fait partie des caractéristiques qu’ils associent à un groupe de souffle. Cette caractéristique ne nous semble toutefois pas pertinente dans le cadre de la segmentation de la parole nisvaie. Si l’exhalation, associée à la définition du groupe de souffle, est nécessairement une caractéristique de la production des unités d’intonation, l’inspiration ne l’est pas. Une unité d’intonation n’est pas systématiquement bornée par une inspiration. Plusieurs unités d’intonation peuvent se suivre sans qu’une inspiration soit réalisée par le locuteur. C'est le terme "unité d’intonation " qui est utilisé au cours de la thèse, car la segmentation qui a été mise en place pour les pratiques narratives nisvaies n'est pas basée uniquement sur le souffle, mais sur les contours intonatifs.

96 Proposition de traduction pour :" [...] an intonation unit is a stretch of speech uttered under a single coherent

intonation contour. It tends to be marked by cues such as a pause and a shift upward in overall pitch level at its beginning, and a lengthening of its final syllable. " (Bois et al., 1992, p. 18)

97 Proposition de traduction de la définition de groupe de souffle proposée par Rochet-Capellan et Fuchs (2013) : “On

a time-scale of several seconds, speech production is a sequence of short inhalations pauses followed by long exhalations with phonation. The interval of speech produced on a single exhalation is commonly defined as the breath group. It relies on linguistic, communicative and physiological constraints. "

92 L'annotation des nabol

Sur le terrain, il n’est pas possible d’avoir des conditions d’enregistrement qui soient optimales du point de vue de la clarté des paroles de l’orateur : des oiseaux, des insectes, le souffle du vent ou une personne de passage peuvent perturber la qualité de la parole enregistrée. De même, l’enregistrement des unités d’intonation n’a pas fait l’objet d’un outillage particulier. Ces dispositifs auraient perturbé l’orateur et les séances d’enregistrement. L’annotation des unités d’intonation a été réalisée grâce à l’observation visuelle du spectrogramme que propose ELAN (voir l’illustration 7) et l’écoute de la parole des orateurs.

Cette méthode d’annotation est cependant encline à l’approximation et à l’erreur. Le marquage du début et de la fin d'un segment est réalisé lors de la lecture audio de l'enregistrement. Lorsque l'annotateur entend ou voit, grâce au spectrogramme, la fin d'un contour intonatif, il doit appuyer sur la touche validant le début ou la fin de ce segment. Ce processus entraîne un décalage entre la fin effective du contour intonatif et son enregistrement comme annotation, qui peut être de l'ordre de quelques millisecondes. Une autre difficulté peut apparaître en fonction de la vitesse de narration de l'orateur. Si celui-ci respire rapidement ou accélère la prononciation, la distinction entre deux unités d’intonations peut être floue. Dans ce cas, la segmentation à l'oreille ou visuelle en plusieurs unités d'intonation n'est pas évidente et peut être réalisée de manière arbitraire,

L’illustration 8 décrit98 les distributions des durées des unités d’intonation en fonction de l’âge

et du sexe au sein du corpus de pratiques narratives annotées avec ELAN. Elle met en valeur une 98 La représentation " lettre : valeur " développée par Hofmann, Wickham, et Kafadar (2017) permet de représenter davantage de quantiles que la boîte à moustache. Il s’agit d’une représentation qui reste fidèle aux données : les caractéristiques de la représentation correspondent aux observations quantitatives. L’intérêt de cette représentation vis-à-vis de la boite à moustache est de mieux représenter la distribution des données en fournissant davantage de quantile, en particulier au niveau des queues de la distribution.

différence entre la durée des unités d’intonation des adultes (2 455 ms99) et des vieux (2 497 ms

pour les hommes et 2 478 ms pour les femmes), plus longues, que celles des enfants (1 859 ms pour les filles et 1 904 ms pour les garçons).

Le tableau 2 présente les données du corpus issues de l'annotation avec ELAN. La durée des unités d'intonation est décrite en fonction de la classe d’âge et du sexe100.

99 Comme nous l’avons déjà abordé auparavant, du fait de la patri ou virilocalité, les femmes du village ne parlent pas de manière native la langue nisvaie et n’ont pas souhaité narrer des « nabol » en nisvai. Cela explique leur absence au sein du corpus annotée.

100 Les classes d’âge nisvaies sont décrites en détail dans l’introduction.

94 L'annotation des nabol

Classes d’âge Sexes Nombres Durées moyennes, en millisecondes Écart type min 25 % 50 % 75 % max

adulte H 928 2455 1425 370 1433 2139 3143 11900 enfant F 289 1859 916 264 1138 1783 2380 7178 H 154 1904 872 266 1251 1818 2473 4740 vieux F 1072 2478 1266 280 1520 2205 3200 7620 H 693 2497 1465 367 1423 2236 3200 10555 Ensemble 3136 2390 1334 264 1422 2125 3050 11900

Tableau 2 : Détails statistiques de la durée des unités d’intonation en fonction de la classe d’âge et du sexe

Le tableau montre que, quels que soient l’âge et le sexe de l’orateur, plus de 50 % des unités d’intonation nisvaie ont une durée comprise entre 1,1 à 3,2 secondes. Du point de vue de l’annotation, cette durée de parole est une durée qui est facile à conserver en mémoire le temps de transcrire le contenu. Alors qu’une unité résultant de l’analyse linguistique des données, comme la phrase, aurait nécessité un questionnement permanent de la transcription, questionnement qui n’aurait pas simplifié la tâche d’annotation.