• Aucun résultat trouvé

Approche inductive : détection des proéminences

MÉTHODES ET HYPOTHÈSES : VERS UNE ANALYSE DU SYSTÈME PROSODIQUE DU FC

2. Approche inductive : détection des proéminences

La méthode que nous avons adoptée pour nos premières analyses du corpus est largement inspirée par les approches perceptual driven appliquées sur plusieurs grands corpus oraux de français parlé : elle a d’abord été élaborée pour le corpus PFC (Morel, Lacheret-Dujour, Lyche, & Poiré, 2006) ; ensuite, elle a été utilisée pour le corpus C-PROM64, et dernièrement la méthode a été retenue pour l’annotation prosodique du corpus Rhapsodie65.

La notion de proéminence syllabique est centrale dans cette méthode. Il est important de préciser que le terme « proéminence » désigne une propriété de surface (Terken & Hermès, 2000) et ne doit pas être confondue avec la notion de proéminence souvent utilisée en théorie métrique pour designer la relation de force entre les syllabes dans la représentation métrique (Liberman & Prince, 1977). La proéminence se définit ainsi :

« [P]rominence is the property by which linguistic units are perceived as standing out from their environment. » (Terken, 1991, p. 1768)

Selon la méthode perceptual driven, l’analyse prosodique d’un corpus doit partir de la détection des syllabes perceptivement proéminentes : il s’agit d’identifier dans un corpus chaque syllabe qui se distingue « comme une figure sur un fond » (Avanzi, Lacheret, & Obin, 2011c, p. 56). Le caractère inductif de cette méthode réside dans la neutralité de la notion de proéminence : elle ne fait référence à aucun trait prosodique particulier, ni à un paramètre acoustique donné, mais à une syllabe qui, pour une raison ou une autre, est perçue comme plus saillante que les syllabes qui l’entourent. Par ailleurs, cette approche ne dépend pas d’un

64 En tout, le corpus C-RPOM dure 70 minutes (28 locuteurs : 12 femmes, 16 hommes) et comprend des échantillons de différents styles (parole lue, discours politique, conférence, informations télévisées, entretiens de radio, map tasks et récits de vie) dont chaque échantillon dure environ 3 minutes (Goldman, Auchlin, Roekhaut, Simon, & Avanzi, 2010).

65 Le corpus Rhapsodie comprend 3 heures d’enregistrement de parole dans différentes situations (privée, professionnelle et publique). 4 annotateurs novices ont codé le corpus et le codage a été contrôlé par un trio expert (Avanzi & Obin, 2010).

105 cadre théorique posé a priori (Lacheret, Simon, Goldman, & Avanzi, à paraître) : la proéminence est d’abord détectée, puis sa fonction est interprétée.

Une telle approche se distingue d’une approche déductive où l’on cherche des phénomènes précis dans la substance phonétique : par exemple, la transcription ToBI (Jun, 2005), qui constitue la méthode d’analyse la plus communément utilisée par les prosodistes travaillant dans le cadre de la théorie métrico-autosgmentale. Elle consiste en l’interprétation du signal (par exemple, l’identification de la réalisation des accents tonals et des tons de frontière) par un spécialiste de la langue étudiée.

Pour notre objet d’étude, nous jugeons la méthode perceptual driven plus appropriée qu’une méthode déductive comme première approche des données justement parce qu’elle ne présuppose pas que l’on connaisse le système que l’on étudie. Au contraire, nous pouvons émettre l’hypothèse que les proéminences perçues sont des réalisations de traits prosodiques (qu’il s’agisse d’un accent lexical, d’un ton lexical H66, d’un accent tonal ou d’un ton de frontière) et que la localisation et les corrélats acoustiques des proéminences perçues peuvent nous renseigner sur la nature du système.

2.1 Détection des proéminences en FC

Plusieurs études ont montré que la perception de la prosodie est guidée par plusieurs facteurs : la saillance acoustique de la syllabe, le système phonologique et la conscience métalinguistique du codeur (par exemple, son cadre théorique, s’il s’agit d’un linguiste expert en prosodie) (Cole, Mo, & Hasegawa-Johnson, 2010 ; Eriksson, Grabe, & Traunmüller, 2002 ; Goldman et al., 2010 ; Martin, 2006 ; Mettouchi, Lacheret-Dujour, Silber-Varod, & Izre'el, 2007 ; Mo, Cole, & Lee, 2008 ; Smith, 2011 ; Streefkerk, 1997 ; Tremblay, 2009 ; Wagner, 2005). Aucun codeur n’est donc neutre et le codage prosodique peut fournir des résultats fort différents selon le codeur : i) les locuteurs L1 d’une langue perçoivent la prosodie différemment des locuteurs L2 ou des locuteurs qui ne la parlent pas du tout et ii) les experts (phonologues), les semi-experts (linguistes non spécialistes de phonologie) et les «novices» ont également une perception différente de la prosodie. Le défi principal qui se pose en appliquant la méthode perceptual driven concerne, pour cette raison, le choix du codeur : faut-il choisir de faire coder le corpus par des experts, des semi-experts, des novices, des locuteurs L1, des locuteurs L2 ou des locuteurs qui ne parlent pas la langue en question ?

66 Présupposant que les valeurs hautes de f0 sont perçues comme plus proéminentes que les valeurs basses (Terken, 1991).

106

Pour notre étude, nous avons, tout d’abord, décidé de faire appel à des codeurs novices et non à des experts en prosodie. Nous avons en fait commencé à effectuer le codage de notre corpus nous-même, mais nous nous sommes rapidement rendu compte des limites d’une telle démarche : malgré une volonté de neutralité, il n’était pas possible de se détacher complètement de notre attente selon laquelle les proéminences se réalisent à des endroits précis. Ce constat nous a amenée à rejeter notre propre codage pour faire appel à des annotateurs novices qui ne soient pas influencés par des hypothèses théoriques.

Concernant les novices, les expériences du projet Rhapsodie ont montré que les codeurs L1 de français ont tendance à percevoir des proéminences sur toutes les syllabes potentiellement accentuables en français indépendamment de leur corrélats acoustiques (Avanzi & Obin, 2010). Ce codage est intéressant dans la mesure où il peut fournir des informations importantes sur le système. Mais il n’est pas nécessairement suffisant : ce ne sont pas uniquement les syllabes potentiellement susceptibles de s’aligner avec un trait qui nous intéressent, mais la réalisation observable de ces traits.

Par ailleurs, bien que les codeurs soient bien informés sur la tâche, nous ne pouvons pas connaître toutes les raisons qui les ont conduits à marquer certaines syllabes comme proéminentes : un moment de fatigue, par exemple, est susceptible d’entraîner un codage au hasard. Il donc important de ne pas se fier au codage d’un seul codeur.

Par conséquent, nous avons décidé d’avoir recours à des codages différents. La comparaison entre le codage de codeurs différents permet, comme nous le verrons, à la fois d’éliminer les codages au hasard et de rassembler des avis pluriels qui, toute chose égale par ailleurs, constituent une base solide pour la constitution d’un codage de référence. La détection de proéminences dans notre corpus a été réalisée selon deux modalités distinctes : i) par la détection automatique et ii) par des tests de perception de trois auditeurs novices de L1 différentes.

2.1.1 Détection automatique

Nous avons tout d’abord détecté les proéminences avec le logiciel Analor67 (Avanzi, 2011 ; Avanzi, Lacheret-Dujour, & Victorri, 2008) développé dans l’objectif de générer automatiquement les étiquettes nécessaires et suffisantes pour dériver la structure prosodique produite dans un discours parlé. Analor détecte automatiquement les syllabes dont le profil

67 Analor effectue les analyses à partir des fichiers sons et texte préparés sous Praat (cf. chapitre 4, §2.2.3).

107 acoustique se distingue suffisamment de leur environnement pour être perçues comme proéminentes.

Analor procède de la manière suivante : il détermine la proéminence relative d’une syllabe en fonction de plusieurs paramètres acoustiques. Ces paramètres sont la durée relative, la valeur de la f0, le glissando réalisé sur le noyau syllabique, la pause qui suit la syllabe ou une combinaison de plusieurs paramètres : plus il y a de paramètres mobilisés, plus les proéminences sont perçues comme fortes (Lacheret et al., à paraître). Les seuils de détections sont fixés en fonction des résultats des codages perceptifs du corpus C-PROM :

Mesure Seuil

La moyenne de hauteur relative par rapport à la hauteur moyenne des six syllabes (3 à gauche, 3 à droite)68

1.38 semi- tons

La moyenne de durée syllabique par rapport à la moyenne de durée de l’ensemble des six syllabes

1.54

La présence d’une pause silencieuse subséquente 2.38 semi- tons Tableau 11 : Seuils de détection de proéminences par Analor

La proéminence relative de chaque syllabe est calculée en fonction du profil acoustique des trois syllabes qui la précèdent et des trois syllabes qui la suivent (Avanzi, 2011). La copie d’écran (Figure 30) montre comment procède le logiciel : il calcule la proéminence de la syllabe S0 en fonction des mesures des trois syllabes qui la précèdent (les syllabes S-3, S-2, S-1) et les trois syllabes qui la suivent (S+1, S+2, S+3).

Figure 30 : Copie d’écran d’Analor (Lacheret et al., à paraître)

Il faut souligner que la détection d’Analor doit être traitée avec précaution : comment savoir si ces seuils sont appropriés pour détecter de façon pertinente les proéminences en FC

68 L’empan est fixé sur la base d’expériences pilotes avec des annotateurs humains (Avanzi et al., 2011b).

108

alors qu’a priori il possède un système prosodique différent des variétés européennes de français (et également d’autre langues) ?

Si nous avons, malgré ces considérations, analysé notre corpus avec Analor, c’est que nous sommes partie de l’hypothèse que le logiciel permettait de détecter au moins les syllabes sur lesquelles il y avait des variations importantes de f0 (celles ayant une valeur de f0 considérablement plus élevée que les syllabes adjacentes et celles ayant un glissando mélodique) ainsi que les syllabes allongées. Comme nous l’avons vu au chapitre 2, les variations importantes de f0 indiquent souvent, quel que soit le système, la présence d’un trait (tons lexicaux, accents tonals, tons de frontière). Quant à l’allongement, on sait qu’une syllabe qui se situe vers la frontière d’un constituant est, dans beaucoup de langues, plus longue que les autres syllabes (Shattuck-Hufnagel & Turk, 1996). Pour ces raisons, nous avons considéré que le codage automatique fourni par Analor pourrait nous aider à identifier des syllabes dont le profil acoustique nous informerait sur des indices révélateurs du système. 2.1.2 Perception

Le corpus a également été codé par trois codeurs humains novices. Nous avons choisi des codeurs à « connaissance » inégale du système prosodique du FC : i) un codeur centrafricain (désormais NC) bilingue sango/FC qui connaît le système de la variété qu’il annote, ii) un codeur francophone (désormais NF) originaire du nord de la France dont le système est a priori semblable à celui décrit au chapitre 3, §4.1 et iii) un codeur non francophone dont la langue maternelle est le norvégien (désormais NN) (cf. chapitre 2, Tableau 5). Notre hypothèse était que ces différents codeurs se complèteraient : i) le codage de NC peut fournir des informations sur le système sous-jacent du FC, ii) NF apporte deux types d’informations : d’une part, puisque la prosodie du français sert avant tout à marquer des frontières de constituants, il serait sensible à des variations mélodiques sur les frontières et d’autre part, étant donné que son système prosodique serait a priori différent de celui des locuteurs bien qu’il s’agisse de la même langue, il serait également attentif à des différences entre son système et le FC et iii) NN, quant à lui, code les proéminences strictement sur la base des critères acoustiques et les variations des paramètres acoustiques qu’il perçoit comme proéminentes seraient a priori celles qui sont pertinentes dans son système, le norvégien étant une langue [+ accent lexical, + tons lexicaux] où l’accent se réalise entre autres par l’intensité (rappelons qu’Analor ne prend pas en compte ce paramètre) et les variations mélodiques (Kristoffersen, 2006).

109 Chaque codeur a codé tout le corpus en utilisant les conventions de codage de Rhapsodie élaborées sur la base des résultats de plusieurs expériences pilotes (Lacheret et al., à paraître). Nous avons précisé aux codeurs qu’il n’y avait pas de « bonne » ou de « mauvaise » annotation, mais que notre intérêt était leur ressenti perceptif. Par ailleurs, ils ont eu les instructions suivantes :

i) ne pas écouter plus de six secondes de parole à la fois (ce qui correspond à peu près à la séquence interpausale, cf. chapitre 4, §2.2.2) ;

ii) ne pas écouter le même extrait plus de trois fois ;

iii) marquer « P » sur les syllabes perçues comme très proéminentes, « p » sur les syllabes légèrement proéminentes et laisser les syllabes non proéminentes sans annotation. La distinction « P » et « p » ne sera pas prise en compte dans l’analyse, mais l’objectif était de sensibiliser les annotateurs aux variations mineures ;

iv) marquer « h » sur les syllabes qui se situent dans un contexte d’hésitation.

2.1.3 Résultats

Les quatre types de codage (Analor + trois codeurs humains) se sont révélés, conformément à notre hypothèse, différents sur plusieurs plans. D’une part, le nombre de syllabes perçues comme proéminentes diffère de façon considérable :

Tableau 12 : Nombre de proéminences perçues par annotateur

D’autre part, les codeurs n’ont pas toujours codé comme proéminentes les mêmes syllabes. Dans le Tableau 13, nous avons compté le nombre de syllabes qui ont été perçues comme proéminentes par 0, 1, 2, 3 ou 4 codeurs. Notons que 6484 syllabes ont été codées comme proéminentes par un seul annotateur, ce qui illustre les divergences entre les codeurs. Par ailleurs, tous les codeurs sont d’accord sur la proéminence de 8854 syllabes (0 + 4).

Codeur Syllabes perçues proéminentes % (total 21470)

Automatique 8860 41,27

NC 6530 30,40

NF 6964 32,44

110

Nombre de codeurs Syllabes %

0 7352 34,24

1 6484 30,20

2 3684 17,16

3 2245 11,39

4 1494 6,96

Tableau 13 : Proéminences perçues par syllabe

L’accord inter-annotateur calculé par le test Fleish Kappa indique un accord relativement69 faible : 0.255, ce qui signifie fair agreement. Les différents codeurs ne sont en effet pas sensibles aux mêmes paramètres :

La détection automatique ne fait pas la différence entre un allongement prosodique et un allongement dû à une élision consonantique, notamment du /r/ (Bordal, 2009b), comme illustré dans la Figure 31. Par ailleurs, le logiciel détecte des proéminences dans des passages où des bruits, des chevauchements et des sauts d’octave perturbent la courbe mélodique. Un certain nombre de codages d’Analor ne doivent donc pas être pris en compte dans l’analyse.

Figure 31 : Allongement dû à l’élision du /r/ codé proéminent

NC a codé toutes les syllabes. Pour les autres codeurs, nous n’avons pas fait la

différence entre les p minuscules et les P majuscules (proéminences fortes vs. proéminences faibles) en calculant le nombre de proéminences perçues, mais pour ce codeur en particulier, nous avons exclu de toutes les analyses (les calculs sont présentés dans le Tableau 12 et le Tableau 13 le ainsi que dans le corpus de référence) les syllabes codées par un p minuscule. La raison de ce choix réside dans le fait qu’il n’a laissé aucune syllabe sans codage : nous sommes partie de l’idée qu’il a perçu toutes les syllabes comme proéminentes, mais celles qui

69 Kappa : <0 = Poor, 0.01-0.20 = Slight, 0,21-0.40 = Fair, 0.41-0.60 = Moderate, 0.61-0.80 =

111 sont codées par un P majuscule sont perçues particulièrement proéminentes. Cela dit, même si nous ne prenons pas en considération le codage de toutes les syllabes dans les analyses quantitatives, son codage se révèle intéressant en soi. En récupérant les codages, nous lui avons demandé pourquoi il avait codé p presque toutes les syllabes, afin de vérifier qu’il avait bien compris la tâche. Il a répondu : « c’est parce que les Centrafricains parlent ainsi, ils accentuent toutes les syllabes », ce qui correspond également à l’impression intuitive que l’on peut avoir quand on entend un Centrafricain parler français (cf. chapitre 7, §1.1). En fait, dans la majorité des cas, toutes les syllabes d’un mot lexical important sont codées P : il semble qu’il s’agissait d’accents de focus. Il semble donc que le codeur ne perçoive pas les proéminences syllabiques, mais plutôt les parties de l’énoncé mises en relief, ce qu’illustre l’exemple de la copie d’écran ci-dessous..

Figure 32 : Copie d’écran d’un énoncé codé par CN

NF code comme proéminentes essentiellement les syllabes qui présentent un pic

mélodique et/ou qui sont considérablement allongées. La grande majorité des syllabes codées comme proéminentes par cet annotateur se situent à la frontière droite d’un mot lexical. Ce résultat peut paraître surprenant : selon notre hypothèse, cet annotateur aurait dû être sensible aux différences entre le système prosodique de sa variété de français et le FC. Or, il perçoit des proéminences systématiquement à des endroits où une proéminence serait réalisée dans sa variété. Soit il est tout simplement influencé par son système prosodique et marque les proéminences là où il s’attend à les trouver, soit le système prosodique du FC est proche de celui du français décrit par le modèle du chapitre 3, §4. La seconde interprétation semble être, au premier regard sur les données, la plus plausible : la dernière syllabe de mots lexicaux polysyllabiques a souvent une valeur de f0 plus élevée que les syllabes qui la précèdent.

112

Figure 33 : Copie d’écran d’un énoncé codé par FN

NN perçoit comme proéminentes, conformément à notre hypothèse, les syllabes les

plus saillantes d’un point de vue acoustique : il s’agit des syllabes considérablement allongées ou ayant une valeur de f0 qui se distingue de façon très nette de celle des syllabes adjacentes. Il est également sensible aux variations d’intensité et annote comme proéminentes certaines syllabes qui semblent se distinguer de leur environnement uniquement par ce paramètre.

Figure 34 : Copie d’écran d’un énoncé codé par NN

2.1.4 Tire de référence

L’objectif de la détection des proéminences était, rappelons-le, de faire émerger les tendances qui caractérisent les réalisations prosodiques de nos locuteurs. Après avoir regardé tous les codages, nous avons décidé de ne pas privilégier un codeur par rapport à un autre, mais de considérer comme proéminentes dans la tire de référence toutes les syllabes annotées comme proéminentes par deux, trois ou quatre codeurs (y compris Analor). Notre idée était que les syllabes annotées comme proéminentes par au moins deux de nos codeurs auraient a

priori certains traits acoustiques qui feraient qu’elles se distinguent de leur environnement. Il

faut noter que nous ne considérons pas les codages de la tire de référence comme des informations entièrement fiables sur le système prosodique du FC. Au contraire, nous

113 considérons que les syllabes codées p dans la tire de référence méritent d’être étudiées de plus près car au moins deux codeurs objectifs (dans le sens où, à part Analor, ils ne sont pas guidés par une théorie linguistique en particulier) et ayant des points de départ différents les ont perçues comme proéminentes.

Par le biais du script de Praat, Merge-Tire, nous avons obtenu une tire qui rassemble tous les codages dans une nouvelle tire appelée merge. Sous cette tire, nous avons créé une tire PROM dans laquelle chaque syllabe qui a deux p ou plus dans la tire « merge » est définie comme proéminente. Cette tire constituera notre « tire de référence », sur laquelle nous baserons nos premières analyses du système prosodique du FC.

Tableau 14 : Création de la tire de référence

Au total, 35,51%70 de toutes les syllabes du corpus sont définies comme proéminentes dans la tire de référence.

Syllabes Proéminences %

21470 7623 35,51

Tableau 15 : Proéminences dans le corpus de référence