• Aucun résultat trouvé

1. La méthode d’analyse prosodique

1.2. Le traitement tonal

1.2.1. La détection de la fréquence fondamentale

La détection de la F0 des items a été effectuée au moyen de la méthode vote fournie par MES. Cette méthode consiste en un algorithme de décision qui effectue un calcul entre les détections issues de trois méthodes différentes : Peigne (Martin 1981a, Espesser 1982), AMDF et Autocorrélation (Fohr & Laprie 1989). Elle permet d’optimiser la détection pour différentes portions du signal.

Un vote ultérieur entre les différentes détections permet de minimiser les faiblesses de chacune des méthodes comme les sauts d’harmoniques lors de variations amples et rapides de la F0 (AMDF) ou les erreurs dans la détection du voisement (Peigne).

1.2.2. La normalisation tonale

Les données brutes relatives aux variations tonales ont subi un double traitement : un filtrage perceptif et une normalisation.

1.2.2.a. Le filtrage perceptif

Le filtrage perceptif consiste à appliquer une procédure de conversion aux valeurs fréquentielles brutes de F0 exprimées sur l’échelle linéaire des hertz, afin de les représenter sur une échelle non linéaire intégrant la sélection fréquentielle opérée par le système auditif.

Hermes & van Gestel (1991) ont montré que l’échelle psycho-acoustique ERB (Equivalente Rectangular Bandwith) était la plus appropriée pour rendre compte de la perception des variations inférieures à 500

Hz, c'est-à-dire de la F0. La formule de conversion en ERB des valeurs de fréquence en Hz ( f ) est la suivante : ERB = 16.7 x log (1 + f /165.4).

Cette procédure permet d’interpréter les variation de F0 d’un point de vue plus perceptif, en gommant les variations fréquentielles non perceptibles par l’oreille qui ne jouent aucun rôle linguistique dans le décodage des informations mélodiques fournies par la F0.

1.2.2.b. La normalisation par la transformée z

A partir de cette conversion, les valeurs de F0 exprimées en ERB ont également subi une normalisation. Une normalisation est une procédure de calibrage post hoc qui permet de neutraliser un certain nombre de facteurs de variation dont on veut se défaire.

Nous avons appliqué une normalisation par conversion des données brutes en variables centrées réduites (Spiegel 1993) appelée transformée z (Campbell 1992). Elle permet d’exprimer chaque élément d’un effectif donné en terme d’écart à la moyenne par rapport à sa variabilité. La formule de la transformée z est la suivante : zi = ( xi - µ ) /s, où i représente un élément, xi sa valeur brute, µ la moyenne de son effectif et s son écart type.

Cette formule rapporte la moyenne de tout effectif à un même niveau (0) et son écart type à une même distance (1). Les valeurs obtenues correspondent à la position en unité d’écart type de l’élément dans la distribution de l’effectif. Pour une distribution gaussienne, 99,73 % des éléments de l’effectif sont compris dans ± 3 écarts types de sa moyenne et 68,3 % entre ± 1. Cette méthode permet d’intégrer l’élasticité de l’effectif, c’est-à-dire la dispersion de sa distribution reflétant son étendue de variation et sa variabilité propre. Il est alors possible de comparer directement les éléments entre eux d’un même effectif ou entre des effectifs différents normalisés séparément.

Concernant l’analyse prosodique de la parole, c'est-à-dire entre autre celle des variations linguistiques de la F0, elle consiste typiquement à essayer de se défaire d’un certain nombre de facteurs de variation non pertinents linguistiquement pour réduire la variabilité des données observées à celle induite par les facteurs proprement linguistiques, c'est-à-dire due aux seuls facteurs observés : ici, le contexte prosodique.

Dans cette approche, il est nécessaire de s’affranchir de la variabilité liée au contexte segmental, notamment celle liée à la F0 intrinsèque des voyelles (Lehiste 1970, Di Cristo 1980), et aux paramètres extralinguistiques, tels que les différences individuelles d’origine physiologique et idiolectale. Restent

alors idéalement la variabilité aléatoire résiduelle inhérente à tout phénomène naturel et celle induite pas le facteur étudié.

Les différences individuelles (idiolectales) sont simplement neutralisées en appliquant la normalisation locuteur par locuteur, les données relatives à chacun d’eux formant des effectifs séparés. La F0 intrinsèque, décroissante des voyelles hautes /i, y, u/ et nasales aux basses /«, Ï, ¿, a/ en passant par les moyennes /e, ¯, o/ (Di Cristo 1980), est spécifiquement neutralisée en appliquant la transformée z séparément pour chacune de ces catégories.

Cette méthode de normalisation de la F0 vocalique intrinsèque est dans notre cas problématique. En effet, /a/ représente 77 % des trois voyelles concernées par l’analyse prosodique. Les 23 % restant sont constitués des voyelles /i, e, \, Ï~, ¿~, Œ~/ en position pré-tonique (V0). Le facteur de variabilité testé dans ce corpus étant les catégories prosodiques (inaccentuées, accentuées et intonatives), il aurait été maladroit d’appliquer la normalisation séparément sur l’effectif des /a/ et sur l’effectif des autres voyelles, du fait de l’apparition de ces dernières presque exclusivement en contexte inaccentué, contrairement aux /a/ qui apparaissent dans tous les contextes prosodiques.

Les résultats en auraient été biaisés : une variation de F0 importante pour /a/ aurait été équivalente après normalisation à une variation tonale minime pour toute autre voyelle. Nous n’avons donc pas opéré de normalisation relative à la F0 intrinsèque des voyelles.

Outre ces précisions, l’application de ce type de normalisation demande que les données correspondent à un effectif conséquent et que la représentativité de chacune des catégories observées composant cet effectif reflète le mieux possible une répartition naturelle. Or, si nous n’avons pas de doute sur la première condition, la répartition naturelle des différentes catégories prosodiques composant l’effectif des valeurs tonales observées dans notre corpus est moins évidente.

En effet, notre corpus ne constitue pas un échantillon aléatoire proprement représentatif d’un comportement linguistique naturel, puisqu’il découle de la manipulation spécifique du contexte prosodique dans des phrases isolées et répétées en parole de laboratoire. Il implique donc une répétition artificielle de certains phénomènes linguistiques sans regard particulier sur leur occurrence naturelle dans la parole non laborantine.

Afin d’évaluer si la répartition de nos données se rapprochait d’une répartition naturelle, nous l’avons comparée avec celle obtenue à partir de l’analyse prosodique, effectuée par Astésano (1999), d’un texte d’environ 200 syllabes lu par deux locuteurs français

Tableau II.2.132 - Nombre et répartition des données prosodiques de notre corpus et de celui de référence (Astésano 1999) par catégories, tous locuteurs confondus

Astésano notre corpus

N % N % AFS 71 17 665 8,9 AF-UI 39 9,4 1315 17,7 INA 307 73,6 5454 73,4 S 417 100 7434 100 rapport ACC / INA 35,8 36,6

Le tableau II.2.1 présente la répartition (en %) et le nombre (N) des voyelles analysées en fonction des différents contextes prosodiques définis par Astésano. Les catégories AFS et AF-UI

représentent des contextes accentués : respectivement, accent final de syntagme et accent final d’unité intonative continuative ou conclusive. INA constitue la catégorie inaccentuée. AF-UI est associée à la perception d’une frontière intonative majeure, alors qu’AFS est associée à la perception d’une frontière

32 Cette répartition est faite ici a priori, c’est-à-dire à partir des réalisations prosodiques attendues et non après vérification de la place ou de la présence effective de l’accent attendu.

(mineure) accentuelle finale de syntagme.

Dans notre corpus, les données relative à AFS renvoient aux valeurs tonales mesurées sur V1 de la catégorie ACC, celles relatives à AF-UI aux valeurs de V1 de ICT et ICC,et enfin celles à INA aux valeurs de V1 de notre catégorie inaccentuée INA, de V2 et de V0.

Le rapport (ACC/INA) entre l’effectif des catégories accentuées (AFS+AF-UI) et celui de la catégorie inaccentuée (INA) de notre corpus (36,6 %) est équivalent à celui d’Astésano (35,8 %). Seule la répartition entre les deux catégories accentuées, AFS et AF-UI, est inversée entre dans notre corpus par rapport à celle d’Astésano.

Ces résultats nous conduisent néanmoins à penser que la distribution des catégories prosodiques de notre corpus n’est pas très éloignée d’une répartition issue d’une condition plus naturelle.

Nous avons appliqué la normalisation par transformé z aux données tonales de notre corpus, tous types de voyelles confondus.

Les variations mélodiques ne sont dès lors pas exprimées en terme de hauteur fréquentielle absolue, mais en terme de haussement ou d’abaissement tonal en unité d’écart type par rapport à la hauteur tonale moyenne de l’effectif constituant un repère relativement abstrait, sans rapport avec ce qui est communément appelé la « F0 usuelle » ou la dynamique de base mélodique.

1.2.3. La récupération des valeurs tonales

La phase de récupération des valeurs tonales, relatives à V0, V1 et V2, a fait appel à une procédure d’extraction automatique de la F0 en différents points de cette séquence de trois voyelles.

Tout d’abord, la F0 moyenne de chaque voyelle a été calculée à partir de la segmentation acoustique de la phrase. Elle correspond à la moyenne des valeurs en ERB de tous les échantillons de F033 compris entre 25 et 100 % de la durée acoustique de la voyelle.

Figure II.2.2 - Stylisation (Momel) de la courbe de F0 de la séquence V0-V1-V2 et marquage des deux points d’encrage (P1 et P2) du contour mélodique s’établissant sur V1 (« La vitesse de mes

contre-attaques, Larissa l’apprécie. », locC), à partir desquels les deux paramètres prosodiques ont été

calculés : hauteur tonale et glissando vocalique

Nous avons exclu systématiquement le premier quart de la voyelle afin d’éviter de prendre en compte les micro-pics caractérisant fréquemment la F0 en début de voyelles précédées par une consonne sourde, cette variation micro-prosodique étant due à une contrainte physiologique aérodynamique (Hirst et al. 1999). Ainsi, l’amortissement final (lors de la segmentation acoustique) et le début des voyelles ont été ignorés.

C’est à partir de ces valeurs de F0 moyenne que la moyenne et l’écart type entrant dans la formule de normalisation tonale ont été calculés.

Ensuite, nous avons extrait automatiquement la valeur F0 en deux points du contour mélodique s’établissant sur la voyelle accentuée V1 : P1 et P2 (figure II.2.2). Ces points permettent de caractériser l’évolution du contour mélodique de V1.

P1 est automatiquement placé à 15 % de sa durée acoustique. Il marque le point départ de la montée mélodique du contour, correspondant globalement au début du glissando vocalique pouvant caractériser le contour.

P2 marque le point fréquentiel maximal atteint par la F0 lors de V1 (compris entre 15 et 85 % de sa durée). Il correspond globalement au point d’inflexion du contour mélodique montant-descendant. En cas de plateau maximal de la F0, P2 est localisé au milieu de celui-ci.

1.2.4. Les mesures tonales : hauteur et glissando vocaliques

Les mesures tonales ont été effectuées pour caractériser phonétiquement les catégories prosodiques selon les deux paramètres tonals principaux de hauteur tonale (Ht) et de glissando vocalique (Gv), s’ajoutant au paramètre temporel d’allongement vocalique (Av).

Ces deux mesures sont effectuées à partir des coordonnées tonales, exprimées en ERB normalisés, et temporelles, exprimées en ms, des points P1 et P2 de la configuration mélodique attachée à la voyelle accentuée V1.

La hauteur tonale (Ht) correspond à la valeur maximale atteinte par le contour mélodique localisée en V1 (P3). Elle est exprimée en unités d’écart type par rapport à la moyenne de l’effectif.

Le glissando vocalique [Gv] est calculé par la différence entre la valeur tonale en fin (P2) et en début de V1 (P1) rapportée à la valeur tonale du début de V1 (P1), le tout étant divisé par l’intervalle temporel entre P1 et P2. Il correspond donc à la pente mélodique qui s’établit sur V1. Il est exprimé en pourcentage de variation tonale par ms (figure II.2.2).

1.2.5. Traitement particulier du groupe /lk/

Concernant les mesures tonales, la séquence al#ka a fait l’objet d’un traitement particulier du fait de la consonne voisée en coda dans la première syllabe de la séquence.

Figure II.2.3 – Réalisation mélodique de la séquence al#ka issue de l’énoncé : « La glycine grimpante

et ces dalles camoufleront ce mur. » [locY]. En bas la courbe de F0

Dans ce cas, les variations mélodiques ne s’établissent pas seulement sur la voyelle, mais sur toute la rime : /a/+/l/. La figure II.2.3 illustre ce point : la montée mélodique d’intonation continuative majeure (CM) s’établit sur toute la rime /al/ et n’est pas restreinte à la voyelle.

Pour al#ka, nous avons donc effectué les mesures tonales sur toute la rime V1C1 (/al/), contrairement aux autres séquences dont les mesures tonales ne portent que sur la voyelle V1.