• Aucun résultat trouvé

CHAPITRE 4 : Étude de production (1 ère étude expérimentale) : méthodologie

2. Analyses acoustiques

2.1. Voyelles orales : formants (F1, F2, F3), espaces vocaliques F1-F2 et F2-F3

2.1.3. Normalisation des valeurs de formants : étude préliminaire

2.1.3.4. Comparaisons des méthodes de normalisation les plus fréquemment utilisées dans la

Les études de Peterson et Barney (1952), Kent et Forner (1979), Huber et al. (1999) et Vorperian et Kent (2007) sur la parole des enfants, présentées précédemment, ont montré l’importance de la prise en compte de la variabilité liée à l’âge des enfants dans l’analyse acoustiques des voyelles et du choix d’une méthode de normalisation adéquate pour notre étude. Dans la littérature, la question de la normalisation des mesures de formants est notamment envisagée dans des articles de géolinguistique ou de sociophonétique. Les questions posées par l’étude de la parole pathologique sont similaires à l’étude de la variation dialectale ou sociolinguistique : comment neutraliser la variation liée à l’âge et au genre des enfants dont on étudie la production tout en conservant les caractéristiques de la parole pathologique ?

Une étude de Jacewicz et al. (2007) s’intéresse à la taille de l’espace vocalique de locuteurs adultes (femmes et hommes) de trois dialectes de l’anglais parlé aux USA : les auteurs de cette étude cherchent à utiliser la méthode de normalisation la plus adaptée pour éliminer la variation liée à l’âge et au genre des locuteurs mais à conserver la variation dialectale. Ils choisissent de comparer parallèlement les données en Hertz et en scores-z (Lobanov (1971)). Dans cette étude, ils calculent les tailles de l’espace vocalique des locuteurs (9 femmes et 9 hommes, pour chaque dialecte) en utilisant quatre ou cinq voyelles avec ces deux méthodes de normalisation. Les analyses statistiques montrent un effet significatif du genre sur la taille de l’espace vocalique lorsque les analyses sont réalisées en Hertz (espace vocalique significativement plus grand pour les femmes), mais pas d’effet lorsque les mêmes analyses sont réalisées avec les données normalisées en scores-z (Lobanov (1971)). Les résultats et la neutralisation de la variation liée à l’âge sont les mêmes lorsque les calculs sont réalisés avec quatre ou cinq voyelles. Cette étude est un premier argument en faveur de l’utilisation d’une méthode de normalisation plutôt que les données brutes en Hertz pour étudier une variation dialectale ou pathologique.

Deux études comparent les principales méthodes de normalisation utilisées pour comparer des groupes hétérogènes de locuteurs : Disner (1980) et Adank et al. (2004).

L’étude de Disner (1980) compare plusieurs méthodes de normalisation (notamment celles de Gerstman (1968), Harshman (1970), Lobanov (1971) et Nearey (1978)) sur des données de cinq langues germaniques. Le critère utilisé pour cette comparaison est la réduction à l’intérieur de l’espace F1-F2 de la dispersion de chaque catégorie vocalique par rapport aux données brutes en Hertz et la conservation des spécificités de chacune des langues étudiées. La méthode qui donne les résultats les plus satisfaisants selon Disner (1980) est celle de Harshman (1970) qui normalise les données en appliquant une transformation qui les place sur un espace en deux dimensions, avec des axes non orthogonaux, selon un angle différent pour chaque locuteur et chaque catégorie vocalique. Cette méthode est la plus adaptée selon Disner (1980) puisqu’elle permet de réduire la variabilité inter-locuteurs tout en conservant les spécificités des cinq langues étudiées. L’étude de Adank et al. (2004) propose une comparaison de 12 méthodes de normalisation. Elle distingue deux types de normalisation : les normalisations qui utilisent des caractéristiques intrinsèques des voyelles (« vowel-intrinsic procedures »), c’est-à-dire que les occurrences de chaque voyelle sont normalisées sans tenir compte des autres voyelles du système vocalique et celles qui utilisent des caractéristiques extrinsèques des voyelles (« vowel-extrinsic procedures »),

où chaque réalisation est normalisée à l’intérieur du système vocalique, en lien avec toutes les réalisations de chaque voyelle du système.

La table 4.11 ci-dessous, tirée de Adank et al. (2004) propose un résumé des différentes méthodes utilisées.

Table 4.11 : d’après Adank et al. (2004), classement des méthodes de normalisation

Les auteurs comparent les procédures suivantes : (1) HZ est la procédure qui conserve les valeurs de F0 et des trois premiers formants en Hertz (qui traite donc les données brutes, sans les normaliser), (2) LOG transforme les valeurs en Hertz sur une échelle logarithmique, (3) BARK transforme les valeurs en Hertz selon une formule proposée par Traunmüller (1990) sur une échelle perceptive (Fi=26,81 x Fi/(1960+Fi) - 0,53), (4) MEL est une transformation similaire à celle de BARK mais utilise une autre formule (Fi= 2595 x ln(1+Fi/700)), (5) ERB est également une méthode similaire à celle de BARK et MEL, avec une formule différente (Fi = 12,4 x ln(0,00437 x Fi +1), (6) S & G est une procédure qui transforme les valeurs transformées en BARK de F1 par rapport à F0 et de F3 par rapport à F2, (7) la transformation en scores-z de Lobanov permet de calculer pour F0 et pour chaque formant une distance par rapport à la moyenne de F0 ou de ce formant pour toutes les voyelles de l’espace vocalique, qui est ensuite divisée par l’écart-type de F0 ou de ce formant, ce qui permet de placer toutes les occurrences de voyelles produites par chaque locuteur sur le même espace vocalique maximal, (8) NEAREY1 transforme les valeurs de formants en log, puis calcule pour chaque formant une distance par rapport à la valeur moyenne de ce formant pour toutes les voyelles du locuteur, (9) NEAREY2 transforme les valeurs de F0 et de formants en log, puis calcule une distance par rapport aux moyennes de F0 et de chaque formant de toutes les voyelles du locuteur, (10) GERSTMAN calcule une distance du formant par rapport à la valeur minimum du formant, puis la divise par l’étendue maximale de ce formant pour toutes les voyelles du locuteur, (11) NORDSTRÖM propose une normalisation qui prend en compte la taille moyenne du conduit vocal de locuteurs hommes et femmes en intégrant cette taille dans un coefficient qui permet de transformer les valeurs brutes en Hertz, (12) MILLER est une méthode similaire à NORDSTRÖM, puisqu’elle prend en compte les caractéristiques de la taille du conduit vocal de locuteurs hommes et femmes.

A partir d’un corpus de voyelles du néerlandais produites par 160 locuteurs (80 femmes et 80 hommes), Adank et al. (2004) effectuent une comparaison statistique de ces méthodes de normalisation pour déterminer quelles méthodes préservent au mieux les catégories vocaliques,

tout préservant les variations dialectales des locuteurs et en minimisant les variations liées aux caractéristiques physiologiques des locuteurs (liées en particulier à des tailles variables du conduit vocal). Ils en concluent que les méthodes qui permettent de répondre au mieux à ces questions sont les méthodes qui utilisent les caractéristiques extrinsèques des voyelles et qui conservent les relations entre ces voyelles à l’intérieur du système vocalique.

2.1.3.5.Notre étude : comparaison de six méthodes de normalisation et application à notre problématique

Afin de déterminer quelle méthode de normalisation est la plus pertinente pour notre étude, nous avons décidé de comparer certaines des méthodes de normalisation présentées dans la table 4.14, en les appliquant aux productions de parole enregistrées dans le cadre de l’étude pilote de Scarbel et al. (2012), que nous avons complétées par de nouveaux enregistrements : dans le cadre de cette étude, des productions de voyelles par des enfants avaient été enregistrées, nous avons décidé d’enregistrer des locuteurs supplémentaires adultes (deux hommes et deux femmes) en suivant la même procédure, pour déterminer quelle méthode de normalisation permet de neutraliser au mieux la variation liée à la taille du conduit vocal. Nous proposons une comparaison de plusieurs méthodes de normalisation utilisées dans les études de production de voyelles présentées dans le paragraphe §2.1.3.4 : données brutes en Hertz, données normalisées en Bark (Traunmüller (1990)), en scores-z (Lobanov (1971)), avec la méthode Nearey 1 (Nearey (1978)), Gerstman (1968), ainsi que notre proposition de calcul de scores-z adaptée de Lobanov (1971).

Corpus

Les participants de cette étude sont les enfants normo-entendants de l’étude pilote de Scarbel et al. (2012) : sept enfants âgés de 6;11 à 8;1 ans (âge moyen : 6;9 ans), et quatre adultes normo-entendants (deux hommes de 40 et 45 ans, deux femmes de 39 et 20 ans), enregistrés avec la même procédure. La table 4.12 ci-dessous présente les caractéristiques (groupe, âge, sexe) des participants dont nous avons utilisé les productions pour notre étude comparative de méthodes de normalisation.

Sujet Groupe Âge Sexe

NH1 Enfant 8,1 M NH3 Enfant 9 F NH4 Enfant 7,5 M NH5 Enfant 7,4 F NH6 Enfant 6 M NH7 Enfant 11 F NH8 Enfant 6,11 F NH9 Adulte 40 M NH10 Adulte 39 F NH11 Adulte 20 F NH12 Adulte 45 M

Table 4.12 : participants de notre étude de normalisation : enregistrements des enfants NH1 à NH réalisés dans le cadre de l’étude de Scarbel et al. (2012), enregistrements des adultes NH9 à NH12 réalisés par nous-mêmes.

La procédure d’élicitation se composait de deux tâches : une tâche de répétition de mots avec un modèle audio adulte suivie d’une tâche de production des mêmes mots sans modèle audio. Les voyelles-cibles étaient les dix voyelles orales du français /i, e, ε, y, ø, oe, a, u, o, ɔ/ en position initiale de mots, avec deux degrés de complexité phonétique ou lexicale de mots (dix mots

simples et dix mots plus complexes). Seules les productions jugées correctes perceptivement ont été analysées acoustiquement.

Méthodes de normalisation testées

La table 4.13 ci-dessous présente les formules de toutes les méthodes de normalisation comparées dans cette section. Dans notre adaptation du score-z de Lobanov (1971), nous utilisons une moyenne des moyennes des valeurs des formants de chaque voyelle, pour éviter une pondération de la moyenne dans le cas où le nombre de formants moyennés diffère d’une personne à une autre : la formule de Lobanov (1971) suppose un nombre constant de données d’une voyelle à l’autre et d’un locuteur à l’autre, ce qui peut être problématique si le nombre d’occurrences de chaque voyelle n’est homogène. En effet, cette méthode (Lobanov, 1971) normalise les données en les plaçant dans un même espace maximal, mais un déséquilibre de la répartition des voyelles produites au sein de l’espace vocalique ne va pas permettre de superposer exactement les espaces vocaliques maximaux de chaque locuteur.

Méthode Formule

Hertz Données brutes

Bark (Traunmüller (1990) Ftibark = 26,81x(Fi/(1960+Fi))-0,53

Score-z (Lobanov (1971)) Ftilobanov1 = (Fti - µti)/δti avec µti moyenne des valeurs du formant Fti

Nearey 1 Ftinearey1 = (Fti - µDti) avec valeurs de Fti en log et µdti moyenne des log de Fti

Gerstman 999x(Fti – Ftimin)/(Ftimax – Ftimin)

Notre adaptation du score-z de Lobanov Ftilobanov2 = (Fti - µti)/δti avec µti moyenne des moyennes des valeurs du formant Fti

Table 4.13 : méthodes de normalisation testées (où Ft correspond au formant après transformation et i au numéro du formant)

Figure 4.9 : Représentation spatiale F1-F2 des données de l’étude comparative des six méthodes de normalisation (de haut en bas et de gauche à droite : données en Hertz, en Bark, données normalisées en scores-z de Lobanov, avec notre adaptation du score-z de Lobanov, avec la méthode de Nearey 1 et de Gerstman), ellipses de confiance à 95%, les nombres correspondent aux âges des participants.

La figure 4.9 ci-dessus présente les données de notre corpus après application des méthodes de normalisation testées. Toutes les données acoustiques sont analysées avec le logiciel Praat

(Boersma et Weenink (2015)), et tous les calculs et les graphiques sont réalisés avec le logiciel R (R Development Core Team (2012)).

Une inspection visuelle montre clairement un certain nombre de différences entre les différentes méthodes de normalisation. Conformément aux études de Peterson et Barney (1952), Kent et Forner (1979) et Huber et al. (1999), la représentation des données en Hertz montre clairement une grande dispersion des données : les enfants ont les espaces vocaliques les plus grands, et les hommes ont les espaces vocaliques les plus petits. Nous observons également un chevauchement des catégories vocaliques. La représentation en Bark (Traunmüller (1990)) est assez similaire à la représentation en Hertz, le gain de cette méthode par rapport à l’utilisation des données brutes en Hertz est donc peu important. Les représentations des deux méthodes de scores-z (Lobanov (1971) et notre adaptation du score-z) montrent une faible dispersion intra-catégorie, puisque les tailles des ellipses sont les plus petites, en comparaison avec les autres méthodes. La distinction inter-catégorie est également meilleure pour ces deux méthodes, puisque les intersections entre les ellipses sont les moins nombreuses. La méthode Gerstman a une meilleure répartition des voyelles sur l’espace vocalique maximal que les méthodes Hertz et Bark, mais les ellipses sont de très grande taille et présentent de nombreuses intersections. La méthode Nearey1 semble réduire l’étendue de chaque ellipse sur F2 mais pas sur F1, ce qui la distingue des deux méthodes de scores-z, qui agissent sur les deux dimensions : il semble que la méthode Nearey1 produit une plus grande dispersion intra-catégorie que les méthodes de scores-z. Avec cette méthode, les intersections entre ellipses sont en outre moins importantes qu’avec la méthode Gerstman. Nous avons ensuite quantifié les performances de ces différentes méthodes.

Comparaison : analyses et résultats

Notre objectif est de trouver la méthode de normalisation qui élimine au maximum la variation liée à la taille du conduit vocal et donc l’effet de l’âge et du genre sur la taille de l’espace vocalique (F1-F2) et la dispersion des voyelles sur F1 et F2, pour pouvoir ensuite comparer la production des enfants NH et CI d’âges différents.

Pour comparer ces six méthodes, nous avons calculé deux indices : l’indice 1 qui permet de quantifier la distinction inter-catégorie, qui correspond à la répartition des catégories vocaliques à l’intérieur de l’espace vocalique (indice 1 = surfaces des intersections des ellipses/ surface totale des ellipses) et l’indice 2 qui permet de quantifier la dispersion intra-catégories, ce qui correspond à la surface totale des ellipses par rapport à l’espace vocalique maximal (Indice 2 = surface totale des ellipses / ((F1max-F1min) x (F2max-F2min)).

La méthode de normalisation la plus adaptée à notre problématique est celle dont les indices sont les plus bas, puisqu’elle aura ainsi permis d’avoir une distinction inter-catégories la plus grande possible et une dispersion intra-catégories la plus faible possible.

Les résultats des comparaisons des deux indices de notre étude sont présentés dans la table 4.14 ci-dessous.

Méthode de

normalisation Indice 1 : Distinction inter-catégories Indice 2 : Dispersion intra-catégories

Hz 0,917 1,408 Bark 0,829 1,465 Lobanov 1 0,331 0,732 Lobanov 2 0,327 0,722 Nearey 1 0,338 0,798 Gerstman 0,751 1,763

Table 4.14 : indices de distinction inter-catégories et de dispersion intra-catégories

Les résultats des calculs d’indices confirment la représentation graphique de la figure 4 : les données en Bark ne permettent pas de minimiser la distinction inter-catégories puisque les deux indices sont à peu près identiques en Bark et en Hertz (les intersections entre ellipses à l’intérieur de l’espace vocalique sont les plus grandes en Hertz) et la dispersion intra-catégories (les ellipses sont plus grandes avec la méthode de Gerstman, en Hertz et en Bark). Les méthodes qui permettent d’éliminer la variance liée à la taille du conduit vocal sont donc la méthode des scores-z de Lobanov (Lobanov (1971)) et notre adaptation de cette méthode, qui gomme la pondération éventuelle des moyennes utilisées pour le calcul des scores-z. C’est donc cette dernière méthode qui est la plus adaptée à l’étude comparée de la production de voyelles chez les deux groupes d’enfants NH et CI. En effet, cette méthode nous permet d’analyser la variation liée à des différences de contrôle articulatoire, tout en éliminant la variation de ces productions dues à l’âge et au sexe des enfants. Cette méthode est en particulier adaptable au fait que nos corpus ne sont pas tout à fait identiques pour tous nos sujets.