• Aucun résultat trouvé

Chapitre 2 : Cadre expérimental et méthodologie

2.1. Cadre expérimental

2.2.7. Normalisation des données formantiques

L’un des constats les plus universels de la phonétique est qu’aucune occurrence d’un son n’est jamais identique à une autre (Clopper, 2009). C’est le cas même dans la parole d’un seul locuteur, mais les réalisations diffèrent encore davantage d’un individu à l’autre, ce qui s’explique par les différences physiologiques qui existent entre eux. Certaines de ces différences sont attribuables à des caractéristiques des locuteurs, comme leur âge ou leur sexe : par exemple, le tractus vocal étant en moyenne plus long chez les hommes que chez les femmes, celles-ci ont une fréquence fondamentale et des fréquences formantiques plus élevées (Simpson, 2009). Il s’ensuit de cet état de fait que les indices utilisés pour quantifier certains aspects des ondes sonores ont des valeurs très variables.

2.2.7.1. Procédures de normalisation extrinsèques et intrinsèques aux voyelles

Traditionnellement, afin d’atténuer cette variabilité, diverses méthodes ont été utilisées pour

normaliser certains de ces indices, le plus souvent la valeur des formants (Ferrari-Disner, 1980)59. Ce processus vise à transformer mathématiquement les fréquences formantiques de façon à neutraliser autant que possible la variabilité liée aux différences physiologiques entre les locuteurs. Autrement dit, la normalisation vocalique vise à augmenter la comparabilité des fréquences formantiques tout en conservant certaines de leurs caractéristiques : comme le rappellent Thomas et Kendall (2007), les valeurs résultantes devraient idéalement préserver les distinctions entre les catégories phonologiques des voyelles de même que les informations sociolinguistiques liées à leur timbre. En outre, autant que possible, les procédures de normalisation devraient correspondre aux processus réels qui permettent aux auditeurs de reconnaître et de comprendre des voyelles produites par des locuteurs différents. En somme, « the output of any adequate normalization procedure must be a correct representation of linguistic fact » (Ferrari-Disner, 1980 : 253).

On distingue généralement les procédures de normalisation extrinsèques et intrinsèques aux voyelles60. Les méthodes extrinsèques requièrent qu’on utilise une information extérieure à l’occurrence elle-même dans le calcul de valeurs normalisées pour la fréquence des formants, comme la longueur du tractus vocal de l’individu ou la position d’autres phonèmes vocaliques dans un espace acoustique F1 × F2 (Adank et al., 2004; Calamai, 2005; Fabricius et al., 2009). Les procédures de Lobanov (1971) et de Nearey (1977), largement utilisées, en sont des exemples61. Les méthodes intrinsèques, quant à elles, utilisent plutôt des indices propres à l’occurrence (sa durée, sa fréquence fondamentale, ses formants supérieurs, etc.) pour calculer des valeurs normalisées. Parmi celles-ci, on retrouve par exemple la méthode de Syrdal et Gopal (1986). En outre, comme le rappelle Sigouin (2014), on a parfois considéré des opérations de conversion d’échelle, transformant les fréquences formantiques exprimées en hertz en unités psychoacoustiques comme les barks ou les mels, comme des procédures de normalisation intrinsèques aux voyelles62.

59 Pour une revue de la littérature à ce sujet, nous référons le lecteur à Ferrari-Disner (1980), Adank et al. (2004), Fabricius et al. (2009), Flynn et Foulkes (2011) et Sigouin (2014).

60 Cette opposition est également employée à d’autres niveaux. On peut ainsi classer les procédures comme étant extrinsèques ou intrinsèques par rapport aux locuteurs, selon qu’elles nécessitent des valeurs de référence pour toute une communauté ou un seul individu (Thomas et Kendall, 2007), ou par rapport aux formants, en fonction du fait qu’elles requièrent ou non des valeurs de référence pour tous les formants d’une voyelle (Adank, 2003).

61 Comme le fait remarquer Johnson (2005 : 370), les méthodes de Lobanov (1971) et de Nearey (1977) relèvent plus exactement de la standardisation et s’appuient sur les valeurs moyennes des fréquences formantiques de toutes les voyelles pour un individu pour obtenir des valeurs normalisées. Johnson (2005) souligne que malgré leurs avantages indéniables en matière de réduction de la dispersion des données, ces deux méthodes ne sont pas des représentations plausibles des processus mis en œuvre par les auditeurs pour reconnaître les voyelles, puisqu’il n’est pas nécessaire que ceux-ci aient accès à l’ensemble des productions d’un locuteur pour identifier correctement la catégorie phonémique d’une voyelle produite par ce dernier.

62Stricto sensu, le calcul de ces conversions n’utilise pas d’autres informations que les valeurs formantiques

elles-mêmes; certains auteurs préfèrent donc éviter de les concevoir comme des méthodes de normalisation (Thomas et Kendall, 2007).

De nombreux travaux ont cherché à comparer l’efficacité de diverses procédures de normalisation extrinsèques et intrinsèques aux voyelles par rapport aux critères évoqués par Thomas et Kendall (2007). On a ainsi évalué leur capacité à produire des résultats aisément comparables d’une langue à l’autre (par ex. Ferrari-Disner, 1980), à atténuer les différences liées au sexe des individus (par ex. Sigouin, 2014), à préserver des informations sociolinguistiques quant au dialecte (par ex. Adank et al., 2004; Fabricius et al., 2009), etc. Un constat général se dégage de cette littérature : les procédures extrinsèques aux voyelles offrent généralement de meilleurs résultats que leurs contreparties intrinsèques en ce qui a trait à la réduction de la variabilité des fréquences formantiques et au maintien du contraste entre catégories phonémiques (Adank et al., 2004; Johnson, 2005; Clopper, 2009).

Comme la présente étude ne prévoit l’analyse d’occurrences que d’une seule voyelle, /ɔ/, il n’est pas envisageable d’avoir recours aux procédures de normalisation extrinsèques aux voyelles (Clopper, 2009). Les méthodes intrinsèques, notamment les opérations de conversion d’échelle, peuvent être utilisées. Cependant, elles n’offrent que peu d’avantages : elles sont peu efficaces pour réduire la dispersion des données (Flynn et Foulkes, 2011; Clopper, 2009) et la variation liée au sexe des locuteurs (Sigouin, 2014), pour préserver les informations sociolinguistiques (Adank et al., 2004) ou pour augmenter le taux de classification des voyelles (Hillenbrand et Gayvert, 1993; Sigouin, 2014).

2.2.7.2. Normalisation par les effets aléatoires

Pour reprendre les propos de Flynn et Foulkes (2011 : 686), « any normalization is better than none if the aim is to compare different speakers », ce qui est notre cas ici. Nous avons certes exclu le recours aux procédures standards de normalisation. Toutefois, le calcul d’effets aléatoires dans des LMM est une façon indirecte de prendre en compte la variabilité interindividuelle des fréquences formantiques due à la physiologie. Ainsi, Drager et Hay (2012) suggèrent que les effets aléatoires peuvent être vus comme un outil permettant à la fois d’obtenir des résultats statistiques plus généralisables à la population étudiée et de normaliser la variable dépendante. Par exemple, un locuteur produisant des voyelles dont le F2 est systématiquement plus bas que la moyenne de l’échantillon se verra attribuer par un LMM une constante aléatoire (un mode conditionnel) prenant en compte cette spécificité individuelle.

Si le fait de considérer à la fois le facteur fixe SEXE et les constantes aléatoires liées au LOCUTEUR permet d’utiliser les données des hommes et des femmes dans un même modèle, il ne permet pas de distinguer l’effet social du genre de celui, physiologique, du sexe. Drager et Hay (2012) décrivent une façon indirecte d’accéder à cette variation sociale par l’entremise d’une astuce statistique : dans un premier temps, on peut calculer un effet aléatoire de l’individu dans un modèle ne prenant pas en compte le facteur fixe SEXE, ce qui résulte en des constantes aléatoires pour chaque individu, censées représenter l’apport de la physiologie à la valeur du formant retenu comme variable dépendante. Ces valeurs individuelles d’ajustement sont ensuite utilisées comme prédicteurs dans un second modèle prenant également en compte le facteur fixe SEXE, alors utilisé comme approximation de l’effet du

genre. Si l’effet SEXE se révèle cette fois significatif, c’est qu’il existe une différence sociale liée au genre pour la valeur du formant examiné.

Cette technique n’est toutefois que comparative, en ce sens qu’elle requiert que les valeurs individuelles d’ajustement à l’ordonnée à l’origine soient calculées à partir de données différentes de celles utilisées dans le modèle final : dans le cas de Drager et Hay (2012) par exemple, le premier modèle examine le troisième formant du [ɹ] anglais en position intervocalique, alors que le second le considère en position finale de mot. La seule conclusion possible grâce à cette technique est qu’il existe (ou qu’il n’existe pas) davantage de variabilité sociale due au genre pour la variable dépendante dans le second modèle que dans le premier, puisque le second modèle inclut des prédicteurs chiffrés calculés à partir du premier. Cela nous empêche d’avoir recours à cette solution dans le cas du /ɔ/, puisque nous ne l’examinons que dans un contexte (comme noyau d’une syllabe (C)VC, plus précisément). Nous rapporterons donc l’effet du SEXE sans chercher à en séparer les parties sociale et physiologique dans les résultats de nos LMM.