• Aucun résultat trouvé

Chapitre 3 : Cadres théoriques

5.4 Corpus

5.4.3 Analyse acoustique

Plusieurs des premières études sur l’acquisition d’un R2 sont fondées sur une analyse exclusivement auditive (Payne, 1980; Kobayashi, 1981; Shockey, 1984; Chambers, 1992). Ce choix méthodologique n’est probablement pas étranger à la relative difficulté d’accès aux techniques instrumentales de cette époque, mais il n’est pas non plus dénué de lien avec l’idée que seules les caractéristiques les plus saillantes sont modifiées par les locuteurs mobiles (Trudgill, 1986). Quoi qu’il en soit, le recours à une analyse exclusivement auditive des changements phonétiques qui se produisent chez les locuteurs mobiles peut poser problème. Par exemple, comme le rappelle Thomas (2002), la variation et le changement phonétiques se caractérisent par leur richesse et leur gradation. Dans le cas spécifique des voyelles, cette riche gradation peut se traduire par un nombre important de variantes au timbre intermédiaire difficiles à étiqueter, à catégoriser. Dans son examen longitudinal des productions de deux locuteurs enregistrés dans le cadre de la série documentaire Up, Sankoff (2004) est précisément confrontée à ce problème : plusieurs occurrences de la voyelle de STRUT présentent un timbre se situant entre [ʌ] et [ʊ]. Par ailleurs, les différentes études rapportées dans la section consacrée au rôle de la saillance subjective lors de l’acquisition d’un R2 (2.4.4) mettent en exergue l’importance de procéder à une analyse instrumentale pour éviter la potentielle circularité induite par les analyses exclusivement auditives (Flege et Hammond, 1982; Delvaux et Soquet, 2007; Ziliak, 2012; Pardo et coll., 2012; Babel, 2010). Des études comme celles de De Decker (2006) et de Love et Walker (2013) font même abstraction de la perceptibilité de la variation pour se concentrer sur sa description acoustique. En regard des limites de l’audition et des avantages des techniques instrumentales, notre choix se porte vers une analyse acoustique des voyelles orales de notre corpus.

L’analyse acoustique des voyelles repose très fréquemment sur l’estimation de la fréquence des formants, la robustesse du lien entre les fréquences formantiques et le timbre ayant été mise en évidence à maintes reprises. Au milieu du xxe siècle, les premiers travaux en acoustique de la parole contribuent à la diffusion d’un paradigme d’analyse fondé sur l’estimation de la fréquence des deux

47 Il a été déterminé que les voyelles fermées produites en contexte (Vʁ) seraient traitées comme des relâchées

au terme d’une analyse statistique telle que celles décrites dans la section 5.6.1. Statistiquement, le contexte (Vʁ) se distingue plus fréquemment de (V#) et de (Vvzʒ) que des autres contextes.

premiers formants (Delattre, 1948; Delattre et coll., 1952; Joos, 1948). F1 est effectivement considéré comme le corrélat acoustique du degré d’aperture et F2, du degré d’antéropostériorité : plus la fréquence de F1 est élevée, plus la voyelle est ouverte, et plus la fréquence de F2 est élevée, plus la voyelle est antérieure. Projetée dans un diagramme bidimensionnel, la valeur de ces deux indices permet de visualiser une représentation hautement pédagogique de l’espace vocalique, à défaut de constituer une paramétrisation exhaustive du signal sonore. Il s’agit de l’analyse privilégiée en sociolinguistique depuis que Labov et coll. (1972) ont montré sa pertinence pour l’étude de la variation et du changement phonétiques (Thomas, 2011 : 41). La contribution de F3 à la caractérisation acoustique de plusieurs voyelles est également largement reconnue. En langue française, F3 permet de distinguer acoustiquement les voyelles arrondies et non arrondies : l’arrondissement se traduit par une chute de la valeur de F3, parfois accompagnée d’une chute de la valeur de F2 (Lindblom et Sundberg, 1971; Schwartz et coll., 1993). En langue anglaise, F3 est utilisé pour rendre compte de la rhoticité : les voyelles rhotiques se caractérisent par une chute de F3, menant à la focalisation de F2 et de F3 (Peterson et Barney, 1952). Lors de son analyse de la rhoticité en FQ, Mielke (2013) observe cette même tendance. La prise en compte des formants supérieurs à F3 est toutefois moins courante. Même lorsque le signal sonore est de bonne qualité, leur fréquence peut être difficile à estimer. Par exemple, Hillenbrand et coll. (1995 : 3101) rapportent avoir été dans l’impossibilité de mesurer F4 pour 15,6 % des 1668 occurrences analysées dans le cadre de leur étude. En français, F4 est principalement reconnu pour sa contribution à la distinction entre les voyelles /i/ et /y/, la proéminence perceptive créée par leur focalisation formantique respective se situant à des fréquences différentes : focalisation de F2-F3 pour /y/, et de F3-F4 pour /i/ (Ménard, 2002; Gendrot et coll., 2008).

Bien entendu, les fréquences formantiques ne sont pas les seuls indices acoustiques considérés par les chercheurs lors de l’étude de la variation et du changement vocaliques. L’un des principaux paramètres qui complémentent généralement l’analyse formantique est la durée. Elle peut varier en fonction du phonème, qu’un changement de timbre soit impliqué ou non. Par exemple, dans les langues du monde, les voyelles ouvertes tendent à posséder une durée plus longue que les voyelles fermées (Maddieson, 1997 : 623). En français suisse, les locuteurs établissent une distinction entre ami [ami] et amie [amiː] à l’aide de la durée de la voyelle finale (Grosjean et coll., 2007). Toutes choses étant égales par ailleurs, la durée des voyelles peut aussi varier d’un régiolecte à l’autre, y compris en FQ (Sigouin, 2013).

Mesurer la durée vocalique consiste à déterminer le temps écoulé entre l’établissement (onset) et la queue (offset) de la voyelle. Parmi les indices acoustiques mentionnés jusqu’ici, il s’agit selon

Thomas (2011 : 139) du plus simple à évaluer, la seule difficulté potentiellement rencontrée par l’analyste étant d’identifier le début et la fin des segments. Au contraire, la paramétrisation des formants présente de nombreuses possibilités et nécessite de prendre position sur le plan théorique. La méthode la plus répandue consiste à relever ces indices en une section temporelle unique (comme Peterson et Barney, 1952, entre autres). Cette prise de mesure peut être effectuée lorsque les formants atteignent un état jugé stable (steady state) par l’expérimentateur. Pour éviter de devoir statuer sur l’état stable, il est possible de décider d’un point de mesure fixe, par exemple à 50 % de la durée vocalique, ou après un nombre déterminé de millisecondes, par exemple 30 ms après l’établissement. Une autre méthode, utilisée notamment par Labov et coll. (1972), consiste à relever les fréquences formantiques lors de l’atteinte de la valeur maximale de F1, là où la coarticulation se fait le moins sentir, les consonnes précédentes et suivantes étant censées faire diminuer la valeur de cet indice. Watson et Harrington (1999 : 461) proposent de mesurer les formants lors de l’atteinte de minima ou de maxima fréquentiels, selon la classification phonologique des voyelles. Par exemple, la prise de mesure pour une voyelle ouverte est effectuée lorsqu’en cours d’émission, F1 atteint sa valeur maximale, et pour une voyelle fermée, lorsque F1 atteint sa valeur minimale. Bien entendu, chacune de ces méthodes comporte certaines limites. D’abord, la localisation d’un état stable est sujette à une importante variabilité inter-analystes. Une prise de mesure à 50 % de la durée résout ce problème, mais revient à postuler, tout comme la première technique, que l’information la plus pertinente contenue dans les voyelles se situe en leur centre, lorsqu’elles sont stabilisées. L’estimation des fréquences formantiques après un nombre déterminé de millisecondes est confrontée à la durée variable des voyelles : la prise de mesure peut survenir à un moment radicalement différent de l’évolution des segments, ou être tout simplement impossible si la durée est très courte. La méthode de Labov et coll. (1972) est difficilement applicable lorsque l’occurrence analysée est adjacente à une voyelle au F1 plus élevé, produite isolément, ou en syllabe ouverte. Relever la fréquence des formants lors de l’atteinte d’une valeur minimale ou maximale repose entièrement sur une classification et une description phonologiques des voyelles et fait abstraction de leur multidimensionnalité. Dans l’exemple proposé précédemment, la prise de mesure est effectuée en fonction de la valeur de F1 en raison du degré d’aperture des voyelles, mais on ne saurait oublier que celles-ci sont également caractérisées par leur position relative sur le continuum de l’antéropostériorité, qu’elles peuvent être arrondies ou non, rhotiques ou non, orales ou nasales. En dépit de leurs limites, toutes ces méthodes sont simples à implémenter, nécessitent un temps d’analyse réduit et peuvent s’avérer tout à fait pertinentes et suffisantes selon l’objet d’étude (Thomas, 2011 : 150).

Très tôt, il est apparu qu’une seule prise de mesure posait problème pour l’étude de diphtongues ou de voyelles diphtonguées, qui par définition possèdent deux timbres distincts (Lehiste et Peterson, 1961 : 277). L’analyse en plus d’un point de mesure s’est alors imposée et les différentes techniques décrites précédemment ont été adaptées : localisation de deux états stables plutôt qu’un seul, deux prises de mesure à intervalles fixes (par exemple, à 25 % et à 75 % de la durée, ou 30 ms après l’établissement et 30 ms avant la queue). Aux limites déjà exposées de ces techniques s’ajoute le problème de l’absence potentielle d’état stable de la première, de la seconde ou des deux portions d’une diphtongue (Lehiste et Peterson, 1961). Concernant la méthode de Labov et coll. (1972), pour une diphtongue comme /ai/ (PRICE), où le F1 maximal est atteint dans la première portion, il a été proposé de rendre compte de la seconde en fonction de l’atteinte de la valeur maximale de F2. Cette stratégie pose cependant problème si la seconde portion de la diphtongue entraîne une diminution de F1 et de F2, par exemple dans /au/ (MOUTH). Enfin, l’adaptation de la méthode des minima et maxima fréquentiels à l’étude des diphtongues implique de multiplier les considérations théoriques liées à leur classification et à leur description phonologiques. Par exemple, pour la diphtongue /au/, on pourrait choisir de prendre une première mesure lorsque F1 atteint son maximum dans la section /a/, puis une seconde lorsqu’il atteint son minimum dans la section /u/, mais encore faut-il décider si /u/ est plus adéquatement décrit en fonction de son degré d’antéropostériorité, auquel cas la prise de mesure dans la seconde section pourrait davantage être guidée par l’atteinte du minimum de F2. L’idée de prendre en considération plusieurs points de mesure lors de l’évolution temporelle des voyelles ne s’est cependant pas limitée à l’étude de la diphtongaison. En particulier, depuis une trentaine d’années, certains chercheurs mettent de l’avant l’hypothèse selon laquelle toutes les voyelles, monophtonguées et diphtonguées, possèdent une dynamique spectrale inhérente et résistante à la coarticulation, dont il faut tenir compte lors de leur description acoustique (Morrison et Assmann, 2013). Nommé VISC (vowel inherent spectral change) depuis Nearey et Assmann (1986), ce phénomène devenu paradigme expérimental a notamment été exploré en FQ, dans le cadre du projet CAVOQ. La modélisation de base utilisée pour l’étude de la dynamique spectrale des voyelles est celle de la double cible, qui correspond à la prise de mesure à intervalles fixes, par exemple à 25 % et à 75 % de la durée vocalique. À partir de ces deux indices et de la durée, certains chercheurs procèdent également à différents calculs qui visent à décrire d’autres aspects des changements spectraux, comme leur vitesse et leur direction (voir Nearey et Assmann, 1986; Fox et Jacewicz, 2009). La modélisation peut être encore raffinée, Fox et Jacewicz (2009) utilisant par exemple cinq points de mesure, Sóskuthy et coll. (2018) onze, Zahorian et Jagharghi (1993) des transformées en cosinus discrètes (discrete cosine transform ou DCT).

Que l’on reconnaisse ou non l’importance de la dynamique spectrale pour la description des voyelles du français (voir Gottfried, 1984 pour une critique), la prise en compte de plus d’un point de mesure pour toutes les voyelles, telle que proposée par les défenseurs du VISC, évite au chercheur de devoir statuer sur le caractère plus ou moins diphtongué des occurrences analysées. En FQ, où la diphtongaison est un phénomène davantage phonétique que phonémique, dont l’incidence peut dépendre de facteurs externes tels que l’origine géographique des locuteurs (Leblanc, 2012) ou la formalité de la situation de communication (Reinke, 2005 : 38-39), une telle stratégie permet d’éviter la fastidieuse opération de la catégorisation auditive. En revanche, Thomas (2011 : 150) fait remarquer que la représentation graphique des occurrences peut perdre en convivialité et l’interprétabilité, être compromise : « [w]ith a larger number of points, […] the formant measurements can wander in seemingly erratic directions through the course of the vowel, making comparisons between tokens difficult ». Notre étude reposant sur la comparaison entre les occurrences produites au T1 et au T2, une modélisation excessivement fine des changements spectraux pouvait potentiellement nous mener à l’impasse. Comme décrit ci-après, nous avons ainsi opté pour un compromis entre exhaustivité de la paramétrisation acoustique et clarté des comparaisons entre occurrences et avec les résultats issus d’autres études. Le choix de nous limiter à des indices acoustiques dont la robustesse a été éprouvée (durée et trois premiers formants) est également motivé par de telles considérations.

Les voyelles orales récoltées ont d’abord été segmentées afin d’en mesurer la durée (logiciel Praat, Boersma et Weenink, 2018). La segmentation a été effectuée manuellement; les frontières marquant le début et la fin des voyelles ont été établies selon la meilleure combinaison des indices acoustiques suivants : de l’apparition à la disparition de la périodicité et d’une structure formantique en basses fréquences, et d’une hausse à une chute de l’intensité. Parmi les 15 048 voyelles orales de notre corpus (76 mots × 3 tâches × 2 expérimentations × 33 locuteurs)48, 35 ont été jugées impossibles à segmenter ou à analyser subséquemment (0,23 %). En grande majorité, il s’agissait de voyelles fermées, en syllabe ouverte, précédées d’une consonne fricative (vie, fou, déchu) et produites lors de la tâche 1.

La fréquence des trois premiers formants a été estimée à intervalles fixes, soit à 25 %, à 50 % et à 75 % de la durée. La prise de mesure centrale constitue la valeur de référence pour un formant donné et pour la suite de cette contribution, lorsque nous évoquerons la valeur d’un formant sans en préciser le point de mesure (par souci d’alléger le texte), nous ferons par défaut référence à

48

En réalité, 96 mots sont compris dans notre corpus, mais nous n’avons pas analysé les 19 mots comportant l’une des voyelles nasales / ɔ œ /, ni le mot même, dont la voyelle était souvent entièrement nasalisée.

l’estimation de sa fréquence à 50 % de la durée. En ce qui concerne les points de mesure à 25 % et à 75 % de la durée, nous en avons tiré la dynamique formantique, modélisée comme la différence entre la valeur d’un formant donné à 25 % de la durée et sa valeur à 75 %. Par exemple, pour une voyelle dont le F1 aurait une fréquence de 500 Hz à 25 % et une fréquence de 510 Hz à 75 %, la dynamique de F1 serait de 10 Hz. Si la valeur à 75 % était plutôt de 490 Hz, la dynamique de F1 serait de -10 Hz. La différence entre la valeur estimée des fréquences formantiques à 25 % et à 75 % de la durée vocalique sera désormais évoquée sous le terme de dynamique.

En ce qui concerne les paramètres de détection des formants, ceux compris dans la liste ci-dessous sont demeurés fixes pendant toute l’analyse :

- Méthode : Burg

- Pré-emphase à partir de : 50,0 Hz - Largeur de la fenêtre : 0,025 s - Intervalle dynamique : 30,0 dB

Le seuil maximal de détection et le nombre de formants à détecter dans l’intervalle ont quant à eux été optimisés pour chaque occurrence, plus d’une configuration étant parfois nécessaire. En dépit de ces précautions, certaines valeurs sont manquantes, en particulier le F3 de /o/ et de /u/ sur une partie ou la totalité de la durée, représentant 0,71 % de l’ensemble des mesures formantiques possibles et 1,98 % des mesures de F3 possibles.

La durée et la fréquence des trois premiers formants à 25 %, à 50 % et à 75 % de la durée ont été relevées automatiquement au moyen d’un script Praat reproduit en Annexe 4. La valeur brute des indices acoustiques relevés, exprimée en hertz ou en secondes, a été utilisée pour nos représentations et analyses. Nous reviendrons brièvement sur ce choix de ne pas normaliser les données dans la section décrivant les analyses statistiques (5.6.1).

Documents relatifs