1.6. Bilan et hypothèses
2.3.2. Données acoustiques
Figure 2.4. Illustration de l'étiquetage du signal audio via Praat. La première ligne sert à définir la longueur totale de la séquence V1-‐C-‐V2 et à l'identifier, la seconde ligne sert à définir les limites de chaque segment individuel (de gauche à droite, voyelle V1, tenue consonantique représentée par le symbole $, relâchement consonantique correspondant à la définition du VOT de Klatt, voyelle V2, cf. texte pour les détails). Les barres rouges sur la première ligne symbolisent les instants clés pour lesquels les images échographiques correspondantes sont extraites (milieu de V1, fin de V1, le
relâchement consonantique et enfin le milieu de V2).
2.3.2. Données acoustiques
Afin de mettre à l'épreuve nos hypothèses de recherche concernant la précision des réalisations vocaliques, ainsi que la mesure de l'anticipation intra et extra-‐syllabique, nous avons effectué une série de mesures dans le domaine acoustique. Concernant les voyelles, la mesure des deux premiers formants, au centre de la voyelle isolée et de V1, constitue à la fois un indice sur la précision des réalisations vocaliques et sur la mesure de l'anticipation extra-‐syllabique. La mesure des caractéristiques spectrales du burst consonantique et les équations de locus (exprimant les relations entre le F2 au début de la voyelle, tel que défini ci-‐dessus dans la section 2.3.1, et le F2 au milieu de V2) permettent, quant à eux, une mesure de l'amplitude de la coarticulation intra-‐syllabique.
2.3.2.1. Indices mesurés
Une fois l'étiquetage du signal audio terminé, il reste à effectuer des mesures sur les moments d'intérêt du signal acoustique. L'estimation des valeurs paramètres qui nous intéressent ne sont pas extraites via le logiciel Praat, même si ce dernier le permet.
L'estimation des valeurs de formants des voyelles produites par de jeunes enfants est en effet une tâche délicate (la fréquence fondamentale, F0, très élevée chez les enfants complexifie grandement la séparation des composantes spectrales liées à la source de celles liées au filtre, ou conduit vocal), et la fiabilité de la détection des formants de Praat, si bonne soit-‐elle avec de la parole adulte, montre ses limites avec les production enfantines (notamment les changements d'estimation drastiques quand on change le paramètre du nombre de formants voulu dans la plage de fréquences définie). Les estimations des indices que nous avons choisis de mesurer sont effectuées sous MATLAB avec des programmes que nous avons écrits et paramétrés spécialement pour faire face à cette difficulté.
2.3.2.2. Indices mesurés pour les voyelles : estimations de formants
Toutes les informations concernant les moments définis par les bornes manuellement annotées sous Praat sont contenues dans des fichiers .TextGrid. Ces informations sont relues par des routines MATLAB afin de lire les morceaux choisis des signaux audio. Les estimations de formants pour les voyelles sont effectuées via la méthode de Linear Predictive Coding (LPC). Puisque la détection de formants pour les productions enfantines est délicate, nous avons combiné les résultats donnés par l'estimation des valeurs maximales dans le spectre LPC et ceux des valeurs estimées des pôles dans le filtre LPC.
Pour chaque voyelle, une plage de valeurs autorisées a été définie dans le but d'éliminer les erreurs de détection et les outliers. Ces plages de valeur ont été définies spécifiquement pour les enfants, les adultes hommes et les adultes femmes, et sont données dans le tableau 2.1 ci-‐dessous.
Tableau 2.1. Valeurs en Hz des bornes inférieures et supérieures des intervalles de recherche pour devient laminaire (apparition d'une structure formantique appelée par la suite initiation
du F2) et au milieu de la voyelle. Si la production de la consonne est influencée par la voyelle suivante, alors cette influence devrait être observable dans les transitions formantiques dès l'initiation du F2. Pour le dire simplement, si la production de la consonne dépend de la voyelle suivante, le F2 de cette consonne doit varier en fonction de cette voyelle et adopter des valeurs différentes selon la voyelle suivante. Les transitions formantiques sont dans ce cas minimales, puisque les lieux d'articulation de la voyelle et de la consonne sont rapprochés au maximum. Dans le cas opposé, si la voyelle suivante n'a aucune influence sur la réalisation de la consonne, alors le F2 de cette consonne ne doit pas dépendre de la voyelle suivante, et les transitions formantiques doivent être maximales puisque les lieux d'occlusion de la voyelle et de la consonne ne sont pas maximalement rapprochés.
En représentant, dans un espace en 2 dimensions, dont l'abscisse est le F2 au milieu de la voyelle et l'ordonnée F2 à l'initiale, la régression entre ces 2 valeurs, on mesure bien d'une certaine façon la relation qu'entretient la consonne avec la voyelle suivante. La valeur de la pente de ces Equations de Locus est alors mesurée (régression entre les 2 valeurs susmentionnées), une pente de 0 indiquant l'absence de coarticulation (aucune influence de V sur la réalisation de C) et une pente de 1 indiquant un maximum de coarticulation (influence maximale de V sur la réalisation de C).
Figure 2.5. Illustration des transitions formantiques et des valeurs extrêmes des Equations de Locus correspondantes, d'après Sussman et al. (1999).
Cet indice, introduit par (Krull, 1987) a été extensivement utilisé notamment par Sussman et collègues pour mesurer la coarticulation entre plosives et voyelle au sein de syllabes CV. Cet indice, uniquement acoustique, est censé refléter la coarticulation, plus traditionnellement réservée aux mesures articulatoires. D'ailleurs, la validité de cet indice, en relation avec des mesures sur le plan articulatoire, établie par (Krull, 1987), est vivement contestée, notamment par (Löfqvist, 1999), qui ne retrouve aucune correspondance entre divers indices articulatoires et les Equations de Locus comme mesure de la coarticulation. Par ailleurs, il ne semble que ces mesures ne soient valables pour les plosives, car elles ne semble pas être pertinentes pour les fricatives (Tabain, 2000) et ne sont valables que pour les syllabes CV et pas pour les syllabes VC.
D'après Sussman (Sussman et al., 1992), les valeurs du formant F2 de V2 à son tout début (fin du VOT de Klatt, cf. section 2.3.1) sont de précieux indices sur les consonnes, puisqu'elles donnent une indication, en relation avec la valeur de F2 au milieu de V2, de l'amplitude de la coarticulation CV2. Ces valeurs de F2 au début et au milieu de V2 serviront à mesurer les Equations de Locus au sein de la syllabe CV2, afin de tirer une information sur l'amplitude de la coarticulation au sein de la syllabe. Pour une opinion critique des Equations de Locus, cf. section 1.4.3)
2.3.2.4. Durée des segments et des séquences
En plus des mesures de ces indices sur les voyelles et les consonnes, les durées des segments ont été mesurées, ainsi que la durée totale de chaque séquence.
2.3.2.5. Normalisation des valeurs de formants
Puisque les Espaces Vocaliques Maximaux des hommes adultes, des femmes adultes, et ceux des enfants sont très différents (Peterson & Barney, 1952 ; Fant, 1960 ; Fant, 1975 ; Mol, 1970 ; Ménard et al., 2004 ; Vorperian & Kent, 2007) -‐ la variabilité interindividuelle étant également importante -‐ les données brutes des valeurs de formants en Hz ne permettent pas une confrontation directe des données enfant et adulte, ni pour la mesure de la variabilité ni pour celle de l'anticipation. En effet, les ellipses de dispersion des catégories vocaliques des enfants sont forcément plus grandes que celles des adultes comparées en Hz, parce que leur conduit vocal est plus court que celui des adultes et
produit donc des résonances associées à des longueurs d'onde plus courtes, donc méthode consiste, pour chaque participant pris individuellement, à soustraire à chaque valeur la moyenne de l'échantillon, puis à diviser le tout par l'écart-‐type de ce même