Méthodes de détection des cibles tonales - Le rôle de la variabilité phonétique dans la représe

2.2 Méthodes

2.2.4 Méthodes de détection des cibles tonales

La localisation des cibles tonales a été eectuée pour les questions oui/non ainsi que pour les armations à focalisation retardée. A l'intérieur de la conguration montante-descendante de f₀, nous avons mesuré la valeur de f₀ (en Hz) pour les points correspon-dants à la cible basse L (L1) et à la cible haute H de l'accent nucléaire ainsi qu'à l'accent de syntagme L- (L2) suivant.

La localisation de L1 a été particulièrement dicile parce que la région près du début de la syllabe accentuée (où on s'attend à la réalisation de L1, D'Imperio (2000)) était souvent caractérisée par des perturbations segmentales dues au type de consonne en po-sition d'attaque. Par exemple, dans la g. 1.3, le début de la consonne /d/ de Dana est

marqué par une chute de la f₀, suivie d'une montée soudaine jusqu'à la frontière avec la voyelle basse /a/. A la n de la constriction consonantique, les valeurs de f₀ diminuent sensiblement et un creux def₀ est créé dans la première portion de la voyelle.

Dans des cas problématiques comme celui qu'on vient de décrire, l'utilisation d'une méthode de détection des cibles qui soit subjective ou peu robuste pourrait biaiser forte-ment les résultats relatifs à l'aligneforte-ment tonal. Nous savons que les choix de localisation peuvent être très diérents. La plupart des chercheurs s'appuient sur la détection ma-nuelle. Dans ces cas, les critères de localisation de la cible, bien que consistants, peuvent diérer selon l'étude spécique : on peut localiser la cible basse au début de la montée def₀, au minimum local de f₀ ou, en cas de perturbations segmentales, quelques millise-condes avant ou après la perturbation. Dans d'autres cas, des procédures algorithmiques d'extraction de l'information tonale sont employées. Cependant, il y a encore très peu d'études qui ont comparé ces méthodes de façon systématique (del Giudice et al., 2007).

Dans notre expérience, nous allons comparer les résultats de la méthode manuelle avec ceux provenant de deux procédures automatiques pour la détection de L1 : la méthode des moindres carrés (Least Square Fitting, LSF) déjà utilisée, entre outres, par D'Imperio (2000) et Welby (2003) ; et l'algorithme MOMEL, développé par Daniel Hirst et collègues (Hirst & Espesser 1993; Hirst et al. 2000; Campione et al. 1997). Nous avons décidé de limiter la comparaison à L1. En fait, à cause de la variabilité de la consonne d'attaque syllabique (autour du quel L1 est réalisé), L1 était la cible la plus dicile à localiser, et donc aussi celle pour laquelle les diérences entre les trois méthodes auraient pu mieux ressortir.

L'étiquetage manuel de L1 a été eectué par l'auteur. Le protocole suivi était basé sur des critères purement acoustiques inspirés aux critères de détection tonale déjà employés dans la littérature (Prieto et al., 1995; Arvaniti et al., 1998; Ladd et al., 1999, 2000; del Giudice et al., 2007, inter alia) :

Localisation de L1 dans la région du début de la syllabe accentuée, où la cible est attendue ;

Étiquetage du minimum de f₀ avant le début de la montée comme L1 ;

Si ce minimum est dû à une perturbation microprosodique locale, prendre la valeur

de f₀ à 10 ms avant le minimum (car nous supposons que ce type de perturbation ait des eets strictement locaux) ;

Si un plateau bas de f₀ est présent, prendre le point nal du plateau, qui est placé avant le début de la montée de f₀;⁴

Pour chaque chier, la forme d'onde, le spectrogramme et le contour de f₀ de l'énoncé étaient visibles. La décision concernant la localisation de la cible L1 a été stockée dans un niveau d'annotation qui allait s'ajouter aux niveaux de segmentation déjà existants (g.

2.1) dans les TextGrids correspondants.

La méthode des moindres carrés (LSF) a été conçue par Mary Beckman et utilisée, entre autres, par D'Imperio (2000) en italien napolitain.⁵. Nous précisons qu'ici nous n'utilisons pas la version R du script de Mary Beckman, mais une version équivalente de l'algorithme adapté à l'environnement Cygwin par Robert Espesser (Laboratoire Parole et Langage, Aix-en-Provence). Dans cet algorithme, la position du creux est à l'intersection des deux lignes droites, qui représentent le résultat de deux régressions linéaires ajustées dans une région temporelle pré-spéciée du contour de laf₀de chaque phrase (une pour les points def₀ à gauche du coude et l'autre pour les points à sa droite). Le point d'intersection sélectionné en tant que coude est celui du modèle dont l'écart total est le plus petit (g. 2.2). Le succès de l'estimation dépend aussi de la région du contour sélectionnée, dans laquelle l'algorithme cherche le coude. Dans notre expérience, nous avons choisi la portion de f₀ du début du mot prosodique jusqu'au pic de f₀. Ce choix est motivé par des présupposés théoriques, car plusieurs études ont montré qu'en napolitain la cible L tend être réalisée autour de l'attaque consonantique et ceci, indépendamment de la durée du mot dans lequel il est réalisé (D'Imperio, 2000; Petrone & Ladd, 2007). De plus, la fenêtre d'analyse était susamment large (environ 300 ms) pour minimiser l'impact de

4. Nous considérons le plateau bas comme l'ensemble des points def0pour lequel la valeur de chaque point ne dière pas de +/- 2 Hz relativement au point précédent. Ce critère a été déjà employé par D'Imperio (2000) pour les plateaux hauts en napolitain.

5. D'Imperio (2000) appelle cette technique two-line regression method (méthode des deux lignes de régression). Bien que cette appellation soit plus appropriée, dans ce travail nous accueillons le nom LSF introduit par del Giudice et al. (2007). En fait, il faut noter que l'expression méthode des moindres carrés désigne, en général, une méthode d'ajustement des paramètres d'un modèle (intercepte, pente) pour trouver la fonction qui reproduit le mieux les données expérimentales, c'est-à-dire qui minimise la somme quadratique des écarts entre données et le modèle. Cette méthode est sous-jacente non seulement à la two-line regression method, mais aussi à d'autres algorithmes d'approximation du contour intonatif, tels que MOMEL.

variations microprosodiques sur l'ajustement du modèle.

Figure 2.2 Courbe def₀ et lignes de régression estimées par le LSF. Le coude de f0 est au point d'intersection des deux lignes (elbow). Tiré de D'Imperio (2000), p. 95.

L'algorithme MOMEL repose sur l'hypothèse selon laquelle le contour de f0 est le résultat de la superposition de deux phénomènes distincts et indépendants, la macropro-sodie (qui caractérise le choix intonatif d'élocution) et la micropromacropro-sodie (qui correspond aux variations mélodiques à court terme propres aux segments). Le contour intonatif est obtenu par un lissage de la courbe de f0 qui vise à ltrer de façon drastique les eets segmentaux. Le contour est représenté comme une séquence de cibles tonales liées par des arcs de parabole. Dans une première étape, l'algorithme supprime tous les points de la courbe initiale dont la valeur mélodique est située à plus de 5% au-dessus de celle des points avoisinants, car ils seraient dûs à des simples perturbations segmentales telles que le début du voisement. Une fenêtre glissante de 300 ms parcourt le signal acoustique de gauche à droite. La courbe def0 extraite sur chaque fenêtre est estimée par un polynôme de second degré. Dans cette étape, les valeurs de f₀ situées à plus de 5% au dessous du polynôme sont aussi considérées comme le résultat d'eets segmentaux et donc suppri-mées. Dans chaque fenêtre, les points qui correspondent aux extrémités minimales ou maximales de la parabole (c'est-à-dire aux passages par zéro de la tangent) sont extraits

comme candidats possibles pour la localisation des cibles (g. 2.3). Pour ce faire, l'espace temporel est partitionné de manière à isoler chacun des lieux où se regroupent les points d'inexion. Sur chaque partition sont alors calculés la moyenne des candidats, et l'écart type des réalisations (écart type en temps et en fréquence). Les valeurs éloignées des va-leurs moyennes d'une distance supérieure à l'écart type (soit en temps, soit en fréquence) sont supprimées, et la moyenne est alors recalculée sur les points restants. La cible nale correspond donc à cette moyenne en temps et en fréquence (g. 2.4). Nous renvoyons à Hirst & Espesser (1993) pour plus de détails.

Figure 2.3 Cible locale calculée pour l'instant X. La cible (target) est dénie par sa localisation temporelle (t) et par sa valeur mélodique (h). Tiré de Campione et al.

(1997), p. 23.

Figure 2.4 Courbe def₀, courbe quadratique par morceaux estimée (ligne conti-nue) et cibles (cercles) trouvées par MOMEL. Tiré de Campione et al. (1997), p.

24.

Bien que nous ne sachions pas où la cible L1 va être réalisée exactement, nous nous

attendons à ce que l'alignement de cette cible soit plus retardé dans les questions que dans les armations. En fait, D'Imperio (2000) a montré que dans l'italien de Naples, lorsque la cible L perçue a un alignement acoustique avancé relativement à la syllabe, les auditeurs identient un nombre élevé d'armations ; lorsque la cible perçue montre un alignement plus retardé, les auditeurs identient un nombre élevé de questions. Puisque nous supposons qu'il y a une correspondance entre les cibles acoustiques et les cibles perçues, nous employons les découvertes de D'Imperio (2000) comme critère de abilité pour la localisation de L1 dans nos données (voir aussi le par. 2.1).

Dans le document Le rôle de la variabilité phonétique dans la représentation des contours intonatifs et de leur sens. ~ Association Francophone de la Communication Parlée (Page 92-97)