• Aucun résultat trouvé

2.3 Résultats

2.3.2 Détection des cibles tonales

La détection des cibles tonales a été eectuée selon la procédure manuelle, le LSF et MOMEL. Nous allons d'abord commenter quelques exemples de détection. Dans les gures 2.9, 2.10 et 2.11, la dernière portion de la phrase porteuse est illustrée, qui contient le verbe vedere et le dernier mot prosodique (c'est-à-dire, le mot-cible). Nous avons fait un zoom sur cette région pour examiner de plus près les diérences de localisation parmi les trois procédures. Les résultats de la localisation sont indiqués par un cercle (sur le point def0 identié comme L1) et par une èche. Les étiquettes indiquent : MOM= MOMEL ; LSF=

Least Square Fitting ; man= détection manuelle. Dans le TextGrid, le premier tier contient l'information d'alignement détectée par les trois méthodes, et le deuxième les segments (pour rendre la lecture plus simple, nous avons fait une transcription orthographique dans les exemples). Comme on peut le remarquer, les trois procédures donnent des résultats très diérents.

Dans la g. 2.9, par exemple, la cible L1 est détectée au début de la montée par la méthode manuelle, début qui coïncide aussi avec le début de l'attaque syllabique /d/.

LSF et MOMEL localisent L1 dans une région temporelle plus avancée. En particulier, L1 est localisé par LSF dans le plateau de la première voyelle du mot prosodique La Dana, donc avant le début de la syllabe accentuée. Une possible explication est que la détection du LSF a été inuencée par la une forme convexe dans la région entre le début de la syllabe accentuée et le pic maximal de f0. Puisque l'algorithme se base sur une fonction linéaire, il est probable qu'il n'a pas réussi à apprécier cette subtile variation de forme. Il faut noter que nous ne faisons pas ici des hypothèses précises sur la raison de cette forme convexe (qui peut être dû à la présence de l'occlusive sonore en position d'attaque ou encore à des propriétés typiques de l'accent nucléaire des armations), mais tout simplement sur comment certains paramètres acoustiques peuvent avoir inuencé la détection. MOMEL tend à placer la cible encore plus avant que le LSF, notamment sur le creux provoqué par la liquide /l/. En général, en fait, la localisation de la cible basse par MOMEL était beaucoup plus avancée par rapport à celle du LSF et à la détection manuelle. Cela peut être dû à une diérence intrinsèque dans la notion de cible, qui est dénie dans MOMEL comme l'extrémité d'une parabole. En d'autres termes, la cible

est le résultat de l'application d'une régression polynomiale quadratique, et non d'une régression linéaire, comme dans le LSF.

Dans d'autres cas, la présence des perturbations segmentales a créé des problèmes pour la détection manuelle. Par exemple, dans la g. 2.10 le bruit de friction de la consonne /r/

provoque une forte baisse de laf0 en correspondance avec cette consonne. La valeur mini-male def0 atteinte dans l'attaque consonantique a été donc considérée comme le résultat d'une perturbation segmentale, et la cible a été localisée quelques millisecondes avant la perturbation. Pour la même courbe def0, le LSF localise la cible après la perturbation et MOMEL, au contraire, au début du mot prosodique. Il est clair que sans aucune preuve articulatoire ou perceptive, il serait impossible d'identier la localisation de la cible L1, disons, avec le point trouvé par le LSF ou par la détection manuelle. Dans plusieurs cas, cependant, les résultats de la détection manuelle et du LSF sont très similaires (g. 2.11).

Figure 2.9 Exemple de détection des trois cibles par les méthodes manuelle, LSF et MOMEL.

Figure 2.10 Exemple de détection des trois cibles par les méthodes manuelle, LSF et MOMEL.

Figure 2.11 Exemple de détection des trois cibles par les méthodes manuelle, LSF et MOMEL. Le deux étiquettes lsf et man dans le premier tier du TextGrid sont superposées.

Dans la g. 2.12, les valeurs d'alignement de L1 avec l'attaque consonantique c0 (or-données) en fonction des classes consonantiques (abscisses) sont montrées séparément pour le LSF, la méthode manuelle et MOMEL. Les résultats pour les armations et les questions sont illustrés respectivement dans les panneaux à gauche et à droite de chaque graphique.

Comme on peut le remarquer, l'alignement de L1 est plus retardé dans les questions que dans les armations, surtout lorsque la cible est détectée par le LSF et MOMEL.

L'alignement de L1 est ancré de façon stable à l'attaque de la syllabe lorsque L1 est détecté par la méthode manuelle, et ceci indépendamment de la modalité intonative. De plus, g. 2.12 la longueur des boxes est très courte pour la détection manuelle et le LSF, la diérence entre le premier et troisième quartile étant très petite. Cela est en ligne avec del Giudice et al. (2007), qui ont montré que les annotateurs humains sont très cohérents, et que le LSF peut obtenir des résultats similaires à la méthode manuelle. Bien que les résultats de la détection manuelle soient en accord avec l'hypothèse de l'ancrage

segmental, ceux obtenus par le LSF et MOMEL nous semblent plus ables. En fait, la diérence d'alignement entre les deux modalités intonatives reète les résultats perceptifs trouvés par D'Imperio (2000). Nous rappelons que D'Imperio (2000) a montré que les cibles perçues de la conguration LHL de l'accent nucléaire sont systématiquement plus retardées dans les questions que dans les armations.

Figure 2.12 Boxplots de la latence de L1 par rapport au début de la consonne (s) comme trouvé par le LSF, la méthode manuelle et MOMEL. Les résultats sont regroupés pour les deux locuteurs. La ligne tiretée marque le début de la consonne.

Cependant, la localisation temporelle exacte de L1 est diérente entre le LSF et MO-MEL. Le LSF tend à localiser L1 avant ou en relation avec l'attaque syllabique dans les armations, et juste après cette frontière dans les questions. Il faut noter cependant que les résultats de la détection varient en fonction de la classe consonantique, car la dié-rence d'alignement entre questions et armations est plus forte en présence des consonnes nasales et liquides. Au contraire, le L semble être aligné avec l'attaque obstruant, indé-pendamment de la modalité intonative. L1 est détectée à une distance bien plus large par MOMEL, car sa valeur médiane est de 57 ms avant l'attaque syllabique avant c0 dans les questions, et de 168 ms dans les armations. De plus, la g. 2.12 nous indique que dans les armations, la localisation de L1 eectuée par MOMEL est beaucoup plus variable parmi les répétitions du même mot, indépendamment du type de consonne à l'attaque syllabique. En fait, la distance entre le premier et le troisième quartile est ici beaucoup plus large,. L'incohérence des mesures d'alignement tonal obtenues par MOMEL pourrait être due à l'absence d'un vrai point d'inexion dans les armations, qui pourrait reéter

l'absence d'un ton phonologique bas dans les armations (Hirst, c.p.). Cette explication est contraire aux résultats obtenus par des investigations acoustiques menées par D'Im-perio (1999), qui a montré que le coude de f0 dans les constituants focalisés longs des armations représente une cible réelle L, donc conrmant l'analyse LH de cet accent.

Nous pensons, comme Hirst, que la cible L des armations a des caractéristiques acous-tiques diérentes du L des questions. Pendant notre expérience d'analyse acoustique, nous avons souvent remarqué que le L des questions oui/non est signalé par une accélération importante du mouvement de descente de la f0. Le L a une forme parabolique, concave dans les questions (et cela pourrait aussi expliquer pourquoi MOMEL marche mieux dans cette modalité intonative), et sa valeur mélodique est souvent beaucoup plus basse que dans les armations (voir aussi D'Imperio (2000)). Au contraire, dans les armations, le L coïncide tout simplement avec le début de la montée, souvent dicilement visible comme un point d'inexion8.

Nous avons décidé de garder l'algorithme LSF pour la localisation des cibles tonales.

Pour un souci de cohérence, cette procédure automatique a été employée également pour la détection des cibles tonales H et L2. Notamment, L- a été localisée au point d'intersection de deux lignes droites ajustées dans la région def0 entre le pic def0 et la n de l'énoncé, et la cible H au point d'intersection de deux lignes entre L1 et L2.