• Aucun résultat trouvé

Nous avons vu que diérentes mesures linguistiques sont utilisées pour décrire la hauteur et de l'étendue du registre. En anglais et en français, la hauteur est mesurée en termes de moyenne des tons bas (Patterson, 2000; Portes & Di Cristo, 2003; T. Rietveld & Vermillion, 2003) ou en termes de moyenne des tons bas naux (Menn & Boyce, 1982; Liberman & Pierrehumbert, 1984; Patterson, 2000). L'étendue l'est en termes de diérence entre la moyenne des tons hauts et la moyenne des tons bas, plus précisément, comme la diérence entre la moyenne des pics accentuels non-initiaux et la moyenne des creux post-accentuels (Patterson, 2000; Portes &

Di Cristo, 2003) ou encore comme la diérence entre la moyenne des pics post-accentuels et la moyenne des creux post-accentuels (I. Mennen et al., 2008).

Nous proposons ici, an de tester une mesure dite linguistique, d'utiliser le système de notation de l'intonation INTSINT qui permet une obtention des cibles tonales automatique, et ce, quelle que soit la langue donnée. Les possibles mesures de hauteur et d'étendue qui peuvent être eectuées à partir des cibles tonales d'INTSINT (décrit dans la section 1.5.3 du premier chapitre) sont les suivantes : la hauteur peut être mesurée en termes de moyenne des tons médians (M) ou en termes de moyenne des tons bas (B) ; l'étendue peut l'être en termes de diérence entre la moyenne des tons hauts et la moyenne des tons bas (T-B). Nous rappelons que les tons T, B et M sont dénis de façon absolue, et non relative comme le sont les tons H et L. Ils sont calculés en Hz. Contrairement à ces derniers donc, ils peuvent être utilisés pour

la mesure du registre. Les mesures de hauteur et d'étendue peuvent être également obtenues automatiquement, comme nous l'avons expliqué en 1.5.3, en prenant compte de l'ensemble des points cibles observés, et ce, selon une procédure d'optimisation. Nous utilisons donc ces diérentes mesures dans le calcul de la hauteur et d'étendue du registre an de les comparer aux mesures acoustiques (cf. en 4, un récapitulatif des mesures acoustiques et linguistiques que nous proposons de comparer dans cette section).

Mesures acoustiques (f0 ) Mesures linguistiques (INTSINT)

Hauteur Médiane Moyenne des tons M(Mid)

log2(M ediane) Moyenne des tons B (Bottom) Calcul par optimisation (Key)

Etendue log2(max/min) T - B

Calcul par optimisation(Range) Table 4 Mesures acoustiques et linguistiques utilisées dans le calcul de la hauteur et l'éten-due du registre.

3.3 Corpus et base de données

3.3.1 PFC et AIX-MARSEC

Nous avons utilisé pour cette expérience les corpus PFC et AIX-MARSEC décrits en 2.1. Nous avons sélectionné la lecture oralisée des 10 locuteurs du PFC et la production de 53 locuteurs d'AIX-MARSEC, enregistrements dont la qualité permet une étude de la f0 . Nous avons également étendu notre analyse aux corpus PAC et CID que nous présentons ci-après.

3.3.2 PAC

Le corpus Phonologie de l'Anglais Contemporain, usages, variétés et structures, nalité d'un projet coordonné par J. Durand (Toulouse II & ERSSCNRS) et P. Carr (Montpellier III &

ERSS-CNRS), a été mené dans le but de créer une base de données permettant l'analyse comparative des variétés de l'anglais contemporain. Le PAC, soumis au même protocole que le PFC, est ainsi et également représentatif d'un nombre important de locuteurs (hommes et femmes, âgés entre 20 et 70 ans environ, issus de régions diverses du monde anglophone) et de diérents types de production (lecture à voix haute d'une liste de mots, lecture d'un passage, conversations guidées et conversations libres).

Pour notre part, nous avons sélectionné 8 locuteurs du Nord de l'Angleterre (Lancashire,

Greater Manchester and West Yorshire), 3 hommes et 5 femmes, agés de 20 à 30 années et avons retenu de leur production la lecture de texte, an de mener une analyse comparée de nos données pour l'anglais et le français sur un même type de production. Comme pour le PFC, la lecture de texte est en eet une lecture à voix haute d'un passage de type article de journal régional, ne posant aucune diculté de compréhension.

3.3.3 CID

Le CID, Corpus of Interactional Data, (Bertrand et al., 2007, 2008) est un corpus audio-vidéo de 8 heures, en français, constitué au Laboratoire Parole et Langage, et conçu pour l'analyse multimodale de la langue parlée. L'annotation du CID inclue ainsi la phonétique, la prosodie, la morphologie, la syntaxe, le discours et la mimo-gestualité. Ce corpus s'est avéré avantageux en plusieurs points. Tout d'abord, il relève de la parole authentique. En eet, les sujets partici-pants avaient pour tâche d'évoquer des conits professionnels ou des situations insolites dans lesquelles ils s'étaient trouvés, résultant en des dialogues riches d'actes de communication. Il est à noté d'ailleurs que les participants pouvaient à tout moment délaisser la consigne qui leur avait été proposée et s'adonner librement à d'autres sujets de conversation. Le CID comprend ainsi de nombreuses séquences de narration, de description, d'argumentation ou d'explication.

De plus, le CID nous est paru avantageux de par le temps de parole qu'il représente (8h), une base de données conséquente permettant la conduite d'analyses pertinentes et le déve-loppement d'algorithmes performants. Le corpus est d'autant plus intéressant pour nous qu'il ore une transcription orthographique et une annotation phonétique de la parole, ainsi qu'un découpage en unités interpausales et segmentales alignées avec le signal. 16 sujets (10 femmes et 6 hommes) ont donc été enregistrés pour ce corpus. Ils sont tous de langue maternelle française, et issus de diverses régions de France, la moitié d'entre eux étant natifs de la région PACA ou y résidant depuis plus de 20 ans.

Dans notre travail, nous avons sélectionné une partie des données et avons gardé la production de 6 locuteurs (3 hommes et 3 femmes), un total de 30 minutes d'enregistrement.

Nous proposons donc, dans cette analyse, d'étudier les registres de 75 locuteurs. Un tableau synthétique che les données en 5.

AIX-MARSEC

PAC PFC CID TOTAL

LOC LANGUE 51 Anglais 8 Anglais 10 Français 6 Français 75 locuteurs

SEXE 13F, 38H 4F, 4H 6F, 4H 3F, 3H 27F, 48H Table 5 Informations sur les données utilisées : une synthèse.

Nous proposons tout d'abord, avant de comparer les mesures acoustiques et linguistiques, d'analyser la distribution des données. Cela nous permettra de mieux comprendre la façon dont elles se comportent et ainsi penser à un calcul optimal de hauteur et d'étendue du registre.