• Aucun résultat trouvé

4. Méthodologie

4.3. Analyse prosodique

4.3.1. Alignement texte-parole

Cette étape est nécessaire afin de pouvoir effectuer des mesures phonétiques sur le corpus de manière automatisée. Elle permet également à l’expérimentateur de se repérer facilement à l’intérieur des enregistrements lorsque ceux-ci sont de longue durée. L’alignement consiste à segmenter les enregistrements en unités (par exemple des mots ou des syllabes) sur un logiciel d’analyse acoustique. On fait ensuite correspondre chaque unité avec sa transcription orthographique ou phonétique. Le résultat de l’alignement est illustré ci-dessous (cf Figure 15) en reprenant l’énoncé de la figure précédente.

Nous avons segmenté les enregistrements du corpus en énoncés, en mots, en syllabes et en phones. Nous avons effectué la segmentation sur le logiciel Praat (cf Boersma 2002) à l’aide de l’extension EasyAlign (cf Goldman 2011). Actuellement développé pour le français, l’espagnol et le portugais (et partiellement pour l’anglais), EasyAlign permet de réaliser la segmentation de manière automatique à partir de la transcription orthographique de l’enregistrement. Bien que l’utilisateur doive ensuite effectuer une correction manuelle, le processus est beaucoup moins long que si on segmentait l’enregistrement manuellement. EasyAlign fonctionne en trois étapes :

- macro-segmentation : L’enregistrement est segmenté en énoncés ou en groupes intonatifs. L’utilisateur indique au préalable les frontières entre unités à l’intérieur de la transcription orthographique. Un algorithme estime la position de ces frontières dans l’enregistrement en se basant sur la durée de celui-ci, ainsi que sur la longueur de la

Figure 15. Capture d’écran du logiciel Praat contenant les informations acoustiques d’un énoncé, ainsi que sa segmentation en mots, syllabes et phones obtenue à l’aide de l’extension EasyAlign. La fenêtre du haut contient l’oscillogramme de l’énoncé. La fenêtre en-dessous contient le spectrogramme, ainsi que la courbe de fréquence fondamentale de l’énoncé (en bleu). En-dessous se trouvent les quatre tires de segmentation de l’énoncé. La syllabe [kuʁ] a été sélectionnée, ce qui permet

- conversion phonétique : La transcription orthographique est convertie en transcription phonétique (en alphabet SAMPA). Cette conversion est effectuée à l’aide d’un dictionnaire intégré, ainsi que d’un ensemble de règles de prononciation (tous deux issus d’un système de synthèse de la parole). Afin de faciliter l’étape suivante, les liaisons et les schwas optionnels sont automatiquement indiqués. L’utilisateur a la possibilité de corriger manuellement la transcription phonétique.

- segmentation : La transcription phonétique est alignée, phone par phone, avec la portion de son correspondante dans l’enregistrement. L’enregistrement est également segmenté en mots. Ces deux opérations sont effectuées à l’aide d’un moteur de reconnaissance de la parole qui repère les frontières temporelles de chaque phone et de chaque mot. Enfin, une segmentation en syllabes est obtenue à partir de la segmentation en phones. Pour effectuer la syllabification, l’algorithme applique le principe selon lequel chaque syllabe doit forcément contenir une voyelle et une seule. Pour le découpage syllabique des groupes consonantiques, l’algorithme applique le principe de sonorité (cf Clements 1990).

4.3.2. Mesures de hauteur et de durée

Nous avons mesuré la hauteur moyenne et la durée des occurrences de focalisation prosodique16. Ces mesures ont été effectuées de manière automatisée sur Praat à l’aide de l’extension Prosogram (cf Mertens 2004). Prosogram permet d’obtenir une série de mesures sur toutes les syllabes du corpus, à partir d’une segmentation préalable du corpus en syllabes et en phones. Nous avons fourni à Prosogram la segmentation du corpus que nous avons obtenue à l’aide d’EasyAlign (comme décrit dans la section précédente). Les mesures effectuées par Prosogram incluent notamment la hauteur moyenne de la syllabe, sa hauteur minimale, sa hauteur maximale, son pic d’intensité, sa durée, la durée de la voyelle et la durée de la rime. Les mesures de hauteur sont uniquement effectuées sur les noyaux vocaliques des

16 Nous n’avons pas mesuré l’intensité moyenne des occurrences de focalisation prosodique. En effet, ces mesures n’auraient pas été entièrement fiables. Ceci est dû au fait que la distance entre le micro et le locuteur n’a pas été contrôlée lors de nos enregistrements, ce qui a pu créer des variations d’intensité indépendantes de la production des locuteurs. Pour contrôler la distance micro-locuteur, il aurait fallu employer un matériel très contraignant pour les locuteurs, ce qui les aurait gênés dans leurs tâches de production (et aurait donc nui à notre étude).

voyelles. Pour déterminer les noyaux vocaliques, Prosogram sélectionne la portion voisée du pic d’intensité de la voyelle. La portion voisée est déterminée de la façon suivante : il s’agit de la portion qui commence à l’instant où l’intensité est à 3 dB en-dessous du pic, et qui se termine à l’instant où l’intensité est à 9 dB en-dessous du pic. Cette méthode a pour avantage d’éliminer les variations micro-prosodiques (négligeables) en début de voyelle, et de conserver les variations de hauteur à la fin des voyelles accentuées (qui sont, elles, pertinentes).

La hauteur moyenne et la durée syllabique ont été normalisées par rapport à plusieurs paramètres :

- La hauteur moyenne a été normalisée par rapport aux locuteurs. Pour effectuer cette normalisation, nous avons converti la hauteur moyenne en demi-tons. Contrairement à l’échelle hertzienne, l’échelle tonale est indépendante des différences de registre tonal entre les locuteurs.

- La durée syllabique a été normalisée par rapport à la structure syllabique. Cette normalisation était nécessaire car, toutes choses égales par ailleurs, une syllabe de structure complexe (contenant par exemple un groupe consonantique en attaque ou en coda) a tendance à être plus longue qu’une syllabe ayant une structure plus simple. Pour effectuer cette normalisation, nous avons divisé la durée de chaque syllabe par le nombre de phones de la syllabe.

- La durée syllabique a également été normalisée par rapport au débit de parole des locuteurs. Pour effectuer cette normalisation, nous avons, pour chaque locuteur, standardisé en scores-z les valeurs de durée préalablement normalisées par rapport à la structure syllabique. La standardisation en scores-z a été effectuée sur le logiciel R (cf R Core Team 2018), à l’aide de la fonction générique scale.

- le type de contour intonatif : La classification a été effectuée de manière auditive, ainsi qu’en visualisant la courbe de hauteur des occurrences de focalisation prosodique sur le logiciel Praat. Nous nous sommes basé sur le système de transcription prosodique ToBI, dans sa version adaptée au français (F-ToBI, cf Delais-Roussarie et al 2015). Cette version a été présentée dans le premier chapitre (cf § 3.3). Pour rappel, les mouvements intonatifs sont représentés dans ToBI par des tons hauts ou bas (notés respectivement H ou L). Trois niveaux de la structure prosodique sont postulés : le groupe accentuel, le groupe intermédiaire et le groupe intonatif. Le groupe accentuel se termine par un accent mélodique (noté H* ou L*) et peut contenir un ton haut initial17 (noté Hi). Le groupe intonatif se termine par un ton de frontière (noté H% ou L%) qui est plus ample que l’accent mélodique et qui s’accompagne d’un allongement plus important. Le groupe intermédiaire se termine par un ton phrastique (noté H- ou L-), dont l’amplitude et l’allongement se situent entre ceux de l’accent mélodique et du ton de frontière. Nous avons retenu onze contours intonatifs possibles18 pour les constituants focalisés (ces contours sont illustrés ci-dessous à l’aide d’occurrences de focalisation tirées du corpus de l’expérience) :

o ton montant H*H% ou H*H- (cf Figure 16) o ton descendant L*L% ou L*L- (cf Figure 17) o ton montant L*H% ou L*H- (cf Figure 18)

o ton montant-descendant H*L% ou H*L- (cf Figure 19) o ton montant H* (cf Figure 20)

o ton descendant L* (cf Figure 20) o ton haut initial Hi (cf Figure 20)

17 Ce contour concerne les cas où le constituant focalisé comporte une accentuation initiale marquant le début d’un groupe accentuel. Le ton de fin de groupe accentuel se trouve en-dehors du constituant délimité par l’annotation des experts (dans l’exemple présenté dans la Figure 20, le ton haut Hi se trouve sur un et le ton de fin de groupe accentuel tombe à la fin de samedi).

18 Idéalement, un douzième contour aurait également dû être retenu parmi les contours possibles. Il s’agit du contour montant-descendant H+H*H%, avec montée sur la syllabe pénultième. Toutefois, ce contour ne concerne que certains types d’énoncé (énoncés vocatifs ou expression d’une contradiction, cf Delais-Roussarie et al 2015).

Figure 16. Focalisations issues du corpus comportant un contour montant H*H% (à gauche) et H*H- (à droite).

Figure 19. Focalisations issues du corpus comportant un contour montant-descendant H*L% (à gauche) et H*L- (à droite).

Figure 20. Focalisations issues du corpus comportant un contour montant H* (en haut à gauche), un contour descendant L* (en haut à droite) et un ton haut initial Hi (en bas).

- l’étendue syllabique du contour intonatif : Cette catégorie concerne les cas où le constituant focalisé comporte plusieurs syllabes. Elle désigne la ou les syllabes du constituant qui portent le contour. Comme pour le type de contour intonatif, la classification a été effectuée de manière auditive ainsi qu’en visualisant la courbe de

hauteur des occurrences de focalisation prosodique sur Praat. Nous avons identifié dans le corpus six types possibles d’étendue du contour intonatif (cf Figure 21) :

o dernière syllabe

o deux dernières syllabes o première syllabe

o deux premières syllabes o deuxième syllabe o constituant entier

Figure 21. Focalisations issues du corpus présentant différentes étendues syllabiques du contour intonatif. De gauche à droite et de haut en bas, le contour est porté par la dernière syllabe (méditation), les deux dernières syllabes (passionnant), la première syllabe (hyper), les deux premières syllabes (caricature), la deuxième syllabe (exactement) et le constituant entier

(immonde).

- la présence d’accent initial : Pour déterminer la présence d’un accent initial19 sur le constituant focalisé, nous nous sommes basé sur une détection automatique des

19 Notons que ce trait est différent du ton haut initial Hi, qui fait partie des contours intonatifs possibles sur le constituant focalisé. Comme nous l’avons expliqué plus haut (cf note 17), le ton Hi marque la frontière initiale d’un groupe de mots qui est plus large que le constituant focalisé relevé par les experts. Un constituant qui porte un ton Hi porte aussi, par définition, un accent initial. Cependant, un accent initial peut également être porté par un constituant qui porte un autre contour que le ton Hi.

proéminences dans le corpus obtenue à l’aide du logiciel Analor (cf Avanzi et al 2008). La détection est effectuée par Analor à partir d’une segmentation préalable de l’enregistrement en syllabes et en phones (nous lui avons fourni la segmentation obtenue à l’aide d’EasyAlign, cf § 4.3.1). La notion de proéminence d’Analor est plus large que la notion de focalisation prosodique que nous avons adoptée (cf § 2.1), car elle comprend également les accents rythmiques (marquant la frontière initiale ou finale d’un groupe prosodique). Analor se base sur les paramètres acoustiques suivants, tirés des recherches récentes sur la proéminence en français (cf Avanzi 2012 : 95-96) : la hauteur et la durée relatives de la syllabe par rapport aux syllabes environnantes20, la valeur du glissando montant21 (s’il est présent), et la présence d’une pause silencieuse après la syllabe. Le caractère proéminent ou non d’une syllabe est déterminé en attribuant une note à chaque paramètre (en fonction d’un seuil fixé). Un degré de force de 0 à 10 est également attribué à la syllabe en calculant la moyenne des quatre notes. On peut voir ci-dessous (cf Figure 22) les proéminences détectées par Analor dans l’énoncé que nous avons déjà vu plus haut (cf Figure 14 et Figure 15).

Figure 22. Capture d’écran du logiciel Analor. La fenêtre du bas contient la segmentation de l’énoncé en mots, syllabes et phones. Tout en bas, une tire indique les proéminences détectées par Analor. La lettre « p » indique une proéminence faible,

et la lettre « P » indique une proéminence forte (selon le degré de force attribué à la syllabe). La fenêtre du haut contient la courbe de fréquence fondamentale de l’énoncé (en bleu) ainsi que sa courbe d’intensité (en violet).