Le découpage du corpus et sa transcription .1 Analyse intonative

Méthodologie!: de l’enregistrement du corpus à la prise des mesures

2.4 Le découpage du corpus et sa transcription .1 Analyse intonative

Pour l’analyse de la parole, nous avons choisi d’utiliser le logiciel Praat, créé par Paul Boersma et David Weenick (1992-2002) aux Pays-Bas. Plusieurs raisons ont motivé ce choix de logiciel, certaines plus valables que d’autres, alors que les autres membres de l’école doctorale ont plutôt utilisé jusqu’à une date récente le logiciel Anaproz de François Colombo (ingénieur en automatique spécialisé dans le dialogue Homme-Machine) et le logiciel Unice développé par le LIMSI-CNRS.

11!Time Aligned Signal Data eXchange Format. Programme développé par Jan-Torsten Milde et Ulrike Gut à l’Université de Bielefeld en Allemagne, et présenté lors de la conférence “Speech Prosody 2002” qui s’est tenue à Aix-en-Provence (11-13 avril 2002).

12!Programme développé par Michael Kipp au DFKI (German Research Center for Artificial Intelligence) à Sarrebruck (Allemagne).

La première raison qui a motivé notre choix en faveur de Praat, est son caractère non commercial. La gratuité du logiciel ne devrait pas entrer en ligne de compte lorsqu’il s’agit de recherche scientifique, nous avons malheureusement été obligée d’en tenir compte, car l’équipe de recherche A.A.I. (Acoustique, Acquisition et Interprétation!; dirigée par J.-P. Angoujard), qui nous accueille gentiment dans ses locaux à Nantes, et met son matériel à notre disposition, ne pouvait pas se permettre de consacrer une part importante de son budget à l’achat d’un logiciel onéreux (exigeant souvent une carte son aussi coûteuse et l’achat de nouveau matériel informatique). Cette équipe avait décidé d’utiliser le logiciel Anaproz, qui a fonctionné un certain temps, puis n’a plus fonctionné du tout. Après maintes tentatives pour le remettre en service, nous avons préféré abandonner.

Nous nous sommes alors tournée vers le logiciel Praat, car nous l’avions déjà utilisé (dans le cadre de l’enseignement de phonétique acoustique dans le département d’anglais de l’Université de Nantes, nous utilisions Praat pour travailler avec les étudiants). Ceci présentait pour nous l’avantage de travailler sur un logiciel que nous connaissions déjà (d’où un gain de temps considérable, puisque l’apprentissage du fonctionnement du logiciel n’était plus à faire), et dont nous avions pu tester la fiabilité. Fiabilité qui est d’ailleurs incontestable, nombre de chercheurs travaillant en phonétique acoustique s’en sont rendu compte et utilisent également Praat pour leurs analyses.

Nous pensons également que Praat est préférable à Anaproz pour l’analyse acoustique du signal de parole, car il possède de nombreuses fonctionnalités qu’Anaproz ne possède pas. Le désavantage de Praat réside toutefois dans sa complexité d’utilisation par rapport à Anaproz. Apprendre à utiliser ce logiciel est relativement long et certaines procédures sont très complexes. Anaproz est d’une utilisation relativement aisée en comparaison et les procédures prennent peu de temps. Un autre désavantage de Praat est que ce logiciel n’est pas réellement conçu pour créer des images, mais pour obtenir des données chiffrées. Or, lorsque l’on travaille sur la prosodie, une image est souvent beaucoup plus parlante qu’une série de chiffres. En ce qui concerne la mémoire requise pour utiliser le logiciel et obtenir des calculs rapides, nous pensons que les deux logiciels sont à égalité (tous deux nécéssitent beaucoup de mémoire pour fonctionner rapidement). Par rapport à Anaproz, Praat (et notamment sa version la plus récente Praat 4.0) permet un étiquetage minutieux multi-tires (nous reviendrons plus loin sur ce point, dans la description de notre propre étiquetage de corpus), et un affichage possible, dans la fenêtre d’édition du signal, de la courbe du fondamental, de l’intensité, du spectrogramme. Ceci apporte une aide considérable dans la segmentation. En revanche, il ne permet pas, comme le fait Anaproz, de découper la fourchette d’intonation en quatre niveaux, ce que nous avons dû faire manuellement afin de pouvoir comparer nos données aux données d’autres chercheurs qui utilisent ce logiciel (sachant de plus que ce découpage en quatre niveaux est particulièrement intéressant car il permet de généraliser plus facilement). Enfin, Praat

permet d’obtenir les valeurs exactes du fondamental, de l’intensité et des formants des voyelles en n’importe quel point de la courbe, ainsi que l’extraction automatique de ces valeurs et des durées des segments après étiquetage.

Nous pouvons résumer les avantages et inconvénients des deux logiciels dans le tableau suivant!:

Tableau 1!: Tableau récapitulatif des avantages et inconvénients des logiciels Praat 4.0 et Anaproz pour l’analyse prosodique

Logiciel Désavantages Avantages

Anaproz • importante mémoire requise pour

la numérisation et le traitement des données

• résultats chiffrés parfois imprécis en certains endroits du signal • impossibilité d’afficher le spectrogramme

• fonctionne sur PC uniquement

• utilisation aisée ; procédures rapides et simples

• bonne qualité des tracés obtenus, grande lisibilité

• intégration possible des tracés dans des logiciels de traitement de texte • division de la fourchette intonative en niveaux qui facilitent le traitement des tracés et permettent la généralisation

Praat • importante mémoire requise pour

la numérisation et le traitement des données

• complexité d’utilisation ;

complexité de certaines procédures • mauvaise qualité des tracés obtenus, traitement difficile des images

• fonctionne sur PC et Macintosh • intégration possible des tracés dans des logiciels de traitement de texte • grande précision des résultats chiffrés

• étiquetage multi-tires du signal • extraction automatique des données après étiquetage

• visualisation possible de la F0, de l’intensité et du spectrogramme dans la fenêtre d’édition

• obtention de données chiffrées possible en n’importe quel endroit du signal

• possibilité de réduire le temps d’exploitation après étiquetage en utilisant des scripts, et exportation quasi-automatique des données dans Excel

2.4.2 Numérisation et étiquetage du signal

Nous avons procédé à la numérisation du signal en reliant une platine cassette Sony à un ordinateur (Macintosh de type PowerPC 603e/180) et avons enregistré avec une fréquence d’échantillonnage de 44000 Hz pour une plus grande précision des données. En revanche, cette haute fréquence d’échantillonnage exigeant plus de mémoire, nous n’avons pu enregistrer le signal que par très petites sections dans Praat (< 1mn). Ceci n’est pas gênant pour l’étiquetage (sinon que c’est particulièrement long), en revanche, ça le devient pour les calculs de moyennes et de fourchettes intonatives de chaque locutrice. Nous avons réalisé ces calculs sur un autre ordinateur, qui permettait l’acquisition d’un signal plus

long.

Nous avons ensuite procédé à un premier étiquetage (interval tier) afin de pouvoir calculer la durée des segments. Nous avons choisi comme segment repère la syllabe. Ceci peut sembler étrange pour un corpus anglais, mais cela nous permettait de pouvoir par la suite mesurer les allongements syllabiques, ce que n’aurait pas permis un étiquetage plus large comme par exemple le tone-unit (TU) dont nous parlerons plus tard. Cela nous permet également de pouvoir tenir compte des syllabes accentuées et inaccentuées. Cependant, nous avons opté pour un découpage syllabique légèrement différent d’un découpage sur un corpus de français. En effet, nous n’avons pas admis l’existence de re-syllabations (comme se serait le cas en français par exemple lors d’une liaison), sauf dans les cas de contraction d’auxiliaire!: par exemple “he’s” ne compte qu’une syllabe. Pour les mots polysyllabiques, nous avons, lorsque le cas se présentait, effectué un découpage morphologique!: par exemple “going” compte deux syllabes /go/+/ing/, où l’on a dans la première syllabe la base verbale “go”, à laquelle s’ajoute la marque du gérondif -ing, et dans un mot comme “coming”, le découpage /com/+/ing/ pour des raisons d’homogénéisation. En ce qui concerne les polysyllabiques qui ne sont pas décomposables en morphèmes, nous avons appliqué le découpage syllabique décrit pour le français par J.-P. Angoujard (1997) et qui prend en compte l’échelle de sonorité, par exemple “comprehension” compte quatre syllabes /com/+/pre/+/hen/+/sion/. Nous avons donc considéré qu’une syllabe comporte nécessairement une voyelle (en comptant comme une seule voyelle les diphtongues de type [e´] par exemple dans “wear”). Il va de soi qu’il nous faudra tenir compte de ce choix de découpage dans nos calcul de durée, puisque l’on obtient des types syllabiques variés (syllabes ouvertes et fermées, avec attaques doubles ou simples, voire même sans attaque, de même pour les codas). Nous avons fait une exception dans notre découpage syllabique pour un type de mot particulier!: la préposition “to” est souvent prononcée [th], avec élision de la voyelle, et nous avons cependant décidé de la compter comme une syllabe. Lorsqu’elle est réalisée sous une forme pleine, cette préposition se prononce [tU] ou [t´], sans élision vocalique, et surtout, sans aspiration de l’occlusive sourde puisque le mot est inaccentué. Or, dans les cas dont nous parlions, on peut considérer que cette aspiration est une forme extrêmement réduite de la voyelle. Nous avons donc mesuré la durée de cette syllabe, mais n’avons bien entendu pas calculé de fréquence fondamentale, ni d’intensité pour la syllabe. Pour revenir à notre étiquetage, nous avons segmenté le corpus en syllabes, en fixant la frontière au premier et au dernier passage par zéro (Praat permet non seulement de réaliser un zoom important pour visualiser des segments très petits, mais possède en plus un ajustement automatique au passage par zéro le plus proche de l’endroit où est placé le curseur). Nous n’avons pas tenu compte de la durée des syllabes commençant par une occlusive sourde lorsque celle-ci était précédée d’une pause silencieuse, car dans ce cas, il est difficile de

poser une frontière entre la pause silencieuse et le silence de l’occlusive sourde, mais avons néanmoins placé une frontière approximative. Lorsque les syllabes comptaient deux voyelles adjacentes qui ne formaient pas une diphtongue comme dans “go-ing”, nous nous sommes aidée de la courbe d’intensité (en plaçant la frontière entre les deux pics) et lorsque la courbe d’intensité était maintenue sans creux entre les deux voyelles, nous nous sommes aidée du spectrogramme et de notre propre perception pour placer la frontière. Nous avons ensuite procédé à un deuxième étiquetage (point tier ; dans la fenêtre d’édition de Praat, les diverses tires d’étiquetage s’affichent les unes sous les autres), qui ne consistait plus cette fois-ci en délimitation de segments mais en détermination de points dans le signal, pour pouvoir calculer la courbe du fondamental (désormais F0) et l’intensité. Nous voulions obtenir une valeur de F0 et d’intensité par voyelle et avons choisi de nous baser sur la courbe d’intensité!: en considérant que la voyelle a atteint son maximum au pic d’intensité. C’est donc à chaque pic d’intensité sur les voyelles que nous avons fixé nos points. Ceci est important dans la mesure où le pic d’intensité ne correspond pas toujours au centre de la voyelle!: lorsque par exemple, la voyelle est allongée, le pic d’intensité n’est pas nécessairement maintenu tout au long de la voyelle, mais au contraire, décroît pendant la prononciation de la voyelle. La plupart du temps, le pic d’intensité correspond au premier tiers de la voyelle.

2.4.3 Extraction et traitement des données

Grâce à cet étiquetage double, nous avons pu extraire par la suite, et de manière automatique, les durées des syllabes et des pauses en secondes, ainsi que la F0 en Hz et l’intensité en dB sur chaque voyelle. Nous avons alors exporté nos données chiffrées dans un tableau Excel, pour en faciliter non seulement la lecture, mais aussi le traitement statistique.

2.4.4 Calcul du débit

Pour calculer le débit, nous avons pris en compte le tone-unit (autrement dit le groupe intonatif) que nous allons justement définir, sans compter la syllabe accentuée dite

nucleus. Ceci nous oblige à faire une longue parenthèse, nécessaire toutefois à ceux qui ne

travaillent pas sur l’anglais et ne prennent pas en compte cette unité. Nous avons utilisé plusieurs études pour la délimitation des TU dans notre corpus!: celles de Vaissière (1997, 1998), de Cruttenden (1997, second edition) reprise de manière très claire par Deschamps, Duchet et al. dans leur Manuel de phonologie de l’anglais (2000) destiné aux étudiants qui préparent l’Agrégation d’Anglais (Part four, p.!151), ainsi que de Crystal (1969) et de Bolinger (1972).

2.5 Définition du Tone-Unit

Dans le document Relations entre discours, intonation et gestualité en anglais britannique (Page 28-33)