• Aucun résultat trouvé

Spécificités méthodologiques de l analyse des voyelles dans les voix de femmes

N/A
N/A
Protected

Academic year: 2022

Partager "Spécificités méthodologiques de l analyse des voyelles dans les voix de femmes"

Copied!
10
0
0

Texte intégral

(1)

HAL Id: hal-01667914

https://hal.parisnanterre.fr//hal-01667914

Submitted on 19 Dec 2017

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Spécificités méthodologiques de l’analyse des voyelles dans les voix de femmes

Roussi Nikolov, Nadine Herry-Benit

To cite this version:

Roussi Nikolov, Nadine Herry-Benit. Spécificités méthodologiques de l’analyse des voyelles dans les voix de femmes. Scientific Works, Plovdiv : Visš selskostopanski institut, 2008, 46 (1). �hal-01667914�

(2)

SPÉCIFICITÉS MÉTHODOLOGIQUES DE L’ANALYSE DES VOYELLES DANS LES VOIX DE FEMMES

Roussi NIKOLOV & Nadine HERRY-BENIT

Université Païssii Hilendarski – Laboratoire LAPS, EA 1569, Université Paris 8, France

Methodological and technological issues in vocal acoustics of high-pitched female voices

The present investigation follows a request for methodological support for SaRP (Speech Analyzer Rapid Plot), when such tool faces non-conventional methods to retrieve vowel formants in high-pitched female voices in order to easily get F2/F1 scatter charts with multiple data sets. A comparative study of several acoustic analysis tools (including Praat) shows that Speech Analyzer seems to be currently a better choice, in spite of inherent flaws of such software.

KEY-WORDS: SaRP, acoustic phonetics, vowels, female voices

En phonétique expérimentale, l’étude des caractéristiques prosodiques de la parole (ton fondamental, intensité et durée des sons) constitue, à juste titre sur le plan théorique, un domaine indépendant de celui des caractéristiques spectrales des sons, dans la mesure où les résonances propres du canal vocal, qui déterminent en particulier la structure formantique des voyelles, sont pratiquement indépendantes des conditions de phonation (i.e. de l’étape de génération de l’onde glottique par l’activité des cordes vocales, suivie par celle de l’articulation proprement dite, due à la fonction de transfert des cavités supraglottiques).

Or, sur le plan technique, il se trouve que la valeur de la fréquence fondamentale (f0) intervient dans la fiabilité avec laquelle les logiciels d’analyse acoustique (tels que Speech Analyzer1 et Praat2) déterminent les valeurs des formants F1, F2, F3, etc. En effet, plus la f0 est élevée, plus les harmoniques sont distancées les unes des autres3 ; les harmoniques étant plus distancées les unes des autres, chacune d’elle apparaît parfois, malencontreusement, comme un formant. Puisque la robustesse de l’estimation de toute enveloppe graphique, et en particulier spectrale, dépend du nombre de données, respectivement du nombre d’harmoniques, il ne s’agirait pas d’une imperfection algorithmique mais plutôt d’une difficulté de fond qui se voit fréquemment impliquée

1http://www.sil.org/computing/sa/index.htm

2http://www.fon.hum.uva.nl/praat/

3 Afin de se rendre compte du degré de d’éloignement des harmoniques, on peut les visualiser dans Speech Analyzer en choisissant les commandes successives dans le menu : Graphs Parameters… Spectrogram Spectral Resolution

Narrow Band Filter.

(3)

dans des problèmes d’extraction des formants vocaliques lorsque la f0 est élevée, et en particulier dans les voix de femmes. C’est une autre question que de savoir comment cette « faiblesse » de la voix féminine est compensée du côté de l’auditeur (à savoir par le recours possible à d’autres traits phoniques linguistiquement pertinents), mais aussi du côté du locuteur (par une articulation plus fine). L’articulation plus claire des femmes se manifeste d’ailleurs nettement par le caractère plus périphérique des voyelles dans le plan F1-F2. Une explication fonctionnelle de cette régularité (Diehl, Randy, Björn Lindblom, Kathryn A. Hoemeke, and Ricahrd P. Fahey, 1996 ; Ron Smyth and Henry Rogers, 2002) est basée précisément sur la différence systématique de la fréquence fondamentale : “While peripherality can be viewed as increasing contrastiveness, it is also the case that the higher f0 in women leads to decreased harmonic sampling compared to lower male voices, so the greater peripherality might simply be a compensation for this, rather than an enhancement.”

(Ron Smyth and Henry Rogers, 2002)

L’examen de nombreuses données fournies par Speech Analyzer et Praat montrent que deux facteurs viennent (logiquement) aggraver cet état de fait : 1) les sommets mélodiques (par exemple un f0 supérieur à 300 Hz, très fréquent chez les femmes pour les glissandos montants), et 2) les voyelles compactes (par exemple /a/ avec F1 et F2 proches l’un de l’autre). Méthodologiquement, il conviendrait donc de contrôler scrupuleusement les valeurs des formants vocaliques, récupérées automatiquement, lorsque le ton fondamental est assez élevé (en particulier chez les femmes), à plus forte raison s’il s’agit d’une voyelle compacte.

Toujours dans une perspective méthodologique, une bonne solution technique d’étude acoustique des voyelles, quelle que soit la voyelle et le contexte f0, est offerte par le logiciel SARP version 44, qui permet, entre autres choses, de représenter graphiquement la voyelle en récupérant les valeurs F1 et F2 assez aisément – automatiquement (dans des conditions « normales » de mesures fiables, par un simple clique du bouton du milieu de la souris), mais aussi, au besoin, de façon interactive, soit à partir du spectrogramme (par un glissement vertical de la souris), soit à partir du graphe du spectre (par un glissement horizontal de la souris).

L’exemple suivant illustre assez bien le problème d’analyse automatique de la structure formantique de certaines voyelles dans les voix de femme : il s’agit d’un enregistrement ayant une qualité de numérisation excellente (France Culture, 44100 Hz, 128 kbps) d’une voix de femme assez basse ; ainsi, toutes les voyelles apparaissent sur le trapèze de façon « idéale », c’est-à-dire parfaitement prévisible, sauf la dernière – un /a/ –, qui correspond à une montée mélodique importante (f0 = 350 Hz ; la valeur fournie de F1 est de 1022 Hz, ce qui le situe en dehors des valeurs limites, de l’ordre de 250 à 800 Hz). Les figures suivantes montrent en effet que Speech Analyzer fournit des données incorrectes quant à la voyelle finale de l’énoncé, et celles fournies par Praat sont aberrantes.

4http://web.uni-plovdiv.bg/rousni/sarp/

(4)

Fig. 1 : Forme d’onde, spectrogramme et f0 de l’énoncé : « Vous étiez capable, mais ça, je… je vous reconnais bien là. »

Fig. 2 La syllabe finale <là> : les formants fournis par Speech Analyzer

(5)

Une qualité de numérisation du son bien inférieure à la précédente (BBC Learning English, Ask about English, le 4 novembre 2008 – MP3, 22050 Hz, 40 kbps, mono) permet de déterminer tout aussi correctement la structure formantique de chacune des voyelles, sauf, encore, celle de la voyelle ou le f0 est assez élevé (300 Hz pour la première voyelle [aɪ], pour une moyenne de 160 Hz pour le reste de l’énoncé : Hi Fabio and thanks for your question!).

Fig. 3 La syllabe finale <là> : les formants fournis par Praat

Fig. 4 Forme d’onde, spectrogramme et f0 de l’énoncé : “Hi Fabio and thanks for your question!”

(6)

La figure 4 montre, en effet, qu’abstraction faite de la diphtongue initiale /aɪ/, seule la voyelle /i/ de Fabio /'fæb.i.əʊ/ nécessite une légère correction (point 2 sur la fig. 5) des valeurs F1 et F2 récupérées automatiquement (point 1).

Fig. 5 “Hi Fabio…” – récupération automatique des valeurs F1 et F2 et besoin d’interactivité La copie d’écran des graphiques produits par Praat (fig. 6) confirme l’impossibilité d’exploiter directement les trajectoires de F1 et F2 pour la voyelle initiale (du fait de la valeur élevée de f0), alors que les zones formantiques sont assez nettes pour toutes les autres voyelles.

(7)

Fig. 6 “Hi Fabio and…” – une illustration de l’hétérogénéité dans la fiabilité des valeurs F1 et F2 pour un même énoncé oral produit avec une fluctuation considérable du f0 (sommet

mélodique au début de l’énoncé)

Les segments de parole avec une valeur de f0 particulièrement élevée chez les femmes peuvent correspondre soit à plusieurs voyelles successives (fig. 7) soit à une seule voyelle (fig. 8)5. Quelles qu’en soient les conditions de production, ces voyelles à f0 élevé ont un spectre dont la nature ne permet pas de déterminer automatiquement (avec les algorithmes actuellement utilisés par les logiciels d’analyse acoustique) leur structure formantique. Ce problème étant, comme le montre l’expérience, systématique pour les voix de femmes, il est important de proposer des outils de travail appropriés et des instructions assez précises permettant une description tout aussi aisée mais plus rigoureuse et fiable des voyelles réalisés par les femmes, en vue, entre autres, des méthodes en développement de l’acquisition des voyelles à l’aide du couple de logiciels Speech Analyzer / SARP.

5 Pour ces deux exemples aussi, la structure formantique n’est pas déterminée correctement pour les seules voyelles à f0 élevé.

(8)

Fig. 7 “ In today's programme…”

Fig. 8 “but first…”

Une zone vocalique critique du point de vue des trajectoires formantiques entraîne parfois une perturbation des valeurs calculées de F1 et F2 sur l’ensemble de l’énoncé. En effet, le phénomène de croisement de deux trajectoires formantiques voisines, au sens propre, géométrique du terme, n’est pas exceptionnel lorsqu’on analyse les voyelles à l’aide de Speech Analyzer (voir fig. 9). Ce logiciel offre cependant des facilités d’édition de l’onde sonore (en particulier les fonctions copier - coller) qui permettent de pallier aisément ce défaut : copier l’onde sonore sans la zone vocalique

(9)

critique (Ctrl + C) et la coller ensuite dans un nouveau fichier (Paste As New File : Ctrl + N). En éliminant ainsi le point de croisement des trajectoires formantiques, les mesures de F1 et F2 seront bonnes. On peut espérer d’ailleurs que ce défaut informatique sera corrigé dans une nouvelle version de Speech Analyzer, car il s’agit tout simplement d’implémenter les conditions F1 < F2 <

F3 < F4. Nous sommes moins optimistes quant à Praat, car corriger les perturbations dans les trajectoires formantiques n’est pas évident avec ce logiciel. À titre d’exemple, la figure 10 montre qu’une seule et même trajectoire formantique (celle du milieu) est considérée comme inexistante au début, comme représentant le deuxième formant au milieu et le deuxième à la fin. Les valeurs de F1 et F2 sont évidemment incorrectes pour la diphtongue /aʊ/, mais ce qui est plus grave encore, c’est que nous voyons mal comment il serait possible d’améliorer la précision des trajectoires formantiques à moins d’une révision radicale de l’algorithme de calcul des formants. C’est pourquoi, même si les deux logiciels SARP – Speech Analyzer Rapid Plot et Praat-RP ont les mêmes caractéristiques fonctionnelles, ergonomiques et esthétiques, nous recommandons vivement l’utilisation du premier, qui est conçu pour être utilisé conjointement avec Speech Analyzer.

Fig. 9 “We'll find OUT why those connections have been made - and whether they're fair - later on.”

(10)

Fig. 10 “We'll find OUT…”

La stratégie qui consiste à créer un nouveau fichier son temporaire à l’aide de Speech Analyzer afin d’éviter un point de croisement de formants peut s’appeler précisément une stratégie d’évitement.

Or, il semble justifié de s’intéresser aussi aux réalisations vocaliques avec un f0 élevé dans la mesure où de telles réalisations sont assez fréquentes dans les voix de femmes, et parfois même constituent la « norme » pour un individu de sexe féminin. Il est vrai, cela a été mentionné au début, que la structure formantique des voyelles ne dépend pas, pour un même locuteur, des fluctuations du ton fondamental. Une analyse interactive affinée s’imposerait lorsque le corpus étudié n’est pas assez grand, ou lorsqu’il s’agit de l’étude des caractéristiques du timbre d’une voix particulière de f0 élevé. L’utilisation de la version 4 de SARP est bien utile à cette fin car ce logiciel autorise une approche interactive et souple de récupération des données : soit à partir du spectrogramme (par un glissement vertical de la souris), soit à partir du graphe du spectre (par un glissement horizontal de la souris). Lorsqu’une telle approche interactive est appliquée, l’expérimentateur est en droit (ou plutôt obligé parfois) d’avoir recours aussi, de façon complémentaire, à une évaluation auditive, ainsi qu’à ces connaissances théoriques, en particulier pour ce qui concerne les champs fréquentiels selon les langues, les âges et les sexes.

Références bibliographiques

Diehl, Randy, Björn Lindblom, Kathryn A. Hoemeke, and Ricahrd P. Fahey. 1996. ‘On explaining certain male-female differences in the phonetic realization of vowel categories’. Journal of Phonetics 24, pp. 187–208.

Ron Smyth and Henry Rogers, 2002. ‘Phonetics, gender, and sexual orientation’. Actes de l’ACL 2002/ 2002 CLA Proceedings.

Références

Documents relatifs

Ce chapitre représente un bref rappel de la mécanique des milieux continus où nous allons introduire le cadre physique plus utilisé dans ce mémoire, la loi de comportement et

experimental set-up: first the different coaxial cables used as emitting antenna, then the sensor we designed to measure the electrical field along one axis with a spatial

La réduction des glucides dans le régime, plutôt que celle des lipides, semble également plus puissante pour améliorer plusieurs paramètres du syndrome métabo- lique [15-18],

Et cependant, de telles relations ne sont pas seulement sociales — les fieras ne tirent pas leurs origines du monde des idées humaines telles qu’appliquées sur

La « ruine » qui en résulte, si elle prendra une grande importance dans Daewoo, est d’un effet déjà dédoublé ici par la juxtaposition du substantif avec le nom communal de

Steven Zehr.

ADP: Adenosine Diphosphate; BMI: Body Mass Index; COP: Crossover Point; CS: Citrate Synthase; HDL: High Density Lipoprotein; HOMA-IR: Homeostasic Model Assessment

In this paper, we have presented an application a the combined finite-volume/ fi- nite element method for a two dimensional dispersive shallow water model on an unstructured mesh.