• Aucun résultat trouvé

Le corpus PFC/LVTI Toulouse et Marseille

4.5 Outils d’exploration des données

4.5.1 Outils de visualisation qualitative

4.5.1.1 Visualisations en deux dimensions des voyelles

Pour réaliser des visualisations en deux dimensions F2, F1, nous avons utilisé le paquet phonR34. Nous fournissons un script R permettant ce type de visualisation en annexe A.4.1 page 544. Dans ce script, nous chargeons une base de données et nous effectuons des remappings. Ces remappings consistent, dans notre cas, d’une part, à attribuer un code couleur pour chacune des voyelles que nous avons segmentées, et d’autre part, à poser un code unicode permettant d’afficher les symboles de l’alphabet phonétique international dans les visualisations.

Le principal avantage du paquet phonR est que celui-ci a été spécialement conçu pour les phonéticiens. Ainsi, l’affichage des voyelles à partir des données formantiques est très simple. De plus, les voyelles sont dans un plan où le F2 et le F1 marquent respectivement l’abscisse et l’ordonnée. Ajoutons que le point 34. Des informations plus détaillées sur les divers emplois possibles de ce paquet sont dispo-nibles à l’adresse suivante : <http://drammock.github.io/phonR/>.

4.5. Outils d’exploration des données

à l’origine de ce plan est situé en haut à droite. Ce paquet permet entre autres d’afficher :

— chacune des voyelles sous forme de nuage de points, de symboles phoné-tiques, de mots dans lesquelles la voyelle a été prononcée, etc.,

— une réalisation moyenne d’une voyelle pour un ou plusieurs locuteurs, — des ellipses représentatives des espaces de réalisation d’une voyelle, — des carte de chaleur,

— une légende, — un titre.

Nous renvoyons ici le lecteur au site Internet, que nous avons cité précédem-ment, qui fourni de précieuses informations34. De plus, l’avantage de l’utilisation d’un tel outil combiné au logiciel R est que l’on peut coupler les différentes fonction-nalités. Ainsi, grâce à la syntaxe R, il est possible de définir de nouvelles variables qui serviront de base à la visualisation. On peut par exemple spécifier que l’on ne souhaite afficher que certaines voyelles et/ou les voyelles produites par certains locuteurs bien spécifiques. Nous illustrons quelques-unes des fonctionnalités du paquet par deux types de visualisation dans les Figures 4.22 et 4.23.

Figure 4.22 – Réalisations des voyelles de l’ensemble des locuteurs toulousains.

corpus toulousain, ainsi que leurs timbres. Ajoutons que les mêmes remappings ont été utilisés pour toutes les visualisations, chacune des voyelles sera donc toujours représentée par la même couleur. Dans la Figure 4.23, nous illustrons la réalisation moyenne de la voyelle [O] de chacun des locuteurs du corpus toulousain.

Figure 4.23 – Réalisation moyenne de la voyelle [O] pour tous les locuteurs du corpus toulousain.

Dans le cadre de ce travail de thèse, nous nous intéressons aux variations inter-et intra-individuelles. Toutefois, nous ne souhaitons pas travailler sur des varia-tions dues à des caractéristiques anatomiques propres à chaque locuteur. À titre d’exemple, nous savons35 que les femmes réalisent des sons périodiques complexes avec une structure formantique en moyenne plus élevée que les hommes puisque le conduit vocal est en moyenne plus court chez les femmes. Les différences observées au sein d’une communauté doivent donc être considérés par rapport au système de chaque locuteur dans son intégralité. Il existe plusieurs possibilités pour pallier cette difficulté dont la normalisation des données que nous abordons à présent.

Il existe différents types de normalisation qui vont permettre de comparer les réalisations de plusieurs locuteurs qui ont, par nature, des physiologies différentes.

4.5. Outils d’exploration des données

Selon la variabilité que l’on souhaite atténuer, ou au contraire les dif-férences que l’on tente de mettre en avant, les méthodes de normalisa-tion peuvent différer. Par conséquent, il est nécessaire d’en connaître les avantages ainsi que les limites : chaque méthode a ses spécificités et peut être plus adaptée pour réduire un aspect précis de la variabilité. Tout est fonction du rôle attendu de la normalisation.

Gendrot (2013), p. 237.

Pour réaliser des normalisations, différentes formules peuvent être appliquées aux données en fonction des unités nécessaires au calcul. En effet, suivant que l’on prend un ou plusieurs formants par voyelle, ou encore que l’on considère une ou plusieurs voyelles, les formules appliquées seront différentes. On parle de type de normalisation « intrinsèque » ou « extrinsèque ». Les normalisations intrinsèques aux formants, ou intrinsèques aux voyelles s’appliquent respectivement à un unique formant ou une unique voyelle, et cette opération peut se répéter. Lorsque l’on met en œuvre une normalisation extrinsèque aux formants ou extrinsèque aux voyelles, il faut avoir à disposition au minimum deux formants ou deux voyelles. L’idéal des normalisations extrinsèques aux voyelles est de considérer l’intégralité des voyelles du système d’un locuteur. Nous retrouvons dans le tableau 4.6 différents types de normalisation en fonction de ces critères :

Table 4.6 – Classification de techniques de normalisation, d’après Gendrot (2013), p. 240.

Intrinsèque aux voyelles Extrinsèque aux voyelles Intrinsèque Hz, Log, Bark, Mel, Gerstman, Lobanov,

aux formants ERB Nearey 1

Extrinsèque Syrdal & Gopal Nordström & Lindblom,

aux formants Miller, Nearey 2

Certaines études ont montré que les normalisations extrinsèques aux voyelles étaient plus performantes que les autres36. Notamment, ces normalisations sem-blent réduire la variabilité due aux locuteurs. Ajoutons que notre objectif est de comparer le système de plusieurs locuteurs et non de travailler sur une voyelle en particulier (normalisation intrinsèque aux voyelles). Parmi ce type de normalisa-tions, la norme Lobanov37 est sans doute la plus connue. Son avantage est qu’elle permet, d’une part, de conserver les caractéristiques sociolinguistiques propres à chaque locuteur et, d’autre part, de réduire les différences attestées d’ordre anato-mique. Étant donné que ceci se rapproche de notre objectif, nous avons choisi de

36. Voir par exemple Disner (1980), Hindle (1978), Adank et al. (2004). 37. Lobanov (1971).

normaliser nos données avec la formule Lobanov. Par ailleurs cette normalisation a également été employée par Viollain (2014) et Chatellier (2016). Nous suivons ainsi les choix méthodologiques de précédents travaux PAC/LVTI. La formule de la norme Lobanov est la suivante :

Valeur normalisée d’un formant i = Fi− µi

σi

Pour obtenir la valeur normalisée d’un formant, il faut, d’une part, soustraire à la valeur d’un formant la valeur moyenne des formants relevés de toutes les voyelles, et d’autre part, diviser la valeur ainsi obtenue par l’écart-type des valeurs de tous les formants.

Les normalisations sont prévues dans le paquet phonR présenté en début de section, la formule Lobanov y compris. Nous présentons dans la Figure 4.24 une représentation des voyelles [ø] et [œ] normalisée de la locutrice 13cjm1. Après le

Figure 4.24 – Réalisation des voyelles [ø] et [œ] normalisées de la locutrice 13cjm1.

calcul des voyelles normalisées, le centre acoustique de chaque locuteur est repré-senté par l’ordonnée à l’origine ([0,0]). Les axes représentent le nombre d’écart-type de part et d’autre de la moyenne.

4.5. Outils d’exploration des données