• Aucun résultat trouvé

Comparaisons avec des données réelles : étude des lois du locus

Il existe de très nombreuses données acoustiques sur les syllabes consonne-voyelle dans la

lit-térature. Nous n’avons pas entrepris une comparaison systématique, hors du contexte de ce

travail. Mais, pour obtenir un point d’évaluation nous permettant de valider nos simulations,

nous avons décidé de les comparer aux données de locus de Sussmanet al.(1998). Pour ce faire,

nous prenons les plosives présentées figure 5.12, synthétisées à partir des voyelles présentés

fi-gure 5.11, dont nous résumons la variabilité liée à l’action de la mandibule en calculant la valeur

moyenne du second formant pour chaque lieu d’articulation. Nous reportons ces données sur la

figure 5.14, sur laquelle nous avons fait figurer également les droites de régression correspondant

pour ces données à chaque lieu d’articulation (/b/, /d/ ou /g/).

Alors que la partie droite de la figure 5.14 montre une régression sur des données (Sussman

et al., 1991) de plosives produites par vingt locuteurs (dix hommes et dix femmes) dans dix

contextes vocaliques différents, les données de plosives que nous avons générées (voir figure 5.12)

correspondent à un seul « locuteur » (un seul conduit vocal artificiel : notre version deVLAM) et

à trois contextes vocaliques seulement. Les régressions que nous faisons sont donc basées sur peu

Figure 5.13: Comparaison avec les plosives synthétisées par Schwartz et al. (2012b).

Les valeurs (en noir) des trois premiers formants juste après le relâchement duburst des plosives,

sont superposées à l’espace maximal des plosives (en gris). Cette figure se lit en huit blocs

verticaux de deux figures. Chaque bloc, qui correspond à un lieu d’articulation différent (/b/

bilabial, /d/ dental, /d/ alvéolaire ou post-alvéolaire, /é/ palatal, /g/ vélaire, /å/ uvulaire, /Ý/

pharyngal ou /Ü/ épiglottal), comporte deux figures montrant respectivement les valeurs des

formants dans l’espaceFF3 pour celle du haut et dans l’espaceFF1 pour celle du bas.

Figure 5.14: Comparaison aux équations du locus : à gauche un résumé de nos données

synthétiques est comparé avec les régressions obtenues par Sussmanet al.(1998) sur des données

réelles.

de points (et la régression pour les palatales /g/ est basée sur un petit nombre de réalisations de

la seule voyelle /i/). Néanmoins il apparaît sur la figure 5.14 que les configurations d’équations

du locus que nous obtenons ne sont pas aberrantes par rapport aux données de terrain reportées

par Sussman et al.(1998).

On peut noter quelques éléments de discordance. La valeur deF2 pour la plosive dans /da/

est basse, probablement parce que nous avons choisi pour /d/ une articulation dentale plutôt

qu’alvéolaire. Cela se traduit, comme on le voit sur la figure 5.13, par des valeurs moins élevées

de F2. Les valeurs de F2 pour la plosive dans /du/ et dans /gu/ sont également plus faibles

que dans les données de locus de Sussman et al.(1998). Ceci situe probablement les limites du

modèle de perturbation que nous avons mis en place, dans lequel on peut faire un /du/ ou un

/gu/ sans avancer le corps de la langue, par un simple geste de fermeture – alors qu’il y a aussi

un geste d’avancée de la langue à prendre en compte pour produire la fermeture en situation

réelle. C’est particulièrement le cas pour /du/, qui peut être fait, avec notreApexsimplifié, sans

aucune avancée, ce qui est totalement impossible étant données les contraintes morphologiques

de la langue (on ne peut pas placer la pointe de la langue contre les dents si le corps de la langue

est trop en arrière).

Malgré ces limites, qui s’expliquent par nos choix simplificateurs, et qui sont d’importance

assez marginale par rapport à nos objectifs, l’ensemble des données présentées dans ce chapitre

montre que nos simulations permettent de générer de la variabilité contextuelle sur les plosives,

selon la voyelle qui suit, et ceci d’une manière qui n’est pas qualitativement très éloignée des

données réelles telles qu’elles sont résumées par les équations du locus de Sussmanet al.(1998).

4 Conclusion

Dans ce chapitre, nous avons réalisé une étude bibliographique dans le but d’en extraire les

principes de modélisation nécessaires pour pouvoir instancier le modèle COSMO générique

présenté au chapitre 3 dans un cadre moins abstrait que celui du chapitre 4. Dans un premier

temps, nous nous sommes intéressés à la caractérisation dans des espaces perceptifs et moteurs

du signal de parole en général, puis à celle des plosives en particulier. Nous avons notamment

décrit le modèle de perturbation d’Öhman (1966), qui propose de considérer la plosive comme

une perturbation articulatoire locale appliquée sur la trajectoire vocalique, et que nous avons

utilisé pour générer un ensemble de données de syllabes de type plosive-voyelle à partir de

VLAM, un modèle géométrique de conduit vocal, pour les utiliser au chapitre suivant où le

modèle COSMO sera étendu au traitement des syllabes.

Les syllabes que nous avons synthétisées sont réalistes au sens où elles montrent des

pa-trons de variabilité qui correspondent aux données réelles. L’enjeu principal de cette thèse

est le traitement de ces données et de cette variabilité qui est présenté au chapitre suivant.

L’algorithme d’apprentissage que nous avons déjà décrit au chapitre 4 et qui va être appliqué

à ces données acoustiques de syllabes synthétiques ne fait aucune hypothèse sur la manière

dont les données ont été générées. Nous aurions donc pu, sans rien changer à l’intérêt de notre

approche, utiliser dans cette thèse d’autres principes plus complexes de génération de syllabes,

ou un autre modèle de synthèse articulatoire que VLAM (par exemple, le modèle développé

par Busset (2013) semble être basé sur des paramètres articulatoires un peu plus réalistes que

ceux de VLAM, notamment en ce qui concerne la pointe de la langue), voire même utiliser un

modèle biomécanique comme celui de Winkler et al. (2010) pour la génération de séquences

articulatoires et acoustiques.

Chapitre 6

Apprentissages sensori-moteurs

réalistes au sein de COSMO et

application à des tâches de

perception de syllabes

1 COSMO-S : le modèleCOSMO étendu au traitement des syllabes . . . .111

2 Implémentation d’algorithmes d’apprentissage dans le cadre deCOSMO-S . .119

3 Principaux résultats . . . .138

4 Conclusion . . . .147

COSMO est un modèle générique permettant d’étudier les interactions perceptuo-motrices

en parole. Nous avons présenté son élaboration détaillée au chapitre 3, et nous en avons

pro-posé une instanciation au chapitre 4 dans un cadre théorique monodimensionnel, ce qui a permis

de présenter un algorithme original d’apprentissage par accomodation et d’en illustrer les

dy-namiques ainsi que les propriétés des modèles appris. Il s’agit dans le présent chapitre d’étendre

le modèleCOSMOprésenté au chapitre 4 au traitement des syllabes, grâce aux données qui ont

été générées de la manière décrite au chapitre 5, afin de pouvoir étudier avec nos outils

compu-tationnels la manière dont COSMO peut gérer la complexité de véritables objets phonétiques,

et nous aider à comprendre comment ils sont appris, représentés et traités.

1 COSMO-S : le modèle COSMO étendu au traitement des

syllabes

Dans cette section nous montrons comment la structure de notre modèle bayésien d’agent

co-gnitif COSMO s’adapte pour que l’agent cognitif qu’il décrit ait des représentations internes

auditives et motrices associées à des objets de type syllabe. Dans le reste de cette thèse, nous

baptisons le modèle ainsi construit COSMO-S, pour COSMO-Syllabes.