• Aucun résultat trouvé

Le choix du modèle VLAM pour assurer le passage des représentations

Les modèles que nous avons décrits se placent à différents niveaux d’abstraction pour décrire

le conduit vocal. Pour le reste de ce chapitre nous en choisissons un qui se trouve en position

intermédiaire entre un résumé géométrique de haut niveau (telle que la donnée des lieus et

tailles des constrictions) et une description bas niveau des propriétés des muscles et des

tis-sus. L’intérêt de ce niveau intermédiaire est qu’il est interprétable en terme de commandes

musculaires, phonétiques et acoustiques.

1.2.1 VLAM : the Variable Linear Articulatory Model

VLAM, the Variable Linear Articulatory Model (Boë, 1999), est un modèle articulatoire basé

sur le modèle de Maeda (1990) qui est issu de l’analyse statistique d’images radiographiques et

labiographiques (Bothorel, 1986) correspondant à dix phrases en français. À partir de ces coupes

dans le plan sagittal, 519 contours de conduit vocal ont été extraits à la main, puis analysés

selon une grille semi-polaire de référence qui divise le conduit vocal en 28 sections (Maeda,

1988). Une analyse en composantes principales guidée aboutit à sept paramètres articulatoires,

présentés figure 5.3. Ils décrivent la position de la mandibule et du larynx, la forme de la langue

et des lèvres, sont interprétables en termes de commandes phonétiques, et sont très proches de

commandes musculaires (Maeda et Honda, 1994).

Les quatre premiers paramètres permettent de rendre compte de 88% de la variance observée

dans les contours de la langue (Maeda, 1990). La forme des lèvres a été modélisée à partir de

mesures réalisées sur un locuteur différent (Abry et Boë, 1986). La sensibilité de chacun de ces

sept paramètres articulatoires a été normalisée en utilisant l’écart-type autour de la position

moyenne observée dans les données.

Une équation linéaire combinant ces sept paramètres permet de regénérer les contours d’un

conduit vocal dans le plan sagittal (Gabioud, 1994). On calcule alors la surface S de chacune

des 28 intersections de ces contours sagittaux avec la grille semi-polaire de référence en utilisant

la formule de Heinz et Stevens (1965) : S =αd

β

, oùd est la distance sagittale, et α etβ sont

des coefficients dérivés d’études tomographiques réalisées par Perrieret al. (1992). La fonction

d’aire ainsi calculée permet ensuite de déduire la fonction de transfert du conduit vocal ainsi que

les formants (Badin et Fant, 1984). Finalement, il est possible de générer du son à partir des

valeurs des formants grâce à un module de synthèse développé par Berthommier et al. (2012).

Guenther (2006, page 352) défend l’utilisation deVLAM qu’il utilise dansDIVA: « Le

mod-èle repose sur des simulations informatiques qui contrôlent un synthétiseur articulatoire (Maeda,

1990) capable de produire un signal acoustique. Les trajectoires articulatoires et acoustiques

produits par le modèle sont comparables aux productions de locuteurs humains ; les résultats

de nombreuses comparaisons de la sorte sont décrits par d’autres travaux (e.g., Callan et al.

(2000) ; Guenther (1995) ; Guentheret al. (1998, 1999) ; Nieto-Castanonet al. (2005) ; Perkell

et al. (2004a,b)). »

31

31

« The model is implemented in computer simulations that control an articulatory synthesizer (Maeda, 1990)

in order to produce an acoustic signal. The articulator movements and acoustic signal produced by the model

Figure 5.3: Les paramètres articulatoires du modèle VLAM. P1 (Jaw) permet de

con-trôler les mouvements verticaux de la mandibule, P2 (TongueDorsum) la

courbure/applatisse-ment du dos de la langue, P3 (TongueBody) la protrusion/rétraction du corps de la langue, P4

(Apex) les mouvements verticaux de la pointe de la langue, P5 (LipProtrusion) la protrusion

des lèvres, P6 (LipHeight) l’écartement des lèvres et P7 (Larynx) l’élévation du larynx.

Le modèleVLAM a été par la suite systématiquement testé et amélioré par les chercheurs du

laboratoire GIPSA-Lab (anciennement ICP) : Boë (1999) ; Boë et al.(2002) ; Ménard (2002) ;

Ménardet al.(2007) ; Serkhaneet al.(2003, 2007) ; Schwartz et al.(2012b) ; Boëet al.(2013).

Finalement, pour schématiser, la vision que nous adoptons de VLAM dans cette thèse est

de décrire le modèle par la relation entrées/sorties : il s’agit d’un modèle géométrique qui, à

partir de commandes articulatoires (qui sont proches de commandes musculaires) produit des

formants.

1.2.2 La transformation articulatori-acoustique et sa complexité

Une propriété fondamentale et bien connue des relations entre les variables articulatoires et

les variables acoustiques est le caractère complexe et many-to-one (c’est-à-dire non injectif)

de la transformation articulatori-acoustique. En effet, bien qu’une configuration articulatoire

donnée, si elle est parfaitement spécifiée, permette de calculer précisément les caractéristiques

acoustiques résultantes du son correspondant, un jeu de caractéristiques acoustiques donné ne

suffit pas en général à spécifier de manière unique une configuration articulatoire. Pour être

plus précis, si on se dote de suffisamment de caractéristiques spectrales, on peut

vraisemblable-ment parvenir à une spécification assez précise de l’articulation ; mais si on se limite à quelques

can be compared to the productions of human speakers; the results of many such comparisons are described

elsewhere (e.g., Callan et al. (2000) ; Guenther (1995) ; Guenther et al. (1998, 1999) ; Nieto-Castanon et al.

(2005) ; Perkellet al.(2004a,b)). »

paramètres spectraux calculables, par exemple les deux, trois, voire même quatre premiers

for-mants, on peut construire un large ensemble de configurations articulatoires fournissant

exacte-ment les mêmes valeurs de formants (voir Atal et al. (1978)). Néanmoins, ces configurations

partagent souvent des caractéristiques géométriques similaires, et notamment des valeurs en

général proches des paramètres de constrictions (aire et position de la constriction linguale, aire

de la constriction labiale ; voir Boë et al. (1992)). Cette possible caractérisation géométrique

a pourtant également ses limites, comme le montre bien le cas de la voyelle /u/, dont Boë

et al. (2000) ont montré qu’elle pouvait être articulée en trois positions différentes du conduit

vocal, ditespharyngale,vélo-pharyngale etvélo-palatale. Ainsi, la figure 5.4, montre deux

con-figurations très différentes du conduit vocal conduisant à des valeurs formantiques quasiment

identiques pour le /u/.

Figure 5.4: Différentes manières de réaliser un /u/ : deux coupes sagittales différentes,

caractérisées par une constriction pharyngale pour l’une et vélo-palatale pour l’autre, conduisent

à des fonctions d’aires très différentes, mais à des valeurs de formants quasiment identiques.

Avec le modèleVLAM, si l’on génère des configurations articulatoires avec sept paramètres

et que l’on caractérise le son avec deux ou trois formants, le sous-dimensionnement de la sortie

acoustique par rapport à l’entrée articulatoire est patent. Cela conduit à une indétermination

articulatoire si l’on cherche à résoudre le problème de « l’inversion », c’est-à-dire si l’on cherche

à récupérer le geste articulatoire à partir du son (voir une revue et des solutions proposées par

exemple dans Ouni (2001) ; Demange et Ouni (2013)).

Dans la plupart des modèles existants, le problème de l’inversion est résolu par l’utilisation

d’heuristiques reposant sur des principes de régularisation pour sélectionner un antécédent

ar-ticulatoire particulier, par l’introduction de contraintes arar-ticulatoires telles que minimum de

distance articulatoire à la configuration précédente, minimum d’écart au neutre, etc... En

re-vanche, dans le cadre bayésien de notre modèle COSMO, le problème de l’inversion est résolu

par le principe même de ce qu’est une distribution « inverse » dans un modèle bayésien. Ainsi,

nous verrons que dansCOSMO il nous suffira de construire par apprentissage une distribution

de probabilité conjointe P(M S), où M représente la configuration articulatoire et S la

confi-guration acoustique associée, à partir de laquelle on obtient un « modèle direct » en calculant

la distribution de probabilité conditionnelle P(S | M), et un « modèle inverse » en calculant

P(M |S).