HAL Id: tel-01748423
https://tel.archives-ouvertes.fr/tel-01748423v2
Submitted on 29 Mar 2011
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Blaise Potard
To cite this version:
Blaise Potard. Inversion acoustique-articulatoire avec contraintes. Interface homme-machine [cs.HC].
Université Henri Poincaré - Nancy 1, 2008. Français. �NNT : 2008NAN10085�. �tel-01748423v2�
UFR STMIA
Inversion acoustique-articulatoire avec contraintes
TH` ESE
pr´esent´ee et soutenue publiquement le 23 octobre 2008 pour l’obtention du
Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1
(sp´ ecialit´ e informatique)
par
Blaise Potard
Composition du jury
Rapporteurs : R´egine ANDRE-OBRECHT, Professeur, Universit´e Paul Sabatier Pierre BADIN, Directeur de Recherche, CNRS
Examinateurs : No¨elle CARBONELL, Professeur, Universit´e Henri Poincar´e Shinji MAEDA, Directeur de Recherche, CNRS
Xavier RODET, Professeur, Universit´e Paris VI Directeur de th` ese : Yves LAPRIE, Directeur de Recherche, CNRS
Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503
Je tiens tout partiulièrement à remerier mon direteur de thèse, Yves Laprie, pour sa
patiene, ses onseils et ses enouragements. Je tiens également à remerierShinji Maeda pour
nous avoir fourni son modèle artiulatoire et ses données, et pour les éhanges sientiques
frutueuxquenousavonspuavoir.
Je remerie profondément Martine Kuhlmann, la serétaire de l'équipe,pour sa patiene et
sagentillesse sans limites.
Je remerie ensuite tous les enseignants du département Informatique de l'Université Henri
Poinaré Nany 1, pour leurs onseils, leur patiene et leur soutien, et tout partiulièrement
AlainMirgaux, OdileMella et Vinent Colotte.
Enn, je remerie mafamille et tousmes amis,pour leursoutiensans faille.
ÀDelphine, Stéf,Matthias,Ben,Nio,Véro ettousles autres,pare qu'ilsle valent bien;
Àtousles membresdu Loria grâeàquij'aipupasser de trèsbonsmoments, toutpartiulièrement
les oupants dubureau C130,les membresdes équipes Parole, MagritetMaia, ettouseux queje
ne itepas maisquise reonnaîtront.
Etàtous euxquisontpartis.
Introdution
Chapitre 1
Préliminaires
1.1 Aoustique de laparole . . . 1
1.1.1 Prodution de laparole . . . 1
1.2 Synthèse artiulatoire . . . 4
1.2.1 Modélisationdu onduitvoal . . . 4
1.2.2 Passage de laoupesagittaleà lafontion d'aire . . . 7
1.2.3 Simulation aoustique . . . 9
1.3 Inversionaoustique-artiulatoire . . . 11
1.3.1 Problème malposé. . . 12
1.3.2 Prinipe de résolution . . . 12
1.3.3 Résolution par introdution de ontraintes . . . 15
1.4 Conlusion . . . 16
Partie I Inversion 17 Introdution Chapitre 2 Constrution de odebook hyperuboïque 2.1 Paramétrisationaoustique et artiulatoire . . . 21
2.1.1 Modèleartiulatoire de Maeda . . . 21
2.1.2 Synthétiseur . . . 22
2.1.3 Paramétrisation aoustique . . . 23
2.1.4 Quelquesrésultats . . . 23
2.2 Présentation de lastruture hyperuboïdale . . . 24
2.2.1 Choixde lastruture . . . 24
2.2.2 Dénitions de lastruturehyperuboïdale . . . 24
2.2.3 Modélisation mathématique. . . 25
2.3 Constrution . . . 27
2.3.1 Test derégularité . . . 27
2.3.2 Utilisationdespolynmesmultivariéspour aluler l'approximation . 30 2.3.3 Seuillage aoustique . . . 33
2.3.4 Subdivision . . . 34
2.4 Réalisation . . . 35
2.4.1 Caluldu veteur aoustique . . . 36
2.4.2 Cahe de formants . . . 37
2.4.3 Génération despointsde test . . . 39
2.5 Évaluation expérimentale . . . 43
2.5.1 Resynthèsed'un veteur artiulatoire par interpolation . . . 43
2.5.2 Valeursoptimalespour lealul delamatrie jaobienne . . . 44
2.5.3 Seuilsde subdivisionet préision aoustique . . . 44
2.5.4 Temps de onstrution . . . 46
2.5.5 Couverture de l'espaeartiulatoire . . . 47
Chapitre 3 Inversion par odebook 3.1 La méthode d'inversion . . . 51
3.1.1 Prinipe général . . . 52
3.1.2 Restreindrel'ensembled'hyperuboïdes àexplorer . . . 52
3.1.3 Résolution dusystèmed'équation
P (X) = s
. . . . . . . . . . . . . . 533.1.4 Éhantillonnage de solutions . . . 55
3.2 Quelquesrésultats . . . 56
3.2.1 Inversionde voyellesisolées . . . 56
3.2.2 Domaines aoustiques . . . 59
3.2.3 Statistiques . . . 60
3.2.4 Temps de alul . . . 65
Chapitre 4 Trajetoires artiulatoires 4.1 Lissagenon-linéaire . . . 70
4.1.1 Critèressur larégularité de latrajetoire desartiulateurs . . . 70
4.1.2 Critère global àminimiser. . . 71
4.3 Inversiondynamique . . . 74
4.3.1 Inversionde lasynthèse aoustique. . . 75
4.4 Conlusion . . . 79
Partie II Contraintes 81 Introdution Chapitre 5 Contraintes phonétiques 5.1 Prinipe . . . 85
5.2 Domaines artiulatoires . . . 85
5.2.1 Classiation desphonèmes . . . 85
5.2.2 Transposition desontraintes phonétiques danslemodèle artiulatoire 86 5.3 Domaines aoustiques . . . 87
5.3.1 Partitionnement del'espae aoustique . . . 88
5.3.2 Données aoustiques . . . 89
5.4 Sore phonétique . . . 90
5.5 Inversionave ontraintes phonétiques . . . 92
5.5.1 Constrution de odebooks . . . 92
5.5.2 Inversionstatique . . . 93
5.5.3 Inversiondynamique. . . 93
5.6 Exemples . . . 94
Chapitre 6 Évaluation des ontraintes phonétiques 6.1 Correspondaneartiulatoire-aoustique . . . 99
6.2 Inversionstatique . . . 101
6.2.1 Expérienes d'inversion . . . 101
6.2.2 Analyse desrésultats . . . 102
6.3 Inversiondynamique . . . 113
6.3.1 Inversionde transitionsVoyelle-Voyelle . . . 113
6.3.2 Réapitulatif . . . 120
6.4 Conlusions et perspetives . . . 122
Chapitre 7
Contraintes visuelles
7.1 Origine . . . 125
7.2 Données multimodales . . . 126
7.2.1 Miniorpus . . . 127
7.2.2 CorpusAL . . . 128
7.2.3 Données duprojetASPI . . . 128
7.3 Traitement desdonnées . . . 128
7.4 Implémentation desontraintes visuelles . . . 129
7.4.1 Correspondane entre les marqueurset lemodèleartiulatoire . . . . 130
7.4.2 Inversionave ontraintesvisuelles . . . 133
7.5 Expérienes d'inversion . . . 133
7.5.1 Comparaisondesdeux méthodes . . . 133
7.5.2 Expérienes d'inversion . . . 135
7.6 Conlusion . . . 137
Conlusions et perspetives 139 Conlusions et perspetives Annexe A Corpus PB A.1 Paramètres artiulatoires . . . 143
Annexes
Bibliographie 147
L'
unedesprinipalesaratéristiquesquidistinguent l'hommedel'animalestl'utilisation de
laommuniation parlée. Bien que ne possédant pasl'appareil phonatoire leplus sophis-
tiqué(ertains oiseaux peuvent en eet réaliser des sons nettement plus élaborés), la parole et
lesméanismesde produtions'yrattahant restent parmiles manifestationsles plusomplexes
et lesmoinsbien onnus du génie humain.
L'Homme n'aeu deessed'étudier e phénomène, et depuisque lesordinateurs existent, de
herher à le reréer artiiellement. Depuis relativement longtemps, on a réalisé des modèles
logiiels de l'appareil phonatoire, apables d'imiter la voix humaines en simulant les équations
physiquesdel'aoustiquedefaçonplusoumoinssimpliée,et ave plusoumoinsde suès.Ces
modèles desynthèse peuvent parfoisémettre dessonsqui ressembleà s'yméprendreà unevoix
humaine réelle; malheureusement, pour piloter dèlement de tels modèles, il est néessaire de
disposer dedonnées surlemouvement des diérentsartiulateurs, et surlasoure sonore.
Il existe destehniquesd'imagerie permettant d'obtenirdesinformations surlapositiondes
artiulateurs,maisauunede estehniquesn'est parfaite:soit ellesneapturent quepartielle-
mentle onduit(images duvisagedu louteur permettant de voirlapositiondeslèvres et dela
mâhoire,apteursmagnétiquesàdespositionspréisesàl'intérieurdelabouhe,éhographie...),
soit n'ont pas une résolution temporelle susante pour apturer les subtilités de l'artiulation
de la parole naturelle (par exemple l'IRM, qui permet d'obtenir une vue tridimensionnelle du
onduitvoal, maisnéessitedestempsde poseprohibitifs,oularépétitiond'unemêmephrases
desentainesdefois),soitenoresontfranhementdangereuses(parexemplelainéradiographie,
oùlelouteursubit desentainesde radiographiessurune durée dequelquesseondes).
L'obtentionlogiielle desmouvements artiulatoiresà l'origined'un sondonné,ou inversion
aoustique-artiulatoire,voiretoutsimplement inversion,estunepropositionalternativeetom-
plémentaire àestehniquesd'imagerie.Ils'agitenréalitéd'unproblèmelépourdenombreuses
appliations.Outrelesmodèlesdesynthèsevoale,esdonnéespeuventeneetêtreutilesdansde
nombreuxas:laompressiondeparolepourlatéléphonie, l'étudedeslangues,etsurtout l'ani-
mation de têtes parlantes(pour l'industrie inématographique et desloisirs, l'apprentissage des
langues,l'aideauxpersonnesmalentendantes...). Parailleurs, lesdonnéesartiulatoires peuvent
aussitrouver leurutilité dans desdomainesaussidisparates quelareonnaissane automatique
delaparole,lasynthèse voale paronaténation,laphonétiqueet laphonologie,lamédeine...
De part sa position entrale dans tous les domaines liés au traitement automatique de la
parole,et par samyriaded'appliations potentielles, l'inversionaoustique-artiulatoire est l'un
despointsruiauxdel'étudedelaparole.D'ailleurs,trèstt,lespionniersdel'étudedelaparole
sesontintéressésàlamodélisationartiulatoire duonduitvoal(notammentFant(Fant 1960 ),
Stevens (Stevens&House 1955 ), Flanagan (Ishizaka &Flanagan1972 )...). Mais la véritable
étude fondamentale du domaine de l'inversion, et également l'une desplus intéressantes, est le
travailréalisé par Atalet sesollègues (Atalet al.1978 ).
Malheureusement, les quatre années onsarées à l'étude de e sujet ne me permettent pas
d'apporter uneréponseauxnombreusesquestionsqui entourent edomaine,et enpremierlieu :
l'inversionaoustique-artiulatoireest-ellepossiblepourtouslessonsdelaparole?Et,autrement
plus problématique,est-eque notreméthode fontionne?
L'unedesdiultés majeures est en eet l'évaluationde l'inversion. Car,il faut serendre à
l'évidene, laquantité dedonnéesartiulatoires utilisables estassez restreinte,lesdonnées étant
souvent obtenues dansdes onditions problématiques (systèmes invasifs, ou parole non sponta-
née), ou diilement exploitables (enregistrement sonore non disponible ou nonsynhronisé...).
Pour remédier àe problème, l'équipe PAROLEdu LORIA,et plusieurs partenaires européens,
ontmonté leprojeteuropéen ASPI(nané par leProgramme ISTdelaCommissiondesCom-
munautésEuropéennes,avelenuméroIST-2005-021324),dontl'undesobjetifsestl'aquisition
dedonnéesartiulatoiresselondesmodalitésbiendénies,demanièreàpouvoirévaluerdefaçon
rigoureuse les diérentes méthode d'inversion développées par haun des partenaires. Malheu-
reusement, la mise en plae des systèmes d'aquisition a pris plus de temps que prévu, et par
onséquent lesdonnées aquisesn'ont puquetrès partiellement êtreexploitéesdansette thèse.
Par onséquent, laomparaion ave des données réelles n'a été qu'assez rarement possible,
la validation de la méthode d'inversion n'a été que partielle, et les résultats des expérienes
d'inversionprésentées danse mémoire sont don à onsidérer ave préaution.
Néanmoins, il apparaît que le travail eetué permet sur de nombreux points d'améliorer,
sinon la délité des résultats aux trajetoires réelles (que l'on ne onnaît en général pas),
au moins la abilité, la rapidité, la stabilité du proessus d'inversion. Les ontributions sont
de plusieurs ordres : une grande parties du travail a portée sur la méthode d'inversion elle-
même,qui estestunprolongement destravauxeetuésdansl'équipe,d'abord parBruno Mat-
thieu (Laprie &Mathieu 1998a ), puis par Slim Ouni (Ouni 2001 ). Ce travail a paradoxalement
été eetué à la n de ma thèse, e qui explique que les améliorations ne sont pas forément
toutes exploitées danslesautres parties.
L'autre grand axe de reherhe a été l'élaboration de ontraintes pour limiter l'espae de
solutionsdel'inversion.Lesontraintesétudiéesiiexploitentl'informationontextuelleinhérente
au proessusdeprodution de laparole.
L'hypothèsegénéralementretenuedansleadredel'inversionaoustique-artiulatoireestque
leproessusdeprodutionherheà minimiserladépenseénergétique,maisoutrelesproblèmes
liésàlamodélisationduoûténergétique, ilsembleenréalité queleproessusde produtionde
laparole n'est passeulement guidépar unprinipe de moindreeort,maisherhe également à
suivre desaratéristiquesartiulatoires propres au dialete parlé.L'hypothèse qui sous-tend la
première lassedeontraintes proposéeiireposesuruninvariant artiulatoire delaprodution
des phonèmes d'une langue : on herhe à s'approher au plus près, non du son orrespondant
au phonème, maisd'un patronartiulatoire propreà elui-i.
Certes, la ompensation artiulatoire, ou, en d'autres termes l'utilisation de ongurations
artiulatoires distintes pour la réalisation d'un même phonème en fontion du ontexte, est
une omposante importante du proessus de parole; mais omme l'ont montré des études ré-
entes (Qin &Carreira-Perpiñán 2007 ), elle est empiriquement peu exploitée : il semble qu'en
parole spontanée, leplus important n'est pasderéaliserun patronvoalique delafaçon laplus
eae énergétiquement, maisdelafaçon laplus prohed'une formeanonique.
C'estette hypothèse leproessus deparole herhe à approher au plus près despatrons
artiulatoires des phonèmes à prononer qui motive la première lasse de ontraintes; nous
supposons en outre que les patrons artiulatoires ne sont pas seulement propres au louteurs,
maissimilairesheztousleslouteursd'unelanguedonnée.Pourettelassedeontraintes,nous
exploitonsainsil'information ontextuelleimpliite :nousherheronsàdéterminer lessolutions
version ne porte plus simplement sur le son, mais exploite des données supplémentaires sur la
position desartiulateurs visibles,obtenuesà partir d'images en stéréovision duvisage dulou-
teur.
Ce mémoire est ainsi divisée en deux parties prinipales : la première présente le système
d'inversion, et en partiulier toutes les améliorations apportées à la méthode de onstrution
de odebook hyperubique initiée par Slim Ouni (Ouni &Laprie 2005 ), la seonde présente les
deuxlassesdeontraintes:l'introdutionetl'utilisationdeontraintesdérivéesdeonnaissanes
phonétiquesgénériquessurl'artiulationdesvoyellesappeléesontraintes phonétiques, suivi
d'expérienesd'inversionmultimodale,utilisantenplusdusondesdonnéesvisuellesaquises
parun systèmede stéréovision quej'ai ontribué à développer.
Préliminaires
C
ette partie présente suintement les outils de simulation de la prodution de la parole
que nous avons utilisés dans le adre de l'inversion et néessaires à la ompréhension de
ettethèse.Nousprésenterons quelquesprérequisonernantl'aoustiquede laparole,lamodé-
lisation artiulatoire duonduit voal, et nousévoqueronsrapidement les diérentes tehniques
d'inversion aoustique-artiulatoire.
1.1 Aoustique de la parole
Les ondessonoressont despropagations de hangements de pression,produits par lavibra-
tiondes partiulesde l'air. La propagation de eshangements de pression est rapide : environ
340m.s
−1
.
Laparoleestuneformedesonsextrêmementomplexeetélaborée,dontl'étudedespropriétés
aoustiques a véritablement été initiée par H. Helmholtz (von Helmholtz1867). Il a ependant
fallu attendre la n du XIX e
sièle et l'élaboration de la transformée de Fourier pour que les
méthodesmodernes permettant de aratériser lesdiérentssons delaparole apparaissent.
La transposition dusignaltemporeldansledomaine fréquentiel, aussiappelée analysespe-
trale,permet en eetdearatériser visuellement haune deslassesdessonsdelaparole.Une
analyse spetrale en bande étroite appliquée sur des sons de parole voisée permet de distin-
guerlesharmoniques des fréquenes pour lesquellesl'intensité estnettement renforéede la
fréquene fondamentale. Ces harmoniques sont dues à la vibration des ordes voales, et leurs
fréquenesvarient auours dutemps.L'analysespetralede laparole révèleaussi,en plusdela
partie harmonique, une partie bruitée, liée à toutes les autres soures de sondu onduit voal
(fritions,explosions, et.).La partie harmonique domine nettement dansle asdesvoyelles, la
partie bruitée nettement pourlaplupart desonsonnes.
1.1.1 Prodution de la parole
Le systèmede produtionde laparole sedéomposeen troisparties:
lesystème sous-glottique,
lelarynx,
lesystème supra-glottique.
Le système sous-glottique est onstitué des poumons et de latrahée. Il génère le uxd'air
à l'originedu signal sonore. Ce uxd'air est ensuitemodulépar lelarynx et le système supra-
glottique(les avitésdupharynx, delabouheet éventuellement lesfossesnasales)pourformer
Fig. 1.1:Shéma de l'anatomiedu onduitvoal. 1 : fossesnasales, 2 :palais dur,3 : mâhoire
supérieure, 4 :palais mou (velum),5 :pointe dela langue(apex), 6 :dos delalangue, 7 :luette,
8 : base de la langue (radix), 9 : pharynx, 10 : épiglotte,11 : fausses ordes voales, 12 : ordes
voales, 13: larynx, 14: ÷sophage, 15 :trahée. D'après Fant(Fant 1960 ).
laparole.
Lesystèmedeprodutiondelaparoleomprenduneouplusieurs souressonores,onvoluées
par un ltre (le système supra-glottique). Une soure sonore est une interférene aoustique
appliquée au ux respiratoire, et il y a deux origines prinipales. La première, appelée soure
voisée, est une modulation quasi-périodique du ux ausé par les mouvements d'aolement
et d'éartement rythmique de deux musles du larynx appelés ordes voales (f. gure
1.1). Cette première soure est aratéristique des voyelles, mais est aussi présente lors de la
produtiondeertainesonsonnes.Laseondeestauséepar unretréissementduonduitvoal
réant unefrition, lalibération oulebloagetransitoireduuxetaratérise lesonsonnes.Le
uxrespiratoire utilisé pourlaparole est engénéral une expirationontrlée, maisilpeut aussi
s'agir dansderares asd'une inspiration.
Lasourevoiséeestréée parlavibration desordesvoales,maiselle n'aompagnepasen
permanenela parole.Elle a une formespetrale du typereprésenté surla gure1.2a : ils'agit
d'une série d'harmoniques dont l'intensité déroît ave la fréquene, multiples d'une fréquene
fondamentale. La fréquene fondamentale est l'inverse de la période glottale, durée d'un yle
d'ouverture/fermeture desordesvoales.Lafréquenefondamentale déterminelahauteurdela
voix.
Lesystèmesupra-glottique(onstituédesonduitsvoalet nasal)agitommeunltresurla
soure,et est aratérisépar une fontion detransfert, typiquement de laforme représentée sur
la gure1.2b. Lespis d'intensité de ette fontion orrespondent aux fréquenes de résonane
duonduit; espissontappelés,dansleadredelaparole,formants, etsont d'uneimportane
apitale.Eneet,lafréquene,l'amplitudeetlalargeurdebandedeesdiérentspispermettent
de aratériser lesvoyellesprononées. D'autrepart, ils donnent desontraintes assez fortes sur
Intensité
Fréquence
(a)Spetredelasourevoale
Intensité
Fréquence
(b)Fontiondetransfertduonduitvoal
Intensité
Fréquence
()Spetredusonémis
Fig. 1.2: Shémas idéalisés de spetrogrammes deparole
laformeet lapositiondesavités desonduitsvoalet nasal.
Un spetre typique de son émis est représenté à la gure 1.2 (en pointillé, e que l'on
verrait en alulant unspetrogramme bande large , en trait ontinu e qu'on pourrait voir
en alulant un spetrogramme bande étroite ). On retrouve sur ette gure les pis vus
préédemment; les fréquenes des formants restent relativement inhangées, mais leurs autres
aratéristiquessont alterées : amplitudeset largeursde bande sont modiées.
Ononsidère en général quelaonnaissane de lafréquene destroispremiers formants est
susante pour disriminer toutes les voyelles, et même quela onnaissane de lafréquene des
deuxpremiers sut danslamajorité desas. Dans notre appliation,on ne retiendradu signal
de parole que la fréquene des trois premiers formants. En eet, il se trouve que sans données
supplémentaires sur la soure,il est diile d'en extraired'autres indiations quant à la forme
duonduitvoal:laformeduspetre aoustiquede lasoure dépendbeauoupde l'eortvoal
(plus l'eort est important, et plus la pente de l'enveloppe spetralede la soure est faible), et
don également le spetre aoustique du son émis. On peut ainsi émettre des sons de spetres
d'aspetstrèsdiérentsàpartird'unemêmeformedeonduitvoal.Parontre,unemêmeforme
deonduit donneratoujours, àpeude hoses près, lesmêmes fréquenesformantiques.
Lesaratéristiquesdesformantssont diilesàdéterminer de manièreable. Ainsilesuivi
de formants, qui herhe simplement à déterminer de façon automatique les fréquenes de es
formants, estun problème toujours ouvert, et les tehniques les plus avanées (telles que elles
deLaprie(Laprie 2004 )ouDeng(Denget al. 2006 ))fonttoujoursdeserreursdansdenombreux
as. Les amplitudes et largeurs de bande des formants sont enore plus diiles à déterminer
ave préision, et leur détermination néessite une onnaissane de la soure. Pour es raisons,
et pare que notre étude se limite aux voyelles non-nasales, les veteurs aoustiques que nous
manipuleronsserontessentiellementdestripletsdestroispremièresfréquenesformantiquespour
lessignauxde parole naturels. Pour les signauxsynthétiques,nousaluleronsles fréquenes de
résonanedelafontiondetransfert.Nousonsidérons donqu'ilyaunebonneorrespondane
entreesfréquenes de résonaneet les fréquenesdes formants.
1.2 Synthèse artiulatoire
Le système de prodution de parole humaine a été largement étudié dans le but de pro-
duire une voix artiielle qui ressemble le plus possible à une voix naturelle. Diérentes mo-
délisations de l'appareil phonatoire, plus ou moins élaborées, ont été proposées et implémen-
tées tout au long des XX e
et XXI e
sièles. Pendant longtemps, l'imitation dèle du fontion-
nement de l'appareil phonatoire humain apparaissait omme la meilleure façon de faire de la
synthèse de parole réaliste, mais depuis une vingtaine d'années, ave le développement de la
synthèse par onaténation de segments non-uniformes (Sagisaka1988 ) qui donne d'exellents
résultats(Blak&Campbell 1995 ; Beutnagelet al. 1999 ), etteapprohe a étéquelquepeu dé-
laissée.
En revanhe, après avoir atteint les limites de la synthèse par onaténation, qui néessite-
rait des orpus gigantesques pour orriger ses quelques défauts, on onstate depuis environ 2
ans un très net regain d'intérêt vers la synthèse purement artiulatoire (Birkholz 2007 ), et la
synthèsemixteutilisant desinformationsartiulatoiresen plusd'enregistrement sonorespour la
synthèsede parole,omme par exemple les travauxde Ptzinger(Ptzinger 2005 ),ou enore le
projet COUGAR (King &Rihmond2005 ) au CSTR (Centre for Speeh Tehnology Researh)
de l'Universitéd'Édimbourg.
Unsynthétiseur artiulatoire omporte deuxpartiesprinipales :
1. Un modèle du onduit voal; en général, il s'agit d'un dispositif permettant de dérire
n'importe quelleforme deonduit voalà partir d'un nombre réduit de paramètres.
2. Une simulation aoustiquepermettant de générer leson onnaissant leonduit voal.
1.2.1 Modélisation du onduit voal
Denombreusesmodélisations duonduitvoal,plusoumoinsélaborés,sont déritesdansla
littérature. Nousne feronspasii unerevue exhaustive desdiérentsmodèles,maissimplement
unerevuedesdiérenteslassesdemodèles,enprésentantbrièvementl'undesplusreprésentatifs
de haque lasse.
1.2.1.1 Modèles à fontion d'aire
Ilest admisdepuislongtemps (Fant 1960 )que l'élément leplusimportant pour l'aoustique
de laparole estla fontiond'aire du onduitvoal, 'est-à-dire ladonnée de l'airede lasetion
transversaleduonduit voallelongdelaourbe médiane duonduit,delaglotteàl'ouverture
deslèvres.Ilestainsiadmisimpliitement queleonduitvoalestassimilableàunonduitdroit
desetionvariable;ilyaependantassezpeud'estimationspratiquesdeserreursintroduitespar
ette hypothèse. Sondhi (Sondhi1986 ) a montré que l'angle inuait très peu sur les fréquenes
desrésonanes pour un onduit de setionxe. Cioea (Cioea 1997 )a notamment montré que
la forme préise du onduit voal et l'angle du oude entre les avités orales et pharyngales
n'avaient que peu d'inuene sur la fontion de transfert du onduit, tout du moins pour les
fréquenes au-dessousde 4kHz.
Modèlesàtroisparamètres Parmilesplusaniensmodèlesdefontiond'aire,ontrouvedes
modèles à trois paramètres : l'un proposé par Stevens et House (Stevens& House1955 ), dont
uneextension est utiliséepar Atal (Atalet al. 1978 ), et unautre proposépar Fant (Fant 1960 ),
tousdeuxilya environ50 ans.Lestroisparamètres orrespondent respetivement àlaposition
delaonstrition, àl'aireàlaonstrition, etàl'ouverturedeslèvres(enfaitlerapportentre
lahauteuret l'airedel'ouverture deslèvres).Malgrélasimpliitédeesmodèles,ilspermettent
dereprésenter shématiquement lesongurations artiulatoiresdesvoyelles.
Conaténations de tubes L'une des façons les plus simples est de dérire le onduit voal
ommeunesuessiondepetitstubes.Dansetypedemodèles,lafontiond'aireestentièrement
dériteparunpetitnombredeouples(longueur,airedelasetion)dérivanthaquesegmentde
tuyau.Cettemodélisationn'estpasàproprementparlerartiulatoire. Ellepermet dedérire
unonduithumain,maisprésenteplusieurs inonvénients :d'unepart,ilestnéessairedemani-
puler un grand nombre de paramètres pour avoir un modèle susamment souple pour épouser
touslestypesdeongurations.D'autrepartiln'yaauunegarantiequ'unefontiond'airedon-
née orresponde eetivement à un onduit voal humain, e qui peut s'avérer problématique,
notamment pour l'inversion aoustique-artiulatoire.
L'undesmodèlesàfontiond'airelesplusévoluésesteluideShoentgenetCioea(Shoentgen&Cioea 1997 ).
Commelessegmentsutiliséssontoniques,ilestpossibled'obtenirunefontion d'aireontinue.
Lenombre de segmentspeut être très important,et lesystème estapable d'adapter automati-
quementla longueurdu onduit modéliséau louteur.
1.2.1.2 Modèles artiulatoires
Une autre lasse de modèles du onduit voal herhe à approher une représentation dèle
duonduit voal; et le plussouvent,la visualisation laplus simple quel'on puisse enavoir : la
oupe médio-sagittale. Il s'agit enoreà l'heureatuelle de laseule représentation pour laquelle
ondisposededonnéesdebonnequalitéet enassezgrand quantité,etquifournissesusamment
d'informations pour reonstituer assez dèlement l'aoustique. Onadon rapidement herhé à
onstruiredesmodèlespermettantdereprésenterlesdiérentesoupesréalisablesparunhumain,
si possible ontrlés par un petit nombre de paramètres. On voit également apparaître depuis
quelquesannéesdesmodélisations plus omplètes duonduit voal.
Modèles géométriques La forme du onduit voal est modié par le mouvement des arti-
ulateurs tels que la mâhoire, la langue, les lèvres, le larynx. L'une des façons naturelles de
onstruire unmodèle artiulatoire est d'utiliser es artiulateurs omme ommandes. Tout l'art
de lamodélisation artiulatoire estd'étudier et de représenter lamorphologie omplexe des ar-
tiulateurs et leur déformation d'une façon simple tout en onservant une image préise des
élémentspertinentspourla synthèse aoustiquede laparole.
Plusieursmodèlesdérivant leonduitvoalommeuneombinaisondeformesgéométriques
simplespilotéeparunpetitnombredeparamètres ontainsiétéonstruits.L'undesplusréussis,
ettrèsutiliséaujourd'hui,estlemodèledeMermelstein(Mermelstein 1973 ),lui-mêmeétant une
extensiondu modèle deCoker (Coker 1973 ).
Cesmodèlespermettent dedérirelesongurationsduonduitvoaldesvoyellesetonson-
nes à partir d'un petit nombre de paramètres; ils sourent ependant de plusieurs défauts.
D'unepart,lesvaleursàdonnerpour lesommandesartiulatoires nesontpasforément failes
àtrouver: pourdéterminer lesparamètres idéauxqui représentent uneongurationde onduit
voaldonnéeobtenueparexempleparrayonsXouIRM,ilestnéessaired'eetueruneopération
d'optimisation. D'autre part, es modèles ont été élaborés de façon ad ho, parfois à partir
d'imagesréelles,maiségalement d'expertisehumaineetd'intuition. Ilestparonséquentdiile
d'évaluer leur pertinene.
Modèles issusd'analyses fatorielles Unealternativeàl'approhegéométrique(liéeàl'ex-
pertise humaine), est l'élaboration de modèles à l'aide d'analyses fatorielles sur des données
artiulatoiresréelles.Ilapparaît eneetqu'ilexistebeauoupderedondane danslesaratéris-
tiquesdesformesde onduitsvoaux, et ilestdon parfaitement envisageable d'yappliquer des
analyses fatorielles pour obtenir desmodèles qui dérivent lamajeure partie de lavariabilité à
l'aide d'unpetit nombre de paramètres orthogonauxou/et non-orrélés.
L'undesmodèles les plusonnus est lemodèlede Maeda (Maeda1979 ; Maeda 1990). Il dé-
rit un onduit voalomplet à partir de troismodèles indépendantspour les lèvres,la langue,
et le larynx. On peut en eet onsidérer que es trois artiulateurs modient le onduit voal
de façon indépendante, bien qu'ilssoient tousles troisinuenés par lapositionde la mâhoire
inférieure.L'analysefatorielleutiliséeparMaedapourtraiterlesdonnéesartiulatoiressedevait
d'être susamment souple pourrendre ompte deette partiularité et soustrairel'inuene de
lamâhoire surles autres artiulateurs. En eet,sa position peut êtreaisément déterminée sur
lesradiographiesenmesurantl'éartentrelesinisivessupérieuresetinférieures.Uneanalyseen
omposantesprinipalesn'étantpasadaptée, Maeda(Maeda1979 )autiliséuneanalyseenom-
posantes orthogonales arbitraires (proposée par Overall (Overall1962 )), que l'on appelle aussi
analyse en omposantes prinipales guidée, pour soustraire l'inuene de la mâhoire. Chaque
zone du onduit voal (lèvres,langue, larynx) estalors étudiée indépendamment. Pour haune
deszones, desparamètres de ontrle sont obtenus par une analyse en omposantes prinipales
sur les données déorrélées de l'inuene de la mâhoire, en retenant susamment de ompo-
santespourexpliquerl'essentiel delavariane.Le nombredeparamètres néessairesestvariable
danshaque zone;pourlazone dularynx,unparamètresut; pourleslèvres,lesdonnées ana-
lyséessontl'ouverture vertialedeslèvres,l'ouverturehorizontale(ouétirement)deslèvres,et la
protrusion. Deux paramètres intrinsèques (en plus de lamâhoire) ont été retenus pour dérire
esdonnées: l'ouverture vertialeet laprotrusion; l'ouverture horizontale deslèvresestdéduite
des deux autres paramètres; pour la langue, trois paramètres supplémentaires sont néessaires
pourdérire96%delavarianedesradiographies,soituntotalde7paramètres(voirgure1.3).
Par ailleurs,il estpossibled'adapter lemodèle artiulatoire àdeslouteurs diérents : deux
paramètres d'élongation des onduits oral et pharyngal permettent, dans une ertaine mesure,
d'adapter la forme du onduit à un nouveau louteur. Ces paramètres inuent uniformément
sur les dimensions des deux onduits, mais en jouant habilement ave, il est possible d'établir
un modèle apable de former des fontions d'aire orrespondant aux réalisations aoustiques
d'un louteur diérent. Galván-Rodrigez a établi une méthode semi-automatique d'adaptation
permettant à partir des fréquenes formantiques des voyelles d'un louteur donné d'établir les
oeientsd'élongation(Galván-Rodrigez 1997 ).Ledéfautdeetteméthodeestqu'ellesuppose
quelaréalisation d'unevoyelle donnée utilise uneonguration artiulatoire uniqueet indépen-
dante dulouteur.
Plus réemment, Badin et al. ont proposé un modèle artiulatoire également issu d'une
analyse fatorielle, mais basé sur des IRM 3D et des vidéos des diérents phonèmes du Fran-
çais (Badin et al.2002).
Modèles bioméaniques Certains modèles artiulatoires herhent à modéliser bien plus
que la forme du onduit voal : les modèles bioméaniques permettent de prendre en ompte
P7 P6 P1
P5
P2 P3 P4
Fig.1.3:Lesseptparamètres dumodèledeMaeda: lamâhoire(oujw) P1, l'ouverture vertiale
(lh)P5 etla protrusion des lèvres (lp)P6, la positiondu orps dela langue (tb) P2, la formede
la langue (ts) P3, undernier terme ontrlant la pointe dela langue (tt) P4, et ennla hauteur
dularynx (lx) P7.
la dynamique du système de prodution de parole, grâe à une modélisation des strutures
musulaires par des ressorts et des masses. L'un des premiers modèles de e type est elui de
Perkell (Perkell 1974 ). Il simpliait onsidérablement le proessus de prodution. Des modèles
beauoup plus élaborés ont été proposés depuis, tel le modèle de l'ICP proposé par Gérard et
al. (Gérardet al. 2003 ), qui modélise la langue en trois dimensions. Les inonvénients, outre la
lourdeur des aluls néessaires à leur utilisation, sont le nombre très important de paramètres
de ommande et la diulté de les déterminer; e qui les rend peu pratiques, tout du moins
aujourd'hui, pour l'inversion aoustique-artiulatoire.
1.2.2 Passage de la oupe sagittale à la fontion d'aire
Enthéorie,l'aoustiqueduonduitvoal,quee soitsouslaformedel'ondesonorepour une
simulationtemporelle,ousouslaformed'unefontiondetransfertpourunesimulation fréquen-
tielle,peut êtrealuléeàpartir de sareprésentationgéométrique entroisdimensions. Atuelle-
ment,lessimulationsaoustiques tridimensionnellesne sontpaspartiulièrement onvainantes,
probablement à ause de la diulté d'appliquer un maillage approprié pour le onduit voal
pour une méthode à éléments nis, et de l'impréision de la onnaissane de la géométrie du
onduit voal. Par ailleurs, es méthodes de alul sont partiulièrement gourmandes en temps
dealul,prenant généralement plusieursheuresdealulpourquelquesmilliseondesdeparole.
Uneétuderéente dueàRamsayet Shaddle(Ramsay&Shadle 2006)étudiant laformationdes
turbulenes dansleas desfriatives, à l'aide d'unesimulation préised'un modèle de uxvis-
queux inompressible tridimensionnel, prend ainsi 14 jours pour simuler deux milliseondes de
parolesur unluster de16 optérons.
Pouresraisons,lesmodèlesdealullassiquesdepropagationunidimensionnelleutilisantla
fontiond'aireduonduit voalsemblent toujoursvalables.Pour améliorerladélitéaoustique
àmoindreoût,ilestenvisageableégalementdepasseràunemodélisationàdeuxdimensions,en
faisantdeshypothèsessimpliatriestellequ'unesymétrieaxialeduonduitvoal(Hélie2002 ).
La plupart des modèles artiulatoires vus préédemment ont en ommun de ne modéliser
qu'une oupe médio-sagittale du onduit voal, et pour passerau onduit voal omplet, il est
néessairede disposerd'un modèle depassage pourretrouver latroisième dimension àpartir de
ettereprésentationbidimensionnelleduonduit.Enpratique,sil'onnégligelaformepréisedes
oupeset quel'on se ontente d'un modèle à fontion d'aire, le proédéest simpliémais reste
loin d'être évident.Le modèle leplus utilisé estle modèle alpha-beta proposépar Heinz et
Stevens(Heinz &Stevens1965).
Dansemodèle, l'airetransversale
A(x)
du onduitpourune positionx
lelongdelaourbemédiane du onduit voal est déduite à partir de la distane sagittale
d(x)
, 'est-à-dire la distaneentreles paroisantérieure etpostérieureduonduit voal. Cesauteurs onvertissent ladistane
d(x)
en une aireA(x)
à l'aided'unefontion puissane :A(x) = α(x) ∗ d β(x) (x),
(1.1)où
α(x)
etβ(x)
sont des paramètres dont les valeurs dépendent de la positionx
le long de lalignemédiane duonduitvoal.Laourbemédiane duonduitvoalestdéterminée enalulant
l'intersetionduonduit voalave unegrille semi-polaire, enalulant lesentres dessegments
reliant les parois antérieure et postérieureduonduit (f. gure1.4).
Comme la forme d'une setion transversale de onduit est omplexe, les valeurs de
α
etβ
doivent êtredéterminéesdefaçonempirique.D'autrepart,Perrieretal.ontmontréquepourles
valeursimportantesde
d
,l'aireduonduitvoaldiéraitdefaçonimportantedelavaleurpréditepar l'équation1.1(Perrier etal. 1992 ). Ceiétant, etteerreur n'est pasdramatiquedansnotre
as, arilapparaît queles fréquenes destroispremiers formants sontpeusensibles auxpetites
variations dans la fontion d'aire pour les aires importantes (Erisdotter 2007), e qui rend la
onversion
α
-β
utilisable lorsque l'on seontente desfréquenes des premiers formants e quiest susantpour l'étudedesvoyelles.
Il est néessaire de souligner que ette modélisation oupe médio-sagittale, modèle de
passage, fontion d'aire du onduit voal soure de nombreuses imperfetions. D'une part,
l'approximation grossière du onduit voal à l'aide d'une fontion d'aire n'est aoustiquement
pertinente que pour les fréquenes inférieures à 4kHz. Au-dessus de ette fréquene, les modes
transverses de l'onde sonore ne peuvent plus être négligés, ar la longueur d'onde devient du
même ordre de grandeur que lalargeur du onduit : si on suppose qu'un onduit voal fait au
plus 4mde large,soit 0.08m pour un aller-retour,et sahant que lesonsepropage dansl'airà
350m.s
−1
, lafréquenemaximalepour laquelleon n'aurapasderésonanelatéraleestd'environ
350/0.08 ≈ 4.3
kHz.D'autrepart, ladétermination ded(x)
n'estpasnonplusévidente.En eet,on supposedanslesmodèles àfontion d'aireque lemodèlede propagationestune onde plane,
etilestpar onséquentnéessairedemesurer
d(x)
dansladiretiondufrontd'onde;orils'avèrequemesurer lelongd'unegrille semi-polaireomme elaestfait par exempledansle modèlede
Maeda n'est pas toujours idéal. Pour un tuyau ourbé de 90
◦
ave une ourbe doue, on peut
raisonnablement supposerquelefrontd'ondesedéplaeorthogonalementàlaourbedesentres
géométriques dessetions. Idéalement, il faudrait don déterminer la ourbe milieu du onduit
voal,et mesurer
d(x)
omme lalongueur dusegment orthogonalàetteourbe oupantles pa-rois du onduit. Des études fondées surette approhe (Maeda1972 ; Goldstein1980) semblent
montrerqueleslongueursdeonduitobtenuessont légèrement plusourtesquelorsqu'onutilise
une grille semi-polaire, et que l'on peut de ette façon obtenir une simulation aoustique qui
permette d'approher de façon plus dèle les formants mesurés.Ces études auraient ependant
besoin d'être onrmées surde plusgros orpusde données.
Ilexistedesmodélisationsplusélaboréesquiprédisent l'airedesoupestransversalesàpartir
deladistanesagittaledefaçonpluspréise,notammentelledeBadinetal.(Badin et al. 2005 ).
Il semble toutefois, selon l'étude de Erisdotter (Erisdotter2007 ), que pour la simulation des
voyelles, leserreursaoustiquesliéesaumodèledepassage enlui-mêmesont négligeablesdevant
elles dues aux autres fateurs d'erreur; l'utilisation de mesures préises de la fontion d'aire
sur des données réelles ne semble en eet pas améliorer de manière signiative la délité des
formantssynthétiquesauxformantsmesurés.
Fig. 1.4: Détermination de la ourbe médiane du onduit voal ave une grille semi-polaire. La
ourbe médiane (enrouge) estonstruiteenreliant les entres dessegmentsles paroisantérieure
etpostérieure du onduit.
1.2.3 Simulation aoustique
L'éoulement de l'airdansun onduit estrégi par leséquations de Navier-Stokes:
ρ ∂v
∂t + (v.∇)v
= −∇ p + η∇ 2 v + (ζ + η
3 )∇(∇ v),
(1.2)où
ρ
estladensitéduuide,ζ
etη
leurs oeientsdevisosité,supposésnepasdépendredelatempératurenidelapressionduuide,
v
estsavitessevolumiqueetp
sapression.Cetteéquationestextrêmementomplexe,maisnouspouvonsfortheureusement lasimplieronsidérablement.
Dans le asde laprodution de parole, l'ordre de grandeur des vitesses à onsidérer est tel
que l'air peut être onsidéré omme un uide inompressible, et en faisant l'hypothèse de la
onservationde lamasseet d'un proessusadiabatique, l'équation1.2 peut seramener à:
∆p − 1
c 2 ∂ t 2 p = 0,
(1.3)où
p
désigne lapression dansle onduit voal, etc
laélérité du uide(environ 340m.s−1
pourl'airà 20
◦
C).
Par ailleurs, omme nousl'avonsévoquépréédemment, leonduit voalestessentiellement
un onduit étroit, et par onséquent le mode prinipal de résonane est lié à la longueur du
onduit,latransversaliténepouvant provoquerquedesmodesderésonanedefréqueneélevée,
quel'on peut négligerdansleas desvoyelles. Onpeutainsionsidérer quel'on esten présene
d'une onde se déplaçant le long du onduit voal, et la génération et la propagation des sons
peuvent ainsiêtre dérites par l'équationunidimensionnelle suivante,dite de Webster :
1 A(x)
∂
∂x
A(x) ∂P (x)
∂x
+ 1 c 2
∂ 2 P (x)
∂t 2 = 0
(1.4)où
A(x)
désigne l'aire de l'isophase de pressionP(x)
(x
désignant l'absisse le longde l'axe duonduit voal). Cette équation est linéaire (don relativement simple à étudier), et est valable
pourn'importequelleformed'ondeà symétrieaxialed'axe
x
.Dansnotreas,omme nousnousintéressons essentiellement aux voyelles, pour lesquelles le onduit est relativement large, il est
raisonnable de supposer en outre quel'onde est une onde plane, orthogonale au onduit voal.
Ce dernier est modélisé omme un tuyau retiligne de setion variable, donnée par la fontion
d'aire.
Endisrétisantletuyaudesetionvariableenuneonaténationdetubesdesetiononstan-
te, et enmodélisant lesonditions auxlimites (i.e. lespertes auniveau de laparoi duonduit),
nous pouvons obtenir la fontion de transfert du onduit voal relativement simplement. Un
desoutils les plus utilisésà et eet est l'analogieentre l'aoustiqueet l'életriité : en eet, la
pression et ledébit volumique dans le onduit voalsuivent les mêmes équations diérentielles
que la tension et l'intensité dans une ligne életrique (Flanagan 1972). Une setion de onduit
uniformepeut êtreainsimodéliséepar unpetitélémentdeligneéletrique ave pertes (f.gure
1.5b). Dansette analogie,
R
orrespond aux pertes duesà la frition visqueuse de l'air surlesparoisdu tube,
C
orrespondàlaapaitéaoustique,'est-à-direlaompressibilitédel'air,L
estl'indutane aoustiquedue àl'inertie de l'air, ennG
permet de modéliser lespertesthermiques, dont nous ne tiendrons pas ompte non plus. Les valeurs de es éléments sont les
suivantes :
L = ρ
A , C = A ρc 2
Enherhantlessolutions à(1.4)souslaformed'ondesmonohromatiques,'est-à-diredela
forme :
φ(x, t) = ψ(x)e jωt
, nousavonspour haquetube :∂ 2 ψ
∂x 2 + ω 2
c 2 ψ = 0
(1.5)Maintenant, en posant
y = G + jωC
etz = R + jωL
, ainsi queγ 2 = yz = − ω c 2 2
(γ
estappelée onstante de propagation), nous pouvons obtenir omme solution, en régime ontinu,
pour haque setion, unerelation linéaire de laforme:
P s
U s
=
A B C D
× P e
U e
,
où
P e
etP s
désignentrespetivement lapression àl'entréeet àlasortiede lasetion étudiée,etU e
etU s
ledébit volumique àl'entréeet àlasortiedeette mêmesetion. Endésignant parl
lalongueurde ette setion, et par
A
l'aire, leséléments delamatrie s'érivent :A = cosh γl
B = −
r z
y sinh γl
C = −
r y
z sinh γl D = cosh γl
Par ailleurs, haun destubesduonduit voalpouvant êtreainsimodélisépar une matrie
delaforme
T i =
A i B i
C i D i
,onobtient,pourunesuessiondetubes,unefontiondetransfert
delaforme :
P l
U l
= T n · T n−1 · · · T 1 · T 0 P g
U g
La fontion detransfert globale du onduit voal estsimplement leproduitdesmatries
T i
,ils'agit dond'une matrie
2 × 2
, dont les omposantesA, B, C, D
vérient :P g = AP l + BU l , U g = CP l + DU l
La pression aoustique étant nulle à la sortie des lèvres, on a
P l = 0
, et par onséquent lafontionde transfert duonduit
U l
U g
estdonnée par :
U l
U g
= 1 D
Les formants orrespondant aux résonanes du onduit, leurs fréquenes sont elles qui an-
nulent
D
. Il sut don, pour trouver les fréquenes desformants, de trouver les solutionsω i
del'équation:
D(ω) = 0.
Les
ω i
étantdeslongueursd'onde,lesfréquenesdesformantssedéduisentrapidementainsi:f i = ω c
i
.
En utilisant l'analogie életrique, il est également possible de traiter le onduit nasal : il
sutdeonsidérer queleonduit nasalestuntubeaoustiquebranhé enparallèle ave letube
orrespondant au onduit oral et au tube représentant le pharynx. Cependant, dans le adre
deette thèse nous netraiterons pasdessons nasalisés, qui ompliquent l'inversion aoustique-
artiulatoire.
1.3 Inversion aoustique-artiulatoire
L'inversion aoustique-artiulatoire désigne le problème onsistant à retrouver la forme du
onduit voal (ou la position des artiulateurs) à partir du signal de parole émis. L'objetif
est de réaliser l'inverse de la synthèse artiulatoire, que nous avons présentée dans la setion
préédente,d'oùleterme d'inversion.Enpratique,leproblèmeestsimpliéenparamétrisant les
espaesaoustiqueet artiulatoire,en réduisantlesignalaoustiqueenun veteurplussimple à
manipuler, par exemple les aratéristiques des premiers formants pour l'étude des voyelles, et
le domaine artiulatoire en dérivant la forme du onduit voal à partir d'un veteur de taille
réduite,parexempleunveteurdeontrled'unmodèleartiulatoire.Leproblèmedel'inversion
se réduit alors à l'étude d'une relation de l'espae des veteurs aoustiques vers l'espae des
veteursartiulatoires.
p(x+dx) A(x+dx) p(x) A(x)
dx
(a)Tubedesetiononstante.
dx
L/2 R/2
L/2 R/2
C G
I+dI
I+dI I
I
E E+dE
I
I+dI
(b) Élement de ligne életrique ave
perte.
Fig. 1.5:Analogie aoustique
↔
életriité.1.3.1 Problème mal posé
Un problème est ditbien posé s'il admet une solution (ondition d'existene), si elle-iest
unique(onditiond'uniité) etsielleeststable(onditiondestabilité).Siunproblèmenevérie
pasau moinsl'une dees onditions,ilest ditmal posé.
Defaçon générale, les problèmes d'inversion du onduit voal sont mal posés. La première
ondition l'existene dépend de la délité du modèle physique de prodution de parole. Il
est parfois très diile voire impossible de montrer qu'un modèle est apable de produire tous
les veteurs aoustiques d'un signal de parole (Sorokinet al. 2000), même si pour desveteurs
simples, omme letriplet destroispremièresfréquenes formantiques, elaest envisageable.
Àproposdelaseonde propriété(uniité), ilestbienonnuqu'il existe uneinnité de fon-
tions d'aire pouvant produire le même ensemble de formants (Atal etal. 1978 ). Par ailleurs,
il a été observé à plusieurs reprises que ette non-uniité était exploitée par le biais d'arti-
ulations ompensatoires, par exemple hez les ventriloques ou imitateurs, ou dans des expé-
rienes d'artiulation perturbée (Lindblom et al. 1979 ;Savariaux&Orliaguet1995 ), mais aussi
dans des onditions normales d'éloution (Qin &Carreira-Perpiñán 2007 ). Si ette variabilité
de l'artiulation pour produire un son donné est avérée, il semble ependant qu'en pratique,
l'artiulation ompensatoire est assez peu exploitée dans des onditions normales d'éloution :
C. Qin (Qin &Carreira-Perpiñán 2007) a observé sur les sujets de son étude que seuls 5% des
veteursaoustiques avaient desantéédentsnon-uniques.
Enn,lapropriétédestabilité(unepetiteperturbationdel'entréenedevantentraînerqu'une
petiteperturbationdelasolution)n'estégalementpastoujoursassurée,enfontiondelaméthode
d'inversionutilisée.
Pourtoutesesraisons,l'inversionaoustique-artiulatoireestonsidéréeommeunproblème
mal posé.
1.3.2 Prinipe de résolution
L'inversion aoustique-artiulatoire a été largement étudiée dans le passé (Shroeder1967 ;
Mermelstein 1967;Atal etal. 1978 ;Shroeter &Sondhi1994 ;Sorokinet al. 2000 ),et unertain
nombre d'approhes ont été proposées an d'atténuer la nature mal posée du problème. Un
inventaire presque exhaustif de es diérentes méthodes peut être trouvé dans un rapport du
projet européen ASPI (Maedaet al. 2006 ); nous ne présenterons pas ii un inventaire aussi
détaillé, maisune lassiation rapide desdiérentes méthodesd'inversion proposées.
1.3.2.1 Méthodes basées sur des données d' apprentissage (réelles ou synthé-
tiques)
Ces méthodes néessitent une quantité importante de données, qui sont malheureusement
rarement disponibles en quantité ou qualité susante. Pour résoudre le problème des données
manquantes, une solution simple onsiste à les réer artiiellement, par exemple à l'aide d'un
synthétiseur artiulatoire. Une autre solution ouramment utilisée onsiste à n'étudier qu'une
représentation partielle du onduit voal, par exemple la position de marqueurs életromagné-
tiques,qu'ilest possible d'obteniren quantité importante.
Méthodes par tabulation Les méthodes d'inversion utilisant des tablesde orrespondane
veteur aoustique
↔
veteur artiulatoire sont appelées méthodes par tabulation, ou par o- debooks. Ces tables peuvent être onstruites à partir de données obtenues de façon artiielle,'est-à-dire à l'aide d'un système de synthèse artiulatoire, ou alors sur des données réelles où
donnéesartiulatoires et aoustiquessont enregistrées en parallèle.
Le prinipe de laméthode d'inversionest alors simple : un veteur aoustiqueétant donné,
onreherhedanslatablelesvaleursquiensontprohes,etonrenvoielesveteursartiulatoires
orrespondants. L'objetif essentiel de esméthodesestde réaliser uneouverture adéquate des
espaes artiulatoire et aoustique, e qui en fontion de l'appliation visée peut désigner des
hoses très diverses.
Diérentes tehniquessont utiliséesan d'obtenir ette ouverture adéquate, d'organiser de
façon eae la table, et s'aranhir des zones inexplorées de l'espae artiulatoire. Une orga-
nisation astuieuse de la table permet de retrouver rapidement les veteurs artiulatoires qui
produisent un veteur aoustiqueprohe d'un veteur aoustiquedonné.
Cetyped'approheestparmi lesplusaniens,etresteégalement parmilesplusprometteurs,
mêmesi, omme pour laplupart desméthodes, lesrésultatsobtenus sont rarement àlahauteur
desattentes. Le premier à utilisere type d'approhe est Atal (Atal etal. 1978 ), à une époque
où les performanes des mahines étaient très éloignées de e que l'on onnaît atuellement.
Certainshoix tehniques faitsà l'époque nesont plusguère pertinents, maisune grandepartie
desrésultatsprésentéspar Atal sont toujours exploitésdansles méthodesd'inversionpar ode-
bookatuelles; e travail reste ainsià bien deségards une étudefondamentale pour l'inversion
aoustique-artiulatoire par odebook.
Parmi les nombreuses méthodes d'inversion utilisant des odebooks obtenus à l'aide d'un
synthétiseurartiulatoire,diérentstypesd'éhantillonnagedel'espaeartiulatoire ontétépro-
posés :
éhantillonnage régulier (Atalet al. 1978 ),
éhantillonnage aléatoire (Shroeter &Sondhi1992; Boëet al.1992 ),
interpolation à partir deveteurs raines(Larar et al.1988 ; Sorokin&Trushkin 1996),
éhantillonnageadaptatif(Charpentier 1984 ;Sorokin&Trushkin 1996 ;Ouni&Laprie 2000 ;
Potard&Laprie 2007 ).
De même, plusieurs modélisations de la relation aoustique
⇒
artiulatoire ont été propo- sées pour s'aranhir des zones manquantes. La méthode la plus simple est de onsidérer quelafontion estonstante dansunpetit voisinageautourduveteur aoustique(Atalet al. 1978 ;
Lararet al. 1988; Shroeter &Sondhi1992 ). Une autre méthode onsiste à onsidérer un om-
portementlinéaireautourdesveteursaoustiques(Atalet al. 1978;Charpentier 1984 ;Sorokin&Trushkin 1996;
Ouni&Laprie 2000; Potardet al. 2004 ). Certains enore emploient des modélisations polyn-
miales(Potard &Laprie 2007 )oustohastiques(Laboissière 1992 ;Hogdenetal. 1996 ;Hiroya& Honda 2004;
Rihmond2001 ).
Une propriétéessentielle des méthodes utilisant desdonnées réelles par rapportà elles uti-
lisant des données artiielles est de réduire de façon substantielle les problèmes liés à la non-
uniité. Il a en eet été observé de façon empirique qu'en éloution normale la non-uniité
pratique ne onerne qu'un nombre très réduit de phonèmes (Qin &Carreira-Perpiñán 2007 ).
Lesméthodes utilisant un synthétiseur artiulatoire sont onfrontées àla non-uniité théorique,
qui estnettement plus importante queelleobservée en pratique.
Ces méthodes permettent de trouver rapidement des veteurs artiulatoires qui donnent la
bonne imageaoustique,e quipeut surepour ertainesappliations.Maiss'ils'agitdeguider
unélève quiapprendl'artiulationd'un son(parexemple dansleadrede l'apprentissaged'une
langueétrangère),oudansl'optiqued'animerd'unetêteparlanteàl'intentiondemalentendants,
laorrespondaneaoustiqueestloind'êtresusante,etilestbiensouventnéessaired'eetuer
un travail onséquent pour résoudreleproblème denon-uniité.
Diérentesapprohesontétéproposéespourela:traiterleproblèmeenamont,parexemple
en restreignant volontairement l'espae artiulatoire à explorer, ouen augmentant ladimension
du veteur aoustique(et par onséquent limiter onsidérablement leproblème de non-uniité),
traiter le problème immédiatement en introduisant des ontraintes statiques (par exemple la
minimisation deladistane àlapositionneutre), oubientraiter leproblème enavalenplaçant
desontraintessur lestrajetoires artiulatoires.
Méthodes utilisant un apprentissage Les méthodes fondées sur un apprentissage statis-
tique de type réseaux de neurones ou Modèle de Markov ahé sont une variante relativement
ourante desméthodesà odebooks.La tableestsimplement remplaée par une boîte noire
assoiantà unveteuraoustiqueunveteurartiulatoire,ou àune séquenede veteursaous-
tiques une séquene de veteurs artiulatoires pour les modèles dynamiques. Les données utili-
sées lors de l'apprentissage sont parfoisbasées sur un modèle artiulatoire (Atal &Rioul1989 ;
Soquetet al. 1990 ;Papun et al.1992 ), maissontdésormaisleplussouventbasées surdesdon-
néesréelles (Hiroya &Honda 2004 ; Toda et al. 2004 ;Rihmond 2006).
1.3.2.2 Inversion direte
Les données artiulatoires existantes étant rarement satisfaisantes (soit en quantité insu-
sante, soit en qualité insusante, soit propres à un louteur et ne pouvant pas être adaptées
simplement, soit enore ne pouvant pas être utilisées pour l'appliation partiulière étudiée),
beauoupd'auteurs ont herhé àdévelopper desméthodesd'inversionqui nenéessitent pasde
données artiulatoires.
LespremièresméthodesdeetypesontbaséessuruneétudedeMermelstein(Mermelstein 1967 )
surlarelationentrefréquenes propreset fontiond'aired'un onduitvoalsanspertes,esfré-
quenespropresorrespondantauxfréquenesdesformantsobservablessurunspetredeparole.
D'autres méthodes exploitent la pseudo-linéarité loale de larelation de l'artiulatoire vers
l'aoustiquesans passerpar l'utilisation d'un odebook, notamment la méthode développée par
ShoentgenetCioea (Shoentgen &Cioea 1997 ),quiutilise uneoptimisation pour déterminer
un veteur artiulatoire ayant pour image un triplet de fréquenes formantiques donné. Ces
méthodes aboutissent à une solution unique sur une séquene en ajoutant des ontraintes de
pseudo-énergie surlespositions desparamètres artiulatoires.
Les approhes par réseaux de neurones ou par modélisation stohastique néessitent une
quantité très importante de données pour avoir des résultats ables, et ne fontionnent en gé-
néral pas ave un autre louteur que elui d'apprentissage. Par ailleurs, on ne dispose pas de
données sur leonduit voal omplet en quantité susante, et es méthodes font généralement
leur apprentissage sur des données partielles du onduit voal obtenues à l'aide de diérentes
tehniquesd'aquisition: EMA,rayonsXMiro-Beam,artiulographe,éhographie..., etneper-
mettent don pasl'animation d'une têteparlante omplète, e qui estnotre objetif.
Pouretteraison,nousavonshoisid'utiliseruneméthoded'analyseparsynthèseutilisantun
modèleartiulatoireompletduonduitvoal,enl'ourrenelemodèledeMaeda(Maeda1979 ;
Maeda1990 ).Pourgarantiruneexplorationaussiomplètequepossibledel'espaedessolutions,
nousutilisonsunodebookonstruit en explorant l'intégralité de l'espae artiulatoire,et repo-
sant surunemodélisation loalement polynmiale delarelation artiulatoire vers aoustique.
1.3.3 Résolution par introdution de ontraintes
L'objetif de l'inversion estde retrouver l'évolution de la forme du onduit voal à l'origine
d'un signal de parole donné. Or, omme nous l'avons remarqué préédemment, les modèles de
synthèse artiulatoire utilisés généralement ne permettent d'obtenir qu'une approximation du
signalaoustique réellement produit par une forme de onduit voaldonnée. Par ailleurs, il est
également fort omplexe d'extraire l'information propre au onduit voal du signal aoustique
original:mêmedansleasd'unenregistrementnonbruité,ilrestenéessaired'employerunepa-
ramétrisationpermettant d'extrairel'information aoustiquepropreau onduitvoallui-même,
et les tehniques de traitement du signal permettant de le faire ne sont malheureusement pas
parfaites.
Lesfréquenesdespremiers formantssontà peu dehosesprès lesseulsparamètres quel'on
puisseestimer defaçon ableàpartir d'un synthétiseursansmodèlede soure.Ellesfournissent
une desription phonétiquement pertinente des voyelles. Pour es raisons, elles onstituent un
andidat de hoix pour la paramétrisation du signal aoustique dans le adre de l'inversion
aoustique-artiulatoire.Malheureusement,lenombredeformantspouvantêtreobtenusdefaçon
ableestassezréduit,puisqueleshypothèsesformuléesdansleadredessynthétiseurslassiques
negarantissent debonsrésultatsquepourlesfréquenes inférieuresà4kHz,equine permet de
dériredèlement que lesfréquenes destrois ouquatrepremiers formants. La taille réduite du
veteuraoustique aentue onsidérablement lanon-uniité dessolutions de l'inversion.
Il est par onséquent néessaired'introduire desontraintes supplémentaires an de réduire
lataille desensembles desolutions àonsidérer. Enpratique,de nombreux typesde ontraintes
ont étéproposés et étudiées. Parmi les ontraintes introduites,on trouvenotamment :
La surdétermination du veteur aoustique. Un veteur aoustique dedimension plusim-
portante queelleduveteur artiulatoireestutilisé; iln'yaalorsqu'au plusune solution
exate(Charpentier 1984).
Restritionssurlesairesmaximalesetminimalesdessetionstransversalesduonduit(Sorokinet al. 2000 ).
Minimisation de ladistane àlaforme neutre(Yehia&Itakura 1996).
Maximisationde laontinuité spatiale de lafontion d'aire(Yehia&Itakura 1996).
Constane duvolume duonduit voal(Soquetet al. 1991).
Maximisationdelaontinuitédel'évolutiontemporelledesformesdeonduit(Flanagan etal. 1980).
Minimisationdelavariationtemporelledesparamètresartiulatoires(Flanaganet al. 1980 ).
Minimisation du travail musulaire (Sorokin1992 )...
Nous présenterons plus en détail, dansla deuxième partie de ette thèse,deux autres types
deontraintes, exploitant desinformationsextraitesduontextedelaparole; ontraintespho-
nétiquesdansun premiertemps,imposant desontraintes artiulatoiresrelativesau phonème
prononé,puisontraintesvisuelles,exploitantdesinformationssurlesartiulateursvisibles,
àpartir d'images vidéos enstéréovision.
1.4 Conlusion
Notreméthoded'inversionreposesurlesméthodesdeMathieu(Mathieu 1999 )etOuni(Ouni 2001)
développées au sein de l'équipe PAROLE du LORIA. La méthode que nous avons élaborée au
oursde ettethèseomplète lesystèmeexistantsousdeuxformes: d'unepart,parune amélio-
rationsubstantielledesperformanesdelaméthode(nousobtenonsunemeilleurepréision,ave
desodebooksplusompats,etdansdestempsplusourts).Cesaméliorationsonstituentl'ob-
jetde lapremière partie delathèse.D'autre part, dansunedeuxième partie, par l'introdution
de ontraintes originalesexploitant l'information ontextuelle :
informationontextuelleimpliitedansleshapitres5et6,parl'introdutiondeontraintes
phonétiques, 'est-à-direde ontraintes artiulatoires spéiquesau phonème reonnu sur
lesignalde parole inversé,
information ontextuelle expliite dans le hapitre 7, où des informations relatives aux
artiulateurs visibles obtenues de manière automatique sont utilisés en omplément de
l'information aoustique.
Inversion
D
ansettepartie,laméthoded'inversionproprement diteestprésentée.Commenousl'avons
dit préédemment, notre méthode s'inspire largement de la méthode développée par Slim
Ouni dans sa thèse (Ouni 2001), tout en l'améliorant onsidérablement. La grande fore de la
méthodede Ouniestdepermettre unereprésentation exhaustiveet sousuneformeompatede
larelationaoustique
⇒
artiulatoire.Par rapport à la méthode originale, diversesmodiations notables ont été apportées : une
modélisationsplusnedelarelationartiulatoire
⇒
aoustique,unepréisionaruedesalulsainsiquediverses améliorationsalgorithmiques permettant d'aélérer lesaluls.
Dans ette partie sont présentés les diérents modules omposant l'infrastruture de notre
méthode d'inversion. Le hapitre 2 présente laméthode de onstrution de odebook hyper-
ubique telle qu'utilisée par Slim Ouni, ainsi que les diérentes améliorations apportées au
niveau de lastruturation etde lamodélisation desdonnées. Le hapitre 3 présente laméthode
d'inversion statique par odebook. Enn, le hapitre 4 présente les modules pour l'inversion
dynamique.
Constrution de odebook
hyperuboïque
Introdution
N
otre but est de représenter l'ensemble de la relation artiulatoire
⇒
aoustique (notéepar la suite Ar
⇒
A) de façon ompate. Pour ela, nous allons réaliser un pavagede l'espae artiulatoire en petits éléments, où la relation de artiulatoire vers l'aoustique
peut être évaluée très rapidement. Comme nous l'avons évoqué préédemment, les études de
(Fant 1970 ;Atalet al. 1978 ;Sorokin &Trushkin 1996 )montrent toutesquelarelationAr
⇒
Aestnaturellement loalement linéaire.
2.1 Paramétrisation aoustique et artiulatoire
Notreméthodedetabulationestgénérique,etnedépendauunementdumodèleartiulatoire
oudu synthétiseur utilisé à vraidire, ave quelqueslégères modiations, elle pourraitmême
être utilisée sur un orpus de données réelles. Les espaes artiulatoires et aoustiques seront
dononsidérésdefaçontrèsgénériqueomme étantdesespaesvetorielsréels,etonsupposera
simplement disposerd'une appliation
f
allant d'un sous-domaine del'espae artiulatoire vers unsous-domaine del'espae aoustique.Celaétant,danstoutesnosappliations,nousutiliserons ommeespaeartiulatoirel'espae
des paramètres de ontrle du modèle artiulatoire de Maeda (Maeda1990 ), et omme espae
aoustiquel'espae desaratéristiquesdes premiers formants (essentiellement fréquenes,mais
parfoisaussilargeurs de bande et amplitude). Revenonsdon rapidement surle modèle artiu-
latoire, surlesynthétiseur artiulatoire intégré,et surnotre paramétrisationaoustique.
2.1.1 Modèle artiulatoire de Maeda
Établi àpartir d'uneanalyse statistiquede donnéesinéradiographiques, lemodèleartiula-
toire de Maeda (Maeda1979 ; Maeda1990 ) estl'un desmodèles les plusutilisés pour modéliser
leonduitvoal.Il dérit unonduit voalompletàpartir de troismodèles indépendantspour
leslèvres,lalangue, etle larynx.
Maeda (Maeda1979 ) a établison modèle à partir de données inéradiographiques d'une lo-
utriefrançaisenative,issuesdel'InstitutdePhonétiquedeStrasbourg(Bothorel etal. 1986 ).À
l'aided'uneanalyseenomposantesorthogonalesarbitraires(proposéeparOverall(Overall1962)),