The DART-Europe E-theses Portal

(1)

HAL Id: tel-01748423

https://tel.archives-ouvertes.fr/tel-01748423v2

Submitted on 29 Mar 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Blaise Potard

To cite this version:

Blaise Potard. Inversion acoustique-articulatoire avec contraintes. Interface homme-machine [cs.HC].

Université Henri Poincaré - Nancy 1, 2008. Français. �NNT : 2008NAN10085�. �tel-01748423v2�

(2)

UFR STMIA

Inversion acoustique-articulatoire avec contraintes

TH` ESE

pr´esent´ee et soutenue publiquement le 23 octobre 2008 pour l’obtention du

Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1

(sp´ ecialit´ e informatique)

par

Blaise Potard

Composition du jury

Rapporteurs : R´egine ANDRE-OBRECHT, Professeur, Universit´e Paul Sabatier Pierre BADIN, Directeur de Recherche, CNRS

Examinateurs : Noëlle CARBONELL, Professeur, Université Henri Poincaré Shinji MAEDA, Directeur de Recherche, CNRS

Xavier RODET, Professeur, Universit´e Paris VI Directeur de th` ese : Yves LAPRIE, Directeur de Recherche, CNRS

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(3)

(4)

Je tiens tout partiulièrement à remerier mon direteur de thèse, Yves Laprie, pour sa

patiene, ses onseils et ses enouragements. Je tiens également à remerierShinji Maeda pour

nous avoir fourni son modèle artiulatoire et ses données, et pour les éhanges sientiques

frutueuxquenousavonspuavoir.

Je remerie profondément Martine Kuhlmann, la serétaire de l'équipe,pour sa patiene et

sagentillesse sans limites.

Je remerie ensuite tous les enseignants du département Informatique de l'Université Henri

Poinaré Nany 1, pour leurs onseils, leur patiene et leur soutien, et tout partiulièrement

AlainMirgaux, OdileMella et Vinent Colotte.

Enn, je remerie mafamille et tousmes amis,pour leursoutiensans faille.

(5)

(6)

ÀDelphine, Stéf,Matthias,Ben,Nio,Véro ettousles autres,pare qu'ilsle valent bien;

Àtousles membresdu Loria grâeàquij'aipupasser de trèsbonsmoments, toutpartiulièrement

les oupants dubureau C130,les membresdes équipes Parole, MagritetMaia, ettouseux queje

ne itepas maisquise reonnaîtront.

Etàtous euxquisontpartis.

(7)

(8)

Introdution

Chapitre 1

Préliminaires

1.1 Aoustique de laparole . . . 1

1.1.1 Prodution de laparole . . . 1

1.2 Synthèse artiulatoire . . . 4

1.2.1 Modélisationdu onduitvoal . . . 4

1.2.2 Passage de laoupesagittaleà lafontion d'aire . . . 7

1.2.3 Simulation aoustique . . . 9

1.3 Inversionaoustique-artiulatoire . . . 11

1.3.1 Problème malposé. . . 12

1.3.2 Prinipe de résolution . . . 12

1.3.3 Résolution par introdution de ontraintes . . . 15

1.4 Conlusion . . . 16

Partie I Inversion 17 Introdution Chapitre 2 Constrution de odebook hyperuboïque 2.1 Paramétrisationaoustique et artiulatoire . . . 21

2.1.1 Modèleartiulatoire de Maeda . . . 21

2.1.2 Synthétiseur . . . 22

2.1.3 Paramétrisation aoustique . . . 23

2.1.4 Quelquesrésultats . . . 23

2.2 Présentation de lastruture hyperuboïdale . . . 24

(9)

2.2.1 Choixde lastruture . . . 24

2.2.2 Dénitions de lastruturehyperuboïdale . . . 24

2.2.3 Modélisation mathématique. . . 25

2.3 Constrution . . . 27

2.3.1 Test derégularité . . . 27

2.3.2 Utilisationdespolynmesmultivariéspour aluler l'approximation . 30 2.3.3 Seuillage aoustique . . . 33

2.3.4 Subdivision . . . 34

2.4 Réalisation . . . 35

2.4.1 Caluldu veteur aoustique . . . 36

2.4.2 Cahe de formants . . . 37

2.4.3 Génération despointsde test . . . 39

2.5 Évaluation expérimentale . . . 43

2.5.1 Resynthèsed'un veteur artiulatoire par interpolation . . . 43

2.5.2 Valeursoptimalespour lealul delamatrie jaobienne . . . 44

2.5.3 Seuilsde subdivisionet préision aoustique . . . 44

2.5.4 Temps de onstrution . . . 46

2.5.5 Couverture de l'espaeartiulatoire . . . 47

Chapitre 3 Inversion par odebook 3.1 La méthode d'inversion . . . 51

3.1.1 Prinipe général . . . 52

3.1.2 Restreindrel'ensembled'hyperuboïdes àexplorer . . . 52

3.1.3 Résolution dusystèmed'équation

P (X) = s

^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ^. ⁵³

3.1.4 Éhantillonnage de solutions . . . 55

3.2 Quelquesrésultats . . . 56

3.2.1 Inversionde voyellesisolées . . . 56

3.2.2 Domaines aoustiques . . . 59

3.2.3 Statistiques . . . 60

3.2.4 Temps de alul . . . 65

Chapitre 4 Trajetoires artiulatoires 4.1 Lissagenon-linéaire . . . 70

4.1.1 Critèressur larégularité de latrajetoire desartiulateurs . . . 70

4.1.2 Critère global àminimiser. . . 71

(10)

4.3 Inversiondynamique . . . 74

4.3.1 Inversionde lasynthèse aoustique. . . 75

4.4 Conlusion . . . 79

Partie II Contraintes 81 Introdution Chapitre 5 Contraintes phonétiques 5.1 Prinipe . . . 85

5.2 Domaines artiulatoires . . . 85

5.2.1 Classiation desphonèmes . . . 85

5.2.2 Transposition desontraintes phonétiques danslemodèle artiulatoire 86 5.3 Domaines aoustiques . . . 87

5.3.1 Partitionnement del'espae aoustique . . . 88

5.3.2 Données aoustiques . . . 89

5.4 Sore phonétique . . . 90

5.5 Inversionave ontraintes phonétiques . . . 92

5.5.1 Constrution de odebooks . . . 92

5.5.2 Inversionstatique . . . 93

5.5.3 Inversiondynamique. . . 93

5.6 Exemples . . . 94

Chapitre 6 Évaluation des ontraintes phonétiques 6.1 Correspondaneartiulatoire-aoustique . . . 99

6.2 Inversionstatique . . . 101

6.2.1 Expérienes d'inversion . . . 101

6.2.2 Analyse desrésultats . . . 102

6.3 Inversiondynamique . . . 113

6.3.1 Inversionde transitionsVoyelle-Voyelle . . . 113

6.3.2 Réapitulatif . . . 120

6.4 Conlusions et perspetives . . . 122

(11)

Chapitre 7

Contraintes visuelles

7.1 Origine . . . 125

7.2 Données multimodales . . . 126

7.2.1 Miniorpus . . . 127

7.2.2 CorpusAL . . . 128

7.2.3 Données duprojetASPI . . . 128

7.3 Traitement desdonnées . . . 128

7.4 Implémentation desontraintes visuelles . . . 129

7.4.1 Correspondane entre les marqueurset lemodèleartiulatoire . . . . 130

7.4.2 Inversionave ontraintesvisuelles . . . 133

7.5 Expérienes d'inversion . . . 133

7.5.1 Comparaisondesdeux méthodes . . . 133

7.5.2 Expérienes d'inversion . . . 135

7.6 Conlusion . . . 137

Conlusions et perspetives 139 Conlusions et perspetives Annexe A Corpus PB A.1 Paramètres artiulatoires . . . 143

Annexes

Bibliographie 147

(12)

L'

unedesprinipalesaratéristiquesquidistinguent l'hommedel'animalestl'utilisation de

laommuniation parlée. Bien que ne possédant pasl'appareil phonatoire leplus sophis-

tiqué(ertains oiseaux peuvent en eet réaliser des sons nettement plus élaborés), la parole et

lesméanismesde produtions'yrattahant restent parmiles manifestationsles plusomplexes

et lesmoinsbien onnus du génie humain.

L'Homme n'aeu deessed'étudier e phénomène, et depuisque lesordinateurs existent, de

herher à le reréer artiiellement. Depuis relativement longtemps, on a réalisé des modèles

logiiels de l'appareil phonatoire, apables d'imiter la voix humaines en simulant les équations

physiquesdel'aoustiquedefaçonplusoumoinssimpliée,et ave plusoumoinsde suès.Ces

modèles desynthèse peuvent parfoisémettre dessonsqui ressembleà s'yméprendreà unevoix

humaine réelle; malheureusement, pour piloter dèlement de tels modèles, il est néessaire de

disposer dedonnées surlemouvement des diérentsartiulateurs, et surlasoure sonore.

Il existe destehniquesd'imagerie permettant d'obtenirdesinformations surlapositiondes

artiulateurs,maisauunede estehniquesn'est parfaite:soit ellesneapturent quepartielle-

mentle onduit(images duvisagedu louteur permettant de voirlapositiondeslèvres et dela

mâhoire,apteursmagnétiquesàdespositionspréisesàl'intérieurdelabouhe,éhographie...),

soit n'ont pas une résolution temporelle susante pour apturer les subtilités de l'artiulation

de la parole naturelle (par exemple l'IRM, qui permet d'obtenir une vue tridimensionnelle du

onduitvoal, maisnéessitedestempsde poseprohibitifs,oularépétitiond'unemêmephrases

desentainesdefois),soitenoresontfranhementdangereuses(parexemplelainéradiographie,

oùlelouteursubit desentainesde radiographiessurune durée dequelquesseondes).

L'obtentionlogiielle desmouvements artiulatoiresà l'origined'un sondonné,ou inversion

aoustique-artiulatoire,voiretoutsimplement inversion,estunepropositionalternativeetom-

plémentaire àestehniquesd'imagerie.Ils'agitenréalitéd'unproblèmelépourdenombreuses

appliations.Outrelesmodèlesdesynthèsevoale,esdonnéespeuventeneetêtreutilesdansde

nombreuxas:laompressiondeparolepourlatéléphonie, l'étudedeslangues,etsurtout l'ani-

mation de têtes parlantes(pour l'industrie inématographique et desloisirs, l'apprentissage des

langues,l'aideauxpersonnesmalentendantes...). Parailleurs, lesdonnéesartiulatoires peuvent

aussitrouver leurutilité dans desdomainesaussidisparates quelareonnaissane automatique

delaparole,lasynthèse voale paronaténation,laphonétiqueet laphonologie,lamédeine...

De part sa position entrale dans tous les domaines liés au traitement automatique de la

parole,et par samyriaded'appliations potentielles, l'inversionaoustique-artiulatoire est l'un

despointsruiauxdel'étudedelaparole.D'ailleurs,trèstt,lespionniersdel'étudedelaparole

sesontintéressésàlamodélisationartiulatoire duonduitvoal(notammentFant(Fant 1960 ),

Stevens (Stevens&House 1955 ), Flanagan (Ishizaka &Flanagan1972 )...). Mais la véritable

étude fondamentale du domaine de l'inversion, et également l'une desplus intéressantes, est le

travailréalisé par Atalet sesollègues (Atalet al.1978 ).

Malheureusement, les quatre années onsarées à l'étude de e sujet ne me permettent pas

(13)

d'apporter uneréponseauxnombreusesquestionsqui entourent edomaine,et enpremierlieu :

l'inversionaoustique-artiulatoireest-ellepossiblepourtouslessonsdelaparole?Et,autrement

plus problématique,est-eque notreméthode fontionne?

L'unedesdiultés majeures est en eet l'évaluationde l'inversion. Car,il faut serendre à

l'évidene, laquantité dedonnéesartiulatoires utilisables estassez restreinte,lesdonnées étant

souvent obtenues dansdes onditions problématiques (systèmes invasifs, ou parole non sponta-

née), ou diilement exploitables (enregistrement sonore non disponible ou nonsynhronisé...).

Pour remédier àe problème, l'équipe PAROLEdu LORIA,et plusieurs partenaires européens,

ontmonté leprojeteuropéen ASPI(nané par leProgramme ISTdelaCommissiondesCom-

munautésEuropéennes,avelenuméroIST-2005-021324),dontl'undesobjetifsestl'aquisition

dedonnéesartiulatoiresselondesmodalitésbiendénies,demanièreàpouvoirévaluerdefaçon

rigoureuse les diérentes méthode d'inversion développées par haun des partenaires. Malheu-

reusement, la mise en plae des systèmes d'aquisition a pris plus de temps que prévu, et par

onséquent lesdonnées aquisesn'ont puquetrès partiellement êtreexploitéesdansette thèse.

Par onséquent, laomparaion ave des données réelles n'a été qu'assez rarement possible,

la validation de la méthode d'inversion n'a été que partielle, et les résultats des expérienes

d'inversionprésentées danse mémoire sont don à onsidérer ave préaution.

Néanmoins, il apparaît que le travail eetué permet sur de nombreux points d'améliorer,

sinon la délité des résultats aux trajetoires réelles (que l'on ne onnaît en général pas),

au moins la abilité, la rapidité, la stabilité du proessus d'inversion. Les ontributions sont

de plusieurs ordres : une grande parties du travail a portée sur la méthode d'inversion elle-

même,qui estestunprolongement destravauxeetuésdansl'équipe,d'abord parBruno Mat-

thieu (Laprie &Mathieu 1998a ), puis par Slim Ouni (Ouni 2001 ). Ce travail a paradoxalement

été eetué à la n de ma thèse, e qui explique que les améliorations ne sont pas forément

toutes exploitées danslesautres parties.

L'autre grand axe de reherhe a été l'élaboration de ontraintes pour limiter l'espae de

solutionsdel'inversion.Lesontraintesétudiéesiiexploitentl'informationontextuelleinhérente

au proessusdeprodution de laparole.

L'hypothèsegénéralementretenuedansleadredel'inversionaoustique-artiulatoireestque

leproessusdeprodutionherheà minimiserladépenseénergétique,maisoutrelesproblèmes

liésàlamodélisationduoûténergétique, ilsembleenréalité queleproessusde produtionde

laparole n'est passeulement guidépar unprinipe de moindreeort,maisherhe également à

suivre desaratéristiquesartiulatoires propres au dialete parlé.L'hypothèse qui sous-tend la

première lassedeontraintes proposéeiireposesuruninvariant artiulatoire delaprodution

des phonèmes d'une langue : on herhe à s'approher au plus près, non du son orrespondant

au phonème, maisd'un patronartiulatoire propreà elui-i.

Certes, la ompensation artiulatoire, ou, en d'autres termes l'utilisation de ongurations

artiulatoires distintes pour la réalisation d'un même phonème en fontion du ontexte, est

une omposante importante du proessus de parole; mais omme l'ont montré des études ré-

entes (Qin &Carreira-Perpiñán 2007 ), elle est empiriquement peu exploitée : il semble qu'en

parole spontanée, leplus important n'est pasderéaliserun patronvoalique delafaçon laplus

eae énergétiquement, maisdelafaçon laplus prohed'une formeanonique.

C'estette hypothèse leproessus deparole herhe à approher au plus près despatrons

artiulatoires des phonèmes à prononer qui motive la première lasse de ontraintes; nous

supposons en outre que les patrons artiulatoires ne sont pas seulement propres au louteurs,

maissimilairesheztousleslouteursd'unelanguedonnée.Pourettelassedeontraintes,nous

exploitonsainsil'information ontextuelleimpliite :nousherheronsàdéterminer lessolutions

(14)

version ne porte plus simplement sur le son, mais exploite des données supplémentaires sur la

position desartiulateurs visibles,obtenuesà partir d'images en stéréovision duvisage dulou-

teur.

Ce mémoire est ainsi divisée en deux parties prinipales : la première présente le système

d'inversion, et en partiulier toutes les améliorations apportées à la méthode de onstrution

de odebook hyperubique initiée par Slim Ouni (Ouni &Laprie 2005 ), la seonde présente les

deuxlassesdeontraintes:l'introdutionetl'utilisationdeontraintesdérivéesdeonnaissanes

phonétiquesgénériquessurl'artiulationdesvoyellesappeléesontraintes phonétiques, suivi

d'expérienesd'inversionmultimodale,utilisantenplusdusondesdonnéesvisuellesaquises

parun systèmede stéréovision quej'ai ontribué à développer.

(15)

(16)

Préliminaires

C

ette partie présente suintement les outils de simulation de la prodution de la parole

que nous avons utilisés dans le adre de l'inversion et néessaires à la ompréhension de

ettethèse.Nousprésenterons quelquesprérequisonernantl'aoustiquede laparole,lamodé-

lisation artiulatoire duonduit voal, et nousévoqueronsrapidement les diérentes tehniques

d'inversion aoustique-artiulatoire.

1.1 Aoustique de la parole

Les ondessonoressont despropagations de hangements de pression,produits par lavibra-

tiondes partiulesde l'air. La propagation de eshangements de pression est rapide : environ

340m.s

−1

.

Laparoleestuneformedesonsextrêmementomplexeetélaborée,dontl'étudedespropriétés

aoustiques a véritablement été initiée par H. Helmholtz (von Helmholtz1867). Il a ependant

fallu attendre la n du XIX e

sièle et l'élaboration de la transformée de Fourier pour que les

méthodesmodernes permettant de aratériser lesdiérentssons delaparole apparaissent.

La transposition dusignaltemporeldansledomaine fréquentiel, aussiappelée analysespe-

trale,permet en eetdearatériser visuellement haune deslassesdessonsdelaparole.Une

analyse spetrale en bande étroite appliquée sur des sons de parole voisée permet de distin-

guerlesharmoniques des fréquenes pour lesquellesl'intensité estnettement renforéede la

fréquene fondamentale. Ces harmoniques sont dues à la vibration des ordes voales, et leurs

fréquenesvarient auours dutemps.L'analysespetralede laparole révèleaussi,en plusdela

partie harmonique, une partie bruitée, liée à toutes les autres soures de sondu onduit voal

(fritions,explosions, et.).La partie harmonique domine nettement dansle asdesvoyelles, la

partie bruitée nettement pourlaplupart desonsonnes.

1.1.1 Prodution de la parole

Le systèmede produtionde laparole sedéomposeen troisparties:

lesystème sous-glottique,

lelarynx,

lesystème supra-glottique.

Le système sous-glottique est onstitué des poumons et de latrahée. Il génère le uxd'air

à l'originedu signal sonore. Ce uxd'air est ensuitemodulépar lelarynx et le système supra-

glottique(les avitésdupharynx, delabouheet éventuellement lesfossesnasales)pourformer

(17)

Fig. 1.1:Shéma de l'anatomiedu onduitvoal. 1 : fossesnasales, 2 :palais dur,3 : mâhoire

supérieure, 4 :palais mou (velum),5 :pointe dela langue(apex), 6 :dos delalangue, 7 :luette,

8 : base de la langue (radix), 9 : pharynx, 10 : épiglotte,11 : fausses ordes voales, 12 : ordes

voales, 13: larynx, 14: ÷sophage, 15 :trahée. D'après Fant(Fant 1960 ).

laparole.

Lesystèmedeprodutiondelaparoleomprenduneouplusieurs souressonores,onvoluées

par un ltre (le système supra-glottique). Une soure sonore est une interférene aoustique

appliquée au ux respiratoire, et il y a deux origines prinipales. La première, appelée soure

voisée, est une modulation quasi-périodique du ux ausé par les mouvements d'aolement

et d'éartement rythmique de deux musles du larynx appelés ordes voales (f. gure

1.1). Cette première soure est aratéristique des voyelles, mais est aussi présente lors de la

produtiondeertainesonsonnes.Laseondeestauséepar unretréissementduonduitvoal

réant unefrition, lalibération oulebloagetransitoireduuxetaratérise lesonsonnes.Le

uxrespiratoire utilisé pourlaparole est engénéral une expirationontrlée, maisilpeut aussi

s'agir dansderares asd'une inspiration.

Lasourevoiséeestréée parlavibration desordesvoales,maiselle n'aompagnepasen

permanenela parole.Elle a une formespetrale du typereprésenté surla gure1.2a : ils'agit

d'une série d'harmoniques dont l'intensité déroît ave la fréquene, multiples d'une fréquene

fondamentale. La fréquene fondamentale est l'inverse de la période glottale, durée d'un yle

d'ouverture/fermeture desordesvoales.Lafréquenefondamentale déterminelahauteurdela

voix.

Lesystèmesupra-glottique(onstituédesonduitsvoalet nasal)agitommeunltresurla

soure,et est aratérisépar une fontion detransfert, typiquement de laforme représentée sur

la gure1.2b. Lespis d'intensité de ette fontion orrespondent aux fréquenes de résonane

duonduit; espissontappelés,dansleadredelaparole,formants, etsont d'uneimportane

apitale.Eneet,lafréquene,l'amplitudeetlalargeurdebandedeesdiérentspispermettent

de aratériser lesvoyellesprononées. D'autrepart, ils donnent desontraintes assez fortes sur

(18)

Intensité

Fréquence

(a)Spetredelasourevoale

Intensité

Fréquence

(b)Fontiondetransfertduonduitvoal

Intensité

Fréquence

()Spetredusonémis

Fig. 1.2: Shémas idéalisés de spetrogrammes deparole

laformeet lapositiondesavités desonduitsvoalet nasal.

Un spetre typique de son émis est représenté à la gure 1.2 (en pointillé, e que l'on

verrait en alulant unspetrogramme bande large , en trait ontinu e qu'on pourrait voir

en alulant un spetrogramme bande étroite ). On retrouve sur ette gure les pis vus

préédemment; les fréquenes des formants restent relativement inhangées, mais leurs autres

aratéristiquessont alterées : amplitudeset largeursde bande sont modiées.

Ononsidère en général quelaonnaissane de lafréquene destroispremiers formants est

susante pour disriminer toutes les voyelles, et même quela onnaissane de lafréquene des

deuxpremiers sut danslamajorité desas. Dans notre appliation,on ne retiendradu signal

de parole que la fréquene des trois premiers formants. En eet, il se trouve que sans données

supplémentaires sur la soure,il est diile d'en extraired'autres indiations quant à la forme

duonduitvoal:laformeduspetre aoustiquede lasoure dépendbeauoupde l'eortvoal

(plus l'eort est important, et plus la pente de l'enveloppe spetralede la soure est faible), et

don également le spetre aoustique du son émis. On peut ainsi émettre des sons de spetres

d'aspetstrèsdiérentsàpartird'unemêmeformedeonduitvoal.Parontre,unemêmeforme

deonduit donneratoujours, àpeude hoses près, lesmêmes fréquenesformantiques.

Lesaratéristiquesdesformantssont diilesàdéterminer de manièreable. Ainsilesuivi

de formants, qui herhe simplement à déterminer de façon automatique les fréquenes de es

formants, estun problème toujours ouvert, et les tehniques les plus avanées (telles que elles

deLaprie(Laprie 2004 )ouDeng(Denget al. 2006 ))fonttoujoursdeserreursdansdenombreux

as. Les amplitudes et largeurs de bande des formants sont enore plus diiles à déterminer

ave préision, et leur détermination néessite une onnaissane de la soure. Pour es raisons,

et pare que notre étude se limite aux voyelles non-nasales, les veteurs aoustiques que nous

manipuleronsserontessentiellementdestripletsdestroispremièresfréquenesformantiquespour

lessignauxde parole naturels. Pour les signauxsynthétiques,nousaluleronsles fréquenes de

(19)

résonanedelafontiondetransfert.Nousonsidérons donqu'ilyaunebonneorrespondane

entreesfréquenes de résonaneet les fréquenesdes formants.

1.2 Synthèse artiulatoire

Le système de prodution de parole humaine a été largement étudié dans le but de pro-

duire une voix artiielle qui ressemble le plus possible à une voix naturelle. Diérentes mo-

délisations de l'appareil phonatoire, plus ou moins élaborées, ont été proposées et implémen-

tées tout au long des XX e

et XXI e

sièles. Pendant longtemps, l'imitation dèle du fontion-

nement de l'appareil phonatoire humain apparaissait omme la meilleure façon de faire de la

synthèse de parole réaliste, mais depuis une vingtaine d'années, ave le développement de la

synthèse par onaténation de segments non-uniformes (Sagisaka1988 ) qui donne d'exellents

résultats(Blak&Campbell 1995 ; Beutnagelet al. 1999 ), etteapprohe a étéquelquepeu dé-

laissée.

En revanhe, après avoir atteint les limites de la synthèse par onaténation, qui néessite-

rait des orpus gigantesques pour orriger ses quelques défauts, on onstate depuis environ 2

ans un très net regain d'intérêt vers la synthèse purement artiulatoire (Birkholz 2007 ), et la

synthèsemixteutilisant desinformationsartiulatoiresen plusd'enregistrement sonorespour la

synthèsede parole,omme par exemple les travauxde Ptzinger(Ptzinger 2005 ),ou enore le

projet COUGAR (King &Rihmond2005 ) au CSTR (Centre for Speeh Tehnology Researh)

de l'Universitéd'Édimbourg.

Unsynthétiseur artiulatoire omporte deuxpartiesprinipales :

1. Un modèle du onduit voal; en général, il s'agit d'un dispositif permettant de dérire

n'importe quelleforme deonduit voalà partir d'un nombre réduit de paramètres.

2. Une simulation aoustiquepermettant de générer leson onnaissant leonduit voal.

1.2.1 Modélisation du onduit voal

Denombreusesmodélisations duonduitvoal,plusoumoinsélaborés,sont déritesdansla

littérature. Nousne feronspasii unerevue exhaustive desdiérentsmodèles,maissimplement

unerevuedesdiérenteslassesdemodèles,enprésentantbrièvementl'undesplusreprésentatifs

de haque lasse.

1.2.1.1 Modèles à fontion d'aire

Ilest admisdepuislongtemps (Fant 1960 )que l'élément leplusimportant pour l'aoustique

de laparole estla fontiond'aire du onduitvoal, 'est-à-dire ladonnée de l'airede lasetion

transversaleduonduit voallelongdelaourbe médiane duonduit,delaglotteàl'ouverture

deslèvres.Ilestainsiadmisimpliitement queleonduitvoalestassimilableàunonduitdroit

desetionvariable;ilyaependantassezpeud'estimationspratiquesdeserreursintroduitespar

ette hypothèse. Sondhi (Sondhi1986 ) a montré que l'angle inuait très peu sur les fréquenes

desrésonanes pour un onduit de setionxe. Cioea (Cioea 1997 )a notamment montré que

la forme préise du onduit voal et l'angle du oude entre les avités orales et pharyngales

n'avaient que peu d'inuene sur la fontion de transfert du onduit, tout du moins pour les

fréquenes au-dessousde 4kHz.

(20)

Modèlesàtroisparamètres Parmilesplusaniensmodèlesdefontiond'aire,ontrouvedes

modèles à trois paramètres : l'un proposé par Stevens et House (Stevens& House1955 ), dont

uneextension est utiliséepar Atal (Atalet al. 1978 ), et unautre proposépar Fant (Fant 1960 ),

tousdeuxilya environ50 ans.Lestroisparamètres orrespondent respetivement àlaposition

delaonstrition, àl'aireàlaonstrition, etàl'ouverturedeslèvres(enfaitlerapportentre

lahauteuret l'airedel'ouverture deslèvres).Malgrélasimpliitédeesmodèles,ilspermettent

dereprésenter shématiquement lesongurations artiulatoiresdesvoyelles.

Conaténations de tubes L'une des façons les plus simples est de dérire le onduit voal

ommeunesuessiondepetitstubes.Dansetypedemodèles,lafontiond'aireestentièrement

dériteparunpetitnombredeouples(longueur,airedelasetion)dérivanthaquesegmentde

tuyau.Cettemodélisationn'estpasàproprementparlerartiulatoire. Ellepermet dedérire

unonduithumain,maisprésenteplusieurs inonvénients :d'unepart,ilestnéessairedemani-

puler un grand nombre de paramètres pour avoir un modèle susamment souple pour épouser

touslestypesdeongurations.D'autrepartiln'yaauunegarantiequ'unefontiond'airedon-

née orresponde eetivement à un onduit voal humain, e qui peut s'avérer problématique,

notamment pour l'inversion aoustique-artiulatoire.

L'undesmodèlesàfontiond'airelesplusévoluésesteluideShoentgenetCioea(Shoentgen&Cioea 1997 ).

Commelessegmentsutiliséssontoniques,ilestpossibled'obtenirunefontion d'aireontinue.

Lenombre de segmentspeut être très important,et lesystème estapable d'adapter automati-

quementla longueurdu onduit modéliséau louteur.

1.2.1.2 Modèles artiulatoires

Une autre lasse de modèles du onduit voal herhe à approher une représentation dèle

duonduit voal; et le plussouvent,la visualisation laplus simple quel'on puisse enavoir : la

oupe médio-sagittale. Il s'agit enoreà l'heureatuelle de laseule représentation pour laquelle

ondisposededonnéesdebonnequalitéet enassezgrand quantité,etquifournissesusamment

d'informations pour reonstituer assez dèlement l'aoustique. Onadon rapidement herhé à

onstruiredesmodèlespermettantdereprésenterlesdiérentesoupesréalisablesparunhumain,

si possible ontrlés par un petit nombre de paramètres. On voit également apparaître depuis

quelquesannéesdesmodélisations plus omplètes duonduit voal.

Modèles géométriques La forme du onduit voal est modié par le mouvement des arti-

ulateurs tels que la mâhoire, la langue, les lèvres, le larynx. L'une des façons naturelles de

onstruire unmodèle artiulatoire est d'utiliser es artiulateurs omme ommandes. Tout l'art

de lamodélisation artiulatoire estd'étudier et de représenter lamorphologie omplexe des ar-

tiulateurs et leur déformation d'une façon simple tout en onservant une image préise des

élémentspertinentspourla synthèse aoustiquede laparole.

Plusieursmodèlesdérivant leonduitvoalommeuneombinaisondeformesgéométriques

simplespilotéeparunpetitnombredeparamètres ontainsiétéonstruits.L'undesplusréussis,

ettrèsutiliséaujourd'hui,estlemodèledeMermelstein(Mermelstein 1973 ),lui-mêmeétant une

extensiondu modèle deCoker (Coker 1973 ).

Cesmodèlespermettent dedérirelesongurationsduonduitvoaldesvoyellesetonson-

nes à partir d'un petit nombre de paramètres; ils sourent ependant de plusieurs défauts.

D'unepart,lesvaleursàdonnerpour lesommandesartiulatoires nesontpasforément failes

àtrouver: pourdéterminer lesparamètres idéauxqui représentent uneongurationde onduit

voaldonnéeobtenueparexempleparrayonsXouIRM,ilestnéessaired'eetueruneopération

(21)

d'optimisation. D'autre part, es modèles ont été élaborés de façon ad ho, parfois à partir

d'imagesréelles,maiségalement d'expertisehumaineetd'intuition. Ilestparonséquentdiile

d'évaluer leur pertinene.

Modèles issusd'analyses fatorielles Unealternativeàl'approhegéométrique(liéeàl'ex-

pertise humaine), est l'élaboration de modèles à l'aide d'analyses fatorielles sur des données

artiulatoiresréelles.Ilapparaît eneetqu'ilexistebeauoupderedondane danslesaratéris-

tiquesdesformesde onduitsvoaux, et ilestdon parfaitement envisageable d'yappliquer des

analyses fatorielles pour obtenir desmodèles qui dérivent lamajeure partie de lavariabilité à

l'aide d'unpetit nombre de paramètres orthogonauxou/et non-orrélés.

L'undesmodèles les plusonnus est lemodèlede Maeda (Maeda1979 ; Maeda 1990). Il dé-

rit un onduit voalomplet à partir de troismodèles indépendantspour les lèvres,la langue,

et le larynx. On peut en eet onsidérer que es trois artiulateurs modient le onduit voal

de façon indépendante, bien qu'ilssoient tousles troisinuenés par lapositionde la mâhoire

inférieure.L'analysefatorielleutiliséeparMaedapourtraiterlesdonnéesartiulatoiressedevait

d'être susamment souple pourrendre ompte deette partiularité et soustrairel'inuene de

lamâhoire surles autres artiulateurs. En eet,sa position peut êtreaisément déterminée sur

lesradiographiesenmesurantl'éartentrelesinisivessupérieuresetinférieures.Uneanalyseen

omposantesprinipalesn'étantpasadaptée, Maeda(Maeda1979 )autiliséuneanalyseenom-

posantes orthogonales arbitraires (proposée par Overall (Overall1962 )), que l'on appelle aussi

analyse en omposantes prinipales guidée, pour soustraire l'inuene de la mâhoire. Chaque

zone du onduit voal (lèvres,langue, larynx) estalors étudiée indépendamment. Pour haune

deszones, desparamètres de ontrle sont obtenus par une analyse en omposantes prinipales

sur les données déorrélées de l'inuene de la mâhoire, en retenant susamment de ompo-

santespourexpliquerl'essentiel delavariane.Le nombredeparamètres néessairesestvariable

danshaque zone;pourlazone dularynx,unparamètresut; pourleslèvres,lesdonnées ana-

lyséessontl'ouverture vertialedeslèvres,l'ouverturehorizontale(ouétirement)deslèvres,et la

protrusion. Deux paramètres intrinsèques (en plus de lamâhoire) ont été retenus pour dérire

esdonnées: l'ouverture vertialeet laprotrusion; l'ouverture horizontale deslèvresestdéduite

des deux autres paramètres; pour la langue, trois paramètres supplémentaires sont néessaires

pourdérire96%delavarianedesradiographies,soituntotalde7paramètres(voirgure1.3).

Par ailleurs,il estpossibled'adapter lemodèle artiulatoire àdeslouteurs diérents : deux

paramètres d'élongation des onduits oral et pharyngal permettent, dans une ertaine mesure,

d'adapter la forme du onduit à un nouveau louteur. Ces paramètres inuent uniformément

sur les dimensions des deux onduits, mais en jouant habilement ave, il est possible d'établir

un modèle apable de former des fontions d'aire orrespondant aux réalisations aoustiques

d'un louteur diérent. Galván-Rodrigez a établi une méthode semi-automatique d'adaptation

permettant à partir des fréquenes formantiques des voyelles d'un louteur donné d'établir les

oeientsd'élongation(Galván-Rodrigez 1997 ).Ledéfautdeetteméthodeestqu'ellesuppose

quelaréalisation d'unevoyelle donnée utilise uneonguration artiulatoire uniqueet indépen-

dante dulouteur.

Plus réemment, Badin et al. ont proposé un modèle artiulatoire également issu d'une

analyse fatorielle, mais basé sur des IRM 3D et des vidéos des diérents phonèmes du Fran-

çais (Badin et al.2002).

Modèles bioméaniques Certains modèles artiulatoires herhent à modéliser bien plus

que la forme du onduit voal : les modèles bioméaniques permettent de prendre en ompte

(22)

P7 P6 P1

P5

P2 P3 P4

Fig.1.3:Lesseptparamètres dumodèledeMaeda: lamâhoire(oujw) P1, l'ouverture vertiale

(lh)P5 etla protrusion des lèvres (lp)P6, la positiondu orps dela langue (tb) P2, la formede

la langue (ts) P3, undernier terme ontrlant la pointe dela langue (tt) P4, et ennla hauteur

dularynx (lx) P7.

la dynamique du système de prodution de parole, grâe à une modélisation des strutures

musulaires par des ressorts et des masses. L'un des premiers modèles de e type est elui de

Perkell (Perkell 1974 ). Il simpliait onsidérablement le proessus de prodution. Des modèles

beauoup plus élaborés ont été proposés depuis, tel le modèle de l'ICP proposé par Gérard et

al. (Gérardet al. 2003 ), qui modélise la langue en trois dimensions. Les inonvénients, outre la

lourdeur des aluls néessaires à leur utilisation, sont le nombre très important de paramètres

de ommande et la diulté de les déterminer; e qui les rend peu pratiques, tout du moins

aujourd'hui, pour l'inversion aoustique-artiulatoire.

1.2.2 Passage de la oupe sagittale à la fontion d'aire

Enthéorie,l'aoustiqueduonduitvoal,quee soitsouslaformedel'ondesonorepour une

simulationtemporelle,ousouslaformed'unefontiondetransfertpourunesimulation fréquen-

tielle,peut êtrealuléeàpartir de sareprésentationgéométrique entroisdimensions. Atuelle-

ment,lessimulationsaoustiques tridimensionnellesne sontpaspartiulièrement onvainantes,

probablement à ause de la diulté d'appliquer un maillage approprié pour le onduit voal

pour une méthode à éléments nis, et de l'impréision de la onnaissane de la géométrie du

onduit voal. Par ailleurs, es méthodes de alul sont partiulièrement gourmandes en temps

dealul,prenant généralement plusieursheuresdealulpourquelquesmilliseondesdeparole.

Uneétuderéente dueàRamsayet Shaddle(Ramsay&Shadle 2006)étudiant laformationdes

turbulenes dansleas desfriatives, à l'aide d'unesimulation préised'un modèle de uxvis-

queux inompressible tridimensionnel, prend ainsi 14 jours pour simuler deux milliseondes de

parolesur unluster de16 optérons.

Pouresraisons,lesmodèlesdealullassiquesdepropagationunidimensionnelleutilisantla

fontiond'aireduonduit voalsemblent toujoursvalables.Pour améliorerladélitéaoustique

àmoindreoût,ilestenvisageableégalementdepasseràunemodélisationàdeuxdimensions,en

faisantdeshypothèsessimpliatriestellequ'unesymétrieaxialeduonduitvoal(Hélie2002 ).

(23)

La plupart des modèles artiulatoires vus préédemment ont en ommun de ne modéliser

qu'une oupe médio-sagittale du onduit voal, et pour passerau onduit voal omplet, il est

néessairede disposerd'un modèle depassage pourretrouver latroisième dimension àpartir de

ettereprésentationbidimensionnelleduonduit.Enpratique,sil'onnégligelaformepréisedes

oupeset quel'on se ontente d'un modèle à fontion d'aire, le proédéest simpliémais reste

loin d'être évident.Le modèle leplus utilisé estle modèle alpha-beta proposépar Heinz et

Stevens(Heinz &Stevens1965).

Dansemodèle, l'airetransversale

A(x)

^du ^onduit^pour^une ^position

x

^le^long^de^la^ourbe

médiane du onduit voal est déduite à partir de la distane sagittale

d(x)

^, 'est-à-dire la distaneentreles paroisantérieure etpostérieureduonduit voal. Cesauteurs onvertissent la

distane

d(x)

ên ûne âire

A(x)

^à ^l'aide^d'une^fontion ^puissane ^:

A(x) = α(x) ∗ d ^β(x) (x),

^(1.1)

où

α(x)

^et

β(x)

^sont ^des ^paramètres ^dont ^les ^v^aleurs ^dépendent ^de ^la ^position

x

^le ^long ^de ^la

lignemédiane duonduitvoal.Laourbemédiane duonduitvoalestdéterminée enalulant

l'intersetionduonduit voalave unegrille semi-polaire, enalulant lesentres dessegments

reliant les parois antérieure et postérieureduonduit (f. gure1.4).

Comme la forme d'une setion transversale de onduit est omplexe, les valeurs de

α

^et

β

doivent êtredéterminéesdefaçonempirique.D'autrepart,Perrieretal.ontmontréquepourles

valeursimportantesde

d

^,^l'aire^duônduit^voal^diérait^de^façonîmportante^de^la^vâleur^prédite

par l'équation1.1(Perrier etal. 1992 ). Ceiétant, etteerreur n'est pasdramatiquedansnotre

as, arilapparaît queles fréquenes destroispremiers formants sontpeusensibles auxpetites

variations dans la fontion d'aire pour les aires importantes (Erisdotter 2007), e qui rend la

onversion

α

^-

β

ûtilisable ^lorsque ^l'on ^seôntente ^des^fréquenes ^des ^premiers ^formants ê ^qui

est susantpour l'étudedesvoyelles.

Il est néessaire de souligner que ette modélisation oupe médio-sagittale, modèle de

passage, fontion d'aire du onduit voal soure de nombreuses imperfetions. D'une part,

l'approximation grossière du onduit voal à l'aide d'une fontion d'aire n'est aoustiquement

pertinente que pour les fréquenes inférieures à 4kHz. Au-dessus de ette fréquene, les modes

transverses de l'onde sonore ne peuvent plus être négligés, ar la longueur d'onde devient du

même ordre de grandeur que lalargeur du onduit : si on suppose qu'un onduit voal fait au

plus 4mde large,soit 0.08m pour un aller-retour,et sahant que lesonsepropage dansl'airà

350m.s

−1

, lafréquenemaximalepour laquelleon n'aurapasderésonanelatéraleestd'environ

350/0.08 ≈ 4.3

^kHz.^D'autre^part, ^ladétermination de

d(x)

^n'est^pas^non^plus^évidente.^En ^eet,

on supposedanslesmodèles àfontion d'aireque lemodèlede propagationestune onde plane,

etilestpar onséquentnéessairedemesurer

d(x)

^dans^la^diretion^du^front^d'onde^;^or^il^s'avère

quemesurer lelongd'unegrille semi-polaireomme elaestfait par exempledansle modèlede

Maeda n'est pas toujours idéal. Pour un tuyau ourbé de 90

◦

ave une ourbe doue, on peut

raisonnablement supposerquelefrontd'ondesedéplaeorthogonalementàlaourbedesentres

géométriques dessetions. Idéalement, il faudrait don déterminer la ourbe milieu du onduit

voal,et mesurer

d(x)

ômme ^la^longueur ^du^segment ôrthogonal^àêtteôurbe ôupant^les ^pa-

rois du onduit. Des études fondées surette approhe (Maeda1972 ; Goldstein1980) semblent

montrerqueleslongueursdeonduitobtenuessont légèrement plusourtesquelorsqu'onutilise

une grille semi-polaire, et que l'on peut de ette façon obtenir une simulation aoustique qui

permette d'approher de façon plus dèle les formants mesurés.Ces études auraient ependant

besoin d'être onrmées surde plusgros orpusde données.

Ilexistedesmodélisationsplusélaboréesquiprédisent l'airedesoupestransversalesàpartir

deladistanesagittaledefaçonpluspréise,notammentelledeBadinetal.(Badin et al. 2005 ).

(24)

Il semble toutefois, selon l'étude de Erisdotter (Erisdotter2007 ), que pour la simulation des

voyelles, leserreursaoustiquesliéesaumodèledepassage enlui-mêmesont négligeablesdevant

elles dues aux autres fateurs d'erreur; l'utilisation de mesures préises de la fontion d'aire

sur des données réelles ne semble en eet pas améliorer de manière signiative la délité des

formantssynthétiquesauxformantsmesurés.

Fig. 1.4: Détermination de la ourbe médiane du onduit voal ave une grille semi-polaire. La

ourbe médiane (enrouge) estonstruiteenreliant les entres dessegmentsles paroisantérieure

etpostérieure du onduit.

1.2.3 Simulation aoustique

L'éoulement de l'airdansun onduit estrégi par leséquations de Navier-Stokes:

ρ ∂v

∂t + (v.∇)v

= −∇ p + η∇ ² v + (ζ + η

3 )∇(∇ v),

^(1.2)

où

ρ

^est^la^densité^du^uide,

ζ

^et

η

^leurs ^oeients^de^visosité,^supposés^ne^pas^dépendre^de^la

températurenidelapressionduuide,

v

^est^sa^vitesse^volumique^et

p

^sa^pression.^Cette^équation

estextrêmementomplexe,maisnouspouvonsfortheureusement lasimplieronsidérablement.

Dans le asde laprodution de parole, l'ordre de grandeur des vitesses à onsidérer est tel

que l'air peut être onsidéré omme un uide inompressible, et en faisant l'hypothèse de la

onservationde lamasseet d'un proessusadiabatique, l'équation1.2 peut seramener à:

∆p − 1

c ² ∂ _t ² p = 0,

^(1.3)

(25)

où

p

^désigne ^la^pression ^dans^le ^onduit ^voal, ^et

c

^la^élérité ^du ^uide^(environ ^340m.s

⁻¹

^pour

l'airà 20

◦

C).

Par ailleurs, omme nousl'avonsévoquépréédemment, leonduit voalestessentiellement

un onduit étroit, et par onséquent le mode prinipal de résonane est lié à la longueur du

onduit,latransversaliténepouvant provoquerquedesmodesderésonanedefréqueneélevée,

quel'on peut négligerdansleas desvoyelles. Onpeutainsionsidérer quel'on esten présene

d'une onde se déplaçant le long du onduit voal, et la génération et la propagation des sons

peuvent ainsiêtre dérites par l'équationunidimensionnelle suivante,dite de Webster :

1 A(x)

∂

∂x

A(x) ∂P (x)

∂x

+ 1 c ²

∂ ² P (x)

∂t ² = 0

^(1.4)

où

A(x)

^désigne ^l'aire ^de ^l'isophase ^de ^pression

P(x)

⁽

x

^désignant ^l'absisse ^le ^long^de ^l'axe ^du

onduit voal). Cette équation est linéaire (don relativement simple à étudier), et est valable

pourn'importequelleformed'ondeà symétrieaxialed'axe

x

^.^Dans^notre^as,^omme ^nous^nous

intéressons essentiellement aux voyelles, pour lesquelles le onduit est relativement large, il est

raisonnable de supposer en outre quel'onde est une onde plane, orthogonale au onduit voal.

Ce dernier est modélisé omme un tuyau retiligne de setion variable, donnée par la fontion

d'aire.

Endisrétisantletuyaudesetionvariableenuneonaténationdetubesdesetiononstan-

te, et enmodélisant lesonditions auxlimites (i.e. lespertes auniveau de laparoi duonduit),

nous pouvons obtenir la fontion de transfert du onduit voal relativement simplement. Un

desoutils les plus utilisésà et eet est l'analogieentre l'aoustiqueet l'életriité : en eet, la

pression et ledébit volumique dans le onduit voalsuivent les mêmes équations diérentielles

que la tension et l'intensité dans une ligne életrique (Flanagan 1972). Une setion de onduit

uniformepeut êtreainsimodéliséepar unpetitélémentdeligneéletrique ave pertes (f.gure

1.5b). Dansette analogie,

R

^orrespond ^aux ^pertes ^dues^à ^la ^frition ^visqueuse ^de ^l'air ^sur^les

paroisdu tube,

C

ôrrespond^à^laâpaitéâoustique^,'est-à-direlaompressibilitédel'air,

L

êst^l'îndutane âoustique^due ^à^l'inertie ^de ^l'air, ênn

G

^permet ^de ^modéliser ^les^pertes

thermiques, dont nous ne tiendrons pas ompte non plus. Les valeurs de es éléments sont les

suivantes :

L = ρ

A , C = A ρc ²

Enherhantlessolutions à(1.4)souslaformed'ondesmonohromatiques,'est-à-diredela

forme :

φ(x, t) = ψ(x)e ^jωt

^, ^nous^avons^pour ^haque^tube ^:

∂ ² ψ

∂x ² + ω ²

c ² ψ = 0

^(1.5)

Maintenant, en posant

y = G + jωC

^et

z = R + jωL

^, ^ainsi ^que

γ ² = yz = − ^ω _c 2 ²

⁽

γ

^est

appelée onstante de propagation), nous pouvons obtenir omme solution, en régime ontinu,

pour haque setion, unerelation linéaire de laforme:

P s

U s

=

A B C D

× P e

U e

,

où

P e

^et

P s

^désignentrespetivement lapression àl'entréeet àlasortiede lasetion étudiée,et

U _e

^et

U _s

^le^débit ^volumique ^à^l'entréeêt ^à^la^sortie^deêtte ^même^setion. Ên^désignant ^par

l

^la

(26)

longueurde ette setion, et par

A

^l'aire, ^les^éléments ^de^la^matrie ^s'érivent ^:

A = cosh γl

B = −

r z

y sinh γl

C = −

r y

z sinh γl D = cosh γl

Par ailleurs, haun destubesduonduit voalpouvant êtreainsimodélisépar une matrie

delaforme

T _i =

A i B i

C _i D _i

,onobtient,pourunesuessiondetubes,unefontiondetransfert

delaforme :

P l

U _l

= T n · T _n−1 · · · T ₁ · T ₀ P g

U _g

La fontion detransfert globale du onduit voal estsimplement leproduitdesmatries

T i

^,

ils'agit dond'une matrie

2 × 2

^, ^dont ^les ^omposantes

A, B, C, D

^vérient ^:

P _g = AP _l + BU _l , U _g = CP _l + DU _l

La pression aoustique étant nulle à la sortie des lèvres, on a

P l = 0

^, ^et ^par ^onséquent ^la

fontionde transfert duonduit

U l

U g

estdonnée par :

U l

U g

= 1 D

Les formants orrespondant aux résonanes du onduit, leurs fréquenes sont elles qui an-

nulent

D

^. ^Il ^sut ^don, ^pour ^trouver ^les ^fréquenes ^des^formants, ^de ^trouver ^les ^solutions

ω i

^de

l'équation:

D(ω) = 0.

Les

ω _i

^étant^des^longueurs^d'onde,^les^fréquenes^des^formants^se^déduisent^rapidement^ainsi^:

f i = _ω ^c

i

.

En utilisant l'analogie életrique, il est également possible de traiter le onduit nasal : il

sutdeonsidérer queleonduit nasalestuntubeaoustiquebranhé enparallèle ave letube

orrespondant au onduit oral et au tube représentant le pharynx. Cependant, dans le adre

deette thèse nous netraiterons pasdessons nasalisés, qui ompliquent l'inversion aoustique-

artiulatoire.

1.3 Inversion aoustique-artiulatoire

L'inversion aoustique-artiulatoire désigne le problème onsistant à retrouver la forme du

onduit voal (ou la position des artiulateurs) à partir du signal de parole émis. L'objetif

est de réaliser l'inverse de la synthèse artiulatoire, que nous avons présentée dans la setion

préédente,d'oùleterme d'inversion.Enpratique,leproblèmeestsimpliéenparamétrisant les

espaesaoustiqueet artiulatoire,en réduisantlesignalaoustiqueenun veteurplussimple à

manipuler, par exemple les aratéristiques des premiers formants pour l'étude des voyelles, et

le domaine artiulatoire en dérivant la forme du onduit voal à partir d'un veteur de taille

réduite,parexempleunveteurdeontrled'unmodèleartiulatoire.Leproblèmedel'inversion

se réduit alors à l'étude d'une relation de l'espae des veteurs aoustiques vers l'espae des

veteursartiulatoires.

(27)

p(x+dx) A(x+dx) p(x) A(x)

dx

(a)Tubedesetiononstante.

dx

L/2 R/2

C G

I+dI

I+dI I

I

E E+dE

I

I+dI

(b) Élement de ligne életrique ave

perte.

Fig. 1.5:Analogie aoustique

↔

^életriité.

1.3.1 Problème mal posé

Un problème est ditbien posé s'il admet une solution (ondition d'existene), si elle-iest

unique(onditiond'uniité) etsielleeststable(onditiondestabilité).Siunproblèmenevérie

pasau moinsl'une dees onditions,ilest ditmal posé.

Defaçon générale, les problèmes d'inversion du onduit voal sont mal posés. La première

ondition l'existene dépend de la délité du modèle physique de prodution de parole. Il

est parfois très diile voire impossible de montrer qu'un modèle est apable de produire tous

les veteurs aoustiques d'un signal de parole (Sorokinet al. 2000), même si pour desveteurs

simples, omme letriplet destroispremièresfréquenes formantiques, elaest envisageable.

Àproposdelaseonde propriété(uniité), ilestbienonnuqu'il existe uneinnité de fon-

tions d'aire pouvant produire le même ensemble de formants (Atal etal. 1978 ). Par ailleurs,

il a été observé à plusieurs reprises que ette non-uniité était exploitée par le biais d'arti-

ulations ompensatoires, par exemple hez les ventriloques ou imitateurs, ou dans des expé-

rienes d'artiulation perturbée (Lindblom et al. 1979 ;Savariaux&Orliaguet1995 ), mais aussi

dans des onditions normales d'éloution (Qin &Carreira-Perpiñán 2007 ). Si ette variabilité

de l'artiulation pour produire un son donné est avérée, il semble ependant qu'en pratique,

l'artiulation ompensatoire est assez peu exploitée dans des onditions normales d'éloution :

C. Qin (Qin &Carreira-Perpiñán 2007) a observé sur les sujets de son étude que seuls 5% des

veteursaoustiques avaient desantéédentsnon-uniques.

Enn,lapropriétédestabilité(unepetiteperturbationdel'entréenedevantentraînerqu'une

petiteperturbationdelasolution)n'estégalementpastoujoursassurée,enfontiondelaméthode

d'inversionutilisée.

Pourtoutesesraisons,l'inversionaoustique-artiulatoireestonsidéréeommeunproblème

mal posé.

1.3.2 Prinipe de résolution

L'inversion aoustique-artiulatoire a été largement étudiée dans le passé (Shroeder1967 ;

Mermelstein 1967;Atal etal. 1978 ;Shroeter &Sondhi1994 ;Sorokinet al. 2000 ),et unertain

nombre d'approhes ont été proposées an d'atténuer la nature mal posée du problème. Un

inventaire presque exhaustif de es diérentes méthodes peut être trouvé dans un rapport du

projet européen ASPI (Maedaet al. 2006 ); nous ne présenterons pas ii un inventaire aussi

détaillé, maisune lassiation rapide desdiérentes méthodesd'inversion proposées.

(28)

1.3.2.1 Méthodes basées sur des données d' apprentissage (réelles ou synthé-

tiques)

Ces méthodes néessitent une quantité importante de données, qui sont malheureusement

rarement disponibles en quantité ou qualité susante. Pour résoudre le problème des données

manquantes, une solution simple onsiste à les réer artiiellement, par exemple à l'aide d'un

synthétiseur artiulatoire. Une autre solution ouramment utilisée onsiste à n'étudier qu'une

représentation partielle du onduit voal, par exemple la position de marqueurs életromagné-

tiques,qu'ilest possible d'obteniren quantité importante.

Méthodes par tabulation Les méthodes d'inversion utilisant des tablesde orrespondane

veteur aoustique

↔

^veteur artiulatoire sont appelées méthodes par tabulation, ou par o- debooks. Ces tables peuvent être onstruites à partir de données obtenues de façon artiielle,

'est-à-dire à l'aide d'un système de synthèse artiulatoire, ou alors sur des données réelles où

donnéesartiulatoires et aoustiquessont enregistrées en parallèle.

Le prinipe de laméthode d'inversionest alors simple : un veteur aoustiqueétant donné,

onreherhedanslatablelesvaleursquiensontprohes,etonrenvoielesveteursartiulatoires

orrespondants. L'objetif essentiel de esméthodesestde réaliser uneouverture adéquate des

espaes artiulatoire et aoustique, e qui en fontion de l'appliation visée peut désigner des

hoses très diverses.

Diérentes tehniquessont utiliséesan d'obtenir ette ouverture adéquate, d'organiser de

façon eae la table, et s'aranhir des zones inexplorées de l'espae artiulatoire. Une orga-

nisation astuieuse de la table permet de retrouver rapidement les veteurs artiulatoires qui

produisent un veteur aoustiqueprohe d'un veteur aoustiquedonné.

Cetyped'approheestparmi lesplusaniens,etresteégalement parmilesplusprometteurs,

mêmesi, omme pour laplupart desméthodes, lesrésultatsobtenus sont rarement àlahauteur

desattentes. Le premier à utilisere type d'approhe est Atal (Atal etal. 1978 ), à une époque

où les performanes des mahines étaient très éloignées de e que l'on onnaît atuellement.

Certainshoix tehniques faitsà l'époque nesont plusguère pertinents, maisune grandepartie

desrésultatsprésentéspar Atal sont toujours exploitésdansles méthodesd'inversionpar ode-

bookatuelles; e travail reste ainsià bien deségards une étudefondamentale pour l'inversion

aoustique-artiulatoire par odebook.

Parmi les nombreuses méthodes d'inversion utilisant des odebooks obtenus à l'aide d'un

synthétiseurartiulatoire,diérentstypesd'éhantillonnagedel'espaeartiulatoire ontétépro-

posés :

éhantillonnage régulier (Atalet al. 1978 ),

éhantillonnage aléatoire (Shroeter &Sondhi1992; Boëet al.1992 ),

interpolation à partir deveteurs raines(Larar et al.1988 ; Sorokin&Trushkin 1996),

éhantillonnageadaptatif(Charpentier 1984 ;Sorokin&Trushkin 1996 ;Ouni&Laprie 2000 ;

Potard&Laprie 2007 ).

De même, plusieurs modélisations de la relation aoustique

⇒

artiulatoire ont été propo- sées pour s'aranhir des zones manquantes. La méthode la plus simple est de onsidérer que

lafontion estonstante dansunpetit voisinageautourduveteur aoustique(Atalet al. 1978 ;

Lararet al. 1988; Shroeter &Sondhi1992 ). Une autre méthode onsiste à onsidérer un om-

portementlinéaireautourdesveteursaoustiques(Atalet al. 1978;Charpentier 1984 ;Sorokin&Trushkin 1996;

Ouni&Laprie 2000; Potardet al. 2004 ). Certains enore emploient des modélisations polyn-

miales(Potard &Laprie 2007 )oustohastiques(Laboissière 1992 ;Hogdenetal. 1996 ;Hiroya& Honda 2004;

Rihmond2001 ).

(29)

Une propriétéessentielle des méthodes utilisant desdonnées réelles par rapportà elles uti-

lisant des données artiielles est de réduire de façon substantielle les problèmes liés à la non-

uniité. Il a en eet été observé de façon empirique qu'en éloution normale la non-uniité

pratique ne onerne qu'un nombre très réduit de phonèmes (Qin &Carreira-Perpiñán 2007 ).

Lesméthodes utilisant un synthétiseur artiulatoire sont onfrontées àla non-uniité théorique,

qui estnettement plus importante queelleobservée en pratique.

Ces méthodes permettent de trouver rapidement des veteurs artiulatoires qui donnent la

bonne imageaoustique,e quipeut surepour ertainesappliations.Maiss'ils'agitdeguider

unélève quiapprendl'artiulationd'un son(parexemple dansleadrede l'apprentissaged'une

langueétrangère),oudansl'optiqued'animerd'unetêteparlanteàl'intentiondemalentendants,

laorrespondaneaoustiqueestloind'êtresusante,etilestbiensouventnéessaired'eetuer

un travail onséquent pour résoudreleproblème denon-uniité.

Diérentesapprohesontétéproposéespourela:traiterleproblèmeenamont,parexemple

en restreignant volontairement l'espae artiulatoire à explorer, ouen augmentant ladimension

du veteur aoustique(et par onséquent limiter onsidérablement leproblème de non-uniité),

traiter le problème immédiatement en introduisant des ontraintes statiques (par exemple la

minimisation deladistane àlapositionneutre), oubientraiter leproblème enavalenplaçant

desontraintessur lestrajetoires artiulatoires.

Méthodes utilisant un apprentissage Les méthodes fondées sur un apprentissage statis-

tique de type réseaux de neurones ou Modèle de Markov ahé sont une variante relativement

ourante desméthodesà odebooks.La tableestsimplement remplaée par une boîte noire

assoiantà unveteuraoustiqueunveteurartiulatoire,ou àune séquenede veteursaous-

tiques une séquene de veteurs artiulatoires pour les modèles dynamiques. Les données utili-

sées lors de l'apprentissage sont parfoisbasées sur un modèle artiulatoire (Atal &Rioul1989 ;

Soquetet al. 1990 ;Papun et al.1992 ), maissontdésormaisleplussouventbasées surdesdon-

néesréelles (Hiroya &Honda 2004 ; Toda et al. 2004 ;Rihmond 2006).

1.3.2.2 Inversion direte

Les données artiulatoires existantes étant rarement satisfaisantes (soit en quantité insu-

sante, soit en qualité insusante, soit propres à un louteur et ne pouvant pas être adaptées

simplement, soit enore ne pouvant pas être utilisées pour l'appliation partiulière étudiée),

beauoupd'auteurs ont herhé àdévelopper desméthodesd'inversionqui nenéessitent pasde

données artiulatoires.

LespremièresméthodesdeetypesontbaséessuruneétudedeMermelstein(Mermelstein 1967 )

surlarelationentrefréquenes propreset fontiond'aired'un onduitvoalsanspertes,esfré-

quenespropresorrespondantauxfréquenesdesformantsobservablessurunspetredeparole.

D'autres méthodes exploitent la pseudo-linéarité loale de larelation de l'artiulatoire vers

l'aoustiquesans passerpar l'utilisation d'un odebook, notamment la méthode développée par

ShoentgenetCioea (Shoentgen &Cioea 1997 ),quiutilise uneoptimisation pour déterminer

un veteur artiulatoire ayant pour image un triplet de fréquenes formantiques donné. Ces

méthodes aboutissent à une solution unique sur une séquene en ajoutant des ontraintes de

pseudo-énergie surlespositions desparamètres artiulatoires.

Les approhes par réseaux de neurones ou par modélisation stohastique néessitent une

quantité très importante de données pour avoir des résultats ables, et ne fontionnent en gé-

néral pas ave un autre louteur que elui d'apprentissage. Par ailleurs, on ne dispose pas de

données sur leonduit voal omplet en quantité susante, et es méthodes font généralement

(30)

leur apprentissage sur des données partielles du onduit voal obtenues à l'aide de diérentes

tehniquesd'aquisition: EMA,rayonsXMiro-Beam,artiulographe,éhographie..., etneper-

mettent don pasl'animation d'une têteparlante omplète, e qui estnotre objetif.

Pouretteraison,nousavonshoisid'utiliseruneméthoded'analyseparsynthèseutilisantun

modèleartiulatoireompletduonduitvoal,enl'ourrenelemodèledeMaeda(Maeda1979 ;

Maeda1990 ).Pourgarantiruneexplorationaussiomplètequepossibledel'espaedessolutions,

nousutilisonsunodebookonstruit en explorant l'intégralité de l'espae artiulatoire,et repo-

sant surunemodélisation loalement polynmiale delarelation artiulatoire vers aoustique.

1.3.3 Résolution par introdution de ontraintes

L'objetif de l'inversion estde retrouver l'évolution de la forme du onduit voal à l'origine

d'un signal de parole donné. Or, omme nous l'avons remarqué préédemment, les modèles de

synthèse artiulatoire utilisés généralement ne permettent d'obtenir qu'une approximation du

signalaoustique réellement produit par une forme de onduit voaldonnée. Par ailleurs, il est

également fort omplexe d'extraire l'information propre au onduit voal du signal aoustique

original:mêmedansleasd'unenregistrementnonbruité,ilrestenéessaired'employerunepa-

ramétrisationpermettant d'extrairel'information aoustiquepropreau onduitvoallui-même,

et les tehniques de traitement du signal permettant de le faire ne sont malheureusement pas

parfaites.

Lesfréquenesdespremiers formantssontà peu dehosesprès lesseulsparamètres quel'on

puisseestimer defaçon ableàpartir d'un synthétiseursansmodèlede soure.Ellesfournissent

une desription phonétiquement pertinente des voyelles. Pour es raisons, elles onstituent un

andidat de hoix pour la paramétrisation du signal aoustique dans le adre de l'inversion

aoustique-artiulatoire.Malheureusement,lenombredeformantspouvantêtreobtenusdefaçon

ableestassezréduit,puisqueleshypothèsesformuléesdansleadredessynthétiseurslassiques

negarantissent debonsrésultatsquepourlesfréquenes inférieuresà4kHz,equine permet de

dériredèlement que lesfréquenes destrois ouquatrepremiers formants. La taille réduite du

veteuraoustique aentue onsidérablement lanon-uniité dessolutions de l'inversion.

Il est par onséquent néessaired'introduire desontraintes supplémentaires an de réduire

lataille desensembles desolutions àonsidérer. Enpratique,de nombreux typesde ontraintes

ont étéproposés et étudiées. Parmi les ontraintes introduites,on trouvenotamment :

La surdétermination du veteur aoustique. Un veteur aoustique dedimension plusim-

portante queelleduveteur artiulatoireestutilisé; iln'yaalorsqu'au plusune solution

exate(Charpentier 1984).

Restritionssurlesairesmaximalesetminimalesdessetionstransversalesduonduit(Sorokinet al. 2000 ).

Minimisation de ladistane àlaforme neutre(Yehia&Itakura 1996).

Maximisationde laontinuité spatiale de lafontion d'aire(Yehia&Itakura 1996).

Constane duvolume duonduit voal(Soquetet al. 1991).

Maximisationdelaontinuitédel'évolutiontemporelledesformesdeonduit(Flanagan etal. 1980).

Minimisationdelavariationtemporelledesparamètresartiulatoires(Flanaganet al. 1980 ).

Minimisation du travail musulaire (Sorokin1992 )...

Nous présenterons plus en détail, dansla deuxième partie de ette thèse,deux autres types

deontraintes, exploitant desinformationsextraitesduontextedelaparole; ontraintespho-

nétiquesdansun premiertemps,imposant desontraintes artiulatoiresrelativesau phonème

prononé,puisontraintesvisuelles,exploitantdesinformationssurlesartiulateursvisibles,

àpartir d'images vidéos enstéréovision.

(31)

1.4 Conlusion

Notreméthoded'inversionreposesurlesméthodesdeMathieu(Mathieu 1999 )etOuni(Ouni 2001)

développées au sein de l'équipe PAROLE du LORIA. La méthode que nous avons élaborée au

oursde ettethèseomplète lesystèmeexistantsousdeuxformes: d'unepart,parune amélio-

rationsubstantielledesperformanesdelaméthode(nousobtenonsunemeilleurepréision,ave

desodebooksplusompats,etdansdestempsplusourts).Cesaméliorationsonstituentl'ob-

jetde lapremière partie delathèse.D'autre part, dansunedeuxième partie, par l'introdution

de ontraintes originalesexploitant l'information ontextuelle :

informationontextuelleimpliitedansleshapitres5et6,parl'introdutiondeontraintes

phonétiques, 'est-à-direde ontraintes artiulatoires spéiquesau phonème reonnu sur

lesignalde parole inversé,

information ontextuelle expliite dans le hapitre 7, où des informations relatives aux

artiulateurs visibles obtenues de manière automatique sont utilisés en omplément de

l'information aoustique.

(32)

Inversion

(33)

(34)

D

ansettepartie,laméthoded'inversionproprement diteestprésentée.Commenousl'avons

dit préédemment, notre méthode s'inspire largement de la méthode développée par Slim

Ouni dans sa thèse (Ouni 2001), tout en l'améliorant onsidérablement. La grande fore de la

méthodede Ouniestdepermettre unereprésentation exhaustiveet sousuneformeompatede

larelationaoustique

⇒

artiulatoire.

Par rapport à la méthode originale, diversesmodiations notables ont été apportées : une

modélisationsplusnedelarelationartiulatoire

⇒

âoustique,ûne^préisionârue^desâluls

ainsiquediverses améliorationsalgorithmiques permettant d'aélérer lesaluls.

Dans ette partie sont présentés les diérents modules omposant l'infrastruture de notre

méthode d'inversion. Le hapitre 2 présente laméthode de onstrution de odebook hyper-

ubique telle qu'utilisée par Slim Ouni, ainsi que les diérentes améliorations apportées au

niveau de lastruturation etde lamodélisation desdonnées. Le hapitre 3 présente laméthode

d'inversion statique par odebook. Enn, le hapitre 4 présente les modules pour l'inversion

dynamique.

(35)

(36)

Constrution de odebook

hyperuboïque

Introdution

N

otre but est de représenter l'ensemble de la relation artiulatoire

⇒

^aoustique ^(notée

par la suite Ar

⇒

Â) ^de ^façon ômpate. ^Pour êla, ^nous âllons ^réaliser ûn ^pavâge

de l'espae artiulatoire en petits éléments, où la relation de artiulatoire vers l'aoustique

peut être évaluée très rapidement. Comme nous l'avons évoqué préédemment, les études de

(Fant 1970 ;Atalet al. 1978 ;Sorokin &Trushkin 1996 )montrent toutesquelarelationAr

⇒

^A

estnaturellement loalement linéaire.

2.1 Paramétrisation aoustique et artiulatoire

Notreméthodedetabulationestgénérique,etnedépendauunementdumodèleartiulatoire

oudu synthétiseur utilisé à vraidire, ave quelqueslégères modiations, elle pourraitmême

être utilisée sur un orpus de données réelles. Les espaes artiulatoires et aoustiques seront

dononsidérésdefaçontrèsgénériqueomme étantdesespaesvetorielsréels,etonsupposera

simplement disposerd'une appliation

f

^allant ^d'un sous-domaine del'espae artiulatoire vers unsous-domaine del'espae aoustique.

Celaétant,danstoutesnosappliations,nousutiliserons ommeespaeartiulatoirel'espae

des paramètres de ontrle du modèle artiulatoire de Maeda (Maeda1990 ), et omme espae

aoustiquel'espae desaratéristiquesdes premiers formants (essentiellement fréquenes,mais

parfoisaussilargeurs de bande et amplitude). Revenonsdon rapidement surle modèle artiu-

latoire, surlesynthétiseur artiulatoire intégré,et surnotre paramétrisationaoustique.

2.1.1 Modèle artiulatoire de Maeda

Établi àpartir d'uneanalyse statistiquede donnéesinéradiographiques, lemodèleartiula-

toire de Maeda (Maeda1979 ; Maeda1990 ) estl'un desmodèles les plusutilisés pour modéliser

leonduitvoal.Il dérit unonduit voalompletàpartir de troismodèles indépendantspour

leslèvres,lalangue, etle larynx.

Maeda (Maeda1979 ) a établison modèle à partir de données inéradiographiques d'une lo-

utriefrançaisenative,issuesdel'InstitutdePhonétiquedeStrasbourg(Bothorel etal. 1986 ).À

l'aided'uneanalyseenomposantesorthogonalesarbitraires(proposéeparOverall(Overall1962)),

The DART-Europe E-theses Portal

HAL Id: tel-01748423

https://tel.archives-ouvertes.fr/tel-01748423v2

Submitted on 29 Mar 2011

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Blaise Potard

To cite this version:

Blaise Potard. Inversion acoustique-articulatoire avec contraintes. Interface homme-machine [cs.HC].

Université Henri Poincaré - Nancy 1, 2008. Français. �NNT : 2008NAN10085�. �tel-01748423v2�

UFR STMIA

Inversion acoustique-articulatoire avec contraintes

TH` ESE

pr´esent´ee et soutenue publiquement le 23 octobre 2008 pour l’obtention du

Doctorat de l’universit´ e Henri Poincar´ e – Nancy 1

(sp´ ecialit´ e informatique)

par

Blaise Potard

Composition du jury

Rapporteurs : R´egine ANDRE-OBRECHT, Professeur, Universit´e Paul Sabatier Pierre BADIN, Directeur de Recherche, CNRS

Examinateurs : Noëlle CARBONELL, Professeur, Université Henri Poincaré Shinji MAEDA, Directeur de Recherche, CNRS

Xavier RODET, Professeur, Universit´e Paris VI Directeur de th` ese : Yves LAPRIE, Directeur de Recherche, CNRS

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

P (X) = s

−1

Intensité

Fréquence

Intensité

Fréquence

Intensité

Fréquence

P7 P6 P1

P5

P2 P3 P4

A(x)

x

d(x)

d(x)

A(x)

A(x) = α(x) ∗ d β(x) (x),

α(x)

β(x)

x

α

β

d

α

β

−1

350/0.08 ≈ 4.3

d(x)

d(x)

◦

d(x)

ρ ∂v

∂t + (v.∇)v

= −∇ p + η∇ 2 v + (ζ + η

3 )∇(∇ v),

ρ

ζ

η

v

p

∆p − 1

c 2 ∂ t 2 p = 0,

p

c

−1

◦

1 A(x)

∂

∂x

A(x) ∂P (x)

∂x

+ 1 c 2

∂ 2 P (x)

∂t 2 = 0

A(x)

P(x)

x

A(x) = α(x) ∗ d ^β(x) (x),

= −∇ p + η∇ ² v + (ζ + η

c ² ∂ _t ² p = 0,

⁻¹

+ 1 c ²

∂ ² P (x)

∂t ² = 0

A , C = A ρc ²

φ(x, t) = ψ(x)e ^jωt

∂ ² ψ

∂x ² + ω ²

c ² ψ = 0

γ ² = yz = − ^ω _c 2 ²

U _e

U _s

T _i =

C _i D _i

U _l

= T n · T _n−1 · · · T ₁ · T ₀ P g

U _g

P _g = AP _l + BU _l , U _g = CP _l + DU _l

ω _i

f i = _ω ^c