HAL Id: jpa-00243456
https://hal.archives-ouvertes.fr/jpa-00243456
Submitted on 1 Jan 1970
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Synthèse de la parole : description et utilisation d’un synthétiseur du type “ à formants ”
J. Paillé, J.P. Beauviala, R. Carré
To cite this version:
J. Paillé, J.P. Beauviala, R. Carré. Synthèse de la parole : description et utilisation d’un syn- thétiseur du type “ à formants ”. Revue de Physique Appliquee, 1970, 5 (5), pp.785-793.
�10.1051/rphysap:0197000505078500�. �jpa-00243456�
SYNTHÈSE DE LA PAROLE : DESCRIPTION ET UTILISATION
D’UN SYNTHÉTISEUR DU TYPE
«A FORMANTS
»par J.
PAILLÉ,
J. P.BEAUVIALA,
R.CARRÉ
Ecole Nationale
Supérieure d’Electronique
et de Radioélectricité23,
rue desMartyrs,
Grenoble(Reçu
le 9juin 1970)
Résumé. 2014
Après
avoirrappelé
la théorie du fonctionnement del’appareil vocal,
on décritun
synthétiseur
deparole
du type « à formants » dont la fonction de transfert estéquivalente
àcelle de l’ensemble des cavités du conduit vocal. Puis on
développe quelques applications
de cetappareil.
Abstract. 2014 The
theory
ofspeech production
is reminded.Then,
a formantspeech synthesizer
the transfert function of which is
equivalent
to the vocal tract transfert function is described withsome
applications.
Introduction. - Les
premiers synthétiseurs
deparole
furent construits pour vérifierl’hypothèse
suivant
laquelle
le richespectre
de laparole pouvait être,
sansqu’il
en découle unedégradation
de l’intel-ligibilité
du messageparlé,
réduit à unpetit
nombrede
composantes.
La
parole
est très redondante aussi bien sur leplan
du
signal
lui-même que sur leplan linguistique.
Noussavons que 40 000 unités d’information par seconde environ sont transmises par une
ligne téléphonique classique
au cours d’une conversation alors que notre cerveau, selon certaineshypothèses,
nepourrait décoder,
en fin de traitementqu’un
maximum de50 unités d’information par
seconde,
ces 50 unitésd’information étant
porteuses
de données sur le mes-sage ainsi que sur la
qualité
et sur lescaractéristiques
individuelles de la voix.
Le rôle et
l’importance
de telle ou tellecomposante
dusignal peuvent
être étudiés au moyen de lasynthèse.
Aussi,
commecompléments indispensables
desanalyseurs,
lessynthétiseurs
deparole
sont des instru-ments fondamentaux en
particulier
dans le domaine des recherches sur les mécanismes de laproduction
et de la
perception
de laparole.
Il existe divers
types
desynthétiseurs.
Certains netiennent pas
compte
du mode de fonctionnement de notreappareil
vocal.D’autres,
aucontraire,
en tien-nent étroitement
compte.
Le
synthétiseur
deparole
que nous allons décrireest du
type
« à formants ». La fonction de transfert desprincipaux
circuits de cetappareil
estéquivalente
à celle de l’ensemble des cavités en
couplage
de labouche.
Nous pensons
qu’un synthétiseur
dont le fonction-nement simule au mieux celui de notre
appareil
vocalest bien
adapté
pour la recherche descomposantes
fondamentales ouparamètres
de laparole.
Après
avoirrappelé quelques aspects
de la théorie du fonctionnement del’appareil vocal,
nous décrironsle
synthétiseur
que nous avonsconstruit, puis
nousévoquerons
diverses utilisations de cetappareil
enrecherche fondamentale et dans le domaine
technique.
Rappels
sur la théorie du fonctionnement del’appareil
vocal. - La
parole
en tant quephénomène physique
résulte de l’excitation des cavités de
l’appareil vocal,
soit par une source
d’impulsions
pour les sons vocaux, soit par une source de bruit pour les sons non vocaux.Dans le
premier
cas, la source est constituée par l’ensemble« poumons-cordes vocales » ;
dans ledeuxième cas, le bruit est
produit
par l’action du courant d’air sur certainesparois
del’appareil
vocal(à
l’endroit d’un resserrement du conduit vocal parexemple).
Ces deuxphénomènes peuvent
intervenir simultanément avec des intensités relativesplus
oumoins
grandes.
En
parallèle
sur le conduit vocal estgreffée
la caviténasale, laquelle
est limitée d’un côté par les narines et de l’autre par le voile dupalais.
Ce dernierrègle
lecouplage acoustique
entre le conduit vocal et le conduitnasal.
Nous allons brièvement
indiquer
les caractéristi- quesprincipales
des sources ainsi que celles du conduit vocal.SOURCE VOCALE ET SOURCE DE BRUIT. - La source
vocale est essentiellement constituée par les poumons
qui
assurent unepression
d’air à l’intérieur des bronches et de la trachée et par les cordesvocales, composées
Article published online by EDP Sciences and available at http://dx.doi.org/10.1051/rphysap:0197000505078500
786
de deux muscles
plus
ou moins tendus côte à côte dans laphase
dephonation.
Ces deux muscles se
séparent
et serapprochent
alter-nativement sous l’action de la
pression
de l’air à l’inté- rieur de la trachée. Lafréquence
de cephénomène
derelaxation est essentiellement déterminée par la ten- sion et la masse des cordes vocales ainsi que par la
pression subglottique.
Le débit d’air D au niveau des cordes vocales est donc modulé à la
fréquence
de vibration de ces der- nières(voir Fig. 1).
FIG. 1.
La forme du
signal image
du débit ne subit pas de modificationsimportantes
en cours dephonation
etl’enveloppe
duspectre
de cesignal
de sourceprésente
un affaiblissement de l’ordre de 12
dB/octave (voir Fig. 2).
FIG. 2.
L’impédance
interne de la source vocale est essen-tiellement variable et
supérieure
à 1 000 ohms acousti-ques.
L’impédance
decharge apportée
par le conduit vocal étant inférieure à 100ohms,
onconsidère,
enpremière approximation,
la source vocale comme étantun
générateur
degrande impédance
interne donc nonperturbé
par l’évolution des cavités de la bouche[1].
Le bruit
peut
êtregénéré
par un rétrécissement du conduitvocal,
dans la mesure où certaines conditions depression
interne et de section du conduit sont réa- lisées.La source de bruit est localisée sur le parcours du conduit vocal et sa situation
peut
varier avec le sonprononcé.
L’impédance
interne de cette source est considéréecomme faible et
purement
réelle.Quant
auspectre,
on s’accorde à le trouver
plat
aux moyennesfréquences,
l’affaiblissement se manifestant côté basses
fréquences
au-dessous de 1 kHz et côté hautes
fréquences
au-dessus de 8 kHz
[1].
CONDUIT VOCAL. - Le calcul de la fonction de transfert du conduit vocal
T(p)
=Ds(p)/De(p) (Ds(p)
et
De(p)
sont les transformées deLaplace
du débiten sortie
Ds(t)
et du débit à l’entréeDe(t) respective-
ment)
a été effectué par G. Fant[2].
Dans le cas de
pertes
faibles et dans le cas d’unepropagation
suivant une seuledimension,
la fonction de transfert peut être mise sous la forme :avec in =
1/03C9n (wn
est unepulsation propre).
Cette
expression peut
êtresimplifiée
en ne tenantcompte
que desquatre premiers
termes duproduit
eten faisant intervenir un terme correctif :
Le terme correctif
Cr4
a été déterminé parFant ;
il
correspond
à la fonction de transfert d’un circuit résonnant et d’un filtre passe haut montés en cascade.Les cavités du conduit vocal modifient le
spectre
dusignal
transmis en favorisant certaines compo- santesqui correspondent
auxfréquences
despôles
de la fonction de transfert
T(p).
Sur la
figure 3a,
nous avonsreprésenté
le modulede la fonction de transfert du conduit vocal et sur la
figure 3b,
lespectre
dusignal
résultant de l’action de la source sur le conduit vocal.FIG. 3a.
FIG. 3b.
Les
régions fréquentielles correspondant
à desmaximums
d’amplitude
sontappelées
formants. Lafréquence Fn
d’un formant est l’une desfréquences
derésonance du conduit vocal et
correspond
à l’un despôles
de la fonction de transfertT(p).
On a donc :De
même,
la bandepassante
« à 3dB », exprimée
en
Hertz,
d’un formant est :Cette bande
passante
est, enpremière approxima- tion,
constante dans laplage
de variation d’un formant déterminé.Dans le cas de
production
debruit,
la fonction detransfert à considérer est de la forme :
L’apparition
de zéros dans la fonction de transfert est due aux cavités en amont de la source de bruit.Le
termer,
est un zéro réelqui correspond
auxpertes glottiques.
Dans le cas d’une excitation des cavités
nasales,
la fonction de transfertpeut
se mettre sous la forme suivante :Les fonctions de transfert
évoquées précédemment permettent
la détermination du débitD,
au niveau deslèvres en fonction du débit de la source.
Normalement,
dans le cadre du processusphona- tion-audition,
l’oreilleréceptrice
n’est pas excitée par le débitDg
au niveau des lèvres du locuteur mais par lapression P.,, qui
enrésulte,
au niveau del’oreille,
àune distance 1 des lèvres. Il
apparaît
donc nécessaired’associer aux fonctions de transfert
précédentes
cellede
rayonnement (Ps(p)/Ds(p))
de la bouche.Si on assimile la tête à une
sphère,
on a :Cr(p)
étantéquivalent
à une fonction de transfertcomportant
unpôle
à 1 000 Hz et un zéro à 500 Hz.Description
d’unsynthétiseur
deparole.
- Dansle
synthétiseur
deparole
que nous avonsréalisé,
lescaractéristiques
des sourcesd’impulsions
et de bruitREVUE DE PHYSIQUE APPLIQUÉE. - T. 5, N° 5, OCTOBRE 1970
approchent
au mieux celles des sourcesoriginales
etla fonction de transfert de l’ensemble des circuits de transmission
correspond
à celle du conduit vocal.SCHÉMA SYNOPTIQUE. - Le schéma
synoptique
dusynthétiseur
que nous avons réalisé estreprésenté figure
4. La structure del’appareil correspond,
pourl’essentiel,
à celle dusynthétiseur
OVE II construitpar Fant
[3].
FIG. 4.
Le
synthétiseur comporte
trois canaux : l’un pour lasynthèse
des sons vocaux, un deuxième pour lasynthèse
des sons non vocaux et un troisième pour la nasalité.Ces canaux sont
attaqués
par deux sources : l’une est une sourced’impulsions
dont lafréquence F.
estcommandée par une
tension,
l’autre est une source de bruit blanc. Des commandes degain AV, ABV, AN, AB permettent
leréglage
desamplitudes
dessignaux
desources excitant les différents canaux et des commandes
spéciales permettent
de modifier lescaractéristiques
desfonctions de transfert des canaux selon la nature de la
parole
àsynthétiser.
CIRCUITS DE SOURCE. - Le circuit de source vocale utilisée est
classique (voir Fig. 5).
FIG. 5.
Un
générateur
délivre desimpulsions
delargeur
100 ps.
L’enveloppe
duspectre
de cesimpulsions
est53
788
donc
pratiquement plate
dans larégion fréquentielle
de fonctionnement
(50-5
000Hz).
Un filtre
adéquat
modifie ensuite la forme de cetteenveloppe.
Le
générateur comporte
unintégrateur,
un doublecomparateur
et une bascule R.S.,
ces circuits étant suivis d’un monovibrateur délivrant desimpulsions
de
largeur
100 ps.En sortie de
l’intégrateur,
ensupposant
lesignal
d’entrée constant et
positif,
nous avons une montée linéaire de la tension.Lorsque
cette tension atteintla valeur
V,
la bascule RSchange d’état,
par action ducomparateur C, ;
unsignal négatif apparaît
alors àl’entrée de
l’intégrateur
d’où résulte une décroissance linéaire en sortiejusqu’à
la valeur 0 volt. Pour cettevaleur,
lecomparateur C2 agit
sur la basculeRS ;
la tension en sortie de cette bascule redevientpositive
et le
cycle peut
recommencer. Lafréquence
dugéné-
rateur est donnée par la formule suivante :
On
agit
surR2
pardécoupage
à hautefréquence,
comme nous le verrons
ultérieurement,
pour faire varier linéairement lafréquence
dugénérateur.
Le filtre
disposé
en sortie est un filtre passe bas « cou-pant
en - 6dB/oct.
», defréquence
de transitionégale
à 200 Hz. Les
caractéristiques
de ce filtre correspon- dent à la décroissance moyenne duspectre
de la source(chute
en 12dB/oct.)
et à la croissance moyenne en+ 6
dB/oct.
due aurayonnement.
On n’a pas tenu
compte
ici des zéros de la source ni du facteurCr( p)
del’impédance
derayonnement.
Les
caractéristiques
de cette sourceapprochent,
enmoyenne, celles de la source vocale mais une vérita- ble simulation du fonctionnement des cordes vocales n’est pas
envisagée
ici. Lesproblèmes posés
par cette simulation ont été récemment étudiés[4] [5].
La source de bruit est un
générateur
de bruit blancconstitué,
pourl’essentiel,
d’une diode Zener traversée par un faible courant. Sonspectre
estpratiquement plat
dans laplage
defréquence
100-10 000 Hz.CIRCUITS DE FORMANTS. - La fonction de trans- fert d’un circuit de formant doit être de la forme :
avec
C’est,
enparticulier,
la fonction de transfert d’un circuit RLC tel quereprésenté figure
6.FIG. 6.
avec
Pour faire varier F il faut modifier
C,
la bande pas- sante AF étant conservée constante. Mais il n’est pas aisé de faire varier C dans unrapport
100(F
variedans un
rapport
10 pour lepremier formant) et
larelation liant C à F n’est pas
simple.
Aussi avons-nous
expérimenté
un nouveautype
de circuit[8] qui
neprésente
pas ces caractères défavo- rables(Fig. 7).
FIG. 7.
Sa fonction de transfert est :
Si R’ > 10
R,
le facteur de surtension estplus grand
que 5(ce qui
esttoujours
vrai pour cetteappli- cation)
et on a, avec uneapproximation
meilleure que0,5 % :
On
agit
soit surR2
soit surR2
pardécoupage
àhaute
fréquence
pour faire varier linéairement soit F soit AF.Le
rapport signal/bruit
de ce circuit est de l’ordre de60 dB.
Un circuit de même
type
mais dont la fonction de transfertcomporte
un zérocomplexe
a été mis aupoint (Fig. 8).
FIG. 8.
La fonction de transfert de ce circuit est la suivante :
Comme dans le cas du circuit de
formant,
siR’ > 10 R on a, avec une
approximation
meilleureque
0,5 % :
Pour simuler le canal
vocal,
il faut associer auxcircuits de formants un circuit de correction de fonc- tion de transfert
Cr4 (si
4 circuits de formant sontutilisés).
Cette fonction de transfert estégale
à[1] :
FIG. 9.
La fonction de transfert du circuit
représenté figure 9,
où C =
10-8 F, R,
=105/4
03C0 03A9 etR2
=105/8
xQ,
est la suivante :
La fonction de transfert du circuit
représenté figure 10,
où A =2,9,
C =10-8
F et R =105/8 n Q,
est la suivante :
(deuxième
facteur deCr4).
COMMANDES DE GAIN. - Les commandes de
gain réglant
lesamplitudes
dessignaux
de source dans lesdifférents canaux suivent une loi
exponentielle ;
ainsiles tensions de commande
appliquées
à l’entrée sont desimages
desgains
en décibels.FIG. 11.
On a alors
exploité
le schémareprésenté figure
11.Ce
circuit,
constitué pour l’essentiel d’une diode Zener Z àcaractéristique logarithmique,
effectue la trans- formation :V,
=eve
sur 60 dB.Les résistances
R,, R2
et la tension V sontajustées
pour faire travailler la diode Z dans sa
plage
de fonc-tionnement. La résistance
R3
contrôlel’amplitude
maximale de la tension de sortie.
FIG. 12.
Le schéma
représenté figure
12 est le circuit de commande degain proprement
dit. On a :G =
(R’/R1
+R2).
On
agit
surR2
pardécoupage
à hautefréquence
pour faire varier linéairement le
gain.
PRINCIPE DES CIRCUITS DE COMMANDE. - Pour
assurer la commande
automatique
desfréquences
derésonance des
filtres,
des bandespassantes
ou bien desgains,
il fautagir
sur lesparties R2
des résistances R notées sur les différents schémas(Fig. 13).
790
FIG. 13.
Pour
cela, R2
estdécoupée
à hautefréquence (par
rapport
à laplus
hautefréquence
de travail du syn-thétiseur)
par unsignal rectangulaire
derapport
cyclique i/T.
Onpeut
montrer que la conductance moyenne de R estproportionnelle
àr/T.
La
fréquence
varie donc linéairement avec et nouspouvons fixer d’une manière très
précise
les limites devariation
en jouant
surR 1
etRi
+R2 .
De
même,
nous avons :hs (fréquence
dugénérateur d’impulsions)
et
COMMANDE ANALOGIQUE. - Pour élaborer un
signal rectangulaire
derapport i/T
variable nous avonsutilisé le circuit
représenté figure
14.Nous
disposons
d’ungénérateur
de dents de scie dont leprincipe
a été décritprécédemment.
Cette dent de scie est
comparée
à la tension analo-gique
de commandeV,,a comprise
entre 0 et V volts.A la sortie du
comparateur,
lesignal
est de forme rec-tangulaire
et derapport cyclique z/T
=Vca/V.
FIG. 14.
COMMANDE DIGITALE. - Le circuit
représenté figure
15 délivre unsignal rectangulaire
derapport cyclique 03C4/T proportionnel
à l’étatnumérique imposé
aux entrées E.
FIG. 15.
L’état d’un
compteur
dont l’avance est commandée par unehorloge
defréquence FH
=2"/T
estcomparé
au
signal
de commandeprésenté
sous formedigitale E1 ... E2n.
Lors de
l’égalité
uneimpulsion
est délivrée par lecomparateur
et commande l’une des entrées d’une basculeRS, l’impulsion
de passage à zéro comman- dant l’autre entrée.A titre
d’exemple, signalons
que l’on attribue 64 niveaux dequantification
pour leparamètre
fré-quence d’excitation de la source.
ORGANE D’ENTRÉE. - Le
synthétiseur
que nousvenons de décrire
peut
être commandé soit par un ordinateur soit par toutappareil pouvant
délivrerune dizaine de
signaux
simultanésimages
des para-mètres de la
parole.
Pour effectuer cette
commande,
nous avons cons-truit un lecteur de courbes à caméra de télévision. Les courbes sont dessinées sur du
papier
etreprésentent
les évolutions dans le
temps
desparamètres
de laparole (mélodie, formants, amplitudes, etc...).
Cesévolutions ont été
déterminées,
aupréalable,
paranalyse
d’uneparole originale.
FIG. 16.
Le lecteur est un ensemble de télévision en circuit fermé constitué d’une caméra à tube vidicon et d’un téléviseur de contrôle
[7].
La durée d’unbalayage ligne
est de 46 us, la durée d’unbalayage
trame est de20 ms. Le
signal
vidéo estexploité
par deux circuits échantillonneurs.Nous avons
représenté figure
16 une trame debalayage
ainsi que les courbesimages
deparamètres.
A chacune de ces courbes est associé un
repère
tracéà
gauche
du dessin etqui représente
le début de laplage
de variation duparamètre
considéré.Les deux échantillonneurs transmettent le
signal
vidéo un
temps
déterminé Ataprès
lesimpulsions
desynchronisation ligne.
Pour le 1 eréchantillonneur,
le
temps
At est constant etégal
àTo
pourpermettre
la détection desrepères Tl, T2... ;
pour le 2e échantil-lonneur,
At est soit constant(pour
l’étude de sonssoutenus)
soit lentement variable(pour
l’étude dephrases),
avec At = T= kt, l’exploitation
totale del’image pouvant
être effectuée en2,4 secondes,
durée d’uneanalyse
effectuée avecl’appareil classique
« Sona-graph
».On a
donc, après échantillonnage,
unsignal image
des informations se trouvant sur une
ligne
verticaledéterminée
(voir Fig. 17).
Les maximums(Tl, T2... ; T’1, T2...)
dessignaux
échantillonnés sont détectés par des circuitsspéciaux [8].
FIG. 17.
La mesure des
temps Tn - Tn,
avecTn - T’n = k 46 03BCs,
k étant un
entier,
donne uneimage
des valeurs desparamètres.
Cette mesure est effectuée par uncompteur digital
dénombrant les klignes
entre lerepère Tn
etle
paramètre Tn.
FIG. 18.
Enfin des convertisseurs
digitaux analogiques
déli-vrent des tensions
images
desparamètres (Fig. 18).
Le lecteur de courbes que nous avons construit
peut
détecter 9paramètres.
Saprécision
est limitée par laqualité
de laprise
de vue et par le nombre delignes
par trame.PERFORMANCES ET UTILISATIONS. - La construc- tion d’un
synthétiseur
à formantsprésente
de sérieusesdifficultés. En
effet,
la commandeautomatique
desfréquences
de circuits résonnants pose de difficilesproblèmes
et les solutionsqui
furentadoptées jusqu’à présent
sont ou bien trèscomplexes
et conduisent à des matériels encombrants ou bien peuprécises.
Nous avons mis au
point
de nouveaux circuits de formantslesquels
nous ontpermis
la réalisation d’unsynthétiseur
trèsprécis, compact, pouvant
être com-mandé,
soit par dessignaux analogiques,
soit par dessignaux digitaux.
Les
paramètres
de commandepeuvent
être réduits à 8 ou 10(dans
un vocoderclassique
on encompte
792
au moins
16),
laparole
desynthèse
demeurant intel-ligible.
Dans ce cas, il faut une
ligne
decapacité
1 000bits/s
pour transmettre les
signaux
relatifs à cesparamètres (dans
un vocoder cettecapacité
est de 2 400bits/s).
Pour des travaux
particuliers,
on pourraaugmenter
le nombre des commandes(commandes
des bandespassantes
parexemple)
et effectuer dessynthèses plus
fines.
La
parole
desynthèse
obtenue à l’aide de notreappareil
est de bonnequalité
etparaît
naturelle. Mais il est très difficile d’effectuer descomparaisons glo-
bales. Il faudrait faire des tests de
perception
dans desconditions
réputées identiques
et ceci pose de nom- breuxproblèmes
depsychoacoustique.
En tout état de cause, on ne
peut compter
sur lejuge-
ment de
l’opérateur.
Ce dernier entend cequ’il compte entendre ;
il est habitué à laparole
desynthèse
et auxdéfauts de son
appareil.
Les
synthétiseurs
dutype
« à formants » tels celui que nous avons construit sont utilisés pour effectuer de nombreux travaux de recherches.La théorie de Fant sur la
production
de laparole [2]
a été vérifiée à l’aide de
synthétiseurs
à formants.Des
problèmes plus
limitéspeuvent
aussi être étudiés tels ceuxposés
par la formation de certains sons. Ces travauxpermettent
depréciser
certaineslois,
certainescontraintes
particulières
sur les transitions et, en fin decompte,
de proposer des modèles standards per- mettant d’effectuer dessynthèses
parrègles.
Les
synthétiseurs peuvent
aussi être utilisés pourpréciser l’analyse.
Il estparfois
difficile de mesurer unparamètre,
un formant parexemple.
C’est souventle cas pour l’étude des voix de femmes dont le
spectre
est caractérisé par un nombre réduit de
composantes
d’où ne sedégage
pas uneimage
suffisammentprécise
de la structure
formantique.
Onpeut
faire une pre- mière mesure entachée d’erreurs et effectuer ensuiteune
synthèse.
Lesspectres
de laparole originale
et dela
parole
desynthèse
sont alorscomparés ;
en tenantcompte
des différencesobservées,
onpeut arriver,
par retouchessuccessives,
à une bonne identité. Maissi,
en
définitive,
une différenceapparemment
irréductiblesubsiste,
cette différencepeut
être àl’origine
de ladétection de traits intéressants
qu’il
faudrainterpréter.
Si un trait
pertinent
nouveau estrévélé,
il pourraêtre,
à son tour, simulé et
intégré
à lasynthèse. Ainsi, l’analyse puis,
enconséquence,
lasynthèse, peuvent
êtreprogressivement
améliorées.Ce processus d’«
analyse
par lasynthèse »
est ànoter
puisque,
seloncertains,
un processusanalogue
interviendrait au niveau de notre ensemble de pro- duction et de
perception
de laparole.
Les
synthétiseurs peuvent
être utilisés pour étudier le rôle etl’importance
desparamètres : quel
est lerôle du 3e
formant,
parexemple, quelle
doit être lafréquence
minimaled’échantillonnage
de tel para-mètre, quelle quantification
faut-iladopter
pour coderchacun des
paramètres ?
Des travaux sursynthétiseurs
peuvent conduire à des résultats très intéressants.
Enfin,
des tests deperception peuvent
être effectués à l’aide d’unsynthétiseur.
Les sons desynthèse
étantrigoureusement
connus et « calibrés », des tests peu- vent êtreentrepris
pour étudier lecomportement
denotre organe de
perception.
Des travaux de cetype
ont
déjà
été effectués mais ces recherches doivent être considérablementdéveloppées.
Outre l’utilisation des
synthétiseurs
en recherchefondamentale,
leur utilisation dans le domaine techni- que tend à devenir une réalité. Lessynthétiseurs
àformants
peuvent
êtreintégrés
à des ensembles d’ana-lyse-synthèse
pour télécommunications à bande étroite.Les travaux sur de tels ensembles en sont encore au
stade
expérimental,
lesproblèmes d’analyse
entemps
réel étant très difficiles à résoudre. Mais une autreapplication
directementexploitable
actuellement con-siste en l’utilisation du
synthétiseur
à formants commeorgane de sortie
parlée
d’ordinateur. Lacapacité
des mémoires utilisées pour stocker l’information
parlée
est alors limitéepuisqu’un
débit d’informations de 1 000bits/s
suffit pour commander lesynthétiseur.
Ce débit
pourrait
d’ailleurs être encore réduit par la mise en oeuvre detechniques
desynthèses
parrègles
en cours de
développement.
Conclusions. - Dans les années à
venir,
les syn- thétiseurs deparole
seront desappareils
couram-ment utilisés dans des ensembles de sortie
parlée
d’ordinateurs et dans les laboratoires effectuant des recherches sur la
parole.
Une
progression
des études fondamentales sur laproduction
et laperception
de laparole
est liée audéveloppement
de cesappareils
desynthèse.
Le syn- thétiseur que nous avons construitparaît adapté,
dès
maintenant,
à de nombreux travaux. Il estprécis, souple d’emploi
etpeut
être commandé par les para- mètresjugés
intéressantsprésentés
soit sous formeanalogique
soit sous formedigitale.
Cependant,
cetype d’appareil
doit constamment évoluer en fonction des résultats obtenus par sonexploitation.
D’ores et
déjà,
nousdisposons
d’un nombre suffi- sant d’éléments pourpouvoir apprécier
le rôle etl’importance
d’une simulation correcte de la sourcevocale.
Enfin, signalons
l’existence dessynthétiseurs
detype
différent dutype
« à formants » et dont les carac-téristiques
sont, ellesaussi,
intéressantes. C’est le cas,en
particulier,
du simulateur du conduit vocalqui reproduit,
centimètre parcentimètre,
la forme de notre conduit vocal. Lesparamètres
de commande sont,alors,
desparamètres
articulatoires. Des tra-vaux de
synthèse
parrègles,
efi’ectués à l’aide de cetappareil
doivent tout naturellement être associés à des études sur la coordination de l’articulation auniveau du cerveau.
Bibliographie [1]
FLANAGAN(J. L.), Speech analysis, synthesis
andperception. Springer-Verlag,
1965.[2]
FANT(G.),
Acoustictheory
ofspeech production,
Mouton, 1960.[3]
FANT(G.),
MARTONY(J.),
RENGMAN(U.),
RISBERG(A.),
Proc. of the
Speech
CommunicationSeminar, Stockholm,
1962.[4]
CARRÉ(R.),
BEAUVIALA (J.P.),
PAILLÉ(J.),
Article àparaître
dans la revue I. E. E. E. on Audio andElectroacoustics,
sept. 1970.[5]
BEAUVIALA(J. P.),
Revued’Acoustique, 1968, 3-4,
235.