telle comparaison fournisse un score (une valeur scalaire) indiquant si les deux
énoncés correspondent au même locuteur. Si ce score est supérieur (inférieur) à
un seuil prédéfini, le système accepte (rejette) le locuteur de test.
1.2 Production du signal de parole
Les techniques de paramétrisation de la parole utilisées en RAL se basent
générale-ment sur deux types de modèles :
— Un modèle de production :les paramètres extraits visent à caractériser l’appareil de
production de la parole.
— Un modèle de perception :la conception de paramètres s’inspire de la perception
humaine de la parole. Les travaux conduits en psychoacoustique
1sont souvent
utilisés dans ce contexte.
Afin de mieux comprendre les principes directeurs derrière les techniques de
para-métrisation utilisées en RAL, on commence par présenter le mécanisme de production
de la parole. Par la suite, on fait le lien avec les paramètres acoustiques utilisées.
1.2.1 Mécanisme de production de la parole
La production de la parole est un processus de nature linguistique (message à
trans-mettre) qui évolue vers une exécution motrice (séquence de contractions musculaires)
mettant en jeu plusieurs composantes de l’anatomie humaine et résultant en un signal
de parole. Ce processus peut être décomposé en trois étapes (Brown et Hagoort,2000;
Blank et al.,2002) :
1. La conceptualisation (ou préparation conceptuelle) : dans cette étape,
l’inten-tion de créer la parole génère les concepts désirés correspondant au message à
transmettre.
2. La formulation :dans cette étape, la forme linguistique requise pour l’expression
du message désiré est créée. La formulation comprend le codage grammatical
(sélectionner les mots et la forme syntaxique appropriée), le codage
morpho-phonologique (découper les mots en syllabes), la syllabification et l’encodage
phonétique.
3. L’articulation et exécution motrice de la parole :qui consiste à l’exécution de la
séquence articulatoire correspondant au message. Dans cette étape, le locuteur
exécute une série de signaux neuromusculaires qui servent de commandes et
permettent de contrôler les cordes vocales, les lèvres, la mâchoire, la langue et
le vélum (voile du palais), produisant ainsi la séquence sonore voulue en sortie
(Levelt,1993). Les principales composantes responsables de la production de la
parole humaine sont illustrées dans la figure1.2.
FIGURE1.2 – Anatomie des organes de production de la parole humaine (source : Encyclopédie Universalis).
1.2.2 Propriétés acoustiques du conduit vocal
Dans la littérature de traitement de la parole, le termeconduit vocal(ou tractus
vo-cal) fait référence à la totalité de la cavité remplie d’air qui se trouve entre la glotte
(en-trée du larynx) et les lèvres. Cette cavité est plastique et dynamique, capable de prendre
un nombre considérable de configurations et de changer très rapidement de forme. Ces
modifications sont faites par le mouvement d’articulateurs (comme la langue). En
es-sence, la parole produite correspond à une variation de la pression d’air suite à la
mo-dulation de l’air sortant du larynx par l’activité des cordes vocales et des cavités dans
le conduit vocal, produisant différents sons phonétiques. Le contenu en fréquence du
signal acoustique est modifié par les propriétés de résonance des différentes cavités
le long du trajet. Ces fréquences de résonance sont connues sous le nom deformants
et sont généralement numérotées en allant des basses fréquences vers les hautes
fré-quences (F
1, F
2, F
3, ..). La fréquence F
0est appelée fréquence fondamentaleet
corres-pond à la fréquence de vibration des cordes vocales
2.
En se basant sur ces propriétés acoustiques ainsi que sur la réponse fréquentielle de
l’appareil phonatoire, des modèles ditssource-filtreont été établis pour décrire les
mé-canismes et les propriétés de production des sons et modéliser le couple {cordes vocales,
cavités supra-glottiques} en {source, filtre}. Ce genre de modèles permet d’assimiler la
2. Les propriétés du son de parole sont généralement divisées en propriétés physiques (la valeur me-surée d’une entité) et la valeur perçue. Le termepitchest généralement utilisé pour qualifier la propriété perceptuelle corrélée à la fréquenceF0(une fréquence plus élevée correspond à unpitchplus aigu).
1.2. Production du signal de parole
FIGURE1.3 –Aperçu détaillé du modèle source-filtre (source : http://www.ling.upenn.
edu/courses/Spring_2001/ling001/phonetics.html).
réponse de l’appareil phonatoire (plus précisément celle des cavités supra-glottiques) à
celle d’un filtre qu’il est possible de modéliser et comparer entre différents locuteurs.
Dans ce modèle (détaillé dans la figure 1.3), le spectre de la source glottique est
harmonique du fait de sa périodicité (le son contient de l’énergie à la fréquence
fon-damentale de vibration des cordes vocalesF
0ainsi qu’aux fréquences 2×F
0, 3×F
0,...
n×F
0). L’énergie diminue toutefois avec la fréquence (figure1.3(A)). L’effet de filtrage
des cavités buccale et nasale sur la source glottique est représenté par une fonction
de transfert (la figure1.3(B) donne un exemple qui contient trois fréquences de
réso-nance). Suite au passage de l’air par le conduit vocal, il en résulte un spectre (toujours
harmonique) dont l’énergie varie avec la fréquence (figure1.3(C)).
Cette modélisation permet de réduire la forme complexe du signal de la parole à un
vecteur de paramètres (les coefficients du filtre). Ces paramètres permettent de décrire
la réponse fréquentielle du conduit vocal et peuvent être utilisées pour la
caractérisa-tion du locuteur.
1.2.3 Caractérisation du locuteur
La forme du conduit vocal est caractéristique de la voix d’un locuteur donné et
dé-pend de l’emplacement exact de chaque organe tout au long de la cavité du conduit
vocal. Cependant, la nature non-stationnaire du signal de la parole et sa grande
varia-bilité fait en sorte que les motifs acoustiques générés pour un message donné varient
avec le temps et le contexte (contenu linguistique, condition psychologique, maladie,
âge, ..). De plus, il convient de noter que l’information d’identité d’un locuteur est une
information non-linguistique incorporée dans le signal de parole et, par conséquent, il
est peu probable qu’une mesure de paramètres simple caractérise de façon unique un
locuteur en tout temps. On cite (Doddington,1985) dans ce contexte :
The secondary speech messages, including speaker discriminants, are encoded as
nonlinguistic articulatory variations of the basic linguistic message. Thus the
in-formation useful for identifying the speaker is carried indirectly in the speech
si-gnal, a side effect of the articulatory process, and the speaker information may be
viewed as "noise" applied to the basic linguistic message. Thus the problem with
speaker recognition is that there are no known speech features or feature
trans-formations which are dedicated solely to carrying speaker-discriminating
infor-mation, and further that the speaker-discriminating information is a second-order
effect in the speech features.
Dans ce passage, Doddington met l’accent sur le caractère non-linguistique de
l’in-formation locuteur et sur la non-existence de caractéristiques de parole simples à
ex-traire qui contiennent exclusivement les informations discriminantes correspondant au
locuteur.
Cependant, certains outils d’analyse spectrale, à savoir les spectrogrammes, se sont
avérés utiles pour l’analyse phonétique et ont aussi été utilisés avec succès pour la
différenciation des locuteurs (Bolt et al., 1970). Cette approche a été validée par
Dans le document
Reconnaissance du locuteur en milieux difficiles
(Page 30-34)