• Aucun résultat trouvé

Production du signal de parole

telle comparaison fournisse un score (une valeur scalaire) indiquant si les deux

énoncés correspondent au même locuteur. Si ce score est supérieur (inférieur) à

un seuil prédéfini, le système accepte (rejette) le locuteur de test.

1.2 Production du signal de parole

Les techniques de paramétrisation de la parole utilisées en RAL se basent

générale-ment sur deux types de modèles :

— Un modèle de production :les paramètres extraits visent à caractériser l’appareil de

production de la parole.

— Un modèle de perception :la conception de paramètres s’inspire de la perception

humaine de la parole. Les travaux conduits en psychoacoustique

1

sont souvent

utilisés dans ce contexte.

Afin de mieux comprendre les principes directeurs derrière les techniques de

para-métrisation utilisées en RAL, on commence par présenter le mécanisme de production

de la parole. Par la suite, on fait le lien avec les paramètres acoustiques utilisées.

1.2.1 Mécanisme de production de la parole

La production de la parole est un processus de nature linguistique (message à

trans-mettre) qui évolue vers une exécution motrice (séquence de contractions musculaires)

mettant en jeu plusieurs composantes de l’anatomie humaine et résultant en un signal

de parole. Ce processus peut être décomposé en trois étapes (Brown et Hagoort,2000;

Blank et al.,2002) :

1. La conceptualisation (ou préparation conceptuelle) : dans cette étape,

l’inten-tion de créer la parole génère les concepts désirés correspondant au message à

transmettre.

2. La formulation :dans cette étape, la forme linguistique requise pour l’expression

du message désiré est créée. La formulation comprend le codage grammatical

(sélectionner les mots et la forme syntaxique appropriée), le codage

morpho-phonologique (découper les mots en syllabes), la syllabification et l’encodage

phonétique.

3. L’articulation et exécution motrice de la parole :qui consiste à l’exécution de la

séquence articulatoire correspondant au message. Dans cette étape, le locuteur

exécute une série de signaux neuromusculaires qui servent de commandes et

permettent de contrôler les cordes vocales, les lèvres, la mâchoire, la langue et

le vélum (voile du palais), produisant ainsi la séquence sonore voulue en sortie

(Levelt,1993). Les principales composantes responsables de la production de la

parole humaine sont illustrées dans la figure1.2.

FIGURE1.2 – Anatomie des organes de production de la parole humaine (source : Encyclopédie Universalis).

1.2.2 Propriétés acoustiques du conduit vocal

Dans la littérature de traitement de la parole, le termeconduit vocal(ou tractus

vo-cal) fait référence à la totalité de la cavité remplie d’air qui se trouve entre la glotte

(en-trée du larynx) et les lèvres. Cette cavité est plastique et dynamique, capable de prendre

un nombre considérable de configurations et de changer très rapidement de forme. Ces

modifications sont faites par le mouvement d’articulateurs (comme la langue). En

es-sence, la parole produite correspond à une variation de la pression d’air suite à la

mo-dulation de l’air sortant du larynx par l’activité des cordes vocales et des cavités dans

le conduit vocal, produisant différents sons phonétiques. Le contenu en fréquence du

signal acoustique est modifié par les propriétés de résonance des différentes cavités

le long du trajet. Ces fréquences de résonance sont connues sous le nom deformants

et sont généralement numérotées en allant des basses fréquences vers les hautes

fré-quences (F

1

, F

2

, F

3

, ..). La fréquence F

0

est appelée fréquence fondamentaleet

corres-pond à la fréquence de vibration des cordes vocales

2

.

En se basant sur ces propriétés acoustiques ainsi que sur la réponse fréquentielle de

l’appareil phonatoire, des modèles ditssource-filtreont été établis pour décrire les

mé-canismes et les propriétés de production des sons et modéliser le couple {cordes vocales,

cavités supra-glottiques} en {source, filtre}. Ce genre de modèles permet d’assimiler la

2. Les propriétés du son de parole sont généralement divisées en propriétés physiques (la valeur me-surée d’une entité) et la valeur perçue. Le termepitchest généralement utilisé pour qualifier la propriété perceptuelle corrélée à la fréquenceF0(une fréquence plus élevée correspond à unpitchplus aigu).

1.2. Production du signal de parole

FIGURE1.3 –Aperçu détaillé du modèle source-filtre (source : http://www.ling.upenn.

edu/courses/Spring_2001/ling001/phonetics.html).

réponse de l’appareil phonatoire (plus précisément celle des cavités supra-glottiques) à

celle d’un filtre qu’il est possible de modéliser et comparer entre différents locuteurs.

Dans ce modèle (détaillé dans la figure 1.3), le spectre de la source glottique est

harmonique du fait de sa périodicité (le son contient de l’énergie à la fréquence

fon-damentale de vibration des cordes vocalesF

0

ainsi qu’aux fréquences 2×F

0

, 3×F

0

,...

n×F

0

). L’énergie diminue toutefois avec la fréquence (figure1.3(A)). L’effet de filtrage

des cavités buccale et nasale sur la source glottique est représenté par une fonction

de transfert (la figure1.3(B) donne un exemple qui contient trois fréquences de

réso-nance). Suite au passage de l’air par le conduit vocal, il en résulte un spectre (toujours

harmonique) dont l’énergie varie avec la fréquence (figure1.3(C)).

Cette modélisation permet de réduire la forme complexe du signal de la parole à un

vecteur de paramètres (les coefficients du filtre). Ces paramètres permettent de décrire

la réponse fréquentielle du conduit vocal et peuvent être utilisées pour la

caractérisa-tion du locuteur.

1.2.3 Caractérisation du locuteur

La forme du conduit vocal est caractéristique de la voix d’un locuteur donné et

dé-pend de l’emplacement exact de chaque organe tout au long de la cavité du conduit

vocal. Cependant, la nature non-stationnaire du signal de la parole et sa grande

varia-bilité fait en sorte que les motifs acoustiques générés pour un message donné varient

avec le temps et le contexte (contenu linguistique, condition psychologique, maladie,

âge, ..). De plus, il convient de noter que l’information d’identité d’un locuteur est une

information non-linguistique incorporée dans le signal de parole et, par conséquent, il

est peu probable qu’une mesure de paramètres simple caractérise de façon unique un

locuteur en tout temps. On cite (Doddington,1985) dans ce contexte :

The secondary speech messages, including speaker discriminants, are encoded as

nonlinguistic articulatory variations of the basic linguistic message. Thus the

in-formation useful for identifying the speaker is carried indirectly in the speech

si-gnal, a side effect of the articulatory process, and the speaker information may be

viewed as "noise" applied to the basic linguistic message. Thus the problem with

speaker recognition is that there are no known speech features or feature

trans-formations which are dedicated solely to carrying speaker-discriminating

infor-mation, and further that the speaker-discriminating information is a second-order

effect in the speech features.

Dans ce passage, Doddington met l’accent sur le caractère non-linguistique de

l’in-formation locuteur et sur la non-existence de caractéristiques de parole simples à

ex-traire qui contiennent exclusivement les informations discriminantes correspondant au

locuteur.

Cependant, certains outils d’analyse spectrale, à savoir les spectrogrammes, se sont

avérés utiles pour l’analyse phonétique et ont aussi été utilisés avec succès pour la

différenciation des locuteurs (Bolt et al., 1970). Cette approche a été validée par