Introduction
1.1 Pr´ eliminaires
L’analyse de la parole est pratiqu´ee couramment dans le milieu clinique, afin d’´evaluer les troubles de la parole des patients. Il s’agit d’un moyen d’´evaluation non-invasif en vue de la documentation quantitative de la qualit´e de voix. Sou- vent, l’´evaluation des troubles de la parole est effectu´ee de fa¸con subjective par les m´edecins. L’inconv´enient est que les r´esultats peuvent varier en fonction du m´edecin et mˆeme pour un mˆeme m´edecin, selon le moment de l’examen. Afin d’am´eliorer l’efficacit´e des ´evaluations, des analyses objectives, fournies par des programmes informatiques, sont donc les bienvenues.
Cette th`ese s’inscrit dans le cadre de la recherche d’indices acoustiques per- tinents pour l’analyse de la parole dans le domaine clinique. Des indices acous- tiques relatifs aux perturbations basse-fr´equence du signal de parole sont pro- pos´es et appliqu´es `a l’analyse de la parole de locuteurs atteints de la maladie de Parkinson. Les objectifs de ce travail sont d´evelopp´es dans ce chapitre, apr`es une description du syst`eme de production de la parole et une pr´esentation des analyses de la parole pratiqu´ees dans le milieu clinique.
1.2 Production de la parole
1.2.1 Anatomie
L’anatomie du syst`eme de production de la parole est repr´esent´e `a la figure 1.1. Le principe de production de la parole est le suivant. De l’air est expir´e des poumons `a travers les bronches, le larynx, le pharynx et la cavit´e orale ou la cavit´e nasale. Le pharynx et les cavit´es orale et nasale forment le conduit vocal.
Les variations de la pression de l’air aux l`evres et aux narines produisent le signal acoustique de parole. La plupart des sons sont d´etermin´es conjointement par la pression de l’air `a la sortie des poumons, par la vibration ´eventuelle des cordes vocales et par la forme du conduit vocal. Celle-ci est obtenue au moyen des muscles articulatoires qui fixent notamment la position du larynx, de la mˆ achoire, de la langue, des l`evres ou du voile du palais. Lorsque le voile
1
du palais ouvre l’entr´ee de la cavit´e nasale, cette derni`ere est acoustiquement coupl´ee `a la cavit´e orale et un son nasal peut ˆetre produit. Lorsque le voile du palais ferme l’entr´ee de la cavit´e nasale, on obtient un son oral.
Fig. 1.1 – Anatomie du syst`eme de production de la parole [87].
Il existe trois principaux types de sources sonores : Le premier est la vi-
bration des cordes vocales dans le larynx. L’air passe alors par bouff´ees, ce qui
produit le son. Le deuxi`eme est le passage turbulent de l’air dans une constric-
tion du conduit vocal. Enfin le troisi`eme est le bruit d’explosion, qui est produit
lors du relˆ achement de la pression accumul´ee en amont d’une occlusion dans le
conduit vocal. On distingue les sons vois´es lorsque la vibration des cordes vocales
intervient des sons non-vois´es ou sourds, lorsque les cordes vocales ne vibrent
pas. Pour les sons vois´es, la fr´equence fondamentale du signal d’excitation est
souvent appel´ee fr´equence phonatoire.
0 0.02 0.04 0.06 0.08 0.1 temps (s)
amplitude
0 1000 2000 3000 4000 5000
−4
−2 0 2 4 6 8
fréquence (Hz)
amplitude (log)
Fig. 1.2 – Signal temporel et spectre pour un son vois´e [a].
0 0.02 0.04 0.06 0.08 0.1
temps (s)
amplitude
0 2000 4000 6000 8000 10000
−4
−3
−2
−1 0 1 2 3
fréquence (Hz)
amplitude (log)
Fig. 1.3 – Signal temporel et spectre pour un son non vois´e [s].
Les figures 1.2 et 1.3 illustrent les signaux temporels et les spectres d’un son vois´e [a] et d’un son non vois´e [s]. La p´eriodicit´e temporelle du son vois´e se retrouve dans le spectre, o` u des pics fr´equentiels sont visibles aux fr´equences multiples de la fr´equence phonatoire pour les basses fr´equences. On n’observe pas de structure en harmoniques pour le son non vois´e. On peut ´egalement voir que les spectres pr´esentent une forme avec des maxima et des minima locaux. Ceux-ci sont des effets des fr´equences de r´esonance et d’anti-r´esonance du conduit vocal et sont appel´es formants et anti-formants. Les deux ou trois premiers formants permettent de diff´erencier les voyelles.
1.2.2 Mod´ elisation de la production de la parole
Le m´ecanisme de production de la parole peut ˆetre mod´elis´e comme une op´eration de filtrage lin´eaire [78]. Ce mod`ele est compos´e d’une source suivie d’un conduit vocal sans couplage entre ces deux parties. Il est illustr´e `a la figure 1.4.
Pour les voyelles, la source est mod´elis´ee par un train d’ondes p´eriodique dont la forme, caract´eris´ee par G(z), simule la forme du signal glottique et dont la p´eriode est la dur´ee d’un cycle glottique, T
0. Pour les sons vois´es, le signal d’excitation est u(n) = !
k
δ(n − kT
0), o` u T
0est la dur´ee du cycle vocal. Pour les sons non-vois´es, le signal d’excitation u(n) est un bruit blanc de moyenne nulle et de variance unit´e.
Le conduit vocal est g´en´eralement mod´elis´e par un filtre tous pˆ oles. On peut
Fig. 1.4 – Mod`ele de la production de la parole.
en effet montrer qu’un filtre tous pˆ oles mod´elise la fonction de transfert d’un syst`eme de tubes acoustiques concat´en´es excit´e par une onde plane, ce qui est une approximation raisonnable du conduit vocal pour les sons non nasaux [23].
La fonction de transfert tous pˆ oles a la forme
H (z) = H
01 + !
Ni=1
b(i)z
−i. (1.1)
La fonction de transfert du rayonnement aux l`evres est mod´elis´e par un filtre proche d’un filtre d´erivateur :
R(z) = 1 − z
0z
−1, z
0≈ 1, z
0< 1. (1.2) La valeur de z
0est choisie l´eg`erement inf´erieure `a 1 afin de garantir la stabilit´e du filtre inverse R
−1(z), qui est rencontr´e dans certaines applications [23].
En r´esum´e, pour des sons vois´es, la transmittance globale entre le train d’impulsions de la figure 1.4 et le signal ´emis est T (z) = G(z)H (z)R(z). Pour des sons non vois´es, la transmittance entre l’excitation et le signal ´emis est T(z) = H (z)R(z).
En pratique, la transmittance globale est souvent mod´elis´ee par un filtre tous pˆ oles :
T (z) = S(z)
U (z) (1.3)
= σ
1 + !
pi=1
a(i)z
−i= σ
A(z) . (1.4)
Dans cette expression, S(z) et U(z) d´esignent les transform´ees en z du signal
´emis et de l’excitation.
Ce mod`ele de production du signal vocal peut s’´ecrire dans le domaine tem- porel sous la forme suivante :
s(n) +
p
"
i=1
a(i)s(n − i) = σu(n). (1.5)
Cette relation exprime que chaque ´echantillon du signal est une combinaison lin´eaire des p ´echantillons qui le pr´ec`edent, `a laquelle on ajoute le terme d’exci- tation.
Pour analyser des signaux de parole, l’excitation est omise. On obtient alors un mod`ele de pr´ediction lin´eaire
s(n) +
p
"
i=1
a(i)s(n − i) = 0, (1.6)
o` u les coefficients a(i) sont appel´es coefficients de pr´ediction.
Les coefficients de pr´ediction estim´es a
estsont obtenus en minimisant l’erreur de pr´ediction
e(n) = s(n) − s
est(n) (1.7)
=
p
"
i=0
a
est(i)s(n − i), avec a
est(0) = 1. (1.8) Pour l’estimation des coefficients de pr´ediction, on minimise g´en´eralement la variance de l’erreur de pr´ediction, !
n
e(n)
2. Diff´erentes variantes existent selon l’´etendue de la sommation. On distingue notamment les m´ethodes bas´ees sur l’autocorr´elation ou sur la covariance du signal [23].
A posteriori, on peut interpr´eter l’erreur de pr´ediction comme ´etant ´egale au signal de source. On peut obtenir des informations sur la transmittance du conduit vocal `a travers la r´eponse impulsionnelle du filtre de pr´ediction T(z) =
A(z)σ, et sur la cyclicit´e (ou absence de cyclicit´e) du signal de source `a travers le signal r´esiduel obtenu par filtrage inverse du signal de parole :
σu(n) = x(n) +
p
"
i=1