3. État de l'art 19
3.2. Rehaussement de la parole
3.2.1. Dénition du problème
Séparation de sources et rehaussement de la parole Dans une situation de cocktail
party, les voix de plusieurs locuteurs se mêlent dans un environnement bruyant et
réver-bérant (voir Figure3.2). Face à ce problème, plusieurs objectifs peuvent être poursuivis :
si l'on cherche à obtenir les signaux audio séparés de tous les locuteurs, on parle de
sépa-ration de sources. Si le but est de nettoyer un ou plusieurs signaux de parole, ce qui
peut inclure le débruitage et la déréverbération en plus de la séparation de sources, on
parle de rehaussement de la parole [36]. Les signaux séparés ou rehaussés peuvent être
destinés à l'écoute ou à un post-traitement tel que la reconnaissance vocale.
Dans le cas d'un signal destiné à l'écoute, une simple erreur quadratique entre le signal
visé et le signal estimé est rarement pertinente. Plusieurs indicateurs estimant le degré
de séparation et de distorsion du signal ont été proposés [37]. Le rapport signal sur
interférences mesure le rapport de puissance entre le signal cible et les interférences ou
le bruit provenant d'autres sources sonores. Le rapport signal sur artefacts évalue la
quantité de bruits musicaux présents dans le signal estimé.
Dans notre cas, on considère un problème de rehaussement avec un seul locuteur cible.
L'objectif est ici la reconnaissance vocale. La qualité perceptive du signal de parole estimé
importe nalement peu ; la métrique nale s'appuie sur la validité de la transcription de
celui-ci, mesurée par le taux d'erreur sur les mots, ou WER, déni dans la partie5.2.5.
3.2. Rehaussement de la parole 23
Figure 3.2.
Exemple de cocktail party : un goûter
d'anniversaire avec deux enfants
enre-gistrés par deux microphones.
Formulation temporelle D'un point de vue mathématique, la situation de cocktail party
peut être décrite par l'équation
x(n) =
I−1
X
i=0
c
i(n) +n
di(n) (3.2)
où nest un échantillon temporel donné,x(n)est le signal multicanal capté comprenant
J canaux (dans le cas du FOA, J = 4), I est le nombre de sources présentes dans
le mélange, les c
i(n) sont les contributions multicanales de chaque source au mélange
appelées images spatiales des sources etn
di(n) est un bruit additionnel provenant
de sources spatialement diuses ou de la mesure. Lesc
i(n) résultent de la propagation
acoustique des signaux émis par les sources jusqu'au point de mesure modélisée par une
convolution :
c
i(n) =
∞X
m=0h
i(m)∗t
i(n−m). (3.3)
h
i(m)est le vecteur des réponses impulsionnelles caractérisant le chemin acoustique entre
la source i et l'antenne de microphones et t
i(n) est le signal émis par la source i. On
considère les sources immobiles à l'échelle du temps d'analyse,h
i(m) est donc constant
au cours du temps.
La séparation de sources vise à reconstituer soit les images spatialesc
i(n), soit les signaux
émist
i(n) [38].
Pour notre application de rehaussement de la parole, si la métrique est claire (la validité
de la transcription), le choix du signal intermédiaire que l'on vise à isoler n'est pas
évident. On peut chercher à reconstituer c
i(n), ou bien sa version déréverbérée t
i(n),
ou encore un canal de c
i(n), puisqu'il sut d'un signal monocanal pour procéder à la
RAP. Cet objectif intermédiaire dépend notamment du système de RAP utilisé, plus ou
moins robuste à la réverbération, aux distorsions, au bruit ambiant ou aux interférences
24 Chapitre 3. État de l'art
directionnelles. On peut poser le problème de la façon suivante :
x(n) =s(n) +n(n) (3.4)
où s(n) est un signal multicanal contenant le locuteur cible, tandis que n(n) contient
tous les locuteurs interférents et le bruit dius. Selon l'application, on cherche à estimer
s(n)ou un signal monocanal sous-jacent, par exemple l'un de ses canaux.
Formulation temps-fréquence Dans le paragraphe précédent, le problème est formulé
dans le domaine temporel. En pratique, il est plus facile de travailler dans le domaine
temps-fréquence qui permet de faire apparaître la parcimonie des signaux et facilite leur
séparation [39].
La représentation choisie est généralement la TFCT. L'étape d'analyse consiste à
déter-miner la représentation fréquentielle d'un signal à partir de sa version temporelle. Ceci
est fait grâce à l'application d'une fenêtre d'analyse glissante w
a(n)de longueurN, avec
un pas H entre chaque application de la fenêtre. Une version fenêtrée s
t(n) du signal
s(n) est extraite à chaque tramet:
s
t(n) =w
a(n)s(tH+n) avecw
a(n) = 0pour n /∈ {0, ..., N −1}. (3.5)
On procède ensuite à la transformation de Fourier du signal fenêtré, ce qui fournit une
représentation du signal dans chaque trame t et bande de fréquence f. On choisit en
général une représentation fréquentielle sur un nombre de points égal à la longueurN de
la fenêtre d'analyse. Les coecients de la TFCT du signals(n) sont donnés par :
s(t, f) =
N−1
X
n=0
s
t(n)e
−2iπnf /N. (3.6)
Pour un signal s(n) réel, la transformée de Fourier étant symétrique hermitienne, on ne
considère que la moitié des bandes de fréquencef ∈ {0, ..., N/2}.
L'opération inverse, qui permet de reconstituer un signal temporel à partir de ses
coe-cients de Fourier, s'appelle la synthèse. Dans un premier temps, il s'agit d'appliquer une
transformation de Fourier inverse às(t, f) :
s
t(n) = 1
N
N−1X
f=0s(t, f)e
2iπnf /Navec n∈ {0, ..., N −1} (3.7)
puis le signal temporels(n)peut être reconstitué par la méthode dite d'overlap and add :
s(n) =X
t
s
t(n−tH)w
s(n−tH). (3.8)
An que la reconstruction soit exacte, le pas H et les fenêtres d'analyse w
a(n) et de
synthèsew
s(n) doivent vérier le critère suivant :
X
t
3.2. Rehaussement de la parole 25
Bien qu'il soit courant de choisir une fenêtre d'analyse qui permette de satisfaire ce critère
sans recours à une fenêtre de synthèse, par exemple une fenêtre de Hamming, cela pose
problème lorsque des manipulations sont eectuées dans le domaine temps-fréquence : des
discontinuités peuvent apparaître dans la reconstruction temporelle du signal, notamment
à la frontière entre les trames. Pour limiter ces discontinuités, il est préférable d'utiliser
une fenêtre de synthèse [40]. Dans notre cas, nous utiliserons la fonction sinus pour les
deux fenêtres, avec un pasH =N/2.
Les équations (3.2) et (3.3) peuvent être réécrites dans le domaine temps-fréquence :
x(t, f) =
I−1
X
i=0
c
i(t, f) +n
di(t, f). (3.10)
Sous l'hypothèse de bande étroite, c'est-à-dire si la fenêtre d'analyse est susamment
grande par rapport au temps caractéristique de réverbération, la convolution dans (3.3)
peut être approchée par une multiplication dans le domaine fréquentiel :
c
i(t, f) =h
i(f)t
i(t, f), (3.11)
où h
i(f) est la transformée de Fourier discrète de tailleN de h
i(n). En pratique, cette
hypothèse est rarement vériée [41,42]. Nous baserons notre travail sur l'équation issue
de (3.4)
x(t, f) =s(t, f) +n(t, f). (3.12)
Dans le document
Localisation et rehaussement de sources de parole au format Ambisonique
(Page 42-45)